Curs - GVMD 1

20
18.11.2015 1 GESTIUNEA VOLUMELOR GESTIUNEA VOLUMELOR MARI DE DATE MARI DE DATE ACADEMIA DE STUDII ECONOMICE BUCUREŞTI FACULTATEA DE CIBERNETICĂ, STATISTICĂ ŞI INFORMATICĂ ECONOMICĂ Programul de masterat profesional BAZE DE DATE – SUPORT PENTRU AFACERI BUCUREŞTI 2015-2016 Obiectivul general al disciplinei Însuşirea de către studenţi a unor noţiuni fundamentale privind gestiunea volumelor mari de date, cu accent pe depozitele de date, proiectarea, implementarea şi utilizarea acestora în contextul soluţiilor de Inteligenţa Afacerii. 2 Cadre didactice Lect.univ.dr. Iuliana Botha – [email protected] Lect.univ.dr. Vlad Diaconiţa – [email protected] Lect.univ.dr. Alexandra Florea – [email protected] 3 Desfăşurarea modulului GVMD Marţi, 17.11.2015 - Lect.univ.dr. Iuliana BOTHA, sala 2101 (18 00 -21 00 ) Aspecte fundamentale privind depozitele de date şi realizarea acestora Aspecte fundamentale privind conceptul Big Data Miercuri, 18.11.2015 - Lect.univ.dr. Iuliana BOTHA şi invitat ORACLE Romania, sala 2101 (18 00 -21 00 ) Workshop: Data warehouse tuning Joi, 19.11.2015 - Lect.univ.dr. Iuliana BOTHA şi invitat ORACLE Romania, sala 2101 (18 00 -21 00 ) Workshop: Data warehouse tuning Vineri, 20.11.2015 - Lect.univ.dr. Iuliana BOTHA şi invitat ORACLE Romania, sala 2017 (18 00 -21 00 ) Workshop: Data warehouse tuning Luni, 23.11.2015 - Lect.univ.dr. Iuliana BOTHA şi invitat ORACLE Romania, sala 2017 (18 00 -21 00 ) Studiu de caz: Big Data. Depozite de date. Implementări practice. Marţi, 24.11.2015 - Seminar GVMD – G1: Lect.univ.dr. Alexandra FLOREA, sala 2017 (18 00 -21 00 ) Miercuri, 25.11.2015 - Seminar GVMD – G2: Lect.univ.dr. Vlad DIACONIŢA, sala 2017 (18 00 -21 00 ) Joi, 26.11.2015 - Seminar GVMD – G1: Lect.univ.dr. Alexandra FLOREA, sala 2017 (18 00 -21 00 ) Vineri, 27.11.2015 - Seminar GVMD – G2: Lect.univ.dr. Vlad DIACONIŢA, sala 2017 (18 00 -21 00 ) Sâmbătă, 05.12.2015 - EXAMEN, sala 2203 (10 30 -12 00 )

description

curs

Transcript of Curs - GVMD 1

Page 1: Curs - GVMD 1

18.11.2015

1

GESTIUNEA VOLUMELOR GESTIUNEA VOLUMELOR MARI DE DATEMARI DE DATE

ACADEMIA DE STUDII ECONOMICE BUCUREŞTIFACULTATEA DE CIBERNETICĂ, STATISTICĂ ŞI INFORMATICĂ ECONOMICĂ

Programul de masterat profesionalBAZE DE DATE – SUPORT PENTRU AFACERI

BUCUREŞTI2015-2016

Obiectivul general al disciplinei

Însuşirea de către studenţi a unor noţiunifundamentale privind gestiunea volumelormari de date, cu accent pe depozitele dedate, proiectarea, implementarea şiutilizarea acestora în contextul soluţiilor deInteligenţa Afacerii.

2

Cadre didactice

Lect.univ.dr. Iuliana Botha – [email protected]

Lect.univ.dr. Vlad Diaconiţa – [email protected]

Lect.univ.dr. Alexandra Florea – [email protected]

3

Desfăşurarea modulului GVMDMarţi, 17.11.2015 - Lect.univ.dr. Iuliana BOTHA, sala 2101 (1800-2100)

Aspecte fundamentale privind depozitele de date şi realizarea acestora

Aspecte fundamentale privind conceptul Big Data

Miercuri, 18.11.2015 - Lect.univ.dr. Iuliana BOTHA şi invitat ORACLE Romania, sala 2101 (1800-2100)

Workshop: Data warehouse tuning

Joi, 19.11.2015 - Lect.univ.dr. Iuliana BOTHA şi invitat ORACLE Romania, sala 2101 (1800-2100)

Workshop: Data warehouse tuning

Vineri, 20.11.2015 - Lect.univ.dr. Iuliana BOTHA şi invitat ORACLE Romania, sala 2017 (1800-2100)

Workshop: Data warehouse tuning

Luni, 23.11.2015 - Lect.univ.dr. Iuliana BOTHA şi invitat ORACLE Romania, sala 2017 (1800-2100)

Studiu de caz: Big Data. Depozite de date. Implementări practice.

Marţi, 24.11.2015 - Seminar GVMD – G1: Lect.univ.dr. Alexandra FLOREA, sala 2017 (1800-2100)

Miercuri, 25.11.2015 - Seminar GVMD – G2: Lect.univ.dr. Vlad DIACONIŢA, sala 2017 (1800-2100)

Joi, 26.11.2015 - Seminar GVMD – G1: Lect.univ.dr. Alexandra FLOREA, sala 2017 (1800-2100)

Vineri, 27.11.2015 - Seminar GVMD – G2: Lect.univ.dr. Vlad DIACONIŢA, sala 2017 (1800-2100)

Sâmbătă, 05.12.2015 - EXAMEN, sala 2203 (1030-1200)

Page 2: Curs - GVMD 1

18.11.2015

2

Modalitate evaluare

Examen final – 70%

Subiecte tip grilă

Seminar – 30%

Activitate desfăşurată la seminar

SAU

Articol ştiinţific

Reexaminare: se susţine examenul (100%).

Notă: Se poate veni direct la examen, fără a avea activitate la seminar sau articol predat (nota finalăva fi max.7)

5

Modalitate evaluare

Articolul ştiinţific

Se poate realiza în grup de cel mult 4 studenţi

Va aborda problematica volumelor mari de date

Va trata în cel puţin 10 pagini:

aspecte teoretice prezentate sintetic, comparaţii

prezentări de produse informatice, cu exemplificări

Va conţine referinţe la materiale de specialitate (cărţi, articole, resurse Web)

Se redactează în limba engleză conform cerinţelor de la:http://dbjournal.ro/guide.html

În urma evaluării, poate fi publicat în revista Database Systems Journalhttp://dbjournal.ro

6

Bibliografie

I.Lungu (coord.), A.Bâra. C.Bodea, I.Botha,V.Diaconiţa, A.Florea, A.Velicanu - Tratat de baze dedate. Vol I. Baze de date. Organizare, proiectare şiimplementare, editura ASE, Bucureşti, 2011, România

M.Velicanu, I.Lungu, I.Botha, A.Bâra, A.Velicanu,E.Rednic – Sisteme de baze de date evoluate, edituraASE, Bucureşti, 2009, România

Resurse Web...

7

GESTIUNEA VOLUMELOR MARI DE DATE

Depozite de date

Realizarea depozitelor de date

Big Data

Baze de date NoSQL

Page 3: Curs - GVMD 1

18.11.2015

3

Aspecte fundamentale privind depozitele de date

GESTIUNEA VOLUMELOR MARI DE DATE

Evoluţia organizării datelor

10

Fişiere de date

Baze de date

Depozite de date

Baze de date

NoSQL

Evoluţia organizării datelor

Depozitele de date reprezintă rezultatul interferenţei mediuluieconomic şi al tehnologiilor informatice avansate.

Realizarea depozitelor de date trebuie privită în contextulrealizării sistemelor destinate Inteligenţei Afacerii, carenecesită abordări specifice ale ciclului de dezvoltare care săse concentreze pe cerinţele de afaceri ale organizaţiei.

Aceste sisteme sunt orientate mai mult spre oportunităţile deafaceri decât spre cerinţele sau nevoile curente şi trebuie săofere suport decizional la nivel departamental sau chiar lanivelul întregii organizaţii în funcţie de scopul pentru care aufost proiectate.

11

Evoluţia organizării datelor

12

control operaţional vs. asistarea deciziilor strategice

OLTP (On-Line Transaction Processing) vs. OLAP (On-Line Analytical Processing)

tranzacţii vs. interogări

redundanţă controlată vs. redundanţă impusă

date curente vs. date istorice

detaliu vs. agregare

relaţional vs. multidimensional

Page 4: Curs - GVMD 1

18.11.2015

4

Modelul de date multidimensional

Este caracterizat prin elementele sale:

Structura modelului multidimensional

Operaţiile realizate asupra datelor

Restricţiile de integritate

13

Structura modelului multidimensional

Conţine:

tabelele de fapte cu atribute de tip măsuri sau metrici

tabelele de tip dimensiune în care regăsim niveluriierarhice, atribute de identificare şi atribute dedescriere

metadate

14

• structuri compuse formate din atribute structurate pe diverse niveluri ierarhice în funcţie de care sunt grupate datele

• conţin atribute care sunt de obicei descriptive şi sunt folosite ca sursă pentru limitareaînregistrărilor afişate în cadrul rapoartelor analitice

Dimensiuni

• structuri logice utilizate pentru ordonarea nivelurilor de reprezentare a datelor• sunt utilizate şi pentru definirea căilor de navigare în interiorul dimensiunilor şi oferă

instrumentelor de analiză OLAP posibilitatea de detaliere graduală a datelor în rapoarteIerarhii

• poziţii în cadrul ierarhiilor• relaţiile între diferite niveluri sunt relaţii de tipul părinte-copil• nivelurile unei ierarhii sunt esenţiale pentru determinarea tipurilor de navigări care se pot

realiza în dimensiuni

Niveluri

• dimensiunile conţin atribute care reprezintă calificative specifice• există două tipuri de atribute: de identificare a dimensiunii şi a fiecărui nivel în parte şi

atribute descriptiveAtribute

• tabelele centrale care conţin atribute de tip măsuri (metrici) şi chei externe către tabeleledimensiuni

• conţin de obicei date numerice care pot fi însumate şi analizate pe fiecare nivel din ierarhiiledimensiunilor

Tabele de fapte

• corespund atributelor din tabelele de fapte şi sunt de regulă de natură numerică• se pot clasifica după mai multe criterii: modalitatea de calcul, tipurile de funcţii agregate

utilizate, modalităţile de însumare şi agregare în funcţie de dimensiuni.

Măsuri (metrici)

• cea mai importantă componentă a depozitului de date• conţin descrierea structurii de date, informaţii despre provenienţa datelor, algoritmii de agregare,

mapările de la mediul operaţional la depozitul de date, statistici privind utilizarea depozitului etc.• se pot clasifica astfel: metadate administrative, pentru utilizatorii finali, pentru optimizare

Metadate

Operaţii realizate asupra modelului multidimensional

Navigarea pe nivelurile ierarhice (drill down şi roll up)

Rotaţiile

Secţiuni

Extensii ale operatorilor relaţionali (operatorii CUBE şiROLLUP)

16

Page 5: Curs - GVMD 1

18.11.2015

5

Restricţii de integritate

restricţiile de integritate structurale: restricţia de unicitate acheii şi restricţia entităţii aplicate în cazul atributelor deidentificare ale tabelelor de fapte şi ale dimensiunilor,restricţia referenţială aplicată pentru stabilirea legăturii dintretabelele de fapte şi dimensiuni şi dependenţele între datepentru determinarea legăturii existente între anumite atributesau metrici

restricţiile de integritate de comportament: restricţii dedomeniu şi restricţii temporale aplicate pentru valorileatributelor şi a metricilor

restricţia de asociere a nivelurilor prin care se defineşterealizarea legăturilor unui nivel inferior cu nivelul superior încadrul unei ierarhii şi se specifică formula de agregare.

17

Modele de reprezentare a obiectelor depozitelor de date

Există două variante de reprezentare a obiectelordepozitelor de date:

Prin utilizarea extensiilor modelului relaţional (model propus deRalph Kimball)

Prin structurarea obiectelor unui depozit sub forma elementelorunui cub de date

Ambele variante reprezintă obiectele modeluluimultidimensional sub formă de schemă a depozitului dedate, conţinând colecţii de tabele de fapte, dimensiunietc.

Există mai multe tipuri de scheme utilizate în modelareamultidimensională, diferenţa fiind dată de modurile încare se pot aranja obiectele în cadrul acestora 18

Extensii ale modelului relaţional Schema stea

Schema de tip stea are următoarele caracteristici:

între tabela de fapte şi dimensiuni există joncţiuni de egalitate;

cheile primare ale dimensiunilor se regăsesc printre atributelecheii compuse a tabelei de fapte;

atributele tabelei de fapte care nu participă la joncţiune pot fiagregate.

Principalul avantaj al acestui model este optimizareaperformanţei de răspuns la interogări

19

Extensii ale modelului relaţional Schema stea

20

Page 6: Curs - GVMD 1

18.11.2015

6

Extensii ale modelului relaţional Schema stea

21

Ierarhie în cadrul unei tabele dimensiune

Extensii ale modelului relaţional Schema fulg de nea

Variantă a modelului stea în care o parte din tabeleledimensiune sunt normalizate, iar datele sunt distribuite întabele suplimentare

Diferenţa între modelul stea şi modelul fulg de nea estecă tabelele dimensiune din acesta pot fi păstrate înforma normalizată, ceea ce determină o redundanţăcontrolată

Poate reduce performanţa extragerii de date deoarecesunt necesare mai multe joncţiuni între tabele la osingură interogare

22

Extensii ale modelului relaţional Schema fulg de nea

23

Extensii ale modelului relaţional Schema galaxie

Asociere de scheme de tip stea, care conţine tabele defapte suplimentare

Legătura dintre stele se realizează prin intermediuldimensiunilor, astfel încât o dimensiune va face parte dinuna sau mai multe stele

24

Page 7: Curs - GVMD 1

18.11.2015

7

Extensii ale modelului relaţional Schema galaxie

25

Modele bazate pe cuburi multidimensionale

Un mod mai simplu de vizualizare a datelor estereprezentarea într-un spaţiu cartezian definit pe toatedimensiunile depozitului de date

Acesta poate fi numit cub de date, fiind un spaţiu de datelogic şi nu unul fizic

În analiza multidimensională cubul de date cu mai multde trei dimensiuni poartă denumirea de cub n-dimensional sau hipercub

26

Modele bazate pe cuburi multidimensionale

27

PRODUS

TIMP

LOCATIE

locaţie

prod

us

T1 T2 T3

furnizor F1 furnizor F2 furnizor F3

timp

Definirea depozitelor de date

Depozitul de date (sens larg) - o bază de date de foarte maridimensiuni care este întreţinută separat de bazele de dateoperaţionale ale unei organizaţii şi care este construită dindate provenite din sisteme sursă prin extragere, filtrare,transformare şi stocare în depozite speciale, în scopulsprijinirii proceselor decizionale.

Depozitele de date sprijină prelucrarea informaţiilor pentruanaliză, furnizând o platformă solidă de consolidare a dateloristorice. Un depozit de date este un ansamblu de dateconsistente, din punct de vedere semantic, care serveşte la oimplementare fizică a unui model de date pentru sprijinireadeciziei şi stochează informaţii pe care o organizaţie le solicităîn luarea deciziilor strategice.

28

Page 8: Curs - GVMD 1

18.11.2015

8

Definirea depozitelor de date

Depozitul de date (sens William Harvey Inmon:“părintele” noţiunii de data warehouse) - un ansamblude colecţii de date orientat pe subiecte, integrate, istoriceşi nevolatile destinată sprijinirii procesului de luare adeciziilor manageriale

29

Aplicaţii ale depozitelor de date

Domeniul telecomunicaţiilor

analiza folosirii reţelei

determinarea profilurilor clienţilor

profitabilitatea serviciilor oferite

Domeniul bancar

managementul riscului

analiza profitabilităţii

determinarea profilurilor clienţilor

Domeniul comerţului cu amănuntul

analiza trendului vânzărilor

campaniile de marketing

determinarea profilurilor consumatorilor

etc. 30

Scopul organizării datelor în depozite de date

Scopul principal al realizării depozitelor de date se referă

la suportul pentru analize complexe şi dinamice asupra

datelor istorice şi curente ale organizaţiei.

31

Obiectivele depozitelor de date

Asigurarea accesului cât mai rapid la datele organizaţiei

Utilizarea datelor din depozite direct în analize, fără alteprelucrări suplimentare

Stocarea de date istorice

Orientarea depozitului pe subiectele importante aleprocesului economic (clienţi, furnizori, produse, activităţi)faţă de datele operaţionale (BD sau fişiere) care suntorientate pe aplicaţii

32

Page 9: Curs - GVMD 1

18.11.2015

9

Caracteristici ale depozitelor de date

Datele dintr-un depozit de date trebuie să fie consistente

Calitatea datelor din depozitele de date trebuie verificată şiasigurată, fiind un factor determinant pentru procesul de analiză

Redundanţa este creată în mod intenţionat prin denormalizare şiagregare pentru a permite un acces mai rapid la date

Sursele de date pentru depozitul de date provin în principal dindatele importate din sistemul informatic operaţional, dar mai potproveni şi din datele de arhivă, precum şi din surse externe

Integrarea datelor reprezintă atât o consecinţă importantă a realizăriidepozitului de date, cât şi raţiunea pentru care acesta este creat

Actualizarea este foarte rară, deci dinamica lipseşte

Din punctul de vedere al aplicaţiilor care folosesc depozitul de date,accesul la date este doar pentru citire

Mecanismele de integritate sunt inutile33

Arhitectura depozitelor de date

Elementele care alcătuiesc un depozit de date pot fiinterconectate în mai multe tipuri de arhitecturi în funcţiede rolul, funcţionalitatea şi de viziunea utilizatorilorasupra acestora

Astfel se pot distinge următoarele tipuri de arhitecturi:

arhitectura pe componente

arhitectura pe niveluri

arhitectura funcţională a depozitelor de date

34

Arhitectura depozitelor de dateArhitectura pe componente

Arhitectura pe componente evidenţiază componentele DD şi legăturiledintre ele: depozitul de date, sursa de date, interfeţele de analiză

35

Arhitectura depozitelor de dateArhitectura pe componente

Există trei etape în procesul de realizare a unui depozitde date:

extragere – etapa în care datele sunt extrase din sursele de date

transformare – etapa în care datele sursă sunt transformate într-un format adecvat

încărcare – etapa în care datele sunt încărcate în depozitul dedate

36

Page 10: Curs - GVMD 1

18.11.2015

10

Acţiuni în procesul de realizare a unui depozit de date:

extragerea datelor din datele operaţionale sau din surse externe,urmat de copierea lor în depozitul de date. Acest proces trebuie,cel mai adesea, să transforme datele în structura şi formatulintern al depozitului;

filtrarea datelor, pentru a exista certitudinea că datele suntcorecte şi pot fi utilizate pentru luarea deciziilor;

încărcarea datelor corecte în depozitul de date;

agregarea datelor: totaluri precalculate, subtotaluri, valori medii,sume etc., care se preconizează că vor fi cerute şi folosite deutilizatori. Aceste agregări sunt stocate în depozitul de dateîmpreună cu datele importate din sursele interne şi externe.

37

Arhitectura depozitelor de dateArhitectura pe componente

Procesul ETL (Extract-Transform-Load)

38

Procesul ELT (Extract-Load-Transform)

39

Arhitectura depozitelor de dateArhitectura pe niveluri

Arhitectura pe niveluri evidenţiază modul de implementare a DD într-unmediu de reţea de calculatoare, pe trei straturi: inferior, mediu, superior

40

Depozite de date

Server de Date Strat inferior

Surse de date operaţionale

transformare

Servere specializate (OLAP, DATA MINING)

Strat mediu

extragere

Strat superior Rapoarte, analize, interogări

Page 11: Curs - GVMD 1

18.11.2015

11

Arhitectura depozitelor de dateArhitectura funcţională

Arhitectura funcţională împarte DD în trei module distincte: modululoperaţional, modulul central al depozitului de date şi modulul strategic deafaceri

41

Extragerea şi procesarea datelor pentru analiză Utilitare pentru accesul la date

Data Marts Replicare şi distribuire

Depozitul de date central

Extragere, Transformare şi Încărcare (ETI) Date operaţionale: secvenţiale, nerelaţionale, relaţionale, fişiere,

surse externe

Modulul Strategic

Modulul Central

Modulul Operaţional

Sisteme operaţionale, sisteme informatice integrate

Sisteme IA

Tipuri de depozite de date

Tipuri de depozite de date în funcţie de aria de cuprindere

depozite la nivelul organizaţiei (Enterprise Warehouse)

concentrări de date (Data Marts)

depozite virtuale de date (Virtual Data warehouse).

Tipuri de depozite de date în funcţie de suportul decizional oferit

Depozitul de date de tip organizaţional sau „galactic” (Galactic Data Warehouse)

Depozitul de date orientat pe procese de afacere (Business Process DataWarehouse)

Depozitul de date departamental (Departamental Data Warehouse)

Concentrări de date de tip proces de afaceri (Business Process Data Mart)

Concentrări de date departamentale (Departamental Data Mart)

Tipuri de depozite de date în funcţie de modelul de dateimplementat

Depozitele de date relaţionale

Depozitele de date multidimensionale

Depozitele de date hibride 42

Aspecte comparative privind organizarea datelor în baze de date şi în depozite de date

43

Criteriu Modelul relaţional Modelul multidimensional

Organizarea datelor Tabela Dimensiuni, tabele de fapte, cub de date

Procesele Operaţionale Informaţionale

Execuţie Tranzacţii Analize

Utilizatori Toate categoriile Manageri, analişti de date

Operaţia tipică Actualizare Raportare şi analiză

Frecvenţa operaţiilor Zilnice Asistarea deciziei

Caracterul datelor Curente Istorice

Nivelul de sinteză Primitive, detaliere Sintetizare, consolidare

Acces Citire, scriere Citire

Focalizare Culegere date Furnizare informaţii

Sursa de date este Validată Filtrată, transformată

Volum de date Redus, de ordinul GB Mare, de ordinul TB

Priorităţi Performanţe, disponibilitate Flexibilitate, autonomie

Software necesar SGBD Specializat, SGBD

Criterii de evaluare a depozitelor de date

performanţă – depinde de dimensiunile depozitului de date şi vizeazărealizarea de analize complexe într-un timp cât mai scurt;

scalabilitate şi mentenanţă – depozitele trebuie să poată firedimensionate în funcţie de structura şi de mediul de afaceri fără apierde însă din performanţă;

integrarea datelor – sursele de date ale depozitului de date trebuie săfie multiple şi variate, bazate atât pe date interne rezultate dinprocesul operaţional cât şi pe date externe organizaţiei, referitoare laevoluţia pieţei, legislaţie, concurenţă, relaţii cu alte organizaţii;

suport pentru sistemele de Inteligenţa Afacerii – depozitul de datetrebuie să permită extragerea datelor în vederea realizării analizelormultidimensionale de tip OLAP şi a extragerii de cunoştinţe din date(data mining).

44

Page 12: Curs - GVMD 1

18.11.2015

12

Facilităţi oferite de depozitele de date sistemelor de Inteligenţa Afacerii

Depozitele de date sunt destinate managerilor şi analiştilorangrenaţi în luarea deciziilor strategice privind dezvoltarea şiviitorul organizaţiilor

Pentru a obţine informaţiile dorite, depozitele de date suntsupuse unor prelucrări complexe, cu ajutorul unor metodespecifice, cum ar fi: analiza multidimensională a datelor,metode statistice superioare de prognoză, metodematematice aplicate unui volum foarte mare de date.

Aceste metode presupun folosirea unui software specializatdeosebit de complex, bazat pe noi tehnologii informatice:extrageri de cunoştinţe din date (data mining), OLAP (OnlineAnalytical Processing).

45

Realizarea depozitele de date

GESTIUNEA VOLUMELOR MARI DE DATE

Modalităţi de realizare a depozitelor de date

Realizarea depozitelor de date este condiţionată de o serie decerinţe specifice sistemelor de IA, iar ciclul de dezvoltare alacestor sisteme şi implicit al depozitelor de date, este iterativ

În ceea ce priveşte abordarea activităţilor de realizare adepozitului de date se alege una dintre variantele:

realizarea de sus în jos (top-down) care porneşte cu proiectarea şiplanificarea completă. Soluţia este scumpă, solicită timp îndelungat pentrudezvoltare şi îi lipseşte flexibilitatea determinată de dificultăţile care potapărea la realizarea modelelor de date pentru întreaga organizaţie

realizarea de jos în sus (bottom-up) porneşte cu experimente şi prototipuri.Permite unei organizaţii să meargă înainte cu cheltuieli considerabil mai micişi să evalueze beneficiile tehnologiei înainte de a face angajamentesemnificative în această direcţie.

realizarea mixtă presupune că o organizaţie poate exploata caracterulplanificat şi strategic al abordării top-down atât timp cât reţine avantajeleimplementării rapide şi oportune a aplicaţiilor după abordarea bottom-up. 47

Metodologii utilizate la realizarea depozitelor de date

Din punctul de vedere al ciclului de viaţă putem aplica două tipuride metode: Metoda în cascadă presupune o analiză structurată şi sistematică pe fiecare

etapă

Metoda în spirală implică generarea rapidă de sisteme funcţionale din ce înce mai complete, la intervale scurte, între două versiuni succesive.

Din punctul de vedere al modului de abordare putem aplica: metodologii structurate presupun diviziunea în subsisteme pe baza funcţiilor

identificate sau în funcţie de date

metodologii orientate-obiect bazate pe conceptele de obiect şi clasă permitutilizarea a trei tipuri diferite de modele pentru realizarea unui depozit dedate:

modelul static – prin care se modelează obiectele şi relaţiile lor în cadruldepozitului

modelul dinamic – sunt descrise interacţiunile dintre obiecte

modelul funcţional – prin care se realizează transformarea valorii datelor cuajutorul operaţiilor şi proceselor.

48

Page 13: Curs - GVMD 1

18.11.2015

13

Etape de realizare a depozitelor de date

Din analiza diferitelor metodologii de realizare a depozitelorde date se pot deduce o serie de activităţi, care pot fisintetizate în necesitatea parcurgerii următorilor paşi/etape:

1. Strategia de realizare

2. Planificarea (modelarea) cerinţelor

3. Implementarea

4. Exploatarea

49

Strategia de realizare a depozitelor de date

1. Determinarea contextului organizaţional

2. Realizarea unei viziuni preliminare de ansamblu asupracerinţelor

3. Realizarea auditului preliminar referitor la sistemele sursă

4. Identificarea surselor de date externe

5. Definirea versiunilor depozitului de date

6. Definirea arhitecturii preliminare a depozitului de date

7. Evaluarea mediilor de dezvoltare a depozitului de date

50

Modelarea depozitelor de date

1. Alcătuirea echipei de lucru

2. Analiza cerinţelor informaţionale

3. Auditarea sistemelor sursă

4. Proiectarea schemelor depozitului de date

5. Transformarea câmpurilor sursă în câmpurile destinaţie

6. Încărcarea datelor istorice în depozitul de date

7. Selectarea mediilor de dezvoltare

8. Crearea prototipului pentru versiunea curentă

51

Implementarea depozitelor de date

1. Definirea ariei de cuprindere a depozitului de date şi specificareamodului de transformare a datelor sursă

2. Crearea planului de implementare pentru versiunea curentă adepozitului

3. Implementarea propriu-zisă a depozitului de date

a) Achiziţia şi configurarea mediului de dezvoltare

b) Obţinerea copiilor colecţiilor de date operaţionale

c) Finalizarea proiectării schemei fizice a depozitului de date

d) Construirea sau configurarea subsistemelor de extragere şi transformare

e) Construirea subsistemului pentru asigurarea calităţii datelor

f) Construirea subsistemului pentru încărcarea depozitului de date

4. Rafinarea schemei depozitului de date

5. Metadatele din depozitul de date

6. Modul de acces la date

7. Încărcarea depozitului de date

8. Instruirea utilizatorilor

9. Testarea depozitului de date52

Page 14: Curs - GVMD 1

18.11.2015

14

Exploatarea depozitelor de date

1. Încărcarea periodică a depozitului de date

2. Calcularea indicatorilor statistici referitori la depozitul de date

3. Menţinerea calităţii datelor

4. Evaluarea mărimii depozitului de date

5. Refacerea datelor în caz de accidente

53

Instrumente şi medii de dezvoltare utilizate pentru realizarea depozitelor de date

Instrumente Oracle: Discoverer Administrator, Oracle WarehouseBuilder, Oracle Data Integrator

Instrumente Microsoft: Microsoft SQL Server Analysis Services

Instrumente IBM: InfoSphere Warehouse

Instrumente SAP: Business Objects

54

Studiu de caz. Modelarea unui depozit de date

GESTIUNEA VOLUMELOR MARI DE DATE

Modelarea depozitului de date

Definirea modelului conceptual (de afaceri)

Definirea modelului logic (dimensional)

Definirea modelului fizic

56

Page 15: Curs - GVMD 1

18.11.2015

15

Modelarea depozitului de date.Definirea modelului conceptual.

Definirea cerinţelor de afaceri

Identificarea măsurilor de afaceri

Identificarea dimensiunilor

Stabilirea granularităţii

Identificarea regulilor de afaceri

Verificarea surselor de date

57

Modelarea depozitului de date.Definirea modelului conceptual.

58

Măsuri:

Volum vânzărivolum costuri

Dimensiuni:

ProdusClient

Locaţie

Timp

Ierarhii:

Categorie_produs –> Grupa_produs –> Subgrupa_produs –> Produs

Tara –> Regiune –> Oras

An –> Trimestru –> Luna –> Zi

Modelarea depozitului de date.Definirea modelului logic.

Identificarea tabelelor de fapte:

Transformarea măsurilor de afaceri în tabele de fapte

Analizarea sistemelor sursă pentru identificarea altor eventuale măsuri

Identificarea măsurilor de bază şi a celor derivate

Identificarea tabelelor dimensiune

Realizarea legăturilor între tabelele dimensiune şi cele de fapte

59 60

Modelarea depozitului de date.Definirea modelului logic.

Page 16: Curs - GVMD 1

18.11.2015

16

Modelarea depozitului de date.Definirea modelului fizic.

Transformarea modelului logic într-unul fizic

Definirea strategiei de stocare

Definirea strategiei de indexare

Definirea strategiei de partiţionare

Actualizarea metadatelor

61

Aspecte fundamentale privind conceptul Big Data

GESTIUNEA VOLUMELOR MARI DE DATE

“You can’t manage what you don’t measure.”(Peter Drucker)

Big Data

Desemnează una din cele mai noi evoluții îndomeniul sistemelor de baze de date evoluate,integrării sistemelor și al Business Intelligence.

Descrie colecţii de date de dimensiuni foarte mari șicare se află în creștere exponențială în timp.

Pe scurt, astfel de date sunt atât de mari și decomplexe, încât niciunul dintre instrumenteletradiționale de gestiune al datelor nu este în măsurăsă le stocheze sau să le proceseze eficient.

63

Big Data

Big Data se definește ca fiind tehnologia care permitelucrul cu volume mari de date, care depășesccapacitatea uzuală de stocare și de procesare oferităde bazele de date, în scopul obţinerii de avantajecompetitive.

Se pot stoca şi analiza date provenite din fișiere de tiplog sau chiar text scris de utilizatori (în urma activităţiipe rețele sociale sau forumuri, articole etc.) pentru a leface folositoare în procesul de asistare a deciziilor.

64

Page 17: Curs - GVMD 1

18.11.2015

17

Big Data

„acele resurse informaționale de volum mare, vitezăcrescută și varietate mare, care necesită noi formede prelucrare pentru a permite luarea unor deciziiavansate, descoperirea de noi perspective deînțelegere a lucrurilor și optimizarea proceselor”(Gartner Group, 2012)

65

Big Data

“date care depăşesc capacitatea convenţională deprocesare a sistemelor de baze de date. Datele suntprea mari, se modifică cu viteză crescută şi nurespectă stricteţea arhitecturilor de baze de date.”(Forbes, 2012)

66

Big Data - necesitate

prelucrarea unui volum mare de date aduce plus devaloare companiilor.

se pune accentul pe completitudinea datelor, îndetrimentul acurateței lor.

ideea generală este de a aduna date cât mai multeși cât mai variate, chiar dacă uneori nu secunoaşte încă utilitatea acestora și nici nu se poategaranta exactitudinea lor.

67

Big Data – sursele de date

Din punctul de vedere al poziționării față decompanie:

date proprii (interne);

date provenind din exteriorul firmei (externe), dar care suntutile modelului de afaceri al firmei.

Din punctul de vedere al modului de generare:

generate intenționat de om, prin evidențele în format digitalpe care le ține;

generate automat de diverse device-uri: senzori, telefoanemobile, tablete, aparate foto digitale, sateliți etc.

68

Page 18: Curs - GVMD 1

18.11.2015

18

Big Data – sursele de date

Din punctul de vedere al dinamicii:

date statice;

date de flux (streaming).

Din punctul de vedere al structurii interne:

date structurate: respectă o anumită regulă sau model deorganizare internă;

date nestructurate: nu respectă un model predefinit deorganizare;

date semi-structurate: prezintă o formă slabă destructurare, pe care o respectă uneori doar aproximativ.

69

Big Data – caracteristici

Caracteristici ale Big Data – 3V –> 5V –> 7V:

1. Volum

2. Varietate

3. Viteză

4. Veridicitate

5. Validitate

6. Volatilitate

7. Valoare

70

Big Data – caracteristici

1. Volumul. Este caracteristica esențială pentru BigData (de ordinul zettabytes).

2. Varietatea. Se referă la multitudinea surselor degenerare și a tipurilor de date (date de tip text,numerice, imagini, audio, video, streaming, serii detimp, date social media), precum şi la varietateaformatelor de lucru, structurare și forme deprezentare a datelor.

71

Big Data – caracteristici

3. Viteza. Este legată de ritmul în care surselefurnizează fluxuri continue de date și decapacitatea de preluare, prelucrare și valorificare(uneori în timp real) a acestor fluxuri.

4. Veridicitatea. Big Data reflectă fapte reale încare se poate avea încredere, cu condiţia să fieluate în considerare eventualele abateri șizgomotul informațional care caracterizează uneletipuri de date.

72

Page 19: Curs - GVMD 1

18.11.2015

19

Big Data – caracteristici

5. Validitatea. Se definește prin corectitudinea șiacuratețea datelor, în raport cu scopul în care suntutilizate.

6. Volatilitatea. Se referă la perioada de timp în caredatele rămân relevante și merită să fie păstrate,ţinându-se cont de volumul de stocat și de dificultateaasigurării securității pe perioade mari de timp.

7. Valoarea. Exprimă potențialul de a genera valoarede business pentru companii, conferind avantajecompetitive acelor firme care gestionează Big Data.

73

Big Data – aplicabilitate

Optimizarea proceselor de afaceri

Publicitatea orientata catre client

Imbunatatirea sanatatii si a serviciilor medicale

Imbunatatirea performantelor sportive

Imbunatatirea domeniului stiintei si al cercetarii

Optimizarea peformantei dispozitivelor si a masinariilor

Imbunatatirea sistemelor de securitate si a eficientei politiei

Imbunatatirea si optimizarea administrativa si de infrastructura aoraselor si tarilor

Tranzactiile financiare

Imbunatatirea domeniului energetic

74

Evoluţia organizării datelor

75

Fişiere de date

Baze de date

Depozite de date

Baze de date

NoSQL

Baze de date NoSQL

Au apărut în contextul Big Data, pentru a rezolvaproblema regăsirilor rapide pe aceste volume maride date;

Permit lucrul eficient cu date nestructurate, precume-mail sau multimedia;

Lucrează cu texte XML, CSV sau JSON,stochează documente întregi, obiecte, coloane cuvalori ale unor caracteristici etc.;

Folosesc mai multe limbaje de interogare diferite(NoSQL - “not only” SQL).

76

Page 20: Curs - GVMD 1

18.11.2015

20

Tipuri de baze de date NoSQL

1. BD care stochează asocieri cheie-valoare(Cassandra, DyanmoDB, Azure Table Storage, Riak)

2. BD pe coloane(HBase, BigTable, HyperTable)

3. BD organizate pe document(MongoDB, CouchDB)

4. BD organizate ca graf(Neo4J, Polyglot)

77