DepoziteDeDate02

download DepoziteDeDate02

of 7

Transcript of DepoziteDeDate02

  • 7/30/2019 DepoziteDeDate02

    1/7

  • 7/30/2019 DepoziteDeDate02

    2/7

    CURS 2 - DEPOZITE DE DATE

    0.2 - CARACTERISTICI ALE DEPOZITELOR DE DATE

    Datorit obiectivelor impuse de utilizarea depozitelor de date n analiz, se desprindcteva caracteristici mai importante, pe care acestea trebuie s le aib.

    Depozitul de date trebuie s asigure accesul la datele organizaiei. Accesul trebuie s se

    realizeze ntr-un timp ct mai scurt, la cerere i s fie performant. Datele dintr-undepozit de date pot fi separate i combinate pentru a oferi sistemului, un acces ct mai rapid i un timp de rspuns ct mai mic. De asemenea, accesul presupune existena unorutilitare care s fie foarte uor de folosit.

    Datele dintr-un depozit de date trebuie s fie consistente. Consistena presupune faptulc, atunci cnd dou persoane solicit acelai set de informaii, acestea trebuie sprimeasc aceleai date, chiar dac ele au fost cerute la momente de timp diferite. Dacdatele nu au fost complet ncrcate, atunci utilizatorul va fi avertizat cu privire la acestlucru i este sftuit s atepte pn ce toate datele vor fi complet ncrcate.

    Datele din depozitele de date sunt utilizate direct n analize, fr alte prelucrri suplimentare . Datele nu sunt doar centralizate, integrate i stocate, ci, dup ce suntextrase dintr-o varietate de surse, sunt corectate de erori, transformate, li se asigur oanume calitate dup care, devin utilizabile. Depozitele de date nu reprezint doardatele, ci i un set de utilitare pentru a interoga, analiza i prezenta informaiile.

    Calitatea datelor din depozitele de date este un factor determinant pentru procesul deanaliz . Se ntlnete frecvent situaia n care, datele nu sunt de bun calitate, sau nusunt extrase n ntregime, sau au un caracter incert din punct de vedere al coninutului,ceea ce face ca analiza ulterioar s conduc la rezultate eronate.

    O consecin important a acestor caracteristici o constituie redundana datelor.Dac n sistemul operaional, redundana este eliminat, prin dependene funcionale i

    prin procese de normalizare, pentru a evita anomaliile de actualizare, n depozitul de date,redundana este creat n mod intenionat, prin denormalizare i agregare, pentru a permite unacces mai rapid la date.

    Integrarea datelor reprezint o alt consecin important a realizrii depozitului dedate i, n cele din urm, raiunea pentru care acesta este creat. Datele sunt ncrcate pentru arspunde nevoilor informaionale ale ntregii organizaii, asigurnd faptul c rapoartelegenerate, pentru diverse compartimente, vor conine aceleai rezultate. Sistemul informaticoperaional, este de cele mai multe ori format din subsisteme semi-independente, create lamomente diferite, de echipe diferite, n maniere diferite, ceea ce face imposibil folosireaacestuia pentru analiz.

    Integrarea datelor provenind din sistemul informatic operaional i din alte surse, serefer la diferite aspecte: modaliti unice de codificare, sistem de uniti de msur consistent,sistem stabil de reprezentare fizic a datelor, convenii clare privind modul de reprezentare adatelor calendaristice, convenii unice privind denumirile i coninutul acestora.

    0.3 - SURSELE DE DATE ALE UNUI DW

    Arhitectura depozitelor de date poate varia n funcie de situaia specific, a fiecreiorganizaii.

    n cazul unei arhitecturi canonice simple, datele sunt ncrcate din una, sau mai multe

    surse, iar utilizatorii acceseaz n mod direct depozitul de date.O arhitectur complex este structurat pe patru niveluri distincte de realizare a datelor

    M.A.E. anul I, Master, 2010-2011 2

  • 7/30/2019 DepoziteDeDate02

    3/7

    CURS 2 - DEPOZITE DE DATEastfel:

    Nivelul surselor de date - n care se colecteaz date eterogene provenite din diversesisteme operaionale ale organizaiei. De regul, se utilizeaz un proces de integrare aacestor date, printr-un modul separat al depozitului de date, numit i modul surs.

    Nivelul transformrii datelor - n care se folosete un proces de extragere, transformare(curare) i ncrcare a datelor (ETL - Extract, Transform, Load), ce presupune printrealtele i prelucrarea datelor din punct de vedere al integritii, preciziei, acurateei i alformatului.

    Nivelul depozitului de date - conine datele prelucrate, ncrcate n structurimultidimensionale i agregate pe diferite niveluri, pregtite pentru a fi utilizate nanaliz. La acest nivel se pot proiecta mai multe subsisteme de tipul data mart. Acesteasunt proiectate pentru fiecare din compartimentele i departamentele ntreprinderii.

    Nivelul de prezentare i raportare a datelor - presupune extragerea datelor din depoziti utilizarea unor instrumente i tehnologii de tipul inteligenei afacerii (BusinessIntelligence), pentru analiza i interpretarea informaiilor. La acest nivel, se utilizeaz

    instrumentele de lucru de tip OLAP pentru analiz, informaiile putnd fi prezentate subdiverse forme: grafic, tabelar, integrate n portaluri etc.Figura 3.1, prezint un sistem complex de data warehouse:

    Fig. 3.1. Depozit de date cu arhitectura complex

    Pe aceasta arhitectur, din punct de vedere funcional se regsesc trei nivele (module)distincte de realizare (Figura 3.2.).

    M.A.E. anul I, Master, 2010-2011 3

  • 7/30/2019 DepoziteDeDate02

    4/7

    CURS 2 - DEPOZITE DE DATE

    Fig. 3.2. Modulele funcionale ale unui depozit de date

    Modulul operaional - reprezentat de datele ntreprinderii, care sunt de obicei pstratesub form diferit, la locaii diferite. Aceste date pot proveni de la aplicaii, sau de lasisteme distribuite din cadrul ntreprinderii, cum ar fi sisteme de gestiune a comenzilor,de eliberare a facturilor, de contabilitate financiar, de gestiune a stocurilor, desalarizare, etc. Indiferent de originea lor, datele trebuie s fie colectate i aduse ntr-oform consistent pentru a putea fi folositoare. Acest proces de transformare a datelor,reprezint baza pe care se construiete un depozit de date consistent, de nalt calitate.Transformarea datelor presupune un proces de extragere, condiionare, curare,fuziune, validare i ncrcare (ETL).

    Modulul central al depozitului de date reprezentat de SGBD-ul i de serverul pe careruleaz acesta i de modul n care este implementat depozitul. Din acest punct de

    vedere, la ora actual, exist dou tendine:- una din tendine ar fi, implementarea unui sistem distribuit, descentralizat, unde

    datele sunt pstrate n uniti independente ( Independent Data Marts ), fiecaredin aceste uniti, coninnd datele relevante pentru un anumit aspect aloperaiilor, iar a doua tendin ar fi,

    - implementarea unei surse de date unice, centralizate, la care au acces utilizatoriidin toate departamentele instituiei.

    Modulul strategic, de afaceri - valoarea final a unui depozit de date este determinat

    de avantajele pe care le ofer utilizatorului n diferite procese de luare a deciziilor ianaliz. Prin folosirea diferitelor modaliti de acces la informaie i a tehnologiilor deprocesare disponibile, utilizatorii pot obine informaii care i vor ajuta n procesele destabilire a strategiei firmei. La ultimul nivel al arhitecturii, datele sunt pregtite pentruinterpretare i analiz cu ajutorul unor instrumente specifice, cum ar fi: instrumente derealizare a graficelor, prezentri, rapoarte dinamice, browsere Web, instrumente devizualizare a datelor.

    0.4 - TIPURI DE DEPOZITE DE DATE

    Arhitectura funcional a depozitelor de date prezentat mai sus, permite proiectarea iimplementarea unor diverse tipuri de depozite de date, n funcie de cerinele afacerii,resursele disponibile i posibilitile de realizare.

    M.A.E. anul I, Master, 2010-2011 4

  • 7/30/2019 DepoziteDeDate02

    5/7

    CURS 2 - DEPOZITE DE DATEVom prezenta mai jos, o clasificare a acestor tipuri de depozite de date.Astfel, din punct de vedere al ariei de cuprindere se ntlnesc trei tipuri de depozite de

    date: Depozitul central al organizaiei (Enterprise Warehouse), care colecteaz toate

    informaiile despre subiectele ce privesc ntreaga organizaie i furnizeaz un volumextins de date. De regul, acest depozit conine date detaliate, dar i date agregate, iarca ordin de mrime, pornete de la civa gigabytes, pn la sute de gigabytes, sauterabytes. Un depozit de date de ntreprindere, trebuie implementat pe servereputernice UNIX, sau pe platforme cu Extragerea i procesarea datelor pentru analiz, cuarhitecturi paralele. Acest tip de depozit necesit ns cheltuieli i resurse mai maripentru analiz, proiectare i realizare .

    Data mart -ul conine un subset al volumului de date din organizaie, este specific unuigrup de utilizatori, sau unui departament. Domeniul este limitat la subiecte specifice.Datele coninute n data mart, sunt de obicei agregate. n mod curent, data mart-urilesunt implementate pe servere departamentale, cu resurse mai reduse, care se bazeazpe UNIX, sau Windows 2000/2003. Ciclul de implementare al unui data mart este maicurnd msurat n sptmni, sau luni, dect n ani. Ca atare, un data mart poate ficonsiderat un subansamblu al unui depozit de date, mai uor de construit i ntreinut imai puin costisitor.

    Depozitul virtual (Virtual warehouse) este un set de tabele virtuale (views), asuprabazelor de date operaionale. Pentru eficiena procesrii interogrilor, numai unele dinviziunile de agregare pot fi materializate. Un depozit virtual este uor de construit, darproblema extragerii i prelucrrii datelor, revine n mod exclusiv serverului de baze dedate, ceea ce poate conduce la un timp de prelucrare foarte mare, dar se eliminnecesitatea stocrii datelor, ntr-un depozit real. Aceasta variant se recomand a fiaplicat n cazul n care volumul de date necesar este mic, de cteva mii de nregistrri. ns, dac se depete acest interval, timpul de extragere a datelor crete semnificativi atunci ar fi recomandabil s se combine, soluia de depozit virtual, cu stocarea dateloragregate separat ntr-un data mart, sau depozit de date real.

    O alt clasificare a depozitelor de date este propus n lucrarea lui Power D.J., intitulatDecision Support Systems: Concepts and Resources , n care se identific cinci tipuri de depozitede date, n funcie de aria de cuprindere a proceselor decizionale i anume:

    Depozitul de date de tip organizaional sau galactic (Galactic Data Warehouse -GDW), care reprezint un tip de depozit centralizat, cu o arie de cuprindere extins,avnd drept obiectiv, integrarea i prelucrarea datelor la toate nivelurile organizaiei,

    ncepnd cu nivelul departamentelor i terminnd cu cel al ntregii organizaii; Depozitul de date orientat pe procese de afacere (Business Process Data Warehouse -

    BPDW), care reprezint un tip de depozit specializat, orientat pe satisfacerea cerinelorafacerii i a proceselor de afaceri;

    Depozitul de date departamental (Departamental Data Warehouse - DDW) reprezintun tip de depozit orientat pe departamente, avnd drept obiectiv, integrarea iprelucrarea datelor, din fiecare departament n parte;

    Centru de date de tip proces de afaceri (Business Process Data Mart - BPDM) reprezintun tip de depozit specializat, orientat pe satisfacerea unei anumite cerine de afaceri i aunui singur proces de afaceri;

    Centru de date departamental (Departamental Data Mart - DDM) reprezint un tip de

    M.A.E. anul I, Master, 2010-2011 5

  • 7/30/2019 DepoziteDeDate02

    6/7

    CURS 2 - DEPOZITE DE DATEdepozit specializat, cu o arie de cuprindere limitat la un anumit departament, avnddrept obiectiv, integrarea i prelucrarea datelor specifice activitilor acestuia.

    n practic este recomandabil, combinarea acestor tipuri de depozite, deoarece nu ar fiindicat s se proiecteze cte un data mart, pentru fiecare proces de afaceri, sau pentru fiecaredepartament i apoi s se reuneasc ntr-un depozit centralizat, fr s se in cont i derelaiile interdepartamentale.

    0.5 - MODELUL RELAIONAL VS. MODELAREA MULTIDIMENSIONAL

    Depozitele de date impun condiii de realizare diferite fa de bazele de date relaionale.Dintre aceste diferene menionm urmtoarele:

    Condiiile de utilizare depozitele de date sunt proiectate pentru analize ad-hoc irezultatele nu sunt cunoscute dinainte, iar modelul datelor este optimizat, pentru arealiza o mare varietate de interogri. n schimb, sistemele tranzacionale suportnumai anumite operaii pentru care au fost proiectate;

    Modificarea datelor - datele din depozite sunt actualizate regulat (de regul sptmnal,sau lunar) prin procedeul de extragere, transformare i ncrcare automat (ETL).Utilizatorii finali nu pot modifica sau actualiza, direct datele. n sistemele tranzacionale,utilizatorii finali, sunt cei care actualizeaz datele, astfel nct s se reflecte stareafiecrei tranzacii din ntreprindere;

    Modelul utilizat - n depozitele de date se folosete forma denormalizata (cum esteschema stea), pentru optimizarea operaiilor, pe cnd n modelul relaional se foloseteforma normalizat a datelor, prin care se optimizeaz operaiile deactualizare/inserare/terge i prin care se garanteaz consistena datelor;

    Operaii tipice - o interogare a depozitelor de date poate parcurge mii, sau chiarmilioane de nregistrri (de exemplu pentru a analiza totalul vnzrilor din luna trecut,pentru toi clienii existeni). n schimb o operaie tranzacional, afecteaz o singur nregistrare, sau un numr limitat de nregistrri;

    Date istorice - n depozitele de date se stocheaz, de regul, datele istorice din ultimiiani, fa de modul de lucru al sistemelor tranzacionale, care stocheaz date pe ctevaluni, astfel nct s realizeze tranzaciile curente cu succes.

    O ultim i controversat diferen ntre cele dou tipuri de modele, este modul deabordare a datelor. Esena unui model multidimensional de calitate sporit, o constituiealegerea unui set de dimensiuni, ct mai apropiate de cele naturale i de perspectivautilizatorului. Este foarte util s avem o analiz dintr-o perspectiv relaional a datelor, naintede a ncepe analiza dimensional, deoarece echipa de proiectani a depozitului de date, va nelege datele mai bine. Modelul multidimensonal trebuie abordat mai mult din perspectivautilizatorului, dect din cea a datelor. Tehnica modelrii multidimensionale permite orestructurare a datelor n vederea interogrii lor prin tehnologii de analiz specific. Nu esteuor de transformat un model relaional n unul multidimensional, chiar dac modelam aceleaidate.

    Cele dou abordri cer condiii diferite, tehnici diferite i produc baze de date custructuri diferite. Modelarea dimensional produce o baz de date, care este mult mai uor deconsultat i de interogat, la un nivel nalt, sintetic, agregat. De asemenea, modelul

    multidimensional produce o baz de date cu mai puine tabele i chei de administrat, dectmodelul entiti-relaii (modelul E-R).

    M.A.E. anul I, Master, 2010-2011 6

  • 7/30/2019 DepoziteDeDate02

    7/7

    CURS 2 - DEPOZITE DE DATETabelul 3.1, de mai jos descrie diferenele principale, dintre prelucrarea tranzacional

    (modelul relaional) i prelucrarea analitic (modelul multidimensional):

    Caracteristici Modelulrelaional

    Modelul multidimensional

    Organizarea datelor Tabela Dimensiuni, tabele de fapte,

    cub de dateNivelul datelor Detaliu AgregatOperatia tipica Actualizare Raportare i analizaNivelul de analiza cerut Scazut RidicatVolum de date pertranzacie

    Redus Mare

    Vrsta datelor Curente Istorice, curente,previzionate

    Tabel 3.1. Paralel ntre prelucrarea relaional i cea analitic

    M.A.E. anul I, Master, 2010-2011 7