Depozite de Date (Data Warehouse)2

download Depozite de Date (Data Warehouse)2

of 13

Transcript of Depozite de Date (Data Warehouse)2

  • 8/3/2019 Depozite de Date (Data Warehouse)2

    1/13

    SISTEME INFORMATICE PENTRU ASISTAREA DECIZIEI BAZATEPE SINTEZA DATELOR.

    DEPOZITE DE DATE (DATA WAREHOUSE)

    Obiective:

    - nsusirea conceptelor cu privire la sistemele informatice pentru asistareadeciziei bazate pe analiza si sinteza datelor;- utilizarea tehnologiilor moderne Data Warehousing si On-LineAnalytical Processing (OLAP) pentru transformarea datelor n informatii desintez;- nsusirea tehnicilor si metodelor de prelucrare multidimensionala datelor.Concepte cheie: depozite de date (Data Warehouse); prelucrare analiticon-line (OLAP); cubul OLAP; hipercub; bazde date multidimensional.Modul n care datele sunt retransformate n informatii si apoi n cunostinteeste de fapt un proces de valorificare a datelor care se realizeazprin sintetizarea sianaliza lor si n final prin interpretare. Procesul de sintetizare a datelor presupune

    centralizarea lor, avnd n vedere diverse criterii si este utilizat n crearea situatiilor desinteznecesare informrii managerilor ca support pentru luarea deciziilor.Solutiile oferite de informaticpentru procesul de sintetizare a datelor

    sunt: programe specifice si dedicate; interogri care dau posibilitatea grupriidatelor dupcriterii stabilite si oferfunctii pentru domeniile astfel create;functiile de total si subtotal oferite de generatoarele de rapoarte care permitindicarea ierarhiilor criteriilor de grupare.

    n ultimul timp, problema centralizrii datelor a rmas aceeasi, nsvolumul de date de explorat este imens, ceea ce duce la faptul cmetodeleclasice sdevinineficiente. De aceea cstigtot mai mult teren tehnologiimoderne ca Data Warehousing (depozitarea datelor) si OLAP (On-LineAnalytical Processing) pe msurce suporturile soft devin suport de date pentrusistemele tranzactionale.

    Tehnologiile de centralizare transformdatele n informatii de sintezsianaliza lor.

    Analiza datelor presupune a gsi relatii ntre datele sintetizate cum ar fi:asocieri, corelatii structurale, cauzale sau functionale. O formsimplde analiza datelor este compararea datelor cu date similare, comparare care se face p strnd toatecriteriile identice, doar unul singur avnd valori diferite.

    Compararea se face ntre seturi de date comparabile, iar tehnologiile decomparatie sunt dotate cu tehnici de observare pentru semnalizarea tiparelor,corelatiilor, asocierilor prin similitudini sau sesizeazabateri, exceptii.Informatica a venit n ntmpinarea acestor cerinte cu tehnicile de prezentaregraficcare transforminformatia cantitativde informatie calitativ. Auaprut si tehnici de observare analitica datelor care au la bazteoriimatematice prin care datele reale sunt comparate cu date teoretice produse de unmodel ipotetic.

    Dezvoltarea tehnicilor de observare a dus la aparitia tehnicilor deobservare automatbazate pe data-driven. Rezultatul unor astfel de tehnici seregsesc ntr-un model cu caracter general. Tehnicile de observare analitica

  • 8/3/2019 Depozite de Date (Data Warehouse)2

    2/13

    datelor se regsesc ntr-o tehnologie moderndenumitData Mining (ntraducere liberMineritul datelor).

    Rezultatul procesului de observare analiticeste obtinerea unor tipare,corelatii si uneori modele din care se pot deduce tendinte sau se poatepreviziona cu o anumitprobabilitate cum vor arta datele pe o perioad

    ulterioar. Modelul permite interpretarea datelor, ce reprezint

    un procescognitiv cu o apreciere generala situatiei, si identificprobleme, oportunitti

    sau potentiale cauze de esec.De remarcat este faptul cinterpretarea datelor duce la aparitia de

    cunostinte noi care se vor cumula la cele deja existente. Instrumentele softclasice pentru asistarea deciziei au avut ca principal scop asigurarea tehnicilorde analiz, optimizare si simulare, precum si reprezentarea grafica rezultatelor.

    Dintre aceste instrumente se amintesc procesoarele de tabele Lotus si Excelorientate pe volume mici de date, cele referitoare la sistemele de gestiunea bazelor de date Access, Visual Foxpro capabile slucreze cu volume mari dedate cu structuruniform. Principalul dezavantaj al acestor instrumente

    clasice este c

    opereaz

    numai asupra acelor date care au o structur

    prestabilitsi provin dintr-o sursunic. Noile sisteme de asistare a deciziei folosesc tehnici

    speciale de comasare a datelor stocate n structuri neuniforme, pentru a utilizainformatii implicite care nu sunt specificate n datele existente. Suporturilesoftware de asistare a deciziei oferutilizatorilor o serie de facilitti cum ar fi:interogarea n limbaj natural, accesul la modele conceptuale, sisteme de gestiune OLAPsi servicii de integrare cu alte suporturi soft.

    Depozite de date (Data Warehouse)Necesitatea depozitelor de date este datde volumul imens de date

    acumulat n timp de companii. Integrarea acestor date istorice ale companieintr-o structurcare sstea la baza lurii deciziilor a devenit principalapreocupare a noilor tehnologii.

    Sistemele de asistare a deciziei care au la bazsinteza si analiza datelorrealizeazcomasarea, sistematizarea, corelarea si gruparea datelor pentru aobtine informatii care sreliefeze factorii care influenteazpozitiv sau negativperformanele companiei. Ca urmare a obtinerii unor astfel de informatii sepoate adopta o strategie de ameliorare a factorilor cu influentnegativ.Obtinerea rezultatelor, sub formde rapoarte care contin informatii utilefactorilor de decizie sunt ntr-o formaccesibilsi sunt rezultatul tehnicilorspeciale de explorare a masivelor de date. Aceste tehnici duc la evidentiereaunor corelatii ntre date, pot face estimri si prognoze precum si satragatentiaasupra unor disfunctii.

    n sinteztehnicile de exploatare a masivelor de date pot sugera solutii sipot contribui la luarea deciziilor ntr-o anume situatie

    Datele, mai precis structurile de date care fac obiectul sistemelor informatice deasistare a deciziilor sunt denumite depozite de date (Data Warehouse).

    Caracteristicile acestor structuri este faptul cele pot nmagazina volumemari de date preluate din arhive si/sau din bazele de date ale aplicatiilorinformatice specifice activittii curente a ntreprinderii (sunt volume de ordin

  • 8/3/2019 Depozite de Date (Data Warehouse)2

    3/13

    1012 terabytes). Exploatarea acestor volume uriase de date este asiguratdeexistenta unor motoare speciale care dau posibilitatea ca masivele spoatfiinterogate, precum si existenta unor servicii speciale de analizon-line adatelor (OLAP). Suporturile software sustin performantele prin transformareadatelor, corelarea si completarea lor, precum si prin crearea dictionarului de

    date, toate acestea asigurnd accesul la structurile primare.Datele sunt extrase din baze de date eterogene create de sistemeleinformatice deja existente n companie pe diversele platforme hard si soft.Se poate remarca faptul cdatele sunt introduse nu la ntmplare, ci subcontrolul unor aplicatii si al SGBD-ului. Acestea asigurprin serviciile deintegritate, stocarea si lucrul n condiii de siguranmaxim. Datele careformeazsuportul pentru tranzaciile primare sunt apoi prelucrate pentru a seobine informatiile de sinteznecesare planificrii si lurii deciziilor si sunttratate de instrumentele SGBD.

    Deoarece exploatarea unui volum enorm de date, pentru a obtine diverserapoarte, este asiguratde integritatea si coerenta bazei de date, reuniunea

    tuturor acestor date duce la exploatarea unui mare numr de tabele, la creareaunor multiple legturi virtuale si tabele temporare. Acest volum mare de munc

    conduce la principalul inconvenient al depozitelor de date si anume timpulmare necesar exploatrii lor. Un alt inconvenient l constituie si aglomerareamotorului bazei de date cu task-uri de centralizare care ncetineste astfeltranzactiile curente.

    Astfel a aprut necesitatea stocrii datelor care sunt dedicate planificriisi deciziilor strategice ntr-un sistem diferit de sistemul operational n asa felnct functionarea celor dousisteme sse facfrinconveniente. n depozitulde date se pot stoca att arhive de date privind activitatea anterioar, ct si datereferitoare la tranzactii ulterioare frca utilizatorul spoatinterveni.

    Datele se pot nmagazina pe domenii sau activitti specifice departamentelor uneiorganizatii n asa numitele magazii de date (Data Marts), separarea lor n acest fel ducndla cresterea performantelor n exploatare. Aceste depozite de date se construiesc de obiceicu tehnologii relationale. Depozitele de date sunt o concentrare de date care organizeaz,consolideazsi centralizeazdatele din surse eterogene si care vor constitui bazaprocesrilor analitice att de necesare proceselor de decizie. Depozitul de date seconstruieste progresiv adicel permite completri si dezvoltri ulterioare.Pentru a se asigura o calitate sporita datelor acestea sunt supuse unui procesde curtire si transformare, mentionnd si maniera de obtinere a unor datecolectate pe baza celor existente, acest proces ducnd la micsorarea timpuluicerut pentru obtinerea unor rapoarte finale. n depozitele de date se facetransformarea codurilor n date explicite, precum si integrarea datelor dinnomenclatoare n datele referitoare la tranzactii. Acesta este numit si proces dedenormalizare si este caracterizat de faptul cnu modificintegritatea datelorsi grbeste procesul de regsire. ntr-un depozit de date redundanta datelor estepermis.

    Diferentele dintre depozitul de date si baza de date sunt urmtoarelea. Datele continute de un sistem de prelucrare a tranzactiilor, OLTP(On-Line Transaction Processing) sunt de tip operational, iar datele continute

  • 8/3/2019 Depozite de Date (Data Warehouse)2

    4/13

    de un depozit de date sunt specifice asistrii deciziilor, sunt date centralizatesau derivate din date operationale, nu se modificn timp si sunt destinateutilizatorilor finali.b. n cazul sistemelor tranzactionale, performantele se referla integritate,confidentialitate, sigurantsi timp de rspuns ntruct un numr mare de utilizatori

    introduc date n sistem, n timp ce n cazul SIAD (deci a depozitelor de date) numrul deutilizatori finali (manageri) este foarte mic.

    Astfel si securitatea si siguranta n exploatare nu sunt supuse unor riscurimajore, procedurile de salvare si restaurare fiind mai putin utilizate dect ncazul sistemelor tranzactionale.c. Datele procesate n sistemele tranzactionale sunt n seturi relativ mici,introduse recent si compact, astfel nct prelucrarea se face destul de rapid. nprocesele decizionale, datele necesare acestora sunt n volum mare, stocatedispersat ceea ce duce la o prelucrare mai lent.d. Bazele de date construite pentru sisteme tranzactionale sunt proiectatesi realizate pe baza unor cerinte cunoscute si certe, modificrile care intervin

    datorit

    adaptrii sistemului la schimb

    rile intervenite reiau anumite faze aleciclului de viat. Dar odatimplementate ele functioneazperioade lungi de

    timp frmodificri. n SIAD cerintele sunt cunoscute doar partial n momentulproiectrii si realizrii lor, ceea ce obligdepozitul de date sse adapteze dinmers cerintelor. De aceea se observcdatele gestionate pentru sistemetranzactionale sunt privite ca un ntreg, pe cnd cele din depozitele de date suntorganizate pe sectiuni deoarece ele sunt organizate n functie de subiectul deanaliz.e. Sistemele tranzactionale reflectde obicei fluxul datelor din activitti curente, pe cnddepozitele de date sunt orientate pe subiecte cum ar fi de exemplu: resurse, produse,clienti, furnizori.

    Ciclul de viatal depozitelor de date Depozitul de date (Data Warehouse) este ocolectie de date orientate pe subiecte, integrate, corelate n timp si non-volatile caresprijindecizia

    Datele care fac obiectul unui depozit sunt integrate n acesta utiliznd conventiipentru msurtori, atribute. Structura de care dispune depozitul de date prevedeidentificarea punctuala datelor stocate si, mai ales, un acces rapid la ele.

    Proiectarea structurii depozitului de date se face prin modelare multidimensional,structura implementndu-se ca o bazde date care asigurstocarea unui volum mare de date si un acces rapid la ele, asa numitele baze dedate client/server.

    Popularea depozitelor de date se face prin preluare din sisteme tranzactionale, darcare vor fi supuse unor procese complexe de transformarecare scorespundstructurii depozitului care a fost proiectat. Dupaceastetap, depozitul va putea intra n exploatare pentru a obtine analize si rapoarte.

    Etapele enumerate anterior (proiectare, populare, exploatare) sunt asistate deun soft specializat de la browsere si generatoare de rapoarte pnlainstrumente specifice Data Mining.

    n exploatarea curenta depozitului frecvent vor apare noi cerinteinformationale care vor duce neaprat la extinderea structurii, la popularea cu

  • 8/3/2019 Depozite de Date (Data Warehouse)2

    5/13

    extensii cuprinznd date istorice, precum si la integrarea noilor datencorporate n aplicatii de analiz. Pe parcursul existentei sale, un depozit dedate este incremental si ciclic. Modelarea conceptuala depozitului de dat n etapa deconceptie a unui depozit de date se folosesc modeledimensionale care grupeazdatele din tabelele relationale n scheme de tip stea

    sau fulg de zpad

    . n aceste scheme pot fi reg

    site date cantitative cum ar ficantitti sau valori sau grupate dupdiverse alte criterii (pe client, pe produs, pe

    tipuri de servicii etc.). Datele cantitative din bazele de date dimensionale sunt detip medii, numr de tranzactii, centralizri dupanumite caracteristici, totalurisi reprezintmsuri ale activittii. Pe de altparte, criteriile de agregare vorfi denumite dimensiuni. Msurile identificate prin dimensiuni vor fi stocate ntruntabel relational care este denumit tabel de fapte, iar codurile utilizate sauasociate criteriilor de agregare sunt date de tabelele de tip nomeclator asociatefiind cu tabelele de fapte si n acest fel schema relationalva fi de tip stea. Dacse reunesc mai multe scheme de tip stea care utilizeazaceleasi nomenclatoareformeazun model tip constelatie. Dacnomenclatoarele se pot divide n

    subnomenclatoare atunci exist

    o dependent

    ntre acestea. De remarcat cpentru acelasi cod pot exista mai multe nomenclatoare alternative. Dacse

    integreazaceste subdimensiuni si dimensiuni alternative, se creeazo schemsub formde fulg de zpad.

    Schemele de tip stea, fulg de nea sau constelatie sunt modele conceptualemultidimensionale ale depozitelor de date, avnd ca rol organizarea datelor pe subiectenecesare procesului de decizie. Schema este deschis(ea se poatemodifica pe tot parcursul vietii depozitului de date).Modul de utilizare a depozitului de dateDepozitele de date contin structuri unice, integrate si cumulativenecesare procesului de decizie. Administratorul depozitului de date are caprincipalsarcinstabilirea accesului partajat al categoriilor de manageri prinasigurarea de parole si drepturi de acces. Datele din depozit sunt accesateselectiv de manageri n functie de necesittile acestora. n acest fel se creeazcolectii specializate pe diverse domenii care se numesc magazii de date (DataMarts). Magaziile de date se pot utiliza si ca structuri intermediare pentrucolectarea datelor din surse primare si al cror continut este descrcat periodicn depozitul de date. Depozitele de date pot lua nastere si printr-o stocareexhaustiva datelor din sistemele tranzactionale n vederea aplicrii tehnologieiData Mining. Utilizarea tehnologiei Data Mining presupune cprocesareadatelor se face frinterventia utilizatorilor, n background, iar rezultatele suntpstrate pentru a fi consultate ulterior la cerere.

    Mediul de depozitare al datelorMediul n care se construieste si se exploateazun depozit de date contine

    urmtoarele elemente: surse de date tranzactionale, instrumente de proiectare dezvoltare,instrument de extractie si transformare a datelor, sistemul de gestiune al bazei de date,instrumente de acces si analiza datelor si instrumente de administrare

    Toate componentele enumerate sunt integrate pe o platformMicrosoft nmediul de lucru Data Warehousing Framework ca si n cazul SQL Server 7.0.

  • 8/3/2019 Depozite de Date (Data Warehouse)2

    6/13

    Acest mediu de lucru oferasistarea proiectrii, implementrii siadministrrii depozitelor de date pe durata vietii (existentei) acestuia. Se poateconcluziona cData Warehousing Framework ofero arhitecturcare se poateintegra relativ simplu cu produse ce provin de pe alte platforme, asigurserviciide import-export cu validare si transformarea datelor, asigurmetadate integrate

    pentru proiectarea depozitului si gestioneaz

    suportul, task-uri si evenimente.Pentru ca un depozit de date spoatfi procesat este necesarexistentaunui set specializat de instrumente pentru: descrierea fizicsi logica surselorde date, a depozitelor sau a magaziei de date n care acestea urmeazsfiencorporate; validarea, curtirea si transformarea datelor care urmeaza fistocate n depozitul de date; utilizatorii finali, instrumente care permit acestoraaccesul la datele stocate n depozitul respectiv. Astfel de instrumente suntspecializate pentru medii de dezvoltare a aplicaiilor, produse programspecializate pe analiza datelor precum si pentru aplicatii personale (individuale).Abordarea multidimensionala datelor stocatedepozite. Definirea sicaracterizarea OLAP (On-Line Analytical Processing)

    Dac

    se analizeaz

    tehnologia relational

    se observ

    c

    cea mai mareparte a problemelor tratate relational sunt n realitate multidimensionale. nmodelul relaional problemele sunt tratate n tabele care au doudimensiuni:linie si coloan. Problemele reale, care n cea mai mare parte a lor suntmultidimensionale,nu impun limite stocrii spatiale a datelor. Astfel, un SGBDRobisnuit nu poate face fatcerintelor de agregri de date, sintetizri, consolidri siproiectii multidimensionale. De aceea, a aprut necesitatea extinderii functionalittii unuiSGBDR prin adugarea unor componente speciale care spermitmodelare si analizmultidimensional(OLAP) si Data Mining.Noua tehnologie OLAP permite utilizatorilor navigarea rapidde la odimensiune la alta si facilitti sporite de obtinere a celor mai detaliate informatii.Tehnologia OLAP se bazeazpe 11 principii formulate de Ted Codd (1992).Acestea sunt:1) abordarea conceptualmultdimensionala datelor;2) asigurarea unei transparente sporite prin existenta unei arhitecturideschise a sistemului;3) accesibilitatea asiguratutilizatorului prin asistarea implicriiacestuia n modalittile tehnice de furnizare a datelor;4) complexitatea dimensionala analizei oferperformante stabile;5) utilizarea arhitecturii client-server, unde server-ul are ca scop omogenizarea datelor;6) posibilitatea de a efectua aceleasi operatii asupra tuturor dimensiunilorsi care poartnumele de prelucrare generica dimensiunilor;7) gestionarea dinamica matricilor ncrucisate prin facilitatea de a elimina combinariiledimensionale nule, pentru a nu ncrca memoria calculatorului;8) posibilittile de acces simultan a mai multor utilizatori (multi-user) la aceeasi faz(etap) de analiz;9) operatii nerestrictive, ceea ce dposibilitatea executrii frrestrictiia calculelor pentru toate combinrile de dimensiuni si niveluri ierarhice;10) posibilitatea manipulrii intuitive a datelor;11) numr nelimitat de niveluri de agregare si de dimensiuni

  • 8/3/2019 Depozite de Date (Data Warehouse)2

    7/13

    OLAP este tehnologia de agregare a datelor stocate n depozite ntr-o manierdeabordare multidimensionalcu facilitti referitoare la accesul la informatii a managerilorn mod interactiv si flexibil. Legtura dintre OLAP si depozitele de date este aceea cOLAP le completeazprin transformarea volumului imens de date stocate si gestionat ndepozite n informatii utile procesului de decizie. Cele 11 reguli ale lui Codd au fost apoi

    regrupate ntr-un test cu 5 reguli denumit FASMI (Fast Analysis SharedMultidimensional Information).OLAP presupune existenta unor tehnici care permit de la o navigare si selectie simpladatelor pnla analiza detaliatsi complex. Aplicatiile care serezolvpe baza acestei tehnologii au la bazanaliza rapida informatieimultidimensionaldispersatn locatii multiple dar accesibile unui mare numrde utilizatori. Pentru utilizarea acestor facilitti, OLAP dispune de eficacitatea bazelor dedate multidimensionale si de posibilitatea de a construi alternativepentru diverse probleme de decizie. OLAP presupune canaliza datelor (carepot fi de tip numeric sau statistic) poate fi predefinitde cel care creeazaplicatia sauchiar de utilizatorul final.

    OLAP se caracterizeaz

    prin: perspectiva multidimensional

    a datelor,capacitatea de calcul intensiv si orientare n timp (time intelligence)Aspectul multidimensional al datelor este dat de posibilitatea de a integra

    multiplele aspecte care caracterizeazactivitatea unei ntreprinderi si care suntconsiderate din perspective multiple ca: timp, bani, produse. Fiecare dimensiuneeste definitn genere prin mai multe niveluri ca de exemplu: timpul este divizatn an, trimestre, luni, sezoane; produsul n: categorii, clas. Conceptul dedimensiune este folosit ca nteles de aspect, dimensiunile fiind independente sicu unitti de msurspecifice dimensiunii respective.

    Unittile de msurpot constitui criterii de agregare a datelor, iarnivelele unei dimensiuni formeazierarhia care la rndul ei poate constituicriteriu de agregare a datelor. Privite din punct de vedere multidimensional,datele sunt reprezentate n hipercuburi de date, prin extinderea cubuluitridimensional la cel n-dimensional.

    Pe acest tip de cub se pot efectua calcule prin aplicarea unor algoritmi complecsiasupra datelor structurate n acesta. Acestea implicposibilitatea deadresare multidimensionaldirecta cuburilor unitare si optimizarea timpului de rspuns.Caracteristica de orientare n timp (time intelligence) presupune flexibilitatea exploatriiacestei dimensiuni care este necesarpentru comparatii si aprecieri de valoare nanalizele economice. Aceastdimensiune este luatdeobicei din calendarele tranzactiilor economice asa cum se afln bazele de dateale sistemului informatic al companiei. Se pot face astfel grupri pe dimensiunica: trimestre, luni, ani, sezoane. Se pot utiliza si dimensiuni speciale cum sunt:perioada curent, perioada precedent, aceeasi perioaddin anul..., care trebuieneaprat luate n considerare la proiectarea hipercubului. Bazele de datemultidimensionale folosite de OLAP sunt suprapuse depozitelor de date sistocheazstraturi de date agregate pe diferite criterii ierarhice. De asemenea,aceste baze de date multidimensionale conin si date statistice pentru fiecare nivel deagregare.Modelarea dimensional cuburi OLAP

  • 8/3/2019 Depozite de Date (Data Warehouse)2

    8/13

    Modelarea dimensionalpresupune conceptualizarea si reprezentareaaspectelor msurabile ale activittii studiate n interdependentcu contextul ncare acesta se desfsoar, aspect identificat prin parametrii activittii. Legturadintre valorile nregistrate ale activittii (valori vnzri, cheltuieli comune,costul produselor) si contextul de desfsurare al acesteia formeazbaza

    numeroaselor rapoarte de sintez

    care sunt produse de sistemele tranzac

    ionale.Prin modelare dimensionalse oferun model conceptual comun acestorrapoarte si agregarea lor ntr-o structuruniformsi flexibil. Totodatsepstreazsi legtura cu sursele initiale de date, deci posibilitatea dedescompunere a datelor centralizate pe niveluri din ce n ce mai mici pnseajunge la setul de tranzactii initiale (drill-down).Cubul OLAP se considera fi element structural pentru datele dinprocesul on-line. Acesta este o structurmultidimensional, un hipercub princare se modeleazcomplexul de activitti pe o perioadndelungatde timp.Acest tip de modelare este caracterizat de cteva concepte de baz: Cuantificarea activittii (aspectul cantitativ) care se face prin utilizarea

    unittilor de m

    sur

    clasice ca de exemplu: m, m3, kg, unit

    ti monetare. M

    suricantitative sunt: volum vnzri, volum salarii, cost materiale, cost produs etc.

    Dimensiunile activittii sunt de fapt parametrii activittii msurate cade exemplu: zi, lun, trimestru, client sau grupde clienti. Dimensiunile sunt deobicei de naturdiferitsi rspund la ntrebri de tipul: Unde? Cnd? Cu ce? etc. Faptele sunt colectii ale cuantificrii activittii precum si dimensiunile care identificmodul n care acestea s-au desfsurat. Sursa de existentafaptelor este constituitdin nregistrrile stocate n tabelele de tranzactie aleaplicatiilor operationale care sustin activitatea respectiv. Se pot folosi si dimensiuniscenarii care pot stoca n tabelele de fapte si msuri imaginarealturi de cele reale, pentru ca utilizatorul spoatstoca valori estimate pentru omsur.

    n bazele de date tranzactionale, dimensiunile sunt de fapt cmpuri carecontin caracteristicile unei tranzactii adicdatele de identificare ale tranzaciilorcare sunt de obicei chei externe care fac legtura cu nomenclatoarele care leexpliciteaz.

    Ca atare, se poate afirma cdimensiunile se materializeazn setul devalori posibile care formeazdomeniul caracteristicii respective, valori carepoartnumele de membrii dimensiunii.

    O altcaracteristica dimensiunii este a ceea cpoate avea multipli adicsuntgrupe de valori ale dimensiunii cu o caracteristiccomun. Grupele pot fi identificateprin atribute care se afln nomenclatoare si pot lua aceeasi valoare pentru mai multevalori ale cheii primare. Multiplii unei dimensiuni nu trebuie sfie neaprat de aceeasinaturcu dimensiunea primar, aceasta putnd avea mai multe tipuri de multipli nfunctie de caracteristicile luate n considerare. Se poate afirma cdimensiunile mpreuncu multiplii lor formeazstructuri arborescente care sunt recunoscute de OLAP ca fiindierarhii. Ierarhiile pot fi regulate, adictoate ramurile au acelasi numr de ramificatii sauneregulate dacpe anumite ramuri lipseste un nivel de semnificatie. La rdcina arboreluise aflo caracteristiccu aceeasi valoare pentru toti membrii dimensiunii de baz. Acesttip de caracteristiceste una implicitca, de exemplu, unitatea care are ca activitate cea

  • 8/3/2019 Depozite de Date (Data Warehouse)2

    9/13

    analizatsau all. Frunzele arborelui formeazmembrii dimensiunii initiale, iardimensiunile intermediare pot fi pe mai multe nivele. Dacarborele este neregulat, pentrua uniformiza ierarhia se poate introduce un membru de tip alte.

    n acest fel se constatccentralizrile pe nivelul respectiv nu vor fi de100% din valoarea centralizatpe nivelul cel mai de jos. Atributele care definesc

    ierarhia sunt atribute derivate din atributul care defineste dimensiunea ac

    iunilormsurate, prin referire la nomenclatoare sau prin clasificri ale valorilor pe carele poate lua atributul respectiv. De exemplu, furnizorii se pot clasifica nfurnizori stabili daccompania face tranzactii cu ei de mai mult de 4 ani,furnizori noi dacau vechime cuprinsntre 1 si 4 ani si furnizori volatili sauocazionali dacn cmpul respectiv din Furnizori nu este completat nimic. Dinacest exemplu se observcasemenea clasificri conduc la obinerea unoratribute derivate prin calcul din caracteristicile aflate n nomenclatoare. n acestfel se vor obtine seturi de membri calculati ai dimensiunii. Dimensiunileierarhizabile se constituie n ierarhii alternative. Nivelele ierarhiilor sunt vzuteca nivel de agregare pentru valorile stocate n tabele de fapte. Membrii

    dimensiunilor identific

    msura activit

    tii stocat

    n tabelul de fapte. Dac

    unuifapt i sunt asociate mai multe dimensiuni, identificarea unica acestuia va

    necesita valori precise pentru fiecare dimensiune. Ca urmare, din tabelele defapte sunt selectate mai multe nregistrri, adictoate valorile posibile asociatedimensiunilor nespecificate.Pentru dezvoltarea unui depozit de date, modelarea datelor are un rol important deoarecepermite vizualizarea structurii nainte ca ea sfie construit.Modelul multidimensional reprezentat prin el va fi prezentat desfsurat nsectiuni sau n proiectii tridimensionale.Sectiunea unui hipercub este definitca o sectiune din cub datprincoordonatele sale. Proiectia este definitca o sectiune care centralizeazdatelede pe toate dimensiunile suprimate.

    Vizualizarea on-line se face de fapt tot n sectiuni sau proiectii tridimensionale.Datele din celule sunt prezentate numai n sectiuni sau proiectii transversalebidimensionale. Hipercubul ar putea fi imaginat ca un set de tabele pivot grupate pedimensiunea cerut. Pentru procesul de modelare, hipercubul se poate prezenta n formtabelarn care msurile sunt evidentiate pe coloane, iarliniile reprezintcombinatiile de dimensiuni. De asemenea, n plan fizic,hipercubul poate fi stocat ntr-un tabel cu coloane multiple n care se stocheazmsurile si cu identificatori pe rnduri. Identificatorii de rnduri sunt de faptchei formate din toate combinatiile posibile de valori ale dimensiunilor.

    Utilizarea indecsilor pentru acces rapid nu are prea mare eficientntruct cheiaeste compusdin mai multe caracteristici, iar cmpurile de valoare sunt putine sinumerice, astfel ctabelul de indecsi este aproape de aceeasi dimensiune cu tabelulinitial. De aceea, se utilizeaztabelul bitmap pentru un acces directrapid. Datele modelate ca hipercuburi formeaza baze de date multidimensionale.

    Baze de date multidimensionaleBaza de date multidimensionaleste formatdin doustructuri:structura datelor n care se stocheazmsurile activittilor preluate din tabela

  • 8/3/2019 Depozite de Date (Data Warehouse)2

    10/13

    de fapte a depozitului de date. Datele vor fi prezentate utilizatorului n celuleletabelelor pivot; structura metadatelor care este formatdin totalitateadimensiunilor si membrilor acestora precum si din structurile ierarhice aledimensiunilor. Utilizatorul poate vizualiza aceaststructurca nume de coloanesi linii care reprezintinformatiile de pe axele cuburilor. Numerotarea nivelurilor ncepe

    de la rdcin

    (nivel 0) c

    tre frunze(unde va apare nivelul maxim). Ierarhiile posedpropriile lor seturi de niveluri, chiar

    dacunele ramuri sunt comune. De exemplu: ierarhia Calendar esteformatdin nivelele (0-5): Timp, An, Semestru, Trimestru, Lun, Datcalendaristic,ierarhia Anotimp este formatdin nivelele (0-4): Timp, An,Sezon, Lun, Datcalendaristic, iar ierarhia Anotimp este formatdin nivelele(0-3): Timp, Sptmn, Zi, Datcalendaristic. Pe fiecare nivel se stocheazmembrii dimensiunilor respective. Rdcina care se observceste comun(Timp) este nivelul de agregare maxim avnd ca unic membru implicit all.Orice nod n arbore este un membru al unei subdimensiuni. Nodurilesubordonate unui nod formeazun set, iar orice membru al unui set are un

    numr de ordine ncepnd cu 0. De asemenea, orice membru poate aveaproprieti ca de exemplu unele zile sunt srbtori legale, unii ani sunt bisecti.

    Exemplul prezentat presupune o structurstrict arborescentntruct fiecaremembru al unei dimensiuni are submembri distincti, chiar dacacestia auaceleasi valori. De exemplu, fiecare an are setul lui de luni, fiecare sptmnare setul ei de zile. Ca mod de identificare, membrii vor fi calificati cu numelemembrului de pe nivelul precedent cruia acesta i se subordoneaz: 2000-feb,2001-feb. Tipul acesta de dimensiuni care au membri ce se repetse pot crea siulterior prin combinarea a dounivele din ierarhie sau din ierarhii diferite pentrua crea un nivel nou, virtual.

    Pentru a se putea naviga pe o structurarborescent, sistemele de gestiunepun la dispozitie operatori ierarhici. De exemplu, pentru exploatarea datelor,sistemele de gestiune oferoperatori pe hipercuburi. Fizic, datele sunt stocatentr-un fisier cu acces direct pe baza adresei fizice absolute sau relative anregistrrii obtinute prin exploatarea tabelelor bitmap obtinute n urma creriistructurii de date. Aceste tabele sunt puntea de legturdintre structura de datesi structura de metadate. Iatcum se face aceastlegtur: se stie cpentrufiecare membru al fiecrei dimensiuni existo coloan(1 bit) n tabele bitmappentru fiecare nregistrare existun rnd n acelasi tabel n care se stocheaz1 ndreptul bitilor asociati membrilor dimensiunii existente n nregistrare. Datoritacestui procedeu, cmpul respectiv nu trebuie stocat n nregistrare, iar structuradatelor este redusla un minim necesar. Din tabelul de msuri se vor puteaselecta acele nregistrri care au un bit 1 n pozitia corespunztoare bitilor 1 dinmasc. Un inconvenient al tabelelor bitmap este acela cele sunt greu deobtinut, iar aparitia unor noi membri sunt greu de inserat n pozitia corespunztoare.Procesul de refacere a unui tabel bitmap este mare consumatorde timp avnd n vedere ctabelul de fapte din depozit (care se va transforman baza multidimensional) poate avea un numr imens de nregistrri.Masca de interogare se obtine prin exploatarea structurii ierarhice ametadatelor de unde se pot extrage seturi de membri pentru dimensiunile

  • 8/3/2019 Depozite de Date (Data Warehouse)2

    11/13

    desemnate prin specificatorii de axe. Adresarea tabelului de msuri se face nmod direct pe baza unui set de adrese de nregistrri care se suprapun cu tiparulmstii. Din tabel se preiau n aceastmaniervalorile care se centralizeazpentru celula cubului cu dimensiunile sale.

    Se poate afirma cstructura metadatelor este de tip ierarhic, fiecare

    dimensiune fiind stocat

    ntr-o structur

    arborescent

    cu o singur

    rdcin

    (all)si cu o multitudine de ramuri care pot contine frunze comune (ierarhii alternative).

    Orice nivel al unei ierarhii poartun nume si contine un set de membri.De altfel si ierarhiile alternative poartun nume pentru a putea fi distinse.Structura n care sunt stocate datele este o structurcu acces direct prin tabelebitmap exploatate prin msti.

    Operatii OLAP asupra hipercubuluiUn hipercub este proiectat astfel nct el saibn vedere nivelul de

    detaliu necesar n procesul de analiz. Nivelul de detaliu (granularitatea) reprezintnumrul de membri ai unei dimensiuni. Datele pot fi vizualizate

    printr-o selectie n hipercub pe baza unui criteriu ierarhic care ar putea fi deexemplu structura organizationalpe care o conduce un anumit manager. Dacde la pornire, granularitatea este prea mare, datele vor fi mult prea centralizate sinu se va putea face dect o analizgrosier. Ajustarea nivelului de granularitate esterealizatde OLAP prin exploatarea ierarhiilor dimensiunilor prin comasri sidescompuneri ale msurilor prin proceduri care poartnumele de drill-up si drill-down.Prin intermediul acestor proceduri se face o deplasare a proiectiei cubului n sus sau jospe nivelele ierarhice ale fiecrei dimensiuni (zoom in; zoom out), executnd de fiecaredatcentralizri ale msurilor stocate la cea mai micgranularitate dupcriterii ierarhicestabilite n prealabil.

    Este stabilit un nivel de granularitate initial sub care nu se poate cobor.Din acest motiv este important ca dimensiunile de bazsfie ct mai rafinatesau sse creeze Data Marts, unde hipercuburile sunt proiectate la nivelul dedetaliu stabilit de managementul operational. Pentru managementul superior seva construi un depozit cu hipercuburi centralizatoare cu granularitate mare. Prindrill-down se obtin detalii, iar prin drill-up se obtin date sintetice.

    Un alt grup de operatii oferit de OLAP este sectionarea (slicing) sidefalcarea (dicing). Prin sectionare, se creeazposibilitatea selectrii prinvizualizare doar pentru un membru al unei dimensiuni, adicun plan din cubultridimensional. Sectiunea astfel obtinutva apare ca un tabel pilot cu valoriledimensiunilor pe laturi si cu specificarea valorii alese pentru dimensiunea suprimat.Defalcarea (dicing) este operatia de proiectare a unei dimensiuni peo alta. De obicei o dimensiune din primul plan este combinatcu o altdimensiune dinadncime. Acest proces se mai numeste imbricareadimensiunilor.

    Dimensiunile unui cub pot fi private sau pot fi utilizate n comun si de altecuburi (ele provin din depozitele cu schema de tip constelatie). Proiectareastructurilor depozitelor de date si a cuburilor OLAP este un proces ce sedesfsoarcontinuu pe tot parcursul existentei (vietii) aplicatiei, dimensiunilecuburilor fiind n strnsdependentcu detaliile activittii structurate.

  • 8/3/2019 Depozite de Date (Data Warehouse)2

    12/13

    Aplicatiile construite cu tehnologia OLAP si gsesc locul n multipleledomenii ale activittii ntreprinderilor, de la finante, bnci, marketing pnlaproductie si vnzri. De exemplu, activitatea de productie poate fi sustinutdeaplicatii OLAP cum sunt: planificarea operatiilor, controlul calittii produselor,analiza rebuturilor, analiza optimizrii raportului dintre cost-beneficii.

    OLAP, utiliznd tehnici inteligente de optimizare, beneficiaz

    de avantajul timpului derspuns mic.

    Crearea aplicatiilor OLAP in Microsoft SQL ServerPentru realizarea unei aplicatii OLAP sunt necesare urmtoarele etape:1. Crearea bazei de date relationale (tranzactionale) care va contine datele curente aleorganizatiei rezultate din tranzactii.2. Crearea bazei de date multidimensionale, a cuburilor si tabelelor de fapte care preiaudatele din baza de date relational. Datele sunt extrase, transformate si ncrcate ntabelele de fapte din tabelele relationale.3. Crearea interfetei aplicatiei ntr-un mediu de programare visual Visual Basic.

    Crearea bazei de date tranzactionale n Microsoft SQL ServerDatele stocate n cadrul organizatiei sunt importate ntr-o noubazdedate tranzactionalce stla baza construirii cuburilor de date. Datele suntorganizate n tabele care corespund dimensiunilor, ierarhiilor si tabelelor defapte ale cuburilor multidimensionale.

    Ca exemplu, se va crea o aplicatie destinatanalizei rezultatelor financiare ale uneibnci comerciale. Se vor analiza volumul depozitelor si volumul creditelor n functie deurmtoarele dimensiuni: agentie, durat, garantie, moned, sector de activitate, timp, tipdepozit, tip client (pers fizicsau juridic). Tabelul de fapte construit va contine doumsuri: volumul depozitelor si volumul creditelor.Crearea tabelelor n Microsoft SQL Server se realizeazprin utilizarea de scripturi, asacum se prezintn exemplul de mai jos: create table agentie (Agentie varchar(20), Zona varchar(10), Tara varchar(10)); create table voldepozite (Agentie varchar(20), Durata varchar(20), Monedavarchar(20), Tipjur varchar(30), Timp varchar (20), Tipdepozit varchar(30),voldep numeric); create table volcredite (Agentie varchar(20), Durata varchar(20), Monedavarchar(20), Tipjur varchar(30), Timp varchar(20), Garantiecredit varchar(20),Sectoractivitate varchar(20), volcredite numeric).

    Crearea bazei de date multidimensionale n SQL Server Produsul Microsoft SQLServer ofersuportul si instrumentele necesare dezvoltrii sistemelor OLAP prin setul deaplicatii SQL OLAP Services, iar gestiunea bazei de date multidimensionale esterealizatde serverul OLAP.

    Se creeazo noubazde date multidimensionalcare va continecuburile de date prin intermediul meniului New Database. Se creeazcuburilecu ajutorul asistentului Cube Wizard.

    Cuburile OLAP utilizeazdatele stocate n tabelele bazei de date tranzactionale.Din acest motiv trebuie configuratconexiunea dintre cubul OLAP si baza de datetranzactionaldin care vor fi preluate datele. Conexiunea cu serverul de baze de dateMicrosoft SQL Server se realizeazcu ajutorul

  • 8/3/2019 Depozite de Date (Data Warehouse)2

    13/13

    Microsoft OLE DB Provider for SQL Server. Dupstabilirea serveruluitranzactional se selecteazsi baza de date tranzactionaldin care se importdatele.

    Aplicatia OLAP contine doucuburi pe care se vor analiza cele doutipuri deoperatiuni bancare: operatiunile pasive (constituirea de depozite) si operatiunile active(acordarea de credite). Pentru fiecare cub se defineste o schemcare contine n centru

    tabelul de fapte legat de dimensiunile corespunztoare fiec

    rei activit

    ti analizate dup

    cum urmeaz:

    1. Cubul Depozite urmreste analiza depozitelor si a dobnzilor pasiverezultate din activitatea curenta bncii. Dimensiunile identificate n cadrul acestei scheme sunt: Agentie,Durata, Moneda, Timp, Tip juridic, TipDepozit. Tabelul de fapte al modelului este VolDepozite avnd ca msurvolumul depozitelor constituite (voldep).2. Cubul Credite urmreste analiza creditelor si a dobnzilor active rezultate dinactivitatea curenta bncii. n cadrul acestei scheme se identificdimensiuni comune cuschema operatiunilor pasive. Acestea sunt:

    Dimensiunile identificate n cadrul acestei scheme sunt: Agentie,Durata, Moneda, Timp, Tip juridic, Garantie credit, Sector activitate. Tabelul de fapte al modelului este VolCredite ce contine msura VolCred (volumulcreditelor).

    Crearea cuburilor se poate face independent (n fereastra Cube Editor) saun mod asistat (prin optiunea Cube Wizard).n ambele cazuri trebuie parcursi urmtorii pasi:1. Alegerea tabelelor din baza de date relationaldin care se importdatele. Dupconfigurarea conexiunii dintre serverul OLAP si baza de datetranzactionalse pot vizualiza tabelele acesteia. O parte din aceste tabele contindate necesare dimensiunilor din cuburi, iar altele furnizeazdate n tabelele defapte.2. Stabilirea tabelului de fapte. n cazul cubului Depozite, tabelul de fapte Vol Depoziteimportdatele din tabelul voldepozite din baza de date relational, iar n cazul cubuluiCredite tabelul de fapte VolCredite importdatele din tabelul volcredite din baza de daterelational.3. Crearea si configurarea dimensiunilor. Se aleg tabelele din baza de date relationaldincare se vor importa datele n tabelele dimensiuni.4. Pentru fiecare dimensiune se stabilesc nivelurile ierarhice. De exemplu, pentrudimensiunea Timp, prezentn ambele cuburi nivelele ierarhice sunt: Luna, Semestru,An.5. Alegerea dimensiunilor care intrn configuratia cubului. Dupcrearea tuturordimensiunilor, se aleg numai cele care participla configuratia cubului.6. Stabilirea optiunilor de stocare si procesare a datelor din cubul OLAP.