Depozite de Date - Badescu

download Depozite de Date - Badescu

of 15

Transcript of Depozite de Date - Badescu

  • 7/28/2019 Depozite de Date - Badescu

    1/15

    Referat

    Depozite de date procesare in-memory

    Autor: Badescu ViorelGrupa 1068

    An IIASE - Masterat Informatica Economica Aprofundare

  • 7/28/2019 Depozite de Date - Badescu

    2/15

    Cuprins

    Aspecte fundamentale ale depozitelor de date ....................................................... 3

    Organizarea datelor in depozitele de date ...............................................................3

    Facilitati ale depozitelor de date ...............................................................................5

    Arhitectura pe componente a depozitelor de date ................................................. 5

    Realizarea depozitelor de date ................................................................................. 6

    Produse software pentru lucrul cu depozite de date............................................... 7

    Procesarea in-memory ...............................................................................................9

    Procesarea in-memory pentru depozite de date .................................................... 11

    Concluzii ................................................................................................................... 14Bibliografie ............................................................................................................... 15

    2

  • 7/28/2019 Depozite de Date - Badescu

    3/15

    Aspecte fundamentale ale depozitelor de date

    Depozitele de Date (Data Warehouse) reprezinta rezultatul interferentei mediuluieconomic si al tehnologiilor informatice avansate.Mediul economic este tot mai competitive, tinde spre globalizare, devine tot mai

    complex si solicita informatii elaborate pentru sprijinirea deciziilor strategice. Evolutiatehnologiilor informatice ofera solutii eficiente de gestionare a unor volume foarte maride date integrate ( de ordinal TB) asigurand niveluri de sinteza si detaliere adecvate.Costul realizarii unui depozit de date este foarte mare si recuperarea se face in timpindelungat. Dintre aceste costuri, 1/3 se cheltuiesc cu software necasar, 1/3 cu hardwaresi 1/3 cu servicii profesionale.

    Depozitele de date furnizeaza arhitecturi si interfete utile conducerii executive

    prin organizarea sistematica, intelegerea si utlizarea datelor in luarea deciziilor strategice,intr-un mediu economic competitiv si in rapida evolutie. Managerii au inteles ca datestocate de sistemele informatice operationale, in fisiere sau baze de date, reprezinta omina de aur informational care se cere exploatata.

    Cele mai importante domenii in care se preteaza bine aplicarea depozitelor de datesunt: bancile, asigurarile, telecomunicatiile, hipermarketurile, transporturile etc. In acestedomenii, au o foarta mare importanta datele istorice din ultimii cinci-zece ani.

    Parintele necontestat al tehnologiei depozitelor de date este William Inmon, iarviziunea sa se concentreaza asupra rolului acestora ca baza informationala a decizieimanageriale, pastrand un nivel inalt de generalitate si permitand unor multipleimplementari sa inte in sfera acestei notiuni.

    Depozitul de date este un ansamblu de colectii de date de dimensiuni foarte mari,care este intretinuta separat de bazele de date operationale ale unei organizatii si care esteconstruita din date provenite din sistemele sursa, prin operatii de extragere, filtrare,transformare si stocare, in depozite speciale, in scopul sprijinirii proceselor decizionale.

    Organizarea datelor in depozitele de date

    Sursele de date pentru depozitul de date provin, in special, din datele importatedin sistemul informatic operational, dar mai pot proveni si din datele de arhiva perecumsi din sursele externe ( date publice, date demografice, date statistice, date obtinute inurma unor sondaje de opinie etc.).

    Informatiile sunt organizate in depozitele de date intr-o maniera care sa permitaanalizarea lor complexa, deci extragerea semnificatiei economice pe care o poarte. Dateleoperationale (BD sau fisiere) sunt orientate pe aplicatii, in sensul ca organizarea lor esteoptimizata pentru a servi procesului tranzactional, dinamicii sistemului. De exemplu, ocomanda lansata de un client va aparea in sistemul operational ca un set de inregistraricare vor contine date despre client, despre produsele sau serviciile comandate, despremodul de transport si despre modul de plata.

    3

  • 7/28/2019 Depozite de Date - Badescu

    4/15

    Depozitul de date este orientat pe subiectele importante alea procesului economic:clientii, furnizorii, produsele, activitatile etc.

    Integrarea datelor reprezinta un aspect important al depozitului de date si anumeratiunea pentru care acesta este creat. Datele sunt adunate pentru a raspunde nevoilorinformationale ale intregii organizatii, asigurand faptul ca rapoartele generate pentru

    diverse compartimente vor contine aceleasi rezultate.Sistemul operational este format din mai multe subsisteme, relativ independente, create lamomente diferite, de echipe diferite, in maniere diferite, ceea ce face greoaie folosireaunui astfel de sistem pentru analiza.

    Integrarea datelor provenind din sistemul operational si din alte surse se refera laurmatoarele aspecte:

    - modalitatile unice de codificare exista nenumarate variante de a codifica uncamp, insa o aplicatie pentru analiza datelor va trebui sa se bazeze pe ocodificare unica

    - sistemul de unitati de masura unitar - unitatile de masura pentru diferitelecampuri trebuie exprimate intr-un sistem unic ( de exemplu metrul)

    - sistemul stabil de reprezentare fizica a datelor in aplicatiile tranzactionateeste posibil ca aceleasi date sa fie memorate in moduri de organizare diferite.Acestea trebuie stabilizate dupa anumite reguli precise, stabilite la proiectare.

    - conventiile standard privind modul de reprezentare a datelor - datelecalendaristice, campurile care definesct timpul; trebuie sa respecte conventiileinternationale;

    - conventiile unice privind denumirile campurilor de date in sistemuloperational acestea pot sa difere de la o aplicatie la alta, iar in depozitele dedate ele trebuie sa fie unice, datorita necesitatii lucrului in echipa.

    Sistemul operational al unei organizatii tinde mereu sa reflecteze realitateacurenta. Astfel, el se afla intr-o continua evolutie, iar datele pe care le contine sunt

    relevante doar pentru momentul in care acestea sunt accesate. Orizontul de timp pe care ilacopera este de regula zile sau luni, deoarece dupa acest interval tranzactiile efectuatesunt arhivate, fiind considerate deja de domeniul istoriei, deci neinteresante dinperspectiva operativa.

    Pentru realizarea unei analize economice este nevoie de date cu caracter istoric.Acestea sunt esentiale deoarece pun in evidenta fundamentul unei prognoze corecte.Depozitul de date este un istoric al sistemului operational. Ca si orizont de timp,depozitul de date este de cel putin cinci ani, putand sa ajunga uneori chiar la zece saucincisprezece ani in functie de dinamica evolutiei pietei si de relevanta datelor. Din punctde vedere tehnic, analiza economica implica faptul ca orice inregistrare din depozitul dedate poate fi plasata in timp, iar orice cheie de acces cuprinde si o variabila de timp.

    La depozitele de date actualizarea este foarte rara, deci dinamica lipseste.Actulizarea se realizeaza doar prin adaugarea periodica a unor date extrase din alte sursede date sau sisteme operative prin utilizarea unor campanii.In cazul depozitelor de date mecanismele de integritate sunt inutile, asfel ca gradul delibertate castigat poate fi utilizat pentru utilizarea accesului la date prin sumarizare,denormalizare, statistici ale accesarii datelor, reorganizare dinamica etc.

    Un depozit de date contine un volum foarte mare de date. Unele dintre acesteaprovin din sursele organizationale ale organizatiei, iar altele din surse externe.

    4

  • 7/28/2019 Depozite de Date - Badescu

    5/15

    Facilitati ale depozitelor de date

    Cresterea volumului de date, precum si perfectionarea produselor software degestiune a acestuia, au condus la o noua calitate a utilizarii datelor prin analize care potreleva conducerii organizatiei informatii greu sau chiar imposibil de obtinut pe alte cai.Pentru a obtine informatiile dorite, depozitele de date sunt supuse unor prelucraricomplexe, cu ajutorul unor metode specifice, cum ar fi: analiza multidimensionala adatelor, metode statistice superioare de prognoza, metode matematice aplicate unuivolum foarte mare de date. Aceste metode presupun folosirea unui software specializatdeosebit de complex, bazat pe noi tehnologii informatice: extrageri de date ( datamining), OLAP, concentrari de date ( data mart) etc.

    Arhitectura pe componente a depozitelor de date

    Arhitectura pe componente a depozitului de date evidentiaza elementelecomponente si anume: sursa de date ( date externe, date interne si date arhivate),depozitul de date ( metadate, date agregate si date detaliate) si interfetele de analiza( Data Mart, Data Mining, OLAP).

    Metadatele descriu datele continute in depozitul de date si modul in care ele sunobtinute si stocate. Acestea precizeaza structura datelor, provenienta lor, regulile detransformare, de agregare si de calcul.

    Datele agregate, desi determina o crestere a redundantei datelor, sunt necesare indepozitul de date deoarece in acest fel se poate asigura un timp mediu de raspuns cat mairedus. Aceste date presupun un grad de prelucrare prealabila, astfel incat sa fie pregatitepentru nevoile managementului: consolidare, totalizare, sumarizare, impachetare etc.

    5

  • 7/28/2019 Depozite de Date - Badescu

    6/15

    Figura 1: Componentele software ale depozitelor de date

    Datele detaliate sunt cele relativ recente, livrate utilizatorilor, de regula la nivel deexecutie. Tot aici se gasesc date avend o anumita vechime, de cativa ani, in formadetaliata.

    Construirea depozitului de date, pornind de la sursele de date presupuneparcurgerea urmatoarelor detalii:- extragerea datelor din datele operationale si transformarea lor in formatul si

    structura datelor din depozitul de date;- filtrarea datelor, pentru verificarea corectitudinii datelor;- incarcarea datelor corecte in depozitul de date;- agregarea datelor: totaluri precalculate, subtotaluri, valori medii, care se

    preconizeaza ca vor fi cerute de utilizatori.

    Realizarea depozitelor de date

    Realizarea unui depozit de date presupune aplicarea unei scheme de analizaeconomica pentru a determina masura inc are depozitul de date este necesar si eficient:- trebuie sa furnizese avantaje competitive;- poate determina cresterea productivitatii;- faciliteaza gestiunea relatiilor cu clientii;- determina reducerea costurilor prin evidentierea tendintelor, directiilor si

    exceptiilor pe perioade lungi de timp.In continuare sunt prezentate cateva viziuni in ceea ce priveste realizarea unui depozit dedate:

    - de sus in jos ( top down view) permite selectarea informatiilor relevantenecesare in depozitul de date;

    - datele sursa ( data source view) exprima informatiile culesa, stocate sigestionate de sistemele operationale.- depozitele de date ( data warehous view) are in vedere tabele de fapte si tabele

    dimensiune si reprezinta informatiile care sunt stocate in depozitele de date,incluzand contorizari si totaluri precalculate, precum si informatii privitoare lasursa, data calendaristica, origine, adaugate pentru a furniza contextul istoric;

    - interogare (business query view) ofera o perspectiva din punctul de vedere alutilizatorului;

    Ca si metodologii de lucru in procesul de proiectare si implementare a sistemelor cudepozite de date cele mai utilizate sunt: de sus in jos ( top - down) si de jos in sus( bottom- up).Implementarea depozitelor de date presupune parcurgerea mai multor etape:

    1) definirea ariei de cuprindere;2) crearea planului de implementare pentru versiunea curenta;3) implementarea propriu-zisa a depozitului de date;4) stabilirea schemei depozitului de date;5) construirea metadatelor depozitului de date;6) modul de acces la date7) incarcarea depozitului de date;

    6

  • 7/28/2019 Depozite de Date - Badescu

    7/15

    8) instruirea beneficiarului;9) testarea depozitului de date;

    Produse software pentru lucrul cu depozite de date

    Majoritatea firmelor productoare de software pentru baze de date s-au orientat

    ctre implementarea unui modul specific depozitelor de date, ns n topul preferinelor seafl Oracle Warehouse Builder, aparinnd companiei Oracle si SQL Analysis Manager,

    produs de Microsoft. Aceste dou instrumente beneficiaz de experiena i puterea

    financiar a companiilor productoare i au reuit s se impun pe pia ca soluii viabile.

    Modulele principale pe care le poate folosi dezvoltatorul n proiectarea

    depozitului de date se refer la:

    - stabilirea surselor de date: baze de date de pe serverul compatibil sau dintr-o altsurs agreat;

    - stabilirea tabelelor de fapte: cmpuri, chei, msuri etc.;

    - stabilirea dimensiunilor din depozitul de date: ierarhii, surse de date;- stabilirea valorilor calculate i a agregrilor;- stabilirea drepturilor de utilizare i a politicilor de securitate privind accesul.

    Evoluia continu a acestor produse software se concretizeaz ntr-o utilizare din

    ce n ce mai facil; de exemplu, utilizatorul poate gestiona vizual diferite elemente

    precum msuri, ierarhii, dimensiuni, valori agregate. De asemenea, aceste produse permit

    utilizatorului gestionarea facil a metadatelor, orice modificare efectuat asupra structurii

    depozitului fiind reflectat n cadrul seciunii de metadate.

    1) Oracle Business Intelligence Discoverer este o interfata interactiva deinterogare, analiza, raportare si de publicare WEB, care ofera utilizatoriloracces rapid la informatii.

    Facilitatile oferite de Oracle BI Discoverer pot fi grupate din doua puncte devedere: al afacerii si al tehnologiei utilizate.

    Din punct de vedere al afacerii, interfata Oracle BI Discoverer ofera :- ascunde complexitatea structurii datelor;- ajuta utilizatorul sa se concentreze pe rezolvarea problemelor;- ofera o solutie integrata si completa de Inteligenta Afacerii;

    Din punctul de vedere al tehnologiilor utilizate, Oracle BI Discoverer permite:- regasirea datelor intr-o baza de date relationala sau multidimensionala;

    - accesarea datelor rapid si eficient, fara a fi necesara o cautare in toate baza dedate;- vizualizare datelor intr-un format agreat de utiliazatori;- analiza complexa a datelor;- cautarea datelor dupa anumite conditii simple sau complexe;- ordonarea datelor dupa anumite chei;- construirea de rapoarte de diferite tipuri si afisarea lor;

    7

  • 7/28/2019 Depozite de Date - Badescu

    8/15

    - partajarea datelor intre diferiti utilizatori sau intre diferite aplicatii informaticecare ruleaza sub diferite sisteme;

    2) Oracle Warehouse Builder (OWB)- OWB permite proiectarea i construirea depozitelor de date, a centrelor de date(data mart) i a aplicaiilor BI (Business Intelligence)

    - OWB conine un set de instrumente grafice care asist utilizatorul n proiectare,pentru crearea obiectelor memorate ntr-un spaiu de lucru (workspace) memoratn baza de date Oracle- Toolset-ul Design Center permite importul obiectelor surs i proiectareaproceselor ETL i a obiectelor de coresponden (mapping)- Un mapping (mapare) definete un flux de date de la surs la depozitul int(target warehouse)- OWB genereaz codul pentru extragerea, transferul i ncrcarea datelor(procesul ETL)-Toolset-ul Repository Browser asigur o interfa Web pentru inspectareametadata din depozit

    - Control Center Service controleaz deploymentul bazei de date target-Schema depozitului creat (target schema) conine: codul generat, cuburile,dimensiunile, tabelele, vederile, maprile i pachetele care execut procesul ETL

    3) Microsoft SQL Server 2000 Analysis Services include Analysis Manager, oaplicatie consola, care ofera o interfata utilizator pentru accesarea serverelor de analiza siregistrele lor de metadate. Analysis Manager poate fi utilizat pentru:

    - administrarea serverelor de analiza. Mai multi utilizatori pot administra unserver;

    - crearea de baze de date si depozite de date din surse de date specifice;- construirea si procesarea de cuburi. Cuburile sunt descrise de dimensiuni i

    conin msuri ale datelor care ne intereseaz. ntr-o implementare relaional cubul esterealizat ca o tabel relaionala, n timp ce n mediul OLAP cubul este creat ca o structurseparat.

    - specificarea optiunilor de stocare si optimizarea performantei interogarilor;- managementul securitatii;- cauta surse de date, roluri de securitae si alte obiecte.

    O comparaie ntre bazele de date i depozitele de date pune nvaloare rolul depozitelor de date, ca model de organizare i surs suport de informaiipentru fundamentarea deciziei. Atat bazele de date cat i depozitele de date suntstructuri logice de organizare de date, exploateaz tehnologii informatice

    de organizare i gestiune de date diferite i nmagazineaz mari cantiti de date.Diferenele semnificative ntre cele dou modele de organizare logic de date pot fistructurate astfel:

    - Bazele de date din sistemele informatice conin date curente, detaliate,care sunt actualizate i interogate n aceleai perioade cu culegerea iprocesarea lor i fac obiectul sistemelor informatice de prelucrare atranzaciilor (TPS). Depozitele de date sunt construite special ca sistemesuport de asistare a deciziei i au ca obiectiv regruparea i consolidarea

    8

  • 7/28/2019 Depozite de Date - Badescu

    9/15

    datelor, agregarea i sintetizarea lor, reorganizarea i stocarea informaiilorprovenite din surse diverse i variate de date inclusiv date multimedia,hipermedia i de localizare spaial i fac obiectul sistemelor informaticeinteligente sisteme suport de asistare a deciziei (DSS). Ele seaplic asupra unor volume foarte mari de date, eterogene, constituite ca

    depozite de istoric/arhiv de date i presupun calcule complexe (analiz detendin, corelaii ntre evenimente, asociaii intreanumite fapte, secvene, tipare de comportament, modele de cunoatere) ;

    - Sistemele de gestiune a bazelor de date sunt adecvate aplicaiilor curente degestiune i servesc la crearea i ntreinerea sistemelor de baze de datetranzacionale OLTP (OnLine Transaction Processing) i au ca obiectivexecuia n timp real a tranzaciilor zilnice (aprovizionare, vnzari, stocuri,producie, decontri, plti, activiti de marketing i management,contabilitate) ct i a procedurilor de interogare (Query).Sistemele de gestiune a depozitelor de date, pe de alt parte, servesc topmanagerii, managerii, utilizatorii sau specialitii n domeniul analizei

    i fundamentrii deciziei, fac obiectul sistemelor informatice OLAP (OnLineAnalytical Processing) i ofer tehnologii de agregare a datelor stocate ndepozitele de date ntro abordare multidimensional, cu acces rapid lainformaiile necesare, ntro manier consistent, interactiv ifoarte flexibil;

    - Un sistem OLTP este centrat pe client (customer oriented) i este utilizatpentru procesarea tranzaciilor i interogrilor din bazele de date constituiteoperaional, baze care pot oferi rspunsuri la ntrebri de tipul Cine?, Ce?,Unde?, Cnd? prin analiza datelor de tip numeric sau statistic. Un sistemOLAP este orientat spre pia (maket oriented) i este utilizat de manageri,analiti, specialiti prin instrumente FASMI (Fast Analysis Shared

    Multidimensional Information) de analiza rapid a informaieimultidimensionale distribuit n locaii multiple i accesibil n acelaitimp unui numr mare de utilizatori pentru analize complexe prinagregare, sintetizare, consolidare i care permit construirea de scenarii,prin posibilitatea de a rspunde la ntrebri de tipul Ce ar fi dac?pentru a descoperi ntre evenimente, asociaii ntre anumite fapte, secvenei tipare de comportament;

    - Tehnologiile OLAP utilizeaz bazele de date multidimensionale,construite de regul din date de istoric sau date care provin de ladiferite organizaii ,integrnd informaii din surse eterogene, de tipuri inaturi diferite. Tehnologiile OLTP utilizeaz baze de date relaionale, caresunt bidimensionale prin definiie, fiind focalizate pe datele curente dintr-o organizaie sau departament fr a referi date istorice sau date din alteorganizaii.

    Procesarea in-memory

    Existenta business-urilor care solicita accesul rapid si usor la informatii in scopulde a lua decizii corecte si rapide a dus la aparitia tehnologiei procesarii in-memory, o

    9

  • 7/28/2019 Depozite de Date - Badescu

    10/15

    tehnologie in curs de dezvoltare, dar care se bucura de o atentie deosebita. Aceastatehnologie permite utilizatorilor sa aiba acces imediat la informatiile ce provin dindiferite parti. In tehnologa Business Intelligence traditionala, datele sunt incarcate sisalvate pe disc sub forma tabelelor, bazelor de date, depozite de date etc. iar apoi suntprocesate prin interogari. Utilizarea tehnologiei in-memory presupune incarcarea datelor

    in RAM (Random Access Memory) in loc de hard disk si, prin urmare timpul deprocesare a datelor scade semnificativ.Fiecare calculator are doua tipuri de mecanisme de stocare a datelor pe hard

    disk si in memoria RAM. Computerele moderne au un spatiu de salvare pe disc mult maimare decat in RAM, dar citirea datelor se face mult mai lent (de sute de ori mai incet)mai ales cand este vorba de citirea datelor de dimensiuni foarte mari, cum sunt depozitelede date. Tehnologiile traditionale bazate pe lucrul cu hard diskul sunt cunoscute si casisteme de management al bazelor de date relational, cum ar fi SQL Server, MySQL,Oracle si multe altele. RDMS(Relational Databaze Management Systems) sunt conceputesa pastreze in memorie procesele tranzactionale. Lucrand cu o baza de date care suportaatat adaugari, modificari cat si agregari de date, procese de jonctiune toate acestea nu pot

    fi realizate simultan. De asemenea SQL(Structured Query Language) este conceputpentru a prelucra eficient randuri de date, in timp ce procesele de Business Intelligenceimplica prelucrarea partiala a unor date si efectuarea in acelasi timo de calcule grele.

    Aparitia bazelor de date centrate pe coloana a determinat stocarea mult maieficienta a datelor, aparand astfel posibilitatea stocarii datelor in memoria RAM. Cu bazade date in memorie, toate informatiile sunt incarcate initial in memorie.

    Cele mai multe instrumente de procesare in-memory folosesc algoritmi decompresie care reduc dimensiunea de datelor stocate. Utilizatorii interogheaza dateleincarcate in memoria sistemuli, evitandu-se astfel accesarea bazei de date care duce laingreunarea procesului. Acest lucru este diferit de lucrul cu memoria cache, o metodafoarte utilizata pe scara larga pentr a accelera performantele de interogare, in care cache-

    urile sunt zone de memorie in care sunt plasate subseturi de date. Utilizand instrumentelede procesare in-memory, datele pentru analiza pot fi foarte mari, organizate in depozitede date, concentrari de date sau depozite mai mici de date aflate in intregime in memorie.Aceste structuri de date pot fi accesate in termen de cateva secunde de utilizatoriconcurenti pentru diferite interogari. Teoretic exista o crestere a vitezei de acces la datede la 10.000 la 1.000.000 de ori fata de accesarea si procesarea datelor aflate pe disc.

    Factori care au determinat aparitia produselor de procesare in-memory sunt:- aparitia hardware-ului mai ieftin si cu performante ridicate. Conform legii lui

    Moore, puterea de calcul se dubleaza la fiecare doi sau trei ani, in timp cecosturile scad. Inovatiile hardware, cum ar fi arhitectura multi-core, servere deprocesare paralela, capacitedea de procesare mai mare in memorie si aparitiasoftware-lui bazat pe baze de date orientat pe coloane si tehnici de compresiesi de manipulare a tabelelor agregate au condus la dezvoltarea tot maiaccentuata a produselor de procesare in-memory.

    - Sistemele de operare pe 64 biti. Aparitia la scara tot mai larga a procesoarelorputernice si a sistemelor de operare pe 64 biti a dus la dezvoltarea procesariiin-memory. Sistemele de operare pe 64 biti permit accesul mult mai mult lamemoria RAM(pana la 100 GB RAM) fata de 2-4 GB RAM la sistemele pe32 biti.

    10

  • 7/28/2019 Depozite de Date - Badescu

    11/15

    - Volumele mari de date nu mai pot fi salvate in depozite de date traditionale.Procesele ETL care actualizeaza periodic depozitele de date pot dura de lacateva ore pana la saptamani pentru volume foarte mari de date. Procesarea inmemorie faciliteaza accesul imediat la terabytes de date pentru raportarea intimp real.

    - Costuri reduse. Procesarea in-memory este disponibila pentru preturi relativmici, iar produsele pot fi usor instalate si intretinute in comparatie cuprodusele traditionale de BI. Conform unui sondaj Gartner, implementareasolutiilor de BI traditionale poate dura 17 luni. Multi comercianti de produsepentru realizarea depozitelor de date aleg implementarea procesarii in-memory in schimbul BI traditional pentru a diminua timpul de implementare.

    - Comerciantii de servicii de procesare in-memory ofera posibilitatea conectariila surse de date existente si pun la dispozitie tablouri de bord interactivepentru utilizatori si analistii de business. Navigarea usoara si posibilitatearealizarii rapide a diverselor interogari este un factor ce atrage multiutilizatori.

    Utilizand tehnologia de procesare in-memory sursa de date este accesata o singuradata in loc de accesarea acesteia la fiecare interogare, reducandu-se astfel sarciniiserverelor de baze de date.

    Securitatea trebuie sa fie tratata ca un punct foarte important in momentulimplementarii unei solutii de procesare in-memory, deoarece se expun cantitati imense dedate utilizatorilor finali. Trebuie sa se aiba grija cine are acces la aceste date, unde si cumsunt aceste date stocate. Utilizatorii finali descarca volume imense de date pe calculatoareproprii unde acestea pot fi modificate sau pierdute. Trebuie luate masuri pentru a asiguraaccesul la date doar pentru utilizatorii autorizati.

    Procesarea in-memory pentru depozite de date

    Depozitele de date sunt folosite pentru a stoca volume mari de date pentru analiza.Acestea colecteaza date dintr-o varietate de surse si stocheaza datele astfel incat sa fiedisponibile pentru o mare varietate de interogari. Potrivit unor arhitecturi, imediat dupace datele sunt primite si prelucrate de un depozit de date, acestea sunt stocate intr-unsistem de management al bazelor de date. De exemplu depozitul de date poate fi oaplicatie software care opereaza pe unul sau mai multe computere. La diferite puncte detimp in prelucrarea datelor, depozitul de date poate interfera cu un sistem de managemental bazelor de date pentru a stoca date intr-o anumita tabela. Tabelele accesate dedepozitul de date in momentul unei cereri sunt o tabela activa si tabela de log arespectivei baze de date. Tabela activa poate stoca valori de date, care sunt curente, la unanumit moment, pe cand, tabela de log stocheaza modalitatea in care datele au fostschimbate in timp. O problema cu arhitectura prezentata o reprezinta interbalul de timpasociat cu accesarea datelor stocate in tabelele sistemului de baze de date. De fiecare datacand este primita o inregistrare, datele sunt citite din tabelul de date activ in baza de datesi incarcate in depozitul de date ce face cererea.

    Procesarea in-memory a depozitelor de date presupune stocarea intr-o structura debaze de date a datelor din depozite de date, aceste baze de date aflandu-se in memoriaRAM. Datele primite de la depozitul de date poti fi stocate intr-o coada si incarcate in

    11

  • 7/28/2019 Depozite de Date - Badescu

    12/15

    strucura de stocare a datelor in conformitate cu reguli prestabilite. Datele stocate suntasociate cu tranzactii in memorie, iar datele ce urmeaza a fi preluate sunt comparate cudatele care au fost deja stocate. Se realizeaza astfel o mapare pentru asocierea cereriloraplicate de depozitul de date cu tranzactiile de baze de date din memorie.

    Figura 2: Pocesarea in-memory a depozitelor de date

    Figura ilustreaza un depozit de date si o baza de date in memorie. In acestexemplu, o aplicatie cu depozite de date (301) depoziteaza date de la o baza de datestocata in memorie (310).

    Tabelul 1 prezinta un exemplu de trei inregistrari de date de la (302) sursa de date

    care urmeaza sa fie stocata in baza de date din memorie(310).Record number Customer Amount Record mode1 Abc co 10 New2 Xyz co 5 New3 Aaa co 6 New

    Tabelul 1Fiecare inregistrare de date contine un numar de inregistrare, client, suma si mod

    de inregistrare.

    12

  • 7/28/2019 Depozite de Date - Badescu

    13/15

    Aplicatia pentru depozite de date (301) poate stoca datele de la sursa de date(302)folosind unul sau mai multe cereri de date(303). Fiecare cerere de stocare a datelor poateavea atribuit un identificator unic(de exemplu un numar) de catre aplicatia pentrudepozitul de date(301). In acest exemplu, in baza de date din memorie(310) sunt stocatedatele din depozitul de date al aplicatiei (301) intr-o structura de tip coada(304). In acest

    exemplu coada poate fi stocata ca o coloana din tabela, dar in alte exemple pot fi folositealte structuri pentru salvarea acesteia, cum ar fi tabele relationale sau obiecte. Prinurmare, cele trei inregistrari din tabela 1 sunt stocate in coada de asteptare 304 dupa cumse arata in tabelul 2, de mai jos. Transferul de date de la depozitul de date al aplicatiei(301) la coada de mesaje(304) poate fi efectual utilizand o singura cerere de stocare adatelor sau mai multe. In exemplul dat, cele trei inregistrari sunt stocate in coada folosindo singura cerere, careia ii este atribuit un numar de cerere(CERERE =1). Pe masura cefiecare inregistrare din tabela este stocata in coada de asteptate, numarul de cerere careproduce inregistrarea se inregistraza in tabelul 2.Request Record number Customer Amount Recort mode1 1 Abc co 10 New

    1 2 Xyz co 5 New1 3 Aaa co 6 NewTabelul 2.

    Baza de date din memorie(310) mai include o strucura de stocare a datelor(305).In acest exemplu, aceasta structura de stocare(305) este de asemenea un tabel. Tabelul 3arata schema pentru strucutura de stocare 305. Pentru motive ilustrative, tabelul 3 esteprezentat initial ca fiind gol:Customer Amount $cid_from$ $cid_to$

    Tabelul 3.Structura de stocare 305 poate stoca valori de la inregistrarile de date primite de la

    aplicatia pentru depozitul de date(301), de exemplu coloanele client si suma au fost

    preluate. Inregistrarile de date primite de la aplicatia pentru depozitul de date pot fi deasemena manipulate folosinduse reguli de codficare (351). Campul $cid_from$ dintabelul 3 stocheaza o valoare unica in baza de date din memorie(305). Deoarece datelesunt stocate intr-o structura de date, numarul de tranzactie care a cauzat stocarea datelorva fi stocat in campul $cid_from$. Campul $cid_to$ salveaza in tabela un identificatorunic cauzat de modificarea in structura de stocare(305) a datelor existente. Modificari potsa apara cand noi valori pentru datele stocate existente sunt inregistrat sau cand suntsterse o parte din date. In consecinta, datele sunt valide la numarul de tranzactie dincampul from pentru toate tranzactiile de baze de date din memorie, pana la numarul detranzactie din campul to.Semnul $ indica faptul ca aceste campuri poti fi ascune inunele implementari.

    Baza de date din memorie(310) include o structura de date de cartografiere,mapare(306) care poate fi reprezentata tot printr-o tabela -> tabela 4.Request $cid_from$

    Tabelul 4.Atunci cand datele sunt transferate de la coada(304) la structura de stocare(305),

    306 asociaza cererile realizate de aplicatia pentru depozitul de date (301) cu tranzactiilerealizate in baza de date stocata in memorie(305). In acest exemplu, 306, mappinginclude un camp request si unul $cid_from$. Campul requestretine request

    13

  • 7/28/2019 Depozite de Date - Badescu

    14/15

    number din depozitul de date asociat cu fiecare record din coada de mesaje. Acesteinformatii pot fi utilizate pentru a furniza depozitului de date datele modificate.

    In unele implementari, datele poti fi transferate de la coada de asteptare (304) lastructura de stocare(305) ca raspuns la un semnal extern, cum ar fi semnalul deactivare(350) care este primit in baza de date din memorie de la depozitul de date al

    aplicatiei pentru a comite o cerere asupra datelor aflate in baza de date din memorie.

    Request Recorn number Customer Amount Record modeTabelul 5.

    Customer Amount $cid_from$ $cid_to$IBM 10 753SAP 5 753HP 6 753

    Tabelul 6Request $cid_from$1 753

    Tabelul 7Asa cum am ilustrat in tablul 6, dupa activare, datele de la coada(304) sunt

    incarcate in structura de stocare(305), coada poate sa fie golita si se realizeaza o maparepentru asocierile dintre tranzactii si cererile realizate de depozitul de date, asocieri salvatein tabelul de mapare.

    Regulile prezentate mai sus sunt doar cateva exemple cum depozitele de date suntprocesate in memorie.

    Pentru recuprarea datelor, aplicatia pentru depozitul de date(301) poate generea sitrimite o cerere de recuperare a datelor (309) catre baza de date din memorie(310).Recuperarea datelor(309) poate fi folosita pentru a extrage datele din baza de date in-memory(310) intr-un format de date acceptat de depozitul de date. In acest exemplu,

    aplicatia pentru depozitul de date(301) foloseste o viziune(308) care poate declansa oschimbare a calculului valorilor din baza de date pe baza unui script rulat tot in-memory(307). Scriptul de calcul citeste datele active stocate in baza de date in-memory(305), calculeaza valorile corespunzatoare si intoarce valorile catre viziune(308).

    Concluzii

    Pe baza articolelor parcurse in realizarea acestui referat consider ca tehnologia deprocesare a depozitelor de date in-memory reprezinta un mare progres tehnologic indomeniul informaticii si fiind o solutie relativ noua permite diverse abordari siposibilitatea aparitiei de imbunatatiri. Plusul adus de aceasta tehnologie domeniului IT

    consta in reducerea timpului de prelucrare a cantitatilor mari de date ceea ce duce lausurarea muncii depuse de angajati si obtinerea rezultatelor necesare in timp record.Domeniul inteligentei afacerilor este un domeniu care are nevoie de sisteme care

    sa realizeze rapid interogari si sa raspunda cerintelor complexe in timpi redusi fiind undomeniu in care timpul este foarte important. Astfel de sisteme sunt cele bazate peprocesarea in-memory a datelor, bazate pe aducerea cat mai aproape de unitatea centralade procesare a datelor ce trebuiesc prelucrate.

    14

  • 7/28/2019 Depozite de Date - Badescu

    15/15

    Bibliografie

    http://www.accenture.com/us-en/blogs/analytics/archive/2012/11/01/how-the-data-warehouse-evolved-into-in-memory-hana.aspxhttp://en.wikipedia.org/wiki/In-Memory_Processinghttp://www.freepatentsonline.com/20120259809.pdfhttp://www.freepatentsonline.com/y2012/0259809.htmlhttp://www.editurauranus.ro/marketing-online/12/pdf/4.pdfhttp://www.cio.com.au/article/373945/in-memory_computing/andrei.clubcisco.ro/.../f/f.../Depozite_de_date.ppt

    http://www54.sap.com/solutions/tech/data-warehousing/software/netweaver-business-warehouse/index.htmlhttp://msdn.microsoft.com/en-us/library/aa178261(v=sql.80).aspx

    15

    http://www.accenture.com/us-en/blogs/analytics/archive/2012/11/01/how-the-data-warehouse-evolved-into-in-memory-hana.aspxhttp://www.accenture.com/us-en/blogs/analytics/archive/2012/11/01/how-the-data-warehouse-evolved-into-in-memory-hana.aspxhttp://en.wikipedia.org/wiki/In-Memory_Processinghttp://www.freepatentsonline.com/20120259809.pdfhttp://www.freepatentsonline.com/y2012/0259809.htmlhttp://www.editurauranus.ro/marketing-online/12/pdf/4.pdfhttp://www.cio.com.au/article/373945/in-memory_computing/http://www54.sap.com/solutions/tech/data-warehousing/software/netweaver-business-warehouse/index.htmlhttp://www54.sap.com/solutions/tech/data-warehousing/software/netweaver-business-warehouse/index.htmlhttp://msdn.microsoft.com/en-us/library/aa178261(v=sql.80).aspxhttp://www.accenture.com/us-en/blogs/analytics/archive/2012/11/01/how-the-data-warehouse-evolved-into-in-memory-hana.aspxhttp://www.accenture.com/us-en/blogs/analytics/archive/2012/11/01/how-the-data-warehouse-evolved-into-in-memory-hana.aspxhttp://en.wikipedia.org/wiki/In-Memory_Processinghttp://www.freepatentsonline.com/20120259809.pdfhttp://www.freepatentsonline.com/y2012/0259809.htmlhttp://www.editurauranus.ro/marketing-online/12/pdf/4.pdfhttp://www.cio.com.au/article/373945/in-memory_computing/http://www54.sap.com/solutions/tech/data-warehousing/software/netweaver-business-warehouse/index.htmlhttp://www54.sap.com/solutions/tech/data-warehousing/software/netweaver-business-warehouse/index.htmlhttp://msdn.microsoft.com/en-us/library/aa178261(v=sql.80).aspx