pdi notes

Big data reprezint, prin excelen, seturi de date nestructurate, aflate sau nu n proprietatea unei companii, generate anonim sau nu, att de utilizatori, via web, dar i de senzori, camere, soluii de monitorizare, echipamente etc., n cele mai diverse formate i standarde.Big Data este definit de obicei folosind cei trei Vs, definiti de Gartner1 dupa cum urmeaza: Volum: Cresterea volumelor de date in sisteme de tip enterprise este cauzata de volumul tranzactiilor si a altor tipuri de date traditionale, precum si de noi tipuri de date. Un volum prea mare de date reprezinta o problema de stocare, dar prea multe date, de asemenea, presupun o problema masiva de analiza a datelor.Viteza: Acest lucru implica fluxuri de date, crearea de inregistrari structurate, precum si disponibilitatea pentru acces si livrare. Viteza inseamna atat rapiditatea cu care datele sunt produse cat si rapiditatea cu care datele trebuie sa fie prelucrate pentru a satisface cererea.Varietate: Varietatea include date tabelare (baze de date), date ierarhice, documente, e-mailuri, date de contorizare, video-uri, imagini statice, audio, date stoc ticker, tranzactii financiare si altele. Miza big data o reprezint captarea informaiilor despre pia, clieni, produse i servicii, analiza acestora i obinerea unui avantaj competitiv.==================================================================Apache Spark a inceput ca un proiect de cercetare la UC Berkeley inAMPLab, si se baza pe analiza volumelor mari de date.Scopul lor era sa implementeze un model de programare care sasuporte o clasa mai larga de aplicatii decat MapReduce si in acelasitimp sa pastreze toleranta automata la erori.In special, MapReduce este ineficient pentru aplicatii multi-pass cenecesita latenta mica in operatiuni paralele multiple.Pentru a atinge aceste scopuri, Spark introduce un nivel deabstractizare numit Seturi de date Distribuite Reziliente (RDD). RDD= o colecie read-only de obiecte repartizate pe un set de maini, ce poate fi recuperat dac o partiie este pierdutUtilizatorii pot cacheui n mod explicit un RDD pentru a fi reutilzat n multiple operaii paralele RDD-urile nu sunt memorii partajate ci o mbinare ntre expresivitate, scalabilitate i fiabilitatePoate fi de 10x mai rapid dect Hadoop pentru mainile iterative (39GB-

pdi notes

Documents

Transcript of pdi notes