data mining.docx

44
SIAD - SISTEME INFORMATICE PENTRU ASISTAREA DECIZIEI Business Intelligence Capacitatea de a transforma datele existente in informatie utila care sa furnizeze perspective bogate si noi asupra afacerii in prezent si sa ofere o idee asupra viitorului acesteia Concept generic care grupeaza instrumente din domeniul afacerii si al informaticii, utilizate in vederea tranformarii datelor in informatii, a informatiilor in decizii si a deciziilor in actiuni Tehnologiile grupate sub numele Business Intelligence vin în sprijinul companiilor care au realizat valenţele informaţionale ale datelor acumulate de-a lungul timpului în sistemele lor informatice. Tehnologiile moderne de stocare şi procesare a datelor orientate spre exploatarea inteligentă a acestui potenţial se impun prin trei direcţii principale: Data Warehouse , OLAP, Data mining Data Warehouse (Depozitarea datelor)tehnologie de centralizare, consolidare, reorganizare şi stocare a volumelor mari de date preluate din sisteme informatice eterogene, date care vor fi baza procesărilor analitice necesare proceselor de decizie. Depozitul de date : stocheaza toate datele relevante pentru o organizatie in diferite contexte decizionale OLAP(On-line analytical processing) tehnologie de agregare a datelor stocate în depozite într-o abordare multidimensională care asigură acces rapid la informaţiile necesare analiştilor şi managerilor într-o manieră consistentă, interactivă şi foarte flexibilă Data mining tehnologie de explorare a datelor stocate în depozite în încercarea de a descoperi aspecte noi ale activităţii desfăşurate, aspecte trecute în mod normal cu vederea: corelaţii între evenimente, asociaţii între anumite fapte, secvenţe, tipare de comportament. OLAP , Data Warehouse şi Data mining se completează reciproc, transformând volumul imens de date stocate în depozite în informaţii utile procesului de decizie. O solutie de Business Intelligence reprezinta un set de instrumente care : ajuta organizatiile sa valorifice informatiile provenite din sisteme sursa eterogene unifica aceste informatii in vederea exploatarii si difuzarii lor in randul utilizatorilor de tip corporativ, al clientilor si a altor parteneri strategici Tematica cursului 1. Asistarea informatică a deciziilor în organizaţii 2. Suport analitic pentru procesele decizionale 3. Depozite de date – concepte de bază 4. Proiectarea şi dezvoltarea DD 5. Alimentarea cu date a DD 6. Prezentarea informaţiilor 7. Analiza informaţiilor prin OLAP 8. Explorarea informaţiilor prin DM SUPORT PENTRU MANAGEMENTUL AFACERILOR 1. Managementul afacerii

Transcript of data mining.docx

Page 1: data mining.docx

SIAD - SISTEME INFORMATICE PENTRU ASISTAREA DECIZIEI

Business Intelligence• Capacitatea de a transforma datele existente in informatie utila care sa furnizeze perspective bogate si noi asupra afacerii

in prezent si sa ofere o idee asupra viitorului acesteia• Concept generic care grupeaza instrumente din domeniul afacerii si al informaticii, utilizate in vederea tranformarii datelor

in informatii, a informatiilor in decizii si a deciziilor in actiuni• Tehnologiile grupate sub numele Business Intelligence vin în sprijinul companiilor care au realizat valenţele

informaţionale ale datelor acumulate de-a lungul timpului în sistemele lor informatice.• Tehnologiile moderne de stocare şi procesare a datelor orientate spre exploatarea inteligentă a acestui potenţial se impun

prin trei direcţii principale: Data Warehouse , OLAP, Data miningData Warehouse (Depozitarea datelor)tehnologie de centralizare, consolidare, reorganizare şi stocare a volumelor mari de date preluate din sisteme informatice eterogene, date care vor fi baza procesărilor analitice necesare proceselor de decizie.Depozitul de date : stocheaza toate datele relevante pentru o organizatie in diferite contexte decizionaleOLAP(On-line analytical processing) tehnologie de agregare a datelor stocate în depozite într-o abordare multidimensională care asigură acces rapid la informaţiile necesare analiştilor şi managerilor într-o manieră consistentă, interactivă şi foarte flexibilăData mining tehnologie de explorare a datelor stocate în depozite în încercarea de a descoperi aspecte noi ale activităţii desfăşurate, aspecte trecute în mod normal cu vederea: corelaţii între evenimente, asociaţii între anumite fapte, secvenţe, tipare de comportament.OLAP , Data Warehouse şi Data mining se completează reciproc, transformând volumul imens de date stocate în depozite în informaţii utile procesului de decizie.O solutie de Business Intelligence reprezinta un set de instrumente care :

• ajuta organizatiile sa valorifice informatiile provenite din sisteme sursa eterogene• unifica aceste informatii in vederea exploatarii si difuzarii lor in randul utilizatorilor de tip corporativ, al clientilor si a

altor parteneri strategiciTematica cursului

1. Asistarea informatică a deciziilor în organizații2. Suport analitic pentru procesele decizionale

3. Depozite de date – concepte de bază4. Proiectarea și dezvoltarea DD

5. Alimentarea cu date a DD6. Prezentarea informațiilor

7. Analiza informațiilor prin OLAP8. Explorarea informațiilor prin DM

SUPORT PENTRU MANAGEMENTUL AFACERILOR

1. Managementul afacerii 2. Decizii. Mediu decizional 3. Procesul decizional – faze, activitati 4. Procesul decizional – suport informatic.

Tehnologii informationaleManagement - un proces prin care se urmareste atingerea obiectivelor organizatiei prin utilizarea resurselor de care aceasta dispune. Management ≠ Proces decizional (alegerea celei mai bune solutii din mai multe alternative posibile)

Mediu decizional - Decizii Decizia

rezultatul unor activitati constiente de alegere a unei directii de actiune si a angajarii in aceasta, fapt care implica, de obicei, alocarea unor resurse.

apartine unei persoane sau unui grup de persoane care dispun de autoritatea necesara si care raspund pentru folosirea resurselor in anumite situatii date.

Decizii - clasificari

Page 2: data mining.docx

Deciziile strategice determină obiectivele, resursele şi politicile organizaţiei. Deciziile tactice -de control managerial- ⇒ urmărirea eficienţei şi a eficacităţii cu care sunt utilizate resursele, precum şi a eficienţei unităţilor operaţionale. Deciziile operaţionale -de control operaţional- determină modalităţile în care se execută sarcinile stabilte la nivelele superioare. Deciziile privind cunoştinţele ⇒ evaluarea ideilor privind noi produse şi servicii, metodelor de comunicare a noilor cunoştinţe şi de difuzare a informaţiilor în cadrul organizaţieiDeciziile nestructurate (neprogramabile)

  elementele deciziei sunt mai mult calitative obiectivele si scopurile nu sunt precise nu exista un algoritm de rezolvare cunoscut – fac apel la judecata, evaluarea, experienta decidentului

Deciziile structurate (programabile) obiectivele şi scopurile sunt precise există un algoritm de rezolvare., o procedura clara deci nu trebuie sa fie tratate ca fiind probleme noi Repetitive, de rutina

Deciziile semistructurate decizia are elemente predominant cantitative obiectivele si scopurile nu sunt precise procedura algoritmică de rezolvare nu acoperă în totalitate ansamblul elementelor problemei.

Procesul decizional- un ansamblu de activitati pe care le desfasoara un individ/grup, confruntat cu un eveniment ce genereaza mai multe variante

de actiune, obiectivul fiind alegerea unei variante care corespunde sistemului de valori al individului/grupului.

Informare generala - etape Identificarea problemei Clasificarea problemei Descompunerea problemei in subprobleme Stabilirea responsabilitatilor

REZULTAT: descrierea formala a problemei identificate, a categoriei din care face parte si a responsabilitatilor implicate

Concepere (modelare)- etape Alegerea unui criteriu de selectie : normativ descriptiv Generarea alternativelor automat manual – euristici Stabilirea rezultatului fiecarei alternative certitudine risc incertitudine

Decizii structurate   Deciziile structurate pot fi abstractizate,analizate si clasificate in diverse categorii ( alocare de

resurse, distributie, aprovizionare, gestionarea stocurilor etc). Pentru fiecare categorie poate fi formulata o solutie.

Management si cercetari operationale Utilizarea modelelor matematice pentru a analiza o decizie manageriala (probleme, oportunitati) Decizii structurate

Automatizarea procesului de adoptare a deciziilor SAD – Sisteme automate de adoptare a deciziilor

Sisteme bazate pe reguli care ofera solutii pentru probleme puternic structurate, repetitive intr-un domeniu specificDecizii nestructurate

Solutii particulare Intuitie si judecata  Comunicare/ tehnologii colaborative Gestionarea cunostintelor (KM)

Decizii semistructurate Proceduri pentru imbinarea obtinerii unor solutii standard si a judecatii umane   Modele pentru partea structurata a problemei

Page 3: data mining.docx

  Pentru partea nestructurata, un SIAD poate contribui la imbunatatirea calitatii informatiilor care stau la baza deciziei, prin furnizarea unui numar de solutii alternative si estimand impactului probabil al acestora.

Procesul decizional – suport informatic   modelare (decizii structurate ): decizii automatizate modelare personalizata (decizii semistructurate / nestructurate): experimentarea mai multor modele, adaptarea unor

modele existente sau construirea unor modele proprii DSS (1970) Sisteme INTERACTIVE de asistare a deciziei (1980) suport soft (instrumente software )+ aplicatii - un proces iterativ si interactiv in cadrul caruia se elaboreaza mai multe schite de solutii 1990 - SIAD bazate pe modele

Tehnologiile “business intelligence” - 1990 Accesul imediat la date si obtinerea de informatii utile in orice context decizional (indiferent de gradul de structurare a

deciziei) Realizarea unui mecanism pentru analize ad-hoc ale datelor actuale sau cu caracter istoric Analiza informatiilor D → I → C

1990 - SIAD bazate pe date Exploatarea inteligentă a datelor

DATE ⇒ INFORMAŢII ⇒ CUNOŞTINŢE un proces de valorificare a datelor prin:

sintetizarea  datelor după diverse criterii,  analiza datelor astfel centralizate pentru identificarea anumitor tipare şi corelaţii interpretarea  datelor

Sintetizarea datelor

Soluţiile clasice în informatica de gestiune: ♦ Programe dedicate care exploatează flexibilitatea limbajelor procedurale în gruparea după anumite criterii şi sintetizarea datelor ♦ Interogări care grupează datele după criteriile cerute şi aplică funcţii pe domeniile astfel create (clauza Group by din limbajul SQL şi funcţiile Sum, Count, Avg, Min, Max, Last, First, etc) ♦ Mecanismul de de totaluri  şi subtotaluri din rapoarte care permit indicarea unor ierarhii de criterii de grupare ♦ În   informatică modernă volumul imens de date ce trebuie explorate face ca tehnicile clasice să devină inaplicabile din cauza timpului necesar pentru procesare. ♦ Tehnologiile moderne  de centralizare a datelor : Data Warehousing (depozitarea datelor) On-line Analytical Processing (OLAP)

Analiza datelorIdentificarea unor relaţii între datele sintetizate:→tipare,  →asocieri,  →corelaţii pe plan structural, funcţional şi cauzal. prin compararea datelor sintetizate cu date similare

Analiza statistică Analize de tip “what if” Analize de tip căutare de soluţii (“goal seek”)Analiza de senzitivitate  Analiza excepţiilor♦tehnici   de prezentare grafică a datelor transformă informaţia cantitativă în informaţie calitativă. ♦tehnici   de observare analitică a datelor fundamentate pe teorii matematice (theory-driven) - compară datele reale cu datele teoretice produse de un model ipotetic. ♦tehnici   de observare automată, bazate pe date (data-driven) - data mining.

Interpretarea datelor ⇒un proces cognitiv care conduce la

Page 4: data mining.docx

o apreciere generală a situaţiei, identificarea   unor probleme sau sesizarea unor oportunităţi, stabilirea poten  ţialelor cauze ale problemelor sau sugestii de rezolvare a lor. ⇒ un proces în care se face apel la cunoştinţele cu caracter general, fundamental şi specific asociate domeniului respectiv

precum şi la experienţa existentă. ⇒ produce cunoştinţe noi care se vor adăuga la cele existente.

Tehnologii informaţionale Instrumentele software clasice de valorificare a potenţialului informaţional al datelor

asigurarea unor tehnici de  analiză, optimizare şi simulare prezentarea grafică a rezultatelor, aspectul calitativ al informaţiei fiind astfel mai uşor de sesizat de către utilizatorii

finali. ✒ tabloare (Lotus, Excel) orientate pe volume mici de date, ✒ sistemele de gestiune a bazelor de date  (Access, Visual Fox) capabile să exploateze volume mari de date cu

structură uniformăSistemele moderne fac uz de tehnici speciale pentru : ➔comasarea datelor stocate în structuri neuniforme,  ➔utilizarea informa  ţiilor implicite, nespecificate în datele existente ➔completarea datelor cu criterii de agregare.   facilităţi utilizatorului final: interogare în limbaj natural, accesul la modelele conceptuale, sisteme de gestiune a serviciilor OLAP, noi limbaje de exploatare a bazelor de date multidimensionale, servicii de prezentare a datelor (tabele pivot, grafice) precum şi servicii de integrare cu alte suporturi software (tabloare, baze de date).Data warehouse - depozitarea unor volume mari de date istorice acumulate.

Depozitele de date centralizează, consolidează, organizează şi stochează date din diverse surse eterogene, date care vor fi baza procesărilor analitice necesare obţinerii de informaţii utile procesului decizional de la diverse nivele ale întreprinderii.OLAP - exploatarea depozitelor de date prin procesarea analitică on-line. OLAP este o tehnologie de agregare a datelor stocate în depozite într-o abordare multidimensională care asigură acces rapid la informaţii într-o manieră consistentă, interactivă foarte flexibilă Exemplu: Valoarea vanzarilor intr-un anumit judet in luna Martie comparativ cu celelalte judete

DATA MINING - tehnologie de explorare a datelor stocate în depozite în încercarea de a descoperi aspecte noi ale activităţii desfăşurate, aspecte trecute în mod normal cu vederea: corelaţii între evenimente, asociaţii între anumite fapte, secvenţe, tipare de comportament. ‚Exemplu: Identificarea unor modele de comportament exploatand datele referitoare la clienti (campanii de marketing) sau pentru identificarea clientilor profitabiliANALIZA PREDICTIVA - Utilizeaza tehnici DM si ipoteze privind evolutia viitoare pentru a previziona rezultate Exemplu: Care este probabilitatea ca un client sa raspunda unei anumite oferte? TEXT MINING - Extragerea de informatii din colectii de date nestructurate

E-mail ,Chat Documente ,Prezentari

Datele nestructurate (semistructurate) reprezinta 80% din informatiile utile pentru organizatie WEB MINING - Identificarea si analiza de informatii utile din WWW • Web content mining • Web structure mining • Web usage mining Tehnologiile inteligenţei artificiale completează ciclul procesului de valorificare a datelor prin • interpretarea, • explicarea, • atribuirea de sens într-un anumit context, • justificarea informaţiilor obţinute.

Page 5: data mining.docx

⇒cunoştinţe noi, care se vor adăuga la cele existente în baza de cunoştinţe a organizaţiei.

Page 6: data mining.docx

Procesul decizional – suport informaticAdaptive business intelligence – 2005

  Asistarea deciziei ≠ adoptarea deciziei   Optimizare, predictie pentru a furniza decizii cat mai bune (aproape optime) Adaptabilitate pentru ajustrea solutiilor oferite in functie de evolutia viitoare   Suport COGNITIV (cunostintele si experientele anteriare ale decidentului, capacitatea sa de rationament)

Integrarea componentei “cunoastere” in cadrul SIAD : SIAID (1990)

Utilizarea anumitor tehnologii in mod independent, pentru rezolvarea diferitelor aspecte ale unei probleme complexe Utilizarea unor tehnologii care comunica intre ele in sensul transferului de date si informatii Utilizarea mai multor tehnologii integrate intr-un singur sistem

SIAD

1. SIAD – definitii, caracteristici

2. Avantajele si limitele utilizarii SIAD

3. SIAD – componente, clasificari

4. Locul SIAD in cadrul SI al organizatiei

5. Suport informatic pentru procesul decizional ( suport organizational pentru fazele procesului decizional )

6. Sisteme suport pentru asistarea procesului decizional SIAD (DSS) – Sisteme suport pentru decizii

SIAD (DSS) Un cadru conceptual corespunzator unui proces de sustinere a deciziilor manageriale, de regula prin modelarea problemelor si utilizarea modelelor cantitative pentru analiza solutiei SIAD (DSS) , la fel ca si BI, este un termen “umbrela” – descrie orice sistem informatic destinat asistarii procesului decizional intr-o organizatie

SIAD - sistemul informatic destinat asistării decidenţilor în rezolvarea unor probleme prin îmbinarea judecăţii umane cu procesarea automată a informaţiilor în scopul ameliorării calităţii procesului decizional

Eficacitate • acces rapid la informaţiile relevante • identificare şi recunoaştere rapidă a problemei • acces facil la instrumente informatice adecvate • abilitate mărită în generarea şi evaluarea seturilor de alternative

… şi eficienţă • reducerea costului deciziilor • reducerea timpului de adoptare a deciziilor păstrând acelaşi nivel al analizei • calitatea superioară a feedback-ului prezentat decidentului

SIAD - caracteristici ➔se utilizează pentru toate tipurile de decizii

➔participă în toate fazele procesului decizional ➔funcţionează sub controlul utilizatorului

➔se adresează tuturor nivelelor decizionale ➔oferă suport pentru decizii multiple, independente sau interdependent ➔se adreseaz ă mai multor contexte decizionale: individuale, de grup, de echipă

SIAD - caracteristici Interactivitate Flexibilitate

Accesibilitate

Page 7: data mining.docx

Orientare spre descoperirea de solutii SIAD - avantaje

➚extind abilitatea decidenţilor de a obţine şi prelucra informaţii ➚oferă posibilităţi de a controla probleme de mari dimensiuni, complexe, consumatoare de timp ➚reduc timpul necesar adoptării deciziilor ➚încurajează explorarea unui număr mare de alterantive ➚relevă noi abordări în spaţiul problemei sau în contextul decizional ➚creează avantaje strategice sau competitive

Depasirea limitelor cognitive umane legate de procesarea informatiilor SIAD - limite ➚nu pot include abilităţile specific umane folosite în adoptarea deciziilor: creativitatea, intuiţia, imaginaţia ➚sunt restricţionate de performanţele echipamentelor pe care se exploatează, de modul în care au fost proiectate şi de cunoştinţele pe care le pun în lucru în timpul funcţionării ➚sunt limitate la o arie bine definită de aplicare, nu au veleităţi generalizatoare

SIAD - clasificari Initial, criteriul de clasificare a SIAD a fost metoda/tehnologia utilizata preponderent de acestea:

1. SIAD bazate pe modele 2. SIAD bazate pe date 3. SIAD bazate pe cunostinte 4. SIAD bazate pe dialog (comunicare) 5. SIAD bazate pe analiza textelor 6. SIAD bazate pe tehnologiile WEB

SIAD -clasificari •  Odata cu aparitia tehnologiilor BI, cea mai frecventa clasificare a SIAD: Gradul in care solutia oferita se bazeaza pe

modelare sau analiza datelor (1990 – 2005) SIAD bazate pe modele SIAD bazate pe date

SIAD bazate pe cunostinte

SIAD Arhitectura

UTILIZATOR

INTERFATA

CUNOSTINTE

MODELE DATE

Page 8: data mining.docx

Business Intelligence BI este un concept care a aparut in contextul asistarii informatice a procesului decizional - Gartner Group (1990) “Informarea” proceselor decizionale – furnizarea informatiilor utile, relevante intr-un anumit context decizional SIAD bazate pe date

Date -> -> Informatii -> -> Cunostinte -> -> Decizie -> -> Actiune

Componentele unui sistem BI • Depozitul de date (Data Warehouse) • Business Analytics – o colectie de instrumente folosite pentru exploatarea si analiza datelor stocate in depozitul de

date • Managementul performantelor (BPM) – monitorizarea si analiza performantei organizationale • Interfata utilizator

DSS (SIAD bazat pe modele) asista in mod direct decidentul intr-un anumit context decizional – orientare spre analiza BI (SIAD bazat pe date) -  asista in mod indirect decidentul intr-un anumit context decizional (accesul la informatiile relevante) -  monitorizeaza si analizeaza performantele organizatiei – orientare strategica

SIAD vs BIBI este un concept care a aparut in contextul asistarii informatice a procesului decizional, ca o “extensie” a sistemelor existente (DSS) – informare Nu exista o opinie unanim acceptata privind relatia dintre BI si SIAD. Principalele abordari:

1. SIAD reprezinta o componenta a BI – unul dintre instrumentele sale analitice vs. 2. BI este un tip de SIAD care este destinat in special raportarii, comunicarii – furnizarii de informatii relevante

intr-un anumit context decizional (o forma de SIAD bazat pe date)SIAD – orice sistem informatic destinat asistarii procesului decizional, indiferent de tehnologiile utilizate

SIAD ofera facilitati de informare si analiza suport analitic (modele) interpretare fiind utilizat in toate fazele procesului decizional

SIAD -clasificari •  Tipul si nivelul decizional

- SIAD destinate conducerii executive (SICE)

- SIAD destinate managementului tactic si/sau operational •  Periodicitatea cu care sunt utilizate

-  SIAD institutionale - SIAD ad-hoc •  Numarul de utilizatori

- SIAD individuale

- SIAD de grup potentarea avantajelor aduse de lucrul in echipa

* reducerea potentialelor disfunctionalitati * tendinta spre uniformizare * tendinta de a transfera responsabilitatea * inclinatia prea mare catre risc * fragmentarea timpului

- SIAD organizational

Page 9: data mining.docx

Locul SIAD in cadrul SI al organizatieiORGANIZATIA • ABORDARE SISTEMICA • ABORDARE MANAGERIALA • ABORDARE FUNCTIONALA

!! ANEXE

Suport pentru managementul afacerilor- Suport cognitiv  – teorii, modele, expertiză

- Suport tehnic  - software

- Suport organizational  - sisteme

Suport software pentru etapa de informare generală (intelligence) Tehnologii si sisteme suport clasice

! Baze de date - sisteme informatice de gestiune (MIS) Tehnologii si sisteme moderne

" Baze de date istorice, baze de informaţii (Dataware) - (EIS) " Prelucrarea analitică a datelor în timp real ( OLAP) " Data mining - descoperirea de noi informaţii " Inteligenţa artificială – agenţi, sisteme cu baze de cunoştinţe, sisteme expert " Tehnologiile Web

Suport software pentru faza de concepere (design)

Suport cognitiv ! modele standard ale cercetării operaţionale (modele financiare, de stocuri, optimizari, simulari etc). ! modele ale proceselor de faceri, analize statistice, analiza predictiva

Page 10: data mining.docx

! expertize

Tehnologii si sisteme suport suport ! funcţii, proceduri, programe, sisteme – modele standard ! analitici ! Inteligenţa artificială - sisteme expert ! Software pt. „brainstorming”- Groupware (SADG)

Suport software pentru faza de alegere (choice)

Suport cognitiv:

! modele - identifică rapid soluţia optimă sau satisfăcătoare - realizează analiza de senzitivitate - analizează diverse scenarii.

! expertize - analizarea oportunităţii anumitor acţiuni - recomandarea unei soluţii.

Tehnologii si sisteme suport:

! funcţii, proceduri, programe, sisteme – modele standard ! Inteligenţa artificială - Sisteme expert (Knoware) ! Tehnologii de colaborare, negociere, votare, asigurarea consensului (Groupware)

Suport software pentru faza de implementare Obiective:

! Comunicarea, explicarea şi justificarea deciziei. ! Transformarea deciziei în ordine ! Repartizarea sarcinilor ! Urmărirea execuţiei ! Depăşirea problemelor (inerţia la schimbare, formarea personalului etc.).

Tehnologii si sisteme suport: ! Comunicaţii / tehnologii colaborative ! Groupware ! IA - Sisteme expert - consultanţă

Sisteme suport pentru asistarea deciziei Suport software care asigură un mediu de dezvoltare, întreţinere şi funcţionare sistemelor informatice pentru asistarea deciziei

Principalele funcţii ale unui SSAD⇒ gestiunea datelor⇒ gestiunea modelelor⇒ gestiunea cunoştinţelor⇒ gestiunea dialogului

Motivaţii pentru utilizarea sistemelor informatice de asistare a deciziei • mediul economic din ce în ce mai instabil • dificultăţi în urmărirea tuturor afacerilor • competiţie tot mai acerbă • noile tehnologii informationale (comert electronic, tehnologii colaborative, Web 2.0) au un impact puternic asupra

organizatiilor, determinanad aparitia a noi modele de afaceri si multiplicarea numarului de alternative decizionale• necesitatea efectuării unor analize speciale prind profitabilitatea şi eficienţa • necesitatea informării cât mai corecte

Page 11: data mining.docx

Acest tip de sistem informatic este considerat ca un factor ce condiţionează tot mai mult succesul afacerii • Care sunt pricipalele deosebiri intre SIG (MIS) si SIAD? • SIAD pot asista decidentul in toate ipostazele (rolurile manageriale) ? • De ce investitiile in IT (SIAD) nu produc intotdeauna rezultatele asteptate ? • SIAD pot fi mai “ inteligente” decat oamenii care le utilizeaza ?

Page 12: data mining.docx

SUPORT ANALITIC PENTRU PROCESUL DECIZIONAL

OBIECTIVE •MODELAREA – concept,  tipuri de modele •Structura  unui model

•Optimizari , simulari, euristici – concepte de baza si conditii de utilizare •Analiza  de senzitivitate, what –if si goal seeking (valoare tinta)

•Predictii  si modele predictive •Procesoarele de tabele – suport in utilizarea modelelor

Modelarea Implică:

conceptualizarea unei probleme (definită în termeni generali în urma etapei de informare din cadrul procesului decizional)

abstractizarea ei în expresii cantitative  şi/sau calitative- clase de modele şi metode specializate în rezolvarea lor (cercetare operaţională, finanţe, economie aplicată,

econometrie)

Aplicarea modelării în organizaţii: - activitatea de producţie

- activitatea de distribu ţie

- activitatea financiară

- gestiunea resurselor umane  Metode şi tehnici ➙teoria deciziei  ➙cercetarea operaţională: programare matematică, teoria stocurilor, teoria grafurilor,teoria firelor de aşteptare,teoria jocurilor,teoria echipamentelor ➙econometrie 

Modele şi metode   reprezentare simplificată (o abstractizare) a realităţii.

Gradul de abstractizare: •Modele fizice  •Modele simbolice   ce cuprind : modelul matematic,verbal,analog,iconic•Modele mentaleîn condiţii de •certitudine   •risc   •incertitudine  în funcţie de cunoştinţele de care dispune decidentul care se pot situa pe o scală între două extreme: şi inexistente

Modele Statice si Modele DinamiceAnaliza statica

 unica prezentare a situatiei Un  singur interval Stare de  echilibru

Page 13: data mining.docx

Analiza  dinamica

Evaluarea  unor scenarii care se modifica in timp Dependenta  fata de timp Reprezentarea unor trenduri/ patternuri

Deciziile în condiţii de certitudine➙cunoaşterea exactă a evenimentelor economice viitoare Rezultatele posibile sunt cunoscute in totalitate Aparent idealistă, această situaţie se poate produce pentru anumite tipuri de activităţi. Luarea unei astfel de decizii are la bază o regulă de tipul •cel mai mic cost  •o productivitate mai bun ă. •profit maxim   -> poate conduce la obtinerea unei solutii optimeDeciziile în condiţii de risc Decidentul ✔posed ă anumite cunoştinţe obiective asupra mediului decizional ✔este   capabil să prevadă probabilitatea de apariţie a valorilor variabilelor necontrolabile posibile şi rezultatele fiecărei strategii analizateDistribuţia probabilităţilor astfel definite va permite decidentului să aleagă varianta cu speranţa matematică cea mai buna.

Aceste decizii sunt luate pe baza criteriului speranţei matematice

Deciziile în condiţii de incertitudine De regulă aceste decizii sunt din categoria celor de "orientare". În acest caz alegerea unei variante se face în funcţie de criterii ✔obiective , care presupun un raţionament logic. Teoria deciziei pune la îndemâna modele matematice care conţin şi criterii de evaluare cum ar fi: Laplace, Maximin, Hurwicz, ca o medie ponderată a celor două extreme (pesimistă si optimistă), Maximax, etc✔subiective  , fondate pe ideea despre viitor a decidentului; fiecărui eveniment viitor i se asociază o probabilitate

Modele normative • Selecteaza automat cea mai buna solutie - Optimizare programare liniara analiza cost – profit tehnici de analiza a investitiilor • Modele bine definite si structurate • Procesul decizional este un proces complet rational Modele descriptive • Explicarea / analiza comportamentului real in cadrul procesului decizional • Descriu lucrurile asa cum sunt (sau asa cum se crede ca sunt) • Nu ofera o solutie, ci doar informatii care pot conduce la o solutie • Procesul decizional • mai putin structurat • nu este complet rational Modele euristice• Alternativa aleasa este cea mai buna dintrun set de alternative posibile • Se ajunge la o solutie satisfacatoare mai repede • Suboptimizare

Page 14: data mining.docx

• Modele finaciar-contabile – estimarea rezultatelor actiunilor posibile pe baza definitiilor contabile (planificare, bugetare) • Modele de reprezentare - evalueaza consecintele actiunilor posibile pe baza simularilor (planificare, bugetare) • Modele de optimizare – posibile cai de actiune prin generarea unor solutii optime (planificare, alocarea resurselor) • Modele sugestive –sugereaza o directie de actiune pentru o decizie structurata (operational)

Structura unui model variabile de decizie – descriu posibile acţiuni alternative. Nivelul acestor variabile este determinat de către decidentparametri – variabile care influenţează rezultatul dar care nu pot fi controlate de către decidentÎn general, aceste variabile devin restricţii ale problemei, limitând soluţiile posibile ale acesteia. variabile rezultat – sunt variabile dependente atât de adoptarea unei anumite acţiuni, cât şi de parametrii modelului respectiv

Cele mai des utilizate tipuri de modele în cadrul procesului de adoptare a deciziilor în domeniul economic. Optimizarea problemelor în care intervin puţine alternative

•tabelele de decizie  •arbori de decizie•fiecărei alternative îi sunt ataşate valorile estimate ale participării la realizarea obiectivului propus (şi probabilităţile de atingere a acestora) •valorile   şi probabilităţile sunt înscrise într-o tabelă sau un graf. Decizia constă în a alege cea mai bună alternativă din numărul finit de alternative posibile

Optimizarea cu ajutorul unui algoritm – programare matematică Programarea matematică reprezintă un set de metode şi instrumente pentru rezolvarea problemelor manageriale în care decidentul trebuie să aloce o cantitate limitată de resurse mai multor activităţi în scopul optimizării valorii unui obiectiv (măsurabil)Cea mai cunoscută şi des utilizată metodă o reprezintă programarea liniară: determinarea min (max) unei funcţii obiectiv de una sau mai multe variabile

ETAPELE rezolvarii unei probleme prin programare liniara 1. IDENTIFICAREA elementelor modelului

Variabile de decizie Variabila rezultat – functia obiectiv si coeficientii acesteia Variabilele necontrolabile

2. FORMULAREA MODELULUI – expresii matematice liniare 3. REPREZENTAREA MODELULUI 4. REZOLVAREA MODELULUI

Simularea A simula = a asuma apari  ţia unor aspecte ale realităţii •simularea este o tehnic ă de experimentare (analize de tip „what if aplicate unui model managerial) •instrument cantitativ de evaluare a diferitelor  alternative pe baza unor ipoteze descrise intr-un model matematic al unui proces decizional in conditii de incertitudine Simulare- Carcteristici•IMITA  realitatea si surprinde complexitatea acesteia •Tehnica  pentru efectuarea unor experimente •Descriptiva  (nu normativa) •Utilizata  frecvent pentru rezolvarea unor probleme complexe

Simularea trebuie utilizata DOAR ATUNCI cand problema este mult prea complexa pentru a putea fi abordata cu ajutorul unei metode normative

ETAPELE PROCESULUI DE SIMULARE REALITATE - definirea problemei

realizarea modelului de simulare

Page 15: data mining.docx

testarea şi validarea modelului stabilirea modlitaţii de efectuare a experimentelor realizarea experimentelor, evaluarea rez implementarea rezultatelor simulării

Simulare - avantaje ➙Oferă o imagine de condensare a timpului

➙Permite   decidenţilor o abordare prin încercări repetate a soluţionării unei probleme, fără a implica şi riscurile ataşate acestui demers în situaţiile reale. ➙Este un  model construit din perspectiva decidentului.

➙În cadrul acestei metode, este surprinsă complexitatea reală a problemei, nefiind necesare simplificări în reprezentarea acesteia. ➙ Simularea poate fi aplicată unei mari diversităţi de probleme manageriale. ➙Există produse soft relativ uşor de utilizat pentru efectuarea de simulări Simulare - limite ➔nu este garantată obţinerea unei soluţii optime, ci doar a unei soluţii relativ bune

➔soluţiile unor simulări anterioare nu pot fi fructificate, deoarece modelul de simulare corespunde unei singure probleme. ➔simularea este atât de familiară şi facilă decidenţilor, încât există riscul renunţării nejustificate la alte metode analitice. ➔construirea modelului de simulare poate necesita mult  timp şi un cost destul de mare

Simulare vs. Optimizare•Descriptiv / Normativ  •variabilele de decizie (I / E ale modelului  cantitativ) •   “simpatie” /reticenta din partea decidentilor

Analiza de senzitivitate, what-if si valoarea tinta (goal seeking) •Analiza  de senzitivitate

•Evalueaza impactul schimbarilor variabilelor de intrare asupra variabilelor rezultate •Se pot  elimina sau reduce variabile

•Automat  sau prin incercari repetate •What-if  

•Evalueaza  solutii pe baza modificarilor unor cvariabile si a unor ipoteze de lucru (scenarii) •Goal seeking   •Abordare  inversa – se pleaca de la obiectiv •Determinarea  valorilor pentru variabilele de intrarae astfel incat sa se ajunga la rezultatul dorit

Previziunea Obiectiv: anticiparea viitorului pe baza informaţiilor trecute pentru anumite scenarii.

Ele sunt rezolvate în principal cu metode statistice, care stabilesc relaţii de dependenţă între diverse variabile şi evoluţiile acestora descriptive sau analitice

•Modele bazate pe serii temporale  - viitorul este o extrapolare a trecutului medii mobile , trend , creştere exponenţială •Modele asociative   ✔analiza de regresie  - stabilirea tipului de legătură ale unei variabile numite dependente de una sau mai multe variabile numite independente ✔analiza de corela ţie - valuarea “intensităţii” relaţiei dintre două sau mai multe variabile ⇒ o metodă de previzionare bazată pe o relaţie cauzală

Principalele etape în alcătuirea modelului de regresie Identificarea – faza descriptivă în care se identifică dependenţele şi tipurile de relaţii pe care le exprimă.

Specificarea – etapa prin care se caută cea mai potrivită formă de exprimare a variabilelor.

Page 16: data mining.docx

Estimarea parametrilor modelului. Testarea semnificaţiei parametrilor estimaţi. Validarea modelului.

Utilizarea modelului în operaţiuni de simulare şi predicţie. Modele predictive - avantaje

✔interes practic deosebit  ✔un   suport teoretic solid, rezultatele furnizate prezentând un mare grad de încredere. ✔produse   soft specializate pentru astfel de analize a datelor, care presupun efectuarea unor calcule complexe (SPSS) ✔se   pot formula ca ipoteze un număr mare de relaţii cauzale, testarea acestora realizându-se automat uşor de aplicat, toate calculele statistice fiind realizate cu ajutorul unor programe specializate Modele predictive - limite ✔volumul   mare de date necesar - şi costurile antrenate de colectarea acestora - pentru stabilirea ecuaţiei de

regresie iniţială şi pentru analiza validităţii sale în timp . ⇒ se utilizează în previziunile pe termen lung şi pentru variabile agregate ✔reticenţa decidenţilor

Modele euristice⇒o metodă de generare a unei soluţii aproximative ⇒ ansamblul strategiilor care permit explorarea spaţiului de căutare a unei soluţii satisfăcătoare pentru o problemă complexă, nestructurată, pentru care nu se poate defini sau nu este eficient să se utilizeze un algoritm pentru obţinerea unei soluţii optime.

Euristicile: •cantitative  : apar în baza de modele a unui SIAD •calitative  : furnizarea cunoştinţelor pentru un SE

Cand se utilizeaza euristici • Date inexacte sau insuficiente • Nivel ridicat de complexitate • Algoritnm inexistent • Timp excesiv de evaluare a diferitelor alternative • Decizii rapide

Avantaje ale metodelor euristice • Sunt metode uşor de înţeles, de implementat şi de explicat • Produc mai multe soluţii acceptabile (satisfăcătoare) şi nu una singură, ca în cazul metodelor algoritmice. • Utilizarea lor are un efect pozitiv asupra creativităţii managerilor, care vor folosi această experienţă în rezolvarea

altor probleme. • Este posibilă o măsurare empirică sau teoretică a calităţii soluţiei obţinute. • Pot încorpora inteligenţă în procesul de căutare a soluţiei Riscuri asumate de decident Nu oferă garanţia obţinerii unei solu ţii optime

pot exista excepţii de la reguli riscul de a nu se anticipa corect consecinţele fiecărei alegeri

Page 17: data mining.docx

MODELARE– suport soft

Diagrame de influenta – produse software

•Analytica , Lumina Decision Systems •Diagrame  ierarhice •DecisionPro , Vanguard Software Co. •DATA  Decision Analysis, TreeAge Software •Diagrame  de influenta, arbori de decizie, simulari •Definitive Scenario , Definitive Software

•Integreaza diagramele de influenta cu Excel, asista simulari Monte Carlo •PrecisionTree , Palisade Co.

•Creeaza  diagrame de influenta si arbori de decizie direct in EXCEL există: ➙limbaje de modelare care asistă utilizatorul în gestionarea modelelor. ➙ sisteme de gestionare a modelelor într-o manieră similară sistemelor de gestiune a bazelor de date:

♦sisteme   relaţionale de gestiune a bazelor de modele (modelul este considerat ca fiind un fişier virtual sau o relaţie virtuală) care oferă posibilitatea de a efectua trei operaţii de bază: execuţia, optimizarea şi analiza de senzitivitate

♦  sisteme de gestiune a bazelor de modele orientate obiect, în cadrul cărora există independenţă la nivel logic între baza de modele şi alte componente ale sistemului de asistare a deciziei. însă... nu există pachete soft pentru gestionarea modelelor, aşa cum există numeroase sisteme de gestiune a bazelor de date.

➙Cu   toate că există clase de modele standard acestea sunt prea numeroase iar fiecare dintre ele este structurată în mod diferit. ➙În   cadrul fiecărei clase de modele pot exista diverse abordări în rezolvarea unei probleme, în funcţie de structura şi gradul de complexitate ale acesteia. ➙Facilit  ăţile oferite de un sistem de gestiune a modelelor (selectarea modelului, a metodei de rezolvare a acestuia, a parametrilor utilizaţi) necesită expertiză

Procesoarele de tabele – cele mai utilizate instrumente de modelare•Flexibile  si usor de utilizat •Functii  puternice •Programabilitate (macro) •Analiza  WHAT-IF

•Goal seeking  •Gestiunea  si analiza datelor •Integrare  perfecta a datelor si a modelelor

•Incorporeaza  modele statice si modele dinamice

SIAD bazate pe analiza si sinteza datelor Baze de informatii - Depozite de date Obiectiv: furnizarea de informaţii precise, relevante si in timp util factorilor de decizie din cadrul organizaţiei. Arhive depozite de date • Potenţialul informaţional al datelor acumulate în sistemele informatice date istorice stocate in: baze de date

Page 18: data mining.docx

fisiere foi de calcul • Exploatarea inteligentă - un important avantaj în faţa concurenţei: − mărirea capacităţii de acomodare la tendinţele pieţei − o mai bună satisfacere a clienţilor − diminuarea costurilor − creşterea profitului. • Integrarea datelor istorice într-o structură unică fundament pentru procesul de luare a deciziilor

Sistemele de asistare a deciziei bazate pe sinteza şi analiza datelorRealizează acest deziderat prin• Comasarea• Consolidarea• Sistematizarea• Corelarea• Gruparea datelor existente în vederea obţinerii de informaţii pertinente care să evidenţieze • factorii care afectează performanţele întreprinderii • acţiuni pentru ameliorarea lor.

Tehnici speciale de exploatare a masivelor de date• să descopere diverse corelaţii între date,• să facă estimări şi prognoze,• să atragă atenţia asupra unor puncte nevralgice, să sugereze eventuale soluţii

Structurile de date utilizate de SIAD bazate pe date sunt numite depozite de date (data warehouse)Funcţii:• Stocarea de volume mari de date (1012 bytes)• organizate pe domenii• orientate pe subiecte de interes decizional• Exploatarea• motoare speciale ce permit interogarea masivelor mari de date• servicii speciale ce asigură analiza on-line a datelor (On Line Analytical Processing –OLAP).Modalităţi de realizare − corelarea − completarea − crearea dicţionarelor de date care asigură accesul la structurile primare (stocarea modelelor conceptuale) Stocarea şi procesarea datelor în sisteme tranzacţionaletranzacţiile curente ale întreprinderilor - un număr foarte mare de mici operaţii standardizate) Datele - introduse sub controlul SGBD− servicii de integritate− recuperare în caz de eroare− confidenţialitate Datele - prelucrate pentru a extrage informaţii de sinteză cu instrumentele oferite de SGBD:− total queries− rapoarte Inconveniente:− timpul necesar pentru explorarea volumelor mari de date, stocate conform principiului bazelor de date într-o singură locaţie.− aglomerarea motorului bazei de date cu taskuri de centralizare cu efect de încetinire a tranzacţiilor curente. Pentru managerii operativi

Page 19: data mining.docx

− decizii pe termen scurt - situaţii bazate de obicei pe date recente Pentru managementul strategic− explorarea arhivelor din anii precedenţi− înglobarea unor informaţii externe Soluţii:• Stocarea informaţiilor de sinteză finale în table• valabile doar la momentul executării• nu pot fi actualizate decât prin reluarea întregului proces.• Stocarea datelor necesare pentru planificare şi decizii strategice într-un sistem diferit de sistemul operaţionalAvantaje:• exploatarea ambelor sisteme posibilă fără inconveniente reciproce• pot fi stocate date care pot oferi baza de comparaţie necesară în aprecierea tendinţelor, în efectuarea de analize complexe:• date arhivate provenind din activitatea din anii anteriori• date despre concurenţă• actualizarea - alimentarea periodică cu date referitoare la tranzacţiile ulterioare, fără intervenţia explicită a utilizatorului final.• creşterea performanţelor exploatării - magazii de date (data marts)

DD - definitieO colectie de date • orientate pe subiecte • integrate • corelate in timp • non-volatile care se constituie in suport pentru procesul de decizie

Orientarea pe subiecte de analiza Spre deosebire de sistemele operaţionale, care sunt organizate în jurul unei aplicaţii funcţionale ale companie – spre exemplu aplicaţii de facturare (Billing), de management al relaţiilor cu clienţii (CRM) - sistemele data warehouse au ca nucleu al informaţiei un anumit subiect cheie a cărui analiză se doreşte.

Integrarea datelor• Datele sunt organizate într- un unic format de măsură şi referintă (sunt măsurate în acelaşi fel şi referă acelaşi lucru). • Datele cae provin din mai multe surse trebuie să fie convertite, reformatate, renumerotate, sumarizate, etc.Rezultatul este o unică imagine a activităţilor companiei.

Non- volatilitatea

Page 20: data mining.docx

• Data Warehouse trebuie să fie o structură informaţională stabilă, a unui mediu de suport decizional. • Modelul trebuie să fie astfel proiectat, încât să susţină o astfel de stabilitate. Datele nu vor fi direct modificate ci vor fi populate periodic cu datele noi din aplicaţiile operaţionale. Non- volatilitatea Date corelate in timp

DW se constituie întrun istoric al sistemului operaţional, constituit dintr- o serie de "instantanee", imagini la diverse momente în timp. Orizontul de timp pe care îl acopera DW este de cel puţin cinci ani, ajungând la zece ani, în funcţie de dinamica evoluţiei pieţei şi, deci, de relevanţa datelor cu caracter istoric pentru nevoile analizei. Date corelate in timpDin punct de vedere tehnic, acesta implică faptul că orice înregistrare din DW corespunde unui moment de timp specificat. Orice cheie de acces la informaţiile din DW va cuprinde şi o componentă temporală .DD - obiectiv • Furnizarea informatiilor corecte, oportune si relevante factorilor de decizie • Afacerea propriu-zisa, procesele intreprinderii care stau la baza modelarii si proiectarii sistemelor informatice operationale nu influenteaza designul DD, nu sunt reflectate in structura sau comportamentul acestuia Depozitul de date - continut • Centralizează, consolidează, organizează şi stochează date din diverse surse eterogene • Se pot stoca şi date noi, calculate pe baza celor existente, date cerute de regulă în majoritatea rapoartelor (sume, procente,) Depozitul de date - caracteristici • Se construieşte într-o manieră incrementală • Datele stocate suferă un proces de curăţire şi transformare care asigură calitatea informaţiei generate pe baza lor • Transformarea codurilor în date explicite – integrarea datelor din nomenclatoare în datele despre tranzacţii - denormalizarea tabelelor din bazele de date primare • Redundanţa datelor este permisă Depozitul de date răspunde cerinţelor de INTEGRARE a datelor ce provin din surse eterogene ACCESABILITATE a datelor ATRIBUIRE DE SENS datelor Obiectivele DD • Să furnizeze utilizatorilor accesul sporit la date • Să furnizeze o singură versiune a adevărului • Să înregistreze cu acurateţe trecutul • Să jongleze cu nivelurile de acces sinteză-detaliu la date • Să separe prelucrările de nivel operaţional şi analitic Datele stocate in sisteme OLTP • date operaţionale • referitoare la un anumit proces sau funcţie a întreprinderii

Page 21: data mining.docx

• date de detaliu cu un anumit grad de volatilitate • sunt gestionate ca un întreg • prezintă interes în primul rând pentru cei ce le introduc Datele stocate in depozite • date pentru asistarea deciziei • referitoare la subiecte de interes decizional • date centralizate sau derivate din datele operaţionale • nu se schimbă în timp • pot fi gestionate şi pe secţiuni - sunt organizate distinct pe subiecte de analiză • sunt orientate către utilizatorii finali – managerii de nivel tactic şi strategic. Migrarea datelor din bazele de date operaţionale în depozite de dateDate operaţionale stocate în tabele:

Nr_fct 11223344Client_id 11223344Operaţie vânzare Nume_client AleXa SRLData 12 aug 2001Cod_fiscal R3458881998Client-id 111111 Adresa SighişoaraSuma 10600000 RolData_intrare 23 ian 2000

Linii_factura_client ProduseNr_fct 11223344Cod_produs 2233Produs 2233 Denumire cafeaCantitate 100CategoriePreţ 104500Subcategorie băcănie

Unitate_măsură kg Cost 90800

Date de sinteză referitoare la totalul tranzacţiilor lunare ale fiecărui client stocate în depozitul de date în vederea analizei clienţilor:Nume_client AleXa SRL Localitatea SighişoaraData_intrare 23 ian 2000

Anul 2001Luna augustNr tranzacţii 18Valoare_medie 207904

Date de sinteză referitoare la cantitatea comandată din fiecare produs stocate în depozitul de date în vederea analizei produselor:

Denumire cafeaAnul 2001Luna augustTotal cantitate 23000Unitate_măsură kgCost marfă 90800Preţ mediu 103207Pentru a fi stocate în depozitele de date, datele se centralizează pe mai multe nivele de agregare− Primul nivel de agregare - timpul (luna).− Al doilea nivel de agregare depinde de subiectul analizei: clientul sau produsul.

Page 22: data mining.docx

− Un al treilea nivel de agregare poate fi localitatea.Pe baza unor asemenea date de sinteză stocate în depozitul de date, se poate construi o suprastructură cu date din ce în ce mai agregate pe multipli ai dimensiunilor primare (timp, localitate):− numărul sau suma tranzacţiilor pe luni, ani, decenii− numărul anual al tranzacţiilor pe oraşe, zone, tări, etc. Procesarea datelor în sistemele tranzacţionale se aplică unui set mic de date- de regulă introduse recent şi stocate compact în cel mult câteva tabele- fiind în consecinţă foarte rapidă Fundamentarea unei decizii necesită procesarea unui volum foarte mare de date stocate dispersat, fiind în consecinţă foarte lentă.

ST - SIAD sunt dirijate de tranzacţii

orientate spre procese (vânzări, achiziţii, încasări, plăţi) reflectă situaţia curentă

integritate, siguranţă, confidenţialitate, timp de răspuns

Utilitate : management operativ (ofera informatii bazate pe date recente)

sunt dirijate de subiectele analizelor orientate spre subiecte (clienţi, furnizori, resurse,

produse) reflectă situaţii globale, cu caracter istoric Concurenţa în utilizare este redusă. procedurile de salvare şi recuperare sunt mult mai

relaxate faţă de sistemele tranzacţionale Utilitate: managementul strategic (explorarea

arhivelor din anii precedenti, inglobarea unor informatii externe)

Baze de date - Depozite de date sunt proiectate şi realizate pe baza unor

cerinţe cunoscute în prealabil adaptarea sistemului la cerinţe ulterioare

evoluează în timp într-o manieră incrementală cerinţele nu sunt cunoscute în totalitate în momentul

proiectării şi realizării sistemului necesită reluări ale unor faze din ciclul de viaţă

sistemul o dată dat în exploatare funcţionează fără modificări majore o lungă perioadă

Proiectarea structurii depozitului de date Modelarea dimensionala Ciclul de viaţă al depozitelor de date

Masa de informaţii care se va stoca în depozit trebuie organizată de aşa manieră încât să reflecte atât datele importante cât şi contextul lorCerinţe− Datele operaţionale sunt integrate în depozit prin utilizarea de convenţii consistente în privinţa numelor, măsurătorilor, atributelor şi semanticii.− Depozitul de date se proiectează ţinând cont de cerinţele exprese ale viitorilor utilizatori.− Structura depozitului de date are în vedere identificarea precisă a datelor stocate şi accesul rapid

Realizarea depozitelor de date Modelarea dimensională oferă suportul necesar pentru proiectarea structurii depozitului de date. Structura se implementează sub forma unei baze de date care să asigure atât stocarea unui volum imens de date cât şi accesul rapid la ele (baze de date client-server).

Următoarea etapă este popularea cu date a depozitului - Această etapă va fi reluată periodic pentru a adăuga datele noi. În final, depozitul este dat în exploatare curentă

Page 23: data mining.docx

- exploatare- analiză

- raportare. activităţi asistate de instrumente software de la simple browsere şi generatoare de rapoarte la instrumente sofisticate de data mining. Exploatarea curentă va evidenţia noi cerinţe informaţionale pentru asistarea deciziei, cerinţe care vor conduce la extinderea structurii depozitului, popularea cu date istorice a extensiei integrarea noilor date în aplicaţii de analiză. Procesul de dezvoltare a depozitelor de date este incremental şi ciclic pe tot parcursul vieţii. Principiul : obiectivul major al unui sistem decizional este analiza performanţelor organizaţiei.

Indicatorii de performanţă vor fi analizaţi de-a lungul unor dimensiuni - axe de analiză . Acest tip de modelare este independent de tehnologiile ce vor fi utilizate.

tehnică de proiectare logică ce permite structurarea variabilelor, fiind folosită pentru vizualizarea modelelor de date sub forma unui set de variabile cheie pentru activitatea analizată (variabile descrise în funcţie de caracteristicile activităţii respective)

permite   conceptualizarea şi reprezentarea aspectelor cantitative, măsurabile ale activităţii în strânsă legătură cu contextul în care s-a desfăşurat activitatea respectivă.

Sistemele tranzactionale… Aceste corelatii intre valorile inregistrate ale activitatii si contextul in care s-a desfasurat aceasta constituie temele multiplelor rapoarte de sinteza pe care le produc sistemele tranzactionale. Aceste rapoarte sunt insa predefinite si sintetizarea lor in vederea efectuarii unor analize comparative a mai multor parametrii se face de obicei off - line, prin copierea rapoartelor in alte medii de lucru si procesarea lor ad-hoc. Ofera un model conceptual comun tuturor acestor rapoarte si posibilitatea de agregare a lor intr-o structura

Uniforma simpla flexibila

pastrand in acelasi timp legatura cu sursele initiale de date si, in consecinta, accesul la diferite nivele de detaliu, pana la setul de tranzactii initiale (drill down)

1. Fapte – colectii de fapte 2. Dimensiuni (criterii de analiza, context)

Ierarhii 3. Masuri (variabile, indicatori) 4. Granularitate 5. Grad de imprastiere

Colecţia de fapte – un ansamblu de date corelate constând din variabile şi date de context. Faptele modelează subiectul de analiză. O faptă reprezintă măsura activităţii determinată la intersecţia tuturor informaţiilor referitoare la activitate. •O tranzac ţie a activităţii sau un eveniment •Starea  unui obiect •Modificările stării unui obiect Modelarea dimensională

Dimensiunile – parametrii activităţii, decupajul din activitatea globală care corespunde măsurii ⇒ criteriile de agregare. zi, lună, an, trimestru, sezon (interval de timp),locaţie, zonă geografică,client, furnizor, produs sau grupă (clasă, categorie) de clienţi, furnizori, produse,angajat, structură organizatoricăDimensiunea modelează o perspectivă de analiză; ea se compune din parametrii corespunzând informaţiilor care fac să varieze măsurile activităţii. Tot ca dimensiune se pot modela variante de măsuri: valori reale, valori bugetate, valori estimate. Această dimensiune oarecum artificială se cheamă scenariu

Caracteristici

Page 24: data mining.docx

Furnizează informaţii descriptive despre fiecare variabilă (măsură, indicator) Conţin în general date statistice. Atributele dimensionale nu se schimbă aşa de des ca faptele – totuşi, pot apare modificări iar modelul dimensional trebuie să permită modificarea pentru a asigura coerenţa şi corectitudinea datelor. Sunt  esenţiale pentru analiză. Un model dimensional ce oferă un număr mare de atribute dimensionale permite analize cât mai complexe şi cât mai variate Dimensiunile sunt identificate în bazele de date tranzacţionale ca fiind cîmpurile ce conţin caracteristicile unei tranzacţii, datele de identificare a tranzacţiei respective, de obicei coduri-chei externe care fac legătura cu nomenclatoarele ce le explicitează.

Dimensiunea se materializează prin setul de valori posibile care alcătuiesc domeniul caracteristicii respective, valorile se numesc membrii dimensiunii.

Parametrii (atributele dimensionale) Sunt de obicei campuri calitative, de tip text In cazul in care un parametru este numeric, acesta trebuie sa indeplineasca doua conditii:

Sa aiba valori discrete Sa fie cvasiconstante Reprezentarea grafică la nivel conceptual a unei dimensiuni

Dimensiunile pot avea multiplii - grupe de valori ale dimensiunii respective cu o caracteristică comună. IERARHII

structuri arborescente formate din dimensiuni şi multiplii acestora. grupare de parametrii de agregare care urmeaza o directie de agregare

Membrii unei dimensiuni se pot aranja în una sau mai multe ierarhii . Ierarhia organizează parametrii unei dimensiuni după o relaţie de tip “este mai fin” în conformitate cu nivelul lor de detaliuParametrii (atributele dimensionale) 1. De prezentare – nu au valoare analitica 2. De agregare - stabilesc nivelele de agregare la care se va efectua analiza 3. De cauzalitate – se folosesc in realizarea de modele (descriptive sau predictive) care sa explice evolutia indicatorilor. Variabile (măsuri) - aspectul cantitativ, comensurabil în unităţi clasice de măsură (kg.,bucăţi, unităţi monetare). O variabilă este un atribut numeric al unui element din baza de fapte, un indicator sau o măsură prin care se poate analiza performanţa activităţii modelate. Exemple ⇒ volumul vânzărilor (cantitativ/valoric), volumul achiziţiilor, costul transportului, volumul datoriilor, volumul

creanţelor, profitul, volumul taxelor şi impozitelor. ⇒ datele cantitative centralizate Tabela de fapte •ocupă locul central în cadrul unui model dimensional şi corespunde colecţiei de fapte. •regrupeaz  ă toţi indicatorii referitori la un subiect de analiză care partajează acelaşi ansamblu de dimensiuni şi care nu pot fi deduşi din alţi indicatori.Reprezentarea grafică la nivel conceptual a unei tabele de fapte

Page 25: data mining.docx

Granularitatea FAPTELOR reprezintă gradul de detaliere a acestora - nivelul de detaliu necesar analizelor, care exprimă numărul de membri ai unei dimensiuni. Se recomandă ca tabela de fapte să menţină granularitatea cea mai fină posibilă.

•determină dimensiunile principale ale modelului •determină volumul bazei de date

 Este un aspect important în proiectarea depozitelor de date, deoarece determină volumul ocupat de date"Granularitatea se referă la nivelul de detaliu (sau de rezumare) a unei unităţi de date din depozit:" Cu cât nivelul de detaliu este mai mare, cu atât granularitatea este mai mică (mai fină) – de ex. o simplă tranzacţie este de granularitate mică" Cu cât rezumarea este mai puternică, cu atât granularitatea este mai mare; de ex. suma tuturor tranzacţiilor dintr-o lună "Nivelul de granularitate fină (detaliere mare) se foloseşte în bazele de date operaţionale şi ca date nerezumate (sau slab rezumate) în depozite"Pe nivelul de granularitate ridicat (date puternic rezumate) se pot stoca date pe perioade îndelungate şi se folosesc pentru decizii de organizare

•  Gradul de imprastiere a datelor ex: masura: vanzari dimensiuni : client, produs, timp Indicatorul volumul vanzarilor va avea valori valide numai pentru o mica fractiune a produsului cartezian a dimensiunilor ( daca vanzarile reale se inregistreaza doar pentru 1% din combinatiile posibile clienti *produse*nr zile gradul de imprastiere este de 9,99%) Un model tridimensional se poate vizualiza/reprezenta cu ajutorul unui cub. Un model multidimensional are însă mai multe

dimensiuni ⇒ un hypercub. Perspectivele multidimensionale asupra datelor sunt numite cuburi de date.

Modelul stea – o reprezentare intuitivă a cubului de date •con ţine o tabelă de fapte (conţinutul cubului de date) •un  set de tabele dimensionale (dimensiunile activităţii).

Modelul fulg de zăpadă •o  variantă a schemei stea, rezultatul descompunerii uneia sau mai multor dimensiuni care au ierarhii (integrarea unor subdimensiuni sau a unor dimensiuni alternative). •dimensiunile   sunt normalizate - apariţia unui număr mare de noi tabele poate compromite performanţele de navigare complicând lucrurile în termeni de lizibilitate şi gestiune

Galaxia (constelaţia) •o colecţie de scheme stea care au atribute dimensionale comune. •Fuzionarea mai multor modele stea şi/sau fulg de nea care utilizează dimensiuni comune.

Modelarea logicăImplementarea modelului dimensional în mediul relaţional: •fiecare fapt ă corespunde unei tabele, numită tabele de fapte •fiecare dimensiune corespunde unei tabele,  numită tabelă de dimensiuni.

Tabela de fapte CARACTERISTICI: •Con ţine un număr foarte mare de tupluri – milioane- care reprezintă produsul cartezian al dimensiunilor •Dimensiunea ei creşte dinamic, în funcţie de cantitatea de date încărcate la fiecare ciclu de împrospătare a bazei de date, precum şi în funcţie de cantitatea de date istorice stocate în baza de date. •Este tabela care  reflectă performanţa activităţii analizate. Conţine toate măsurile importante. •Cheia primară a tabelei este o cheie compusă din cheile primare ale tabelelor dimensionale

Page 26: data mining.docx

•Este  normalizată şi realizează o legătură indirectă între dimensiuni

Modelul stea •Tabela de fapte se leagă de dimensiuni prin join-uri de egalitate. •Fiecare atribut din cheia primară a tabelei de fapte reprezintă cheia primară a unei dimensiuni •Atributele care nu sunt chei pot fi agregate  (tabelele de fapte conţin doar atribute numerice) •Tabelele sunt denormalizate  Vânzări (IDProdus, IDMagazin, IDTimp, Cantitate, Valoare) Timp (IDTimp, Zi , Lună, Trimestru , Semestru, An) Magazin (IDMagazin, DenMagazin, Localitate, Judeţ Regiune, Ţară) Produs (IDProdus, Denumire prod., Marcă prod., Subcategorie prod., Categorie prod., Raion) Modelarea logică

Paradigma obiect •Fiecare   tabelă de faptă corespunde unei clase, denumită clasă de faptă; •fiecare   dimensiune corespunde unei clase, denumită clasă de dimensiuni. Etapele generale ale procesului de proiectare a unui depozit de date •Delimitarea  procesului economic ce va fi modelat. •Stabilirea  nivelului de granularitate. •Alegerea  dimensiunilor - criterii de agregare •Alegerea  măsurilor

Aspecte particulare ale proiectării dimensionale Aditivitatea faptelor •faptele sunt  numerice şi în general aditive şi valorificate de o manieră continuă (măsurile sunt numerice şi aditive pentru a permite rezumarea unui număr mare de înregistrări în câteva înregistrări).

Fapte semi-aditive : fapte care pot fi adiţionate doar după anumite dimensiuni (stocuri, solduri de conturi, contorizarea unor indicatori) Fapte non-aditive : nu pot fi deloc adiţionate (indicatori calculaţi ca raport intre alţi indicatori)

Tabelele de fapte fără fapte - pentru reprezentarea acelor procese ale activităţii care deşi nu prezintă fapte măsurabile sunt interesante pentru procesul de analiză, deci trebuie să fie cuprinse în depozitul de date

•Tabelele de urmărire a evenimentelor au ca scop contorizarea evenimentelor rezultate din prezenţa simultană a mai multor dimensiuni în acelaşi loc şi în acelaşi timpTabelele de acoperire spre deosebire de cele de urmărire a evenimentelor au ca scop de a pune în evidenţă ceea ce nu s-a întâmplat mai degrabă decât ceea ce s-a întâmplat. Tabelele de acoperire ţin evidenţa tuturor instanţierilor unor dimensiuni care la un moment dat sunt supuse unor stări, explicând astfel componenta “de acoperire” din denumirea lor Un exemplu clasic este tabela de urmărire a produselor aflate în promoţie. Prin comparaţie cu tabela aferentă activităţii de vânzare se pot determina produsele aflate în promoţie dar care nu au fost vândute

OLAP

Page 27: data mining.docx

PRELUCRAREA ANALITICĂ A DATELOR ON-LINE •O categorie de instrumente software care  permit decidentilor să înţeleagă esenţa datelor printr-un acces rapid, consistent şi interactiv la o mare varietate de perspective asupra acestora •Sintetizarea, analiza si consolidarea  dinamica a unor volume mari de date multidimensionale

OLAP On-Line Analytical Processing ⇒ tehnologie de agregare a datelor stocate în depozite într-o abordare multidimensională care asigură acces rapid la informaţiile necesare decidenţilor într-o manieră consistentă, interactivă şi foarte flexibilă.

testul FASMI(Fast Analysis Shared Multidimensional Information)Fast – rapiditate (capacitatea de a livra informaţiile în timp util de ordinul secundelor)Analysis – analiză (capacitatea de a efectua analize numerice şi statistice prin aplicaţii predefinite sau create ad-hoc de către utilizator.Shared – partajată (utilizată în regim concurent de mai mulţi utilizatori, fapt ce impune asigurarea securităţii şi confidenţialităţii datelor )Multidimensional – Caracteristica esenţială a OLAPInformation – Acces la orice date şi informaţii relevante pentru analiză, oriunde s-ar găsi şi în orice volum• Se refera la o varietate de activitati realizate de obicei de utilizatorii finali in cadrul sistemelor on-line ( generare interogari, reintorogari ad-hoc, reprezantari vizuale, analiza si reprezentarea multidimensionala a datelor) • Modelarea, analiza si vizualizarea unor seturi mari de date intr-o perspectiva multidimensionala

OLAP - DD⇒ OLAP transformă volumul imens de date stocate şi gestionate în depozite în informaţii utile procesului de decizie. •DD – acumuleaza informatii cu caracter istoric cu scopul de a furniza raspunsuri la intrebari de tipul : CINE? CE? UNDE? CAND? •OLAP – analizeaza datele agregate in perspective multidimensionale pentru a putea raspunde la intrebari suplimentare de tipul DE CE? CE AR FI DACA (WHAT IF)?

OLTP OLAP • Procesarea tranzactiilor – prelucrari simple pentru operatii repetitive

• Rapoarte predefinite

• Examinarea datelor si a relatiilor complexe dintre acestea

• Se pot formula ad-hoc interogari specifice

• Asigura continuitate in analiza

Cerinţele funcţionale ale sistemelor OLAP: •OPORTUNITATE   prelucrarea datelor pentru analiză acces rapid la date calcule rapide •ACURATE ŢE •INTELIGIBILITATE  Tehnicile utilizate de OLAP• simpla navigaţie în BD• selecţia datelor• analize complexe incluzând modele şi serii temporale.• posibilitatea de a construi scenarii Principalele caracteristici ale OLAPPerspectivă (view) multimensională asupra datelorCapacitate de calcul intensivOrientare în timp (time intelligence)Perspectiva multidimensională asupra datelor

Page 28: data mining.docx

Capacitatea de a integra mai multe aspecte ale activităţii întreprinderii privite din diferite perspective: timp, locaţie, produs, bani, persoane, etc.Fiecare dimensiune poate avea mai multe nivele:• dimensiunea temporală se poate divide în ani, luni, trimestre, sezoane, etc• dimensiunea geografică în emisfere, continente, ţări, regiuni, oraşe, etc• dimensiunea produs poate avea subdimensiuni de genul: categorie, clasă, fel, etc. Conceptul “dimensiune” este utilizat în sensul de aspect Dimensiunile sunt complet independente - posibile criterii de agregare a datelor - nivelele unei dimensiuni formează o ierarhie (criterii de agregare) - IERARHIE – o grupare de atribute dimensionale care urmeaza o directie de agregare Perspectivele multidimensionale asupra datelor sunt numite hipercuburi de date, prin extinderea noţiunii de cub tridimensional la cub n-dimensional sau hipercub. Capacitatea de a efectua calcule intensive- abilitatea de a aplica algoritmi complecşi asupra datelor structurate în hipercub,- implică- posibilitatea de adresare multidimensională directă a locaţiilor (cuburile unitare)- optimizarea timpului de răspuns.Orientarea în timp (time intelligence) abilitatea de exploatare a acestei dimensiuni universale, necesară pentru comparaţii şi judecăţi de valoare în orice analiză economică.Timpul este preluat din datele tranzacţiilor.Pe baza acestor date primare se fac agregări pe luni, semestre, sezoane, ani, decenii, etc.Dimensiuni mai puţin obişnuite:- “perioada curentă”,- “perioada precedentă”,- “aceeaşi perioadă a anului trecut”, etc.

Modelarea datelor este un pas important în procesul de dezvoltare a unui depozit de date pentru că permite vizualizarea structurii înainte de a fi construită.Modelul multidimensional – hipercubul - este însă dificil de vizualizat în toate dimensiunile şi trebuie prezentat desfăşurat în secţiuni sau proiecţii tridimensionale pentru a putea fi înţeles secţiunea este o felie transversală din cub, identificată prin coordonatele secţiunii proiecţia este o secţiune care centralizează datele de pe toate dimensiunile suprimateVizualizarea datelor on-line se face în secţiuni sau proiecţii tridimensionale Datele din celule pot fi prezentate numai în secţiuni sau proiecţii transversale bidimensionale (forma clasică a tabelelor pivot). Intuitiv, hipercubul poate fi imaginat ca un set de tabele pivot grupate pe dimensiunea comună. În mod abuziv, hipercubul este considerat un set de cuburi tridimensionale distincte. Pot exista şi hipercuburi distincte, chiar dacă au dimensiuni comune, dar cu alte măsuri.

Aplicaţiile construite cu tehnologia OLAP asigură : analiza rapidă a informaţiei multidimensionale distribuită în locaţii multiple şi accesibilă în acelaşi timp unui număr mare de utilizatori. OLAP utilizează în acest scop baze de date multidimensionaleÎn plan fizic, hipercubul poate fi stocat într-o tablă- coloane în care sunt stocate măsurile- identificatori de rânduri (chei) formaţi din toate combinaţiile posibile de valori ale dimensiunilor.Utilizarea indecşilor pentru acces rapid nu este de prea mare ajutor întrucât cheia este formată din multe caracteristici iar câmpurile de valoare sunt puţine şi numerice.

Page 29: data mining.docx

Tabela de indecşi este aproape la fel de mare ca şi tabla iniţială. Accesul direct rapid este asigurat prin tabele bitmap.Bazele de date dedicate datelor modelate ca hipercuburi sunt bazele de date multidimensionaleBaze de date multidimensionaleStructura datelor - în care sunt stocate măsurile activităţii preluate din tabela de fapte a depozitului de date (cantităţi, valori, contoare, etc), date care sunt prezentate utilizatorului în celulele tabelelor pivot. Structura metadatelor - în care sunt stocate dimensiunile şi membrii acestora precum şi structurile ierarhice ale dimensiunilor, toate informaţiile care apar pe axele cuburilor şi sunt prezentate utilizatorului ca nume de rânduri şi coloane în tabelele pivot.

Operaţii OLAP asupra hipercubuluiProiectarea hipercubului trebuie să ţină seama de nivelul de detaliu necesar la analiză, nivel de detaliu denumit granularitate şi care exprimă numărul de membri ai unei dimensiuni.Dacă granularitatea din start este prea mare (grupe de clienţi sau structuri organizatorice de agenţi), datele sunt prea centralizate şi nu se poate face o analiză fină.OLAP ajustează nivelul de granularitate prin exploatarea ierarhiilor dimensiunilor efectuând comasări şi descompuneri ale măsurilor prin procedurile denumite- roll-up (consolidarea)- drill-down.(parcurgerea in jos) Aceste proceduri deplasează proiecţia cubului în sus şi în jos pe nivelele ierarhice ale fiecărei dimensiuni (zoom in; zoom out) efectuând de fiecare dată centralizări ale măsurilor stocate la cea mai mică granularitate după criteriile ierarhice cerute. Operaţia drill-down oferă mai multe detalii Operaţia roll-up oferă date mai sintetice - datele sunt agregate pe structuri de tip ierarhie

Roll-up & Drill downDomenii de utilizare ale OLAPInstrumentele OLAP şi aplicaţiile construite cu această tehnologie îşi găsesc multiple domenii de utilizare în activitatea întreprinderilor: vânzări , marketing , finanţe , producţie.departamentele financiar şi contabilitate- construirea bugetelor- analiza performanţelor financiare- modelare financiară; departamentul vânzări- analize complexe ale vânzărilor- previziuni; departamentul marketing- cercetări şi analize de piaţă,- analize ale campaniilor publicitare,- analiza clienţilor şi a segmentelor de piaţă. Activitatea de producţie- planificarea operaţiilor,- asigurarea şi controlul calităţii produselor- analiza rebuturilor- optimizarea raportului cost-performanţă

Caracterisitici Baze de date

relaţionale OLTP

Baze de date relaţionale

Datawarehouse

Baze de date multidimensionale OLAP

Operaţia tipică Actualizare Raportare Analiză

Nivelul de analiză cerut Scăzut Mediu Ridicat

Ecrane Neschimbat Definit de utilizator Definit de utilizator

Volum de date pe tranzacţie Mic Mic/Mare Mare

Page 30: data mining.docx

Nivel de detaliu date Detaliu D e t a l i i ,Sumarizare Însumate

Vechimea datelor Curente Istorice şi curente Istorice, curente, previzionate

Orientare Înregistrare Înregistrare Matrice

Data Miningun proces de extragere de informaţii noi din colecţiile de date existente. dată - descriere a unui eveniment precis, produs în lumea reală şi verificabil prin raportare la aceasta. informaţia (cunoaşterea transmisă)-descrierea unei categorii abstracte, ce acoperă mai multe evenimente sau exemple concretereorientare semnificativă în utilizarea volumelor de date stocate, de la un proces de explorare retrospectivă spre unul cu caracter prospectiv. Utilizeaza metode statistice, matematice si tehnologii IA pentru a identifica si a extrage informatii utile si cunostinte din colectii de date (reguli, corelatii, trenduri, predictii) Termenul DM – KDD acopera astazi toate tipurile de analiza automata a datelor

Premise• existenţa colecţiilor de date istorice memorate pe suporturi informatice• maturizarea algoritmilor şi a produselor program dedicate • creşterea capacităţii de memorare şi preluc a calculatoarelor, care permite tratarea în corelaţie a volumelor f mari de date.• Reducerea costurilor de stocare si procesare a datelor• Competitia• Tendinta de “demasificare” a practicilor de afaceri• Consolidarea inregistrarilor in bazele de date ( o singura perspectiva pentru utilizator) si a bazelor de date (depozite de

informatii)• Datele analizate sunt stocate intr-un depozit de date• Mediul DM este de regula o arhitectura client-server sau bazata pe Web• Presupune utilizarea unor instrumente si tehnici sofisticate – inclusiv de vizualizare si prezentare a informatiilor• Analiza datelor este realizata direct de utilizatorul final – decidentul • Instrumentele DM sunt de obicei corelate cu alte instrumente soft pentru a permite o analiza rapida a informatiilor obtinute• Procesare paralela

Principiul de funcţionare : • se prelucrează datele referitoare la perioadele trecute, examinând o varietate de situaţii care s-au produs şi ale căror

rezultate sau consecinţe cunoscute• se evidenţiaza caracteristicile acestora,• se elaboreaza un model, care poate fi aplicat situaţiilor noi de acelaşi tip.

Informaţiile obţinute prin data mining sunt de natură predictivă – descoperirea de comportamente viitoarede narură descriptivă – caracterizarea generala a datelor (comportamente individuale)

ciclu în utilizarea data mining• identificarea oportunităţii comerciale şi a datelor pe care se poate baza explorarea • extragerea de informaţii din colecţiile de date existente prin tehnici adecvate de data mining • adoptarea de decizii şi întreprinderea de acţiuni pe baza informaţiilor obţinute • măsurarea rezultatelor concrete pentru a identifica şi alte modalităţi de exploatare a datelor disponibile

Aplicarea tehnicilor de data mining :Abordarea descendentă : efortul este orientat spre confirmarea sau infirmarea unor idei (ipoteze) formulate în prealabil prin alte mijloace. Un demers asemănător se aplică în statistică şi în analiza datelor, dar folosind alte tehnici şi metode

Page 31: data mining.docx

Abordarea ascendentă : se urmăreşte extragerea de cunoştinţe sau informaţii noi din datele disponibileCăutarea dirijată ia în considerare un atribut sau un câmp, ale cărui valori încearcă să le explice prin celelalte câmpuri. Căutarea nedirijată are ca scop identificarea relaţiilor sau structurilor existente în ansamblul datelor examinate, fără a acorda prioritate unui câmp sau altul.

Data Mining -Tehnici şi acţiuniExplorarea datelor în vederea obţinerii de informaţii recurge la diverse tehnici:reţelele neuronalearborii de deciziealgoritmii genetici

analiza grupurilorraţionamentele bazate pe cazurianaliza legăturilor

tehnici statistice- regresiile, analiza factorială etc• Metode utilizate in DM:

Metode simple (SQL, OLAP, judecata umana) Metode “intermediare” (regresie, arbori de decizie, clustering) Metode complexe (retele neuronale, inductie atomata)

Clasificarea - plasarea obiectelor prelucrate într-un grup limitat de clase predefinite. Obiectele clasificate sunt reprezentate, în general, sub formă de înregistrări, compuse din atribute sau câmpuri. Tehnici:arborii de decizie, raţionamentul bazat pe cazuri, retele neuronale.Estimarea - atribuirea unei valori unei variabile, pe baza celorlalte date de intrare. Rezultatele obţinute prin estimare sunt valori continue. Tehnici : Reţelele neuronale

Predicţia urmăreşte să claseze înregistrările tratate în funcţie de un comportament sau o valoare estimată viitoare. În acest scop, se recurge la o colecţie de exemple, bazate pe date din trecut, în care valorile variabilei de previzionat sunt deja cunoscute. Cu ajutorul acestora se construieşte un model care să explice comportamentul observat. Aplicând acest model asupra înregistrărilor de prelucrat, se obţine o predicţie a comportamentului sau valorilor acestora în viitor.

Tehnici: arborii de decizie raţionamentul bazat pe cazuri

reţelele neuronaleGruparea urmăreşte să determine care sunt obiectele care apar cel mai frecvent împreună.Analiza grupurilor urmăreşte să dividă o populaţie eterogenă în grupuri mai omogene, numite “cluster”. Spre deosebire de celelalte tipuri de acţiuni asemănătoare, aici nu există un set predeterminat de clase ca în cazul clasificării şi nici exemple trecute. Segmentarea se face în exclusivitate pe baza similitudinilor sesizate între obiecteData mining – utilizare

• Finante• Comert• Medicina

DM – mituri si realitati• DM ofera instantaneu predictii• DM nu este deocamdata viabil pentru afaceri • Doar profesionistii pot utiliza DM • DM necesita un DD separat • Doar pentru firme mari, care dispun de foarte multe date • DM este un proces iterativ, proiectat si utilizat proactiv• DM este aplicabil in orice domeniu• Toti decidentii pot utiliza DM• Nu este necesar un DD separat• Orice companie poate utiliza DM, indiferent de marimea sa

Page 32: data mining.docx

Etapele procesului de explorare a datelorDefinirea problemei

• declanşarea procesului este determinată de sesizarea unei oportunităţi sau necesităţi de afaceri. • ce urmează a fi rezolvat prin data mining• obiectivele urmărite • rezultatele aşteptate.

Problema de rezolvat prin data mining contribuie, ca parte componentă, la valorificarea oportunităţii sesizate de întreprindere, dar nu se identifică cu ea. În plus, trebuie să primească o formă în care să poată fi tratată prin aceste tehniciIdentificarea surselor de date

• stabilirea structurii generale a datelor necesare rezolvării sale şi a regulilor de constituire a acestora. • localizarea surselor acestora. • examinarea conţinutului fiecăreia dintre surse, pentru o familiarizare cu conţinutul său şi pentru identificarea, cât mai

precoce, a eventualelor incoerenţe sau probleme de definire, care pot compromite rezultatele analizelor următoareColectarea şi selecţia datelor extragerea şi plasarea într-o bază comună a tuturor datelor ce urmează a fi folosite.

- prelucrarea întregului fond de date disponibil - prelucrarea unui eşantion.

Pregătirea datelor - transformări comune care vizează:valorile extreme sau aberante - încadrarea între limitele cuprinse între medie şi un anumit număr de abateri standard prin excludere sau plafonare- izolarea vârfurilorvalorile lipsă - eliminarea înregistrărilor având câmpuri cu valori nule- completarea datelor omise cu valori medii, cu valoarea cea mai frecventă sau cu valori calculate după alte relaţiivalorile de tip text -codificarea prin tabele de corespondenţe, în care să figureze toate şirurile valide de caractere.rezumarea

-detaliile conţinute în date sunt nesemnificative pentru rezolvarea problemei abordate, -numărul de exemple analitice este insuficient -datele sunt prea numeroase

codificarea incoerentă - obiecte identice sunt reprezentate diferit în unele dintre sursele folosite

arhitecturile informatice incompatibile - diferenţele în modul de reprezentare internă a valorilor ( date create cu sisteme din generaţii diferite).

Construirea modelului - crearea modelului informatic care va efectua explorarea propriu-zisăEvaluarea modelului : stabilirea capacităţii modelului de a determina corect valorile pentru cazuri noi. Performanţele unui model se apreciază cu ajutorul unei „matrice de confuzie”, care compară situaţia reală cu cea furnizată de acesta. Calitatea globală se exprimă prin raportul dintre numărul de predicţii exacte şi numărul total de predicţii

Integrarea modelului - includerea modelului obţinut într-un SIAD, sau integrarea sa într-un proces decizional mai general din întreprindere. Orice model are o durată de viaţă limitată; modelele trebuie actualizate permanent, pentru a putea urmările schimbările survenite în domeniul la care se referă. Rezolvarea unei probleme se obţine prin combinarea mai multor tehnici..

Integrarea DM in aplicatiile tip SIAD• Procesul DM situat “deasupra” DD• Procesul DM situat in afara DD – server dedicat DM• Procesul DM integrat cu DD

Page 33: data mining.docx

Produse program pentru Data Miningaplicaţii adiţionale sau încorporate în produse mai mari, cel mai frecvent în SGBD sau de data wharehouse şi OLAP - SQL Server 2012 care încorporează algoritmi de clustering şi de arbori de decizie, ce pot fi aplicaţi atât asupra bazelor de date relaţionale cât şi a surselor de date OLAP.Sisteme complexe (suite), care integrează mai multe tehnici şi algoritmi diferiţi

• IBM Intelligent Miner for Data, care acoperă întregul proces de data mining, oferind nu numai algoritmi de explorare a datelor ci şi instrumente de pregătire şi interpretare a rezultatelor

• Clementine, produs de SPSS• Alice, produs de firma Isoft, cu facilităţi pentru tratarea datelor provenind de pe Web• Predictive Dynamix, care integrează reţele neuronale, algoritmi genetici, algoritmi de clustering şi instrumente de

vizualizare