No Slide Title Cursul 9_10.pdf · 4 O explorare dirijat GHRSRUWXQLW L Utilizarea data mining :...

32
1 TEHNOLOGII PENTRU EXTRAGEREA CUNOŞTINŢELOR DATA MINING

Transcript of No Slide Title Cursul 9_10.pdf · 4 O explorare dirijat GHRSRUWXQLW L Utilizarea data mining :...

1

TEHNOLOGII PENTRU

EXTRAGEREA CUNOŞTINŢELOR

DATA MINING

2

Data mining : un proces de extragere de

informaţii noi din colecţiile de date existente.

Principiul de funcţionare : Prelucrarea datelor referitoare la perioadele trecute

pentru a evidenţia caracteristicile acestora

şi a permite elaborarea unui model. Odată construit, modelul poate fi aplicat situaţiilor noi de

acelaşi tip.

Informaţiile obţinute prin data mining sunt de natură

predictivă sau descriptivă.

3

Fundamentele explorării datelor. Premize:

• firmele au acumulat volume foarte mari de date, stocate pe suporturi informatice, privitoare la tranzacţii de diverse tipuri, derulate de-a lungul mai multor ani.

• maturizarea algoritmilor şi a produselor program dedicate

• creşterea capacităţii de memorare şi prelucrare a calculatoarelor, care permite tratarea în corelaţie a volumelor foarte mari de date.

• au apărut firme care oferă spre vânzare colecţii de date istorice de uz general – cum ar fi, spre exemplu, evoluţia indicatorilor bursieri din ultimii 20 de ani - special constituite pentru asemenea utilizări.

4

O explorare dirijată de oportunităţi

Utilizarea data mining: Ciclu în cursul căruia se parcurg patru

etape:

identificarea oportunităţii comerciale şi a datelor pe care

se poate baza explorarea

extragerea de informaţii din colecţiile de date existente

prin tehnici adecvate de data mining

adoptarea de decizii şi întreprinderea de acţiuni pe baza

informaţiilor obţinute

măsurarea rezultatelor concrete pentru a identifica şi alte

modalităţi de exploatare a datelor disponibile

5

Decizie şi acţiune

Data mining

Oportunitate de

afaceri

Evaluare rezultate

Ciclul de utilizare a data mining

6

Data mining

verificarea ipotezelor căutarea de cunoştinţe

dirijată nedirijată

Verificarea ipotezelor şi căutarea cunoştinţelor

7

Aplicarea tehnicilor de data mining poate fi făcută din perspectiva unui demers ascendent sau descendent.

În abordarea descendentă, efortul este orientat spre confirmarea sau infirmarea unor idei (ipoteze) formulate în prealabil prin alte mijloace.

Abordarea ascendentă urmăreşte extragerea de cunoştinţe sau informaţii noi din datele disponibile. Căutarea poate fi dirijată sau nedirijată

8

• Căutarea dirijată ia în considerare un atribut sau un câmp, ale cărui valori încearcă să le explice prin celelalte câmpuri. Este cea mai folosită în practică.

• Căutarea nedirijată are ca scop identificarea relaţiilor sau structurilor existente în ansamblul datelor examinate, fără a acorda prioritate unui câmp sau altul. Deşi mai spectaculoasă, în practică se recurge mult mai puţin la ea decât la căutarea dirijată.

9

Tehnici şi acţiuni

Explorarea datelor în vederea obţinerii de informaţii recurge la diverse tehnici, printre cele mai folosite aflându-se:

• reţelele neuronale

• arborii de decizie

• algoritmii genetici

• analiza grupurilor

• raţionamentele bazate pe cazuri

• analiza legăturilor

La acestea se pot asocia şi tehnici statistice, cum sunt, spre exemplu, regresiile, analiza factorială etc.

10

Acţiuni Data mining:

1. Clasificarea

2. Estimarea

3. Predicţia

4. Gruparea

5. Analiza grupărilor

11

1. Clasificarea urmăreşte să plaseze obiectele prelucrate într-un grup limitat de clase predefinite.

Dintre tehnicile de data mining, cele mai adecvate clasificării sunt arborii de decizie şi raţionamentul bazat pe cazuri.

2. Estimarea urmăreşte să atribuie o valoare unei variabile, pe baza celorlalte date de intrare.

Reţelele neuronale sunt printre cele mai bune tehnici de data mining pentru acest gen de prelucrări.

12

3. Predicţia urmăreşte să claseze înregistrările tratate în funcţie de un comportament sau o valoare estimată viitoare.

• o colecţie de exemple, bazate pe date din trecut, în care valorile variabilei de previzionat sunt deja cunoscute.

• se construieşte un model care să explice comportamentul observat. Aplicând acest model asupra înregistrărilor de prelucrat, se obţine o predicţie a comportamentului sau valorilor acestora în viitor.

Tehnicile de clasificare sau estimare pot fi folosite şi pentru predicţii

13

4. Gruparea urmăreşte să determine care sunt obiectele care apar cel mai frecvent împreună.

Exemplul tipic pentru acest gen de acţiune este determinarea mărfurilor care se cumpără uzual împreună, de unde şi denumirea de “analiză a coşului gospodinei”.

5. Analiza grupurilor urmăreşte să dividă o populaţie eterogenă în grupuri mai omogene, numite “cluster”.

• nu există un set predeterminat de clase ca în cazul clasificării şi nici exemple trecute;

• segmentarea se face în exclusivitate pe baza similitudinilor sesizate între obiecte.

14

Etapele procesului de explorare a datelor

Condiţii necesare

• Existenţa programelor pentru implementarea

algoritmilor specifici tehnicilor de data mining

• Pregătire prealabilă a datelor, de curăţare şi

uniformizare.

• Rezultatele trebuie analizate şi interpretate pentru

a identifica informaţiile pertinente pe care le

conţin.

• Selectia tehnicilor adecvate naturii problemei

vizate

15

ETAPE:

A. Definirea problemei

B. Identificarea surselor de date

C. Colectarea şi selectarea datelor

D. Pregătirea datelor

E. Construirea modelului

F. Evaluarea modelului

G. Integrarea modelului

16

A. Definirea problemei

• declanşarea procesului este determinată de

sesizarea unei oportunităţi sau necesităţi de

afaceri.

• În cadrul acesteia, este nevoie să se

delimiteze exact ce urmează a fi rezolvat

prin data mining, care sunt obiectivele

urmărite şi rezultatele aşteptate.

17

B. Identificarea surselor de date

• stabilirea structurii generale a datelor necesare

• regulile de constituire a datelor

• localizarea surselor acestora.

-date dispersate în diverse sisteme informatice operaţionale

- stocate în formate diferite

- administrate cu produse software diferite

- uneori disponibile numai pe hârtie.

• eventualele incoerenţe sau probleme de definire, care pot compromite rezultatele analizelor următoare.

18

C. Colectarea şi selecţia datelor

Această etapă urmăreşte extragerea şi plasarea

într-o bază comună a tuturor datelor ce

urmează a fi folosite .

Problema : alegerea între

• prelucrarea întregului fond de date

disponibil

• un eşantion reprezentativ

19

D. Pregătirea datelor

Transformări comune care vizează:

• valorile extreme sau aberante

• valorile lipsă

• valorile de tip text

• rezumarea

• codificarea incoerentă

• arhitecturile informatice incompatibile

20

E. Construirea modelului

Crearea modelului informatic care va efectua explorarea propriu-zisă.

În cazul căutării de informaţii, dirijate sau nu, construirea modelului este acompaniată de o fază de instruire, de învăţare.

Învăţarea

• un ansamblu de exemple complete

• identificarea relaţiilor care leagă între ele valorile diferitelor elemente

Testarea

• date diferite de cele folosite pentru învăţare, dar aparţinând aceleiaşi populaţii

Evaluarea

• fază de reajustare a modelului

Obţinerea de explicaţii privitoare la modul în care un element variază în funcţie de valoarea altor elemente

21

Date de învăţare

Date de test Date de evaluare

Model utilizabil

Datele colectate

Set de date preclasate şi distribuirea acestora, după colectare şi

pregătire, în trei seturi: de învăţare, de testare şi de evaluare

70-80% din date sunt alocate învăţării, restul rămânând pentru

testare sau fiind împărţit egal între aceasta şi evaluare.

Schema procesului de creare a modelelor de căutare a informaţiilor

22

F. Evaluarea modelului

• evaluarea are scopul de a stabili capacitatea modelului de a determina corect valorile pentru cazuri noi.

• in general, performanţele unui model se apreciază cu ajutorul unei „matrice de confuzie”, care compară situaţia reală cu cea furnizată de acesta.

• calitatea globală se exprimă prin raportul dintre numărul de predicţii exacte şi numărul total de predicţii

23

G. Integrarea modelului

Această etapă finalizează procesul, prin includerea modelului obţinut într-un SIAD sau într-un proces decizional mai general din întreprindere.

Observaţii :

• orice model are o durată de viaţă limitată.

(modelele trebuie actualizate permanent, pentru a putea urmările schimbările survenite în domeniul la care se referă).

• rezolvarea unei probleme se obţine prin combinarea mai multor tehnici.

24

1. Reţelele neuronale

2. Arborii de decizie

3. Algoritmii genetici

4. Analiza grupurilor

5. Raţionamentele bazate pe cazuri

6. Analiza legăturilor

25

1. Reţelele neuronale

• pot furniza soluţii, în special de natură predictivă, pentru probleme de mare complexitate sau volatilitate.

• cazuri tipice de utilizare cu succes a reţelelor neuronale includ: stabilirea preţurilor pe piaţa imobiliară, evoluţia cotaţiilor pe pieţele financiare, analiza cererilor de creditare etc.

• O reţea neuronală dobândeşte capacitatea de a rezolva un anumit tip de problemă în urma unui proces de învăţare. Procesul de învăţare permite reţelei să identifice automat un set de corelaţii utilizate ulterior pentru a face predicţii.

26

2. Arborii de decizie

• tehnică aplicabilă atât pentru clasificare cât şi pentru predicţie.

• rezultatul ia forma unei arborescenţe care prezintă o ierarhie de reguli logice stabilite automat prin explorarea unei baze de exemple.

• exemplele au forma unor înregistrări compuse din mai multe atribute.

• regulile se obţin ca efect al subdivizării din ce în ce mai detaliate a ansamblului exemplelor, în funcţie de conţinutul atributelor.

Ex. Daca locuinta inchiriata si venit anual< 5.000 lei

Atunci probleme la rambursarea creditului

27

3. Algoritmii genetici

• aplică principalele mecanisme ale selecţiei

naturale pentru a favoriza conservarea şi

reproducerea, dintr-o populaţie numeroasă, a

celor mai performanţi, mai bine adaptaţi indivizi.

• populaţia este formată din ansamblul de soluţii

posibile ale unei probleme; cel mai adaptat

individ este prin urmare, cea mai bună soluţie.

• algoritmii genetici permit găsirea soluţiei optime

(efectuarea de predicţii sau clasificări).

28

4. Analiza grupurilor (clustering)

• permite identificarea automată a grupurilor existente în ansamblul datelor analizate (poate fi aplicata în căutarea nedirijată).

• grupurile rezultă automat în urma procesului de prelucrare, fără a avea ca punct de pornire un anumit criteriu sau proprietate.

• este o tehnică ce are capacitatea de a releva realmente caracteristici ascunse – sub volumul şi diversitatea detaliilor – într-un anumit set de înregistrări.

• detectarea automată de cluster-e este recomandabilă ca tehnică de debut pentru un proiect de data mining. Rezultatele furnizate de aceasta urmează a fi explorate în continuare cu alte tehnici pentru a obţine informaţii mai complete.

29

5. Raţionamente bazate pe cazuri

• raţionamentul bazat pe cazuri caută răspunsurile la problemele noi în experienţele acumulate în trecut.

• in faţa unei situaţii noi, vor fi căutate cazurile asemănătoare cunoscute iar concluziile acestora vor fi aplicate şi în noua situaţie.

• metoda este aplicabilă atât pentru clasificări cât şi pentru predicţii

30

6. Analiza legaturilor

• analiza asocierilor, denumită şi “analiza coşului gospodinei” urmăreşte să găsească regulile care descriu apariţia frecventă împreună a unor obiecte eterogene.

• rezultatele generate primesc o formă explicită şi simplă, care favorizează înţelegerea şi aplicarea lor concretă.

• tehnica se poate aplica pentru căutarea nedirijată de informaţii (poate fi aplicată oricăror tranzacţii comerciale, putând servi pentru analiza vânzărilor din supermarket-uri, analiza mişcărilor de fonduri dintr-o bancă, analiza incidentelor de asigurare etc.)

31

Oferta de produse program pentru data mining

• aplicaţii adiţionale sau încorporate în produse mai mari, cel mai

frecvent în sisteme de gestiune a bazelor de date sau de data warehouse şi OLAP( SQL Server 2000 al firmei Microsoft, care încorporează algoritmi de clustering şi de arbori de decizie, ce pot fi aplicaţi atât asupra bazelor de date relaţionale cât şi a surselor de date OLAP).

• sisteme complexe care integrează mai multe tehnici şi algoritmi diferiţi (IBM Intelligent Miner for Data, care acoperă întregul proces de data mining, oferind nu numai algoritmi de explorare a datelor ci şi instrumente de pregătire şi interpretare a rezultatelor, Predictive Dynamix, care integrează reţele neuronale, algoritmi genetici, algoritmi de clustering şi instrumente de vizualizare.

• produse specializate pentru o singură tehnică de data mining

32

Explorarea datelor din depozite:

1. Interogari ad-hoc si de analiza (SQL)

2. Analiza multidimensionala (limbaje care

opereaza pe cuburi:MDX, Express)

3. Tehnici speciale de Data Mining