C1_MPABD_11

57
 1 DATA MINING

Transcript of C1_MPABD_11

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 157

1

DATA MINING

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 257

2

FIŞA DISCIPLINEI

Denumirea disciplinei Data mining

Titularul de disciplină Prof univdr Ioan Ileană

Cod MI104 Anul I Semestrul II Număr de credite 8

Facultatea Facultatea Ştiinţe

Ciclul de studii Master Durata 2 ani4 semestre

Domeniul Ştiinţe exacteInformatică

Date privindprogramulde studii

Specializarea Programare avansată şi baze de date

Categoria formativă (F ndash fundamentală S ndash de specialitate C ndash complementară) STipuldisciplinei Categoria de obligativitate (O ndash obligatorie Op ndash opţională F ndash facultativă)

Discipline anterioare obligatorii Cod

1 Baze de date -

2 Inteligenţa artificială -

Număr de oresăptămacircnă Activităţi de icircnvăţare

C S L P TotalNr desăpt

Total oresemestru

Activităţi didactice comune 2 - 2 - 4 14 56 Activităţi individuale de icircnvăţare icircn cursul semestrului 2 14 28

Activităţi de icircnvăţare icircn sesiunea de examene 5 4 20

Date privindparcursulde studiu aldisciplinei

Total - - 104

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 357

3

Obiective

Cursul introduce concepte metode şi tehnici data mining din perspectiva bazelor dedate Accentul este pus asupra diferitelor funcţionalităţi (task-uri) data mining şi asoluţiilor corespunzătoare

Studenţii vor deprinde diverse tehnici de analiza datelor şi vor aplica aceste tehnicipentru rezolvarea unor probleme data mining folosind sisteme software speciale Se vaforma o percepţie asupra data mining ca fiind un puternic domeniu aplicativ dar şi undomeniu de cercetare semnificativ icircn bazele de date

Competenţe

Competenţe cognitive

Capacitatea de a1) identifica tipul sistem adecvat unei situaţii concrete (clasificare prognoză regresieetc)2) stabili care sunt instrumentele de implementare a unui sistem de data mining3) compara şi evalua diferite soluţii de icircnvăţare pentru o situaţie concretă Competenţe tehniceprofesionale

Capacitatea de a

1) implementa folosind diverse medii tehnici de data mining2) realiza sisteme de data miningCompetenţe afective

Capacitatea de a cunoaşte şi icircnţelege 1) conceptele de bază ale procesului de data mining2) principalele tipuri şi tehnici de icircnvăţare automată 3) principalele abordări ale extragerii cunoştinţelor din baze de date mari

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 457

4

Capitolul I INTRODUCEREI1 Data mining ndash definirea domeniului specificarea factorilor care au favorizatdezvoltarea domeniului şi definirea procesului de extragere a cunoştinţelor din baze dedate (Knowledge Discovery in Databases)I3 Exemplu de model de Data mining

Capitolul II CULEGEREA DATELOR ŞI SISTEMATIZAREA ACESTORA IcircN BAZE DEDATE

II1 Operaţii de depozitare date (acumulare conversie curăţire integrare şitransformare reducere şi discretizare)II2 Reconstituirea datelor lipsă

Capitolul III CLASIFICARE ŞI PREDICŢIEIII1 Definirea problemei

III2 Arbori de clasificare decizieIII3 Clasificatori bazaţi pe reguli de decizie III4 Clasificatori BayesieniIII5 Reţele neuronale III6 Clasificatori de tip k-nearest neighbourIII7 Maşini cu suport vectorial III8 Algoritmi genetici

III9 Predicţie - regresie linearăCapitolul IV CLUSTERIZARE (ANALIZA CLUSTERILOR)

IV1 Definirea problemeiIV2 Tipuri de date icircn analiza clusterilorIV3 Clasificarea metodelor de clusterizareIV4 Clase de metode de clusterizare de partiţionare ierarhice bazate pe densitate

bazate pe griduri bazate pe modeleIV5 Detecţia excepţiilor (outliers)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 557

5

Capitolul V DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA ASOCIERILOR)V1 Definirea problemeiV2 Algoritmi pentru extragerea regulilor de asociere unidimensionale booleene din

baze de date de tranzacţii - V1 V3 Apriori FP-GrowthV4 Algoritmi pentru extragerea regulilor de asociere multinivel multidimensionale cuconstracircngeriV5 Analiza corelaţiilor

Capitolul VI IDENTIFICAREA ANOMALIILOR ŞI DEVIAŢIILOR VI1 Metode grafice (box-plot diagrame de dispersie acoperire convexă) VI2 Metode statistice (testul Grubbs testul verosimilităţii) VI3 Metode bazate pe măsurarea distanţei (metoda k-nearest neighbour metodaclustering-ului)VI4 Metode bazate pe modele (clasificarea maşini instruibile modele autoregresive)

Capitolul VII EVALUAREA MODELELORVII1 Curbe de icircnvăţare VII2 Costul şi acurateţea clasificării

VII3 Curbe ROC (Receiver Operating Characteristic)VII4 Comparaţia statistică a performanţelor clasificării

Capitolul VIII APLICAŢII ŞI TENDINŢE IN DATA MININGVIII1 Aplicaţii telecomunicaţii analiza datelor financiare analiza datelor biologice etcVIII2 Data mining icircn baze de date statistice audio video

VIII3 Data mining securitatea şi secretul (privacy) datelor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 657

6

Evaluare

Forma de evaluare finală (E ndash examen C ndash colocviu VP ndash verificare pe parcurs) C

- nota obţinută la forma de evaluare finală 50

- nota pentru activităţi aplicative atestate (proiecte referate lucrări practice) 25

- nota la forme de evaluare continuă (teste lucrări de control) 25

Stabilireanotei finale(ponderi icircnprocente)

- alte forme de evaluare -

Bibliografie minimală

[1] Fayyad UM Piatetsky-Shapiro G Smyth P Uthurasamy R Advanced in Knowledge

Discovery and Data Mining Menlo Park AAAI Press 1996

[2] Han J Kamber M Data Mining Concepts and Techniques Second Edition MorganKaufmann Press Elsevier Inc San Francisco 2006

[3] Bramer M Principles of Data Mining Springer-Verlag London 2007

[4] Witten I H Frank E Data Mining Practical Machine Learning Tools and Techniques

Second Edition Kaufmann Press Elsevier Inc San Francisco 2005

[5] Gorunescu F Data mining Concepte modele şi tehnici Ed Albastră Cluj-Napoca 2006

[6] Ileană I Rotar C Muntean M Inteligenţă artificială Ed Risoprint Alba Iulia 2009

[7] Dumitrescu D Algoritmi genetici şi strategii evolutive ndash aplicaţii icircn Inteligenţa Artificială

şi icircn domenii conexe Ed Albastră Cluj-Napoca 2006

[8] Weka system and documentation (httpwwwcswaikatoacnzmlweka) Weka is a suiteof machine learning data mining software It contains Java implementation for various

mining algorithms data preprocessing filters and experimentation capabilities Weka is free

open-source software under the GNU General Public License (GPL)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 757

7

Data Mining

Definiţie

Aplicaţii tipice

Metode amp algoritmi

Instrumente

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 857

8

Lots of data is being collectedand warehoused ndash Web data e-commerce ndash purchases at department

grocery stores ndash BankCredit Card

transactions

Computers have become cheaper and more powerful

Competitive Pressure is Strong ndash Provide better customized services for an edge (eg in

Customer Relationship Management)

Why Mine Data Commercial Viewpoint

TanSteinbach Kumar Introduction to Data Miningwwwuserscsumnedu~kumardmbookindexphp

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 957

9

Why Mine Data Scientific Viewpoint

Data collected and stored at

enormous speeds (GBhour) ndash remote sensors on a satellite

ndash telescopes scanning the skies

ndash microarrays generating geneexpression data

ndash scientific simulationsgenerating terabytes of data

Traditional techniques infeasible for raw data Data mining may help scientists

ndash in classifying and segmenting data

ndash in Hypothesis Formation

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1057

10

Motivare ldquoNecesitatea este mama

invenţieirdquo

Problema exploziei cantităţii de date ndash Colectarea automată a datelor şi tehnologiile mature

de baze de date au condus la cantităţi uriaşe de datestocate icircn baze de date depozite de date şi alte

acumulări de date

Ne icircnecăm icircn date dar suntem icircnsetaţi de cunoaştere Soluţia Data warehouse şi data mining

ndash Data warehousing şi procesare on-line (OLAP)

ndash Extragerea cunoaşterii de interes (r eguli regularităţişabloane constracircngeri) din datele aflate icircn baze mari

Jiawei Han and Micheline Kamber Data Mining Concepts and

Techniques httpwwwcssfuca

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1157

11

Mining Large Data Sets - Motivation

There is often information ―hidden in the data that isnot readily evident

Human analysts may take weeks to discover usefulinformation Much of the data is never analyzed at all

0

500000

1000000

1500000

2000000

2500000

3000000

3500000

4000000

1995 1996 1997 1998 1999

The Data Gap

Total new disk (TB) since 1995

Number of

analysts

From R Grossman C Kamath V Kumar ―Data Mining for Scientific and Engineering Applications

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1257

12

Ce este Data Mining

Data mining (descoperirea cunoaşterii icircn baze de date)

ndash Extragerea informaţiilor sau şabloanelor de interes(nebanale implicite anterior necunoscute şi potenţialutile) din datele aflate icircn mari baze de date

Nume alternative

ndash Descoperirea cunoaşterii icircn baze de date (Knowledgediscovery in databases KDD) extragereacunoaşterii analiza datelorşabloanelor arheologiadatelor business intelligence etc

Ce nu este data mining ndash Procesarea deductivă a interogărilor ndash Sisteme expert sau programe mici statistice sau de

tipul maşinilor instruibile

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1357

13

Data mining sau căutarea informaţiei ascunse

De mai multe decenii mijloace şi tehnici informatice tot mai

evoluate au contribuit la amplificarea capacităţii de memorare şistocare a datelor

Ultimii ani au marcat o reorientare semnificativă icircn utilizareavolumelor de date stocate de la un proces de explorare

retrospectivă spre unul cu caracter prospectiv Această schimbare a devenit posibilă ca urmare a maturizării

tehnologiilor legate de data mining

Denumirea provine de la analogia cu activitatea minieră tot

aşa cum este necesară dislocarea şi rafinarea a tone de minereupentru a obţine cacircteva grame de aur aici sunt examinate şianalizate sute de mii sau milioane de date pentru a extrage dinele informaţii şi semnificaţii noi

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1457

14

Piramida datelor

Date

Informaţie

Cunoaştere

Icircnţelepciune

Date + context

Informa ţii + reguli

Cunoaştere + experien ţă

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1557

15

Definiţiile pentru data mining converg spre următoarea ideeDM este un proces de extragere de informaţii noi din colecţiile

de date existente

Principiul de funcţionare icircn data mining se prelucrează

datele referitoare la perioadele trecute examinacircnd o varietate de situaţii care s- au produs pentru a evidenţia caracteristicile

acestora şi a permite elaborarea unui model

Odată construit modelul poate fi aplicat situaţiilor noi de

acelaşi tip

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1657

16

Date deantrenare(icircnvare)

SistemDataMining

Date

noi

Predicie

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1757

17

Fundamentele explorării datelor

Dezvoltarea tehnicilor de data mining se explică printrealtele prin faptul că firmele au acumulat volume foarte mari dedate stocate pe suporturi informatice privitoare la tranzacţii dediverse tipuri derulate de-a lungul mai multor ani

Multă vreme acestea s-au acumulat pur şi simplu icircn virtuteanevoii de arhivare

Datele sunt la dispoziţia organizaţiei respective datele suntcacirct se poate de precise şi analitice datele sunt icircn volum mare şiacoperă perioade de timp de ordinul anilor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1857

18

Alături de existenţa colecţiilor de date istorice memorate pesuporturi informatice icircncă doi factori explică emergenţa

cunoscută actualmente de data mining (vezi figura următoare)

maturizarea algoritmilor şi a produselor programdedicate

creşterea capacităţii de memorare şi prelucrare acalculatoarelor care permite tratarea icircn corelaţiea volumelor foarte mari de date

Unele dintre tehnicile de data mining datează de ceva mai mulţiani Algoritmii folosiţi au cunoscut icircnsă un proces de evoluţiecontinuă care a permis icircnlăturarea unora dintre limitele saudeficienţele iniţiale

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1957

19

Putere de

calcul mrit

Algoritmistatisticii de

icircnvare

Colecii de date icircmbuntiteManagement

icircmbuntit aldatelor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2057

20

Produsele program au evoluat şi ele spre o utilizare cacirct maifacilă

Au apărut firme care oferă spre vacircnzare colecţii de dateistorice de uz general - cum ar fi spre exemplu evoluţiaindicatorilor bursieri din ultimii 20 de ani - special constituitepentru asemenea utilizări

Depozitele de date şi tehnologiile OLAP vizează şi ele datelecolectate la nivelul organizaţiilor

Depozitele de date se pretează foarte bine ca surse pentrudata mining iar rezultatele furnizate de acesta pot completacacircmpurile icircnregistrărilor celor dintacirci şi pot fi valorificate apoi prinproiecţiile multidimensionale specifice OLAP

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2157

21

Aplicaţii potenţiale

Analiza bazelor de date şi suport pentru decizie

ndash Analiza şi managementul pieţei

ndash Analiza şi managementul riscurilor

ndash Detecţia fraudelor

Analiza textelor - Text Mining

Analiză Web - Web Mining Răspuns inteligent la interogări

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2257

22

Analiza şi managementul pieţei

Care sunt sursele datelor de analizat ndash Tranzacţiile cu cardurile de credit cardurile de

fidelitate cupoanele de discount reclamaţiile clienţilorstudiile publice de stil de viaţă

Ţinta de marketing ndash Trebuie găsite grupuri de clienţi ―model care au

aceleaşi caracteristici interese nivel de venit obiceiuride cumpărare etc

Determinarea profilului cumpărătorului icircn timp ndash Conversia unui cont bancar icircn mai multe conectate

căsătorie etc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2357

23

Analiza şi managementul riscurilor

Planificare financiară şi evaluarea capitalului

ndash Analiza şi prognoza fluxului de numerar (cash flow)

ndash Analiza seriilor temporale (analiza tendinţelor etc)

Planificarea resurselor

ndash sumarizarea şi compararea resurselor şi acheltuielilor

Competiţie ndash Monitorizarea competitorilor şi a direcţiilor pieţei

ndash Fundamentarea strategiei preţului icircntr -o piaţă foartecompetitivă

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2457

24

Detecţia fraudelor

Folosirea datelor istorice pentru a construi modele decomportament fraudulos şi utilizarea data mining pentruidentificarea exemplelor similare

Exemple de aplicaţii

ndash Asigurări auto detectarea unui grup de persoane care icircnscenează accidente pentru a icircncasa asigurarea

ndash Spălare de bani detectarea tranzacţiilor suspecte

ndash Detectarea fraudelor telefonice detectareacomportamentelor suspecte (modelul de apel -destinaţie timp durată)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2557

25

DeviationAnomaly Detection

Detect significant deviations from normal behavior

Applications ndash Credit Card Fraud Detection

ndash Network IntrusionDetection

Typical network traffic at

University level may reach over 100

million connections per day

TanSteinbach Kumar Introduction to Data Miningwwwuserscsumnedu~kumardmbookindexphp

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2657

26

Alte domenii de aplicaţie

Sport

ndash Analiza jocurilor icircn NBA (ex detectarea strategieiadversarului) Astronomie

ndash Descoperirea şi clasificarea unor noi obiecte

Internet ndash Analiza acceselor Web descoperirea unor şabloane

(patterns) comportamentale analiza eficienţeimarketingului Web icircmbunătăţirea organizării site-urilor

Web Text

ndash Analiza ştirilor analiza icircnregistrărilor medicale sortarea şifiltrarea automată a e-mail-urilor clasificarea automată a

documentelor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2757

27

Contribuţii

Data Mining

Inteligenţă Artificială

Calculatoare performanteStatistică

Sisteme de baze dedate

Cercetări operaţionale

GIS

Vizualizare

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2857

28

Data miningintersecţia unor discipline multiple

Sisteme de baze de date data warehouse şi OLAP

Statistică

Maşini instruibile (Machine learning)

Vizualizare Informatică

Calcul de icircnaltă performanţă

Alte discipline ndash Reţele neuronale modelare matematică regăsirea

informaţiilor recunoaşterea formelor (patternrecognition)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2957

29

Architectura unui sistem tipic de Data Mining

Data

Warehouse

Curăţarea şi integrarea datelor Filtrare

Baze de date

Server de baze de date

sau de Data Warehouse

Motor data mining

Evaluarea şabloanelor

Interfaţă grafică utilizator

Bază de

cunoştinţe

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3057

30

Evoluţia tehnologiei bazelor de date

Anii 1960

ndash Colecţii de date crearea bazelor de date baze de datereţea

Anii 1970

ndash Modelul relaţional implementarea SGBD relaţional Anii 1980

ndash SGBD relaţionale modele de date avansate (relaţionalextins OO deductive etc) şi SGBD-uri specifice

(domeniul spatial ştiinţific inginerie etc) Anii 1990mdash2000

ndash Data mining şi data warehouse baze de date multimediabaze de date Web

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3157

31

Proces

Data mining inima

procesului de

descoperire a

cunoaşterii

Curăţirea datelor

Baze dedate

Data Warehouse

Date relevante

Data Mining

Evaluarea configuraţiilor

C ţi icirc t d ti b ă d

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3257

32

Comparaţie icircntre procesarea de tip bază de

date şi cea de tip Data Mining

Interogare ndash Bine definită ndash SQL

Interogare ndash Slab definită ndash Nu există limbaj precis de

interogare

Date ndash Date operaţ ionale

Ieşirea ndash Precisă ndash Subset al bazei dedate

Date ndash Date neoperaţionale

Ieşirea ndash Vagă ndash Nu este un subset al bazeide date

E l d i t ă i

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3357

33

Exemple de interogări

Bază de date

Data Mining

ndash Găseşte toţi clienţii care au cumpărat lapte

ndash Găseşte toţi clienţii care au cumpărat frecvent

lapte (Reguli de asociere)

ndash Găseşte toţi titularii de credite cu numele Smith ndash Identifică toţi clienţii care au cumpărat de maimult de $10000 icircn ultima lună

ndash Găseşte toţi titularii de credite cu risc mic decreditare (Clasificare)

ndash Identifică clienţii cu obiceiuri similare decumpărare (Grupare)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3457

34

Modele şi tehnici Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3557

35

Verificarea ipotezelor şi căutarea cunoştinţelor

Aplicarea tehnicilor de data mining poate fi făcută dinperspectiva unui demers ascendent sau descendent

Icircn abordarea descendentă efortul este orientat spre

confirmarea sau infirmarea unor idei (ipoteze) formulate icircnprealabil prin alte mijloace

Abordarea ascendentă are o cu totul altă finalitate ea

urmăreşte extragerea de cunoştinţe sau informaţii noi din dateledisponibile

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3657

36

Căutarea poate fi dirijată sau nedirijată

Căutarea dirijată ia icircn considerare un atribut sau un cacircmpale cărui valori icircncearcă să le explice prin celelalte cacircmpuriEste cea mai folosită icircn practică

Căutarea nedirijată are ca scop identificarea relaţiilor saustructurilor existente icircn ansamblul datelor examinate fără aacorda prioritate unui cacircmp sau altul

Deşi mai spectaculoasă icircn practică se recurge mult maipuţin la ea decacirct la căutarea dirijată

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3757

37

Data mining

verificarea

ipotezelor

căutarea de

cunoştinţe

dirijată nedirijată

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3857

38

Tehnici şi acţiuni

Data mining exploatează colecţiile de date de care dispune o

organizaţie

La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei

icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc

Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod

intrinsec

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3957

39

Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de

icircnţeles o tendinţă relevată de un număr foarte mare de cazuri

practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii

Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se

reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor

raţionamentele bazate pe cazuri analiza legăturilor

La acestea se pot asocia şi tehnici statistice cum sunt spre

exemplu regresiile analiza factorială etc

M d l di ti

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4057

40 40

Modele predictivehellip

Arbori de decizie

Clasificări după cel mai apropiat vecin

Reţele neuronale

Reguli

Analiza grupurilor

A l d i i ă l ă l i i

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4157

41

Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea

predicţiagrupareaanaliza grupărilor

Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un

grup limitat de clase predefinite

Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut

mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4257

42

Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare

Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări

Predicţia urmăreşte să claseze icircnregistrările tratate icircn

funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un

model care să explice comportamentul observat

Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora

icircn viitor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4357

43

Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună

Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei

Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster

Spre deosebire de celelalte tipuri de acţiuni asemănătoare

aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4457

44

Etapele procesului de exploatare a datelor

Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare

Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date

colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4557

45

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4657

46

Evaluarea modelului

Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare

Integrarea modelului

Această etapă finalizează procesul prin includerea

modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4757

172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up

Overview of Fisherrsquos Iris Dataset

Fisherrsquos iris dataset is available for download from the tutorial website

httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls

Iris photos courtesy of SIGNA ndash wwwsignaorg

Fisherrsquos iris dataset is well-known in

data mining research

This dataset is commonly used to

illustrate data mining tools

Mark Polczynski PhD The Technology Forge mhptechforgegmailnet

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4857

172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up

Fisherrsquos Database - Background

Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems

Annals of Eugenics 7 179 ndash188 available at

httpdigitallibraryadelaideeduaucollspecialfisher138pdf

iris setosa iris versicolor iris virginica

Dataset contains flower dimension measurements on 50 samples of each species

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4957

172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up

Fisherrsquos Dataset- Background

Data mining terminology

bull The four iris dimensions are termed attributes or input attributes

bull The three iris species are termed classes or output attributes

bull Each example of an iris is termed a sample or instance

Anderson measured these dimensions

bull sepal length

bull sepal width

bull petal length

bull petal width

Measurements on these iris speciesbull setosa

bull versicolor

bull virginica

S t f Fi h rsquo I i D t t

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5057

172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up

Segment of Fisherrsquos Iris Dataset

Input Output

Attributes Attribute

Inst

Sepal

Length

Sepal

Width

Petal

Length

Petal

Width Species1 51 35 14 02 setosa

2 49 3 14 02 setosa

3 47 32 13 02 setosa

4 46 31 15 02 setosa5 5 36 14 02 setosa

Numerical Nominal

ClassSample

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5157

172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up

What Problem are We Trying to Solve

Iris setosa

Weka

decisiontree

Iris versicolor

Iris virginica

Our taskClassify unknown iris using

measurements on 150 iris

samples of known species

Instrumente pentru Data-Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5257

52

Instrumente pentru Data-Mining

Weka Documentation httpwwwcswaikatoacnzmlweka

Waikato Environment for Knowledge Analysis

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5357

53

Instrumente pentru Data-Mining

Principalii producători de soft pentruData-Mining

ndash IBM ndash Intelligent Miner extensie pentru DB2

ndash SAS ndash Enterprise Miner

ndash SPSS ndash Clementine

ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)

ndash hellipmulți alți producători mai mici

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5457

54

Instrumente pentru Data-Mining

SPSS - Clementine

ndash httpwwwspsscomclementine Oracle - Darwin

ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet

ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner

ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml

Standarde Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5557

55

Standarde Data Mining

PMML (Predictive Modelling Markup Language)

ndash Limbaj similar XML pentru salvare și partajare de

modele (cel mai acceptat standard)

CRISP

ndash Metodologie standardizată pentru construirea deaplicații Data Mining

OLE DB pentru Data Mining

ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)

IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5657

56

1 INTRODUCERE

2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE

3-7

CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale

Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici

8 CLUSTERIZARE (ANALIZA CLUSTERILOR)

9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA

ASOCIERILOR)

10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR

11 EVALUAREA MODELELOR

12 APLICAŢII ŞI TENDINŢE IN DATA MINING

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5757

Mulţumesc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 257

2

FIŞA DISCIPLINEI

Denumirea disciplinei Data mining

Titularul de disciplină Prof univdr Ioan Ileană

Cod MI104 Anul I Semestrul II Număr de credite 8

Facultatea Facultatea Ştiinţe

Ciclul de studii Master Durata 2 ani4 semestre

Domeniul Ştiinţe exacteInformatică

Date privindprogramulde studii

Specializarea Programare avansată şi baze de date

Categoria formativă (F ndash fundamentală S ndash de specialitate C ndash complementară) STipuldisciplinei Categoria de obligativitate (O ndash obligatorie Op ndash opţională F ndash facultativă)

Discipline anterioare obligatorii Cod

1 Baze de date -

2 Inteligenţa artificială -

Număr de oresăptămacircnă Activităţi de icircnvăţare

C S L P TotalNr desăpt

Total oresemestru

Activităţi didactice comune 2 - 2 - 4 14 56 Activităţi individuale de icircnvăţare icircn cursul semestrului 2 14 28

Activităţi de icircnvăţare icircn sesiunea de examene 5 4 20

Date privindparcursulde studiu aldisciplinei

Total - - 104

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 357

3

Obiective

Cursul introduce concepte metode şi tehnici data mining din perspectiva bazelor dedate Accentul este pus asupra diferitelor funcţionalităţi (task-uri) data mining şi asoluţiilor corespunzătoare

Studenţii vor deprinde diverse tehnici de analiza datelor şi vor aplica aceste tehnicipentru rezolvarea unor probleme data mining folosind sisteme software speciale Se vaforma o percepţie asupra data mining ca fiind un puternic domeniu aplicativ dar şi undomeniu de cercetare semnificativ icircn bazele de date

Competenţe

Competenţe cognitive

Capacitatea de a1) identifica tipul sistem adecvat unei situaţii concrete (clasificare prognoză regresieetc)2) stabili care sunt instrumentele de implementare a unui sistem de data mining3) compara şi evalua diferite soluţii de icircnvăţare pentru o situaţie concretă Competenţe tehniceprofesionale

Capacitatea de a

1) implementa folosind diverse medii tehnici de data mining2) realiza sisteme de data miningCompetenţe afective

Capacitatea de a cunoaşte şi icircnţelege 1) conceptele de bază ale procesului de data mining2) principalele tipuri şi tehnici de icircnvăţare automată 3) principalele abordări ale extragerii cunoştinţelor din baze de date mari

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 457

4

Capitolul I INTRODUCEREI1 Data mining ndash definirea domeniului specificarea factorilor care au favorizatdezvoltarea domeniului şi definirea procesului de extragere a cunoştinţelor din baze dedate (Knowledge Discovery in Databases)I3 Exemplu de model de Data mining

Capitolul II CULEGEREA DATELOR ŞI SISTEMATIZAREA ACESTORA IcircN BAZE DEDATE

II1 Operaţii de depozitare date (acumulare conversie curăţire integrare şitransformare reducere şi discretizare)II2 Reconstituirea datelor lipsă

Capitolul III CLASIFICARE ŞI PREDICŢIEIII1 Definirea problemei

III2 Arbori de clasificare decizieIII3 Clasificatori bazaţi pe reguli de decizie III4 Clasificatori BayesieniIII5 Reţele neuronale III6 Clasificatori de tip k-nearest neighbourIII7 Maşini cu suport vectorial III8 Algoritmi genetici

III9 Predicţie - regresie linearăCapitolul IV CLUSTERIZARE (ANALIZA CLUSTERILOR)

IV1 Definirea problemeiIV2 Tipuri de date icircn analiza clusterilorIV3 Clasificarea metodelor de clusterizareIV4 Clase de metode de clusterizare de partiţionare ierarhice bazate pe densitate

bazate pe griduri bazate pe modeleIV5 Detecţia excepţiilor (outliers)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 557

5

Capitolul V DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA ASOCIERILOR)V1 Definirea problemeiV2 Algoritmi pentru extragerea regulilor de asociere unidimensionale booleene din

baze de date de tranzacţii - V1 V3 Apriori FP-GrowthV4 Algoritmi pentru extragerea regulilor de asociere multinivel multidimensionale cuconstracircngeriV5 Analiza corelaţiilor

Capitolul VI IDENTIFICAREA ANOMALIILOR ŞI DEVIAŢIILOR VI1 Metode grafice (box-plot diagrame de dispersie acoperire convexă) VI2 Metode statistice (testul Grubbs testul verosimilităţii) VI3 Metode bazate pe măsurarea distanţei (metoda k-nearest neighbour metodaclustering-ului)VI4 Metode bazate pe modele (clasificarea maşini instruibile modele autoregresive)

Capitolul VII EVALUAREA MODELELORVII1 Curbe de icircnvăţare VII2 Costul şi acurateţea clasificării

VII3 Curbe ROC (Receiver Operating Characteristic)VII4 Comparaţia statistică a performanţelor clasificării

Capitolul VIII APLICAŢII ŞI TENDINŢE IN DATA MININGVIII1 Aplicaţii telecomunicaţii analiza datelor financiare analiza datelor biologice etcVIII2 Data mining icircn baze de date statistice audio video

VIII3 Data mining securitatea şi secretul (privacy) datelor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 657

6

Evaluare

Forma de evaluare finală (E ndash examen C ndash colocviu VP ndash verificare pe parcurs) C

- nota obţinută la forma de evaluare finală 50

- nota pentru activităţi aplicative atestate (proiecte referate lucrări practice) 25

- nota la forme de evaluare continuă (teste lucrări de control) 25

Stabilireanotei finale(ponderi icircnprocente)

- alte forme de evaluare -

Bibliografie minimală

[1] Fayyad UM Piatetsky-Shapiro G Smyth P Uthurasamy R Advanced in Knowledge

Discovery and Data Mining Menlo Park AAAI Press 1996

[2] Han J Kamber M Data Mining Concepts and Techniques Second Edition MorganKaufmann Press Elsevier Inc San Francisco 2006

[3] Bramer M Principles of Data Mining Springer-Verlag London 2007

[4] Witten I H Frank E Data Mining Practical Machine Learning Tools and Techniques

Second Edition Kaufmann Press Elsevier Inc San Francisco 2005

[5] Gorunescu F Data mining Concepte modele şi tehnici Ed Albastră Cluj-Napoca 2006

[6] Ileană I Rotar C Muntean M Inteligenţă artificială Ed Risoprint Alba Iulia 2009

[7] Dumitrescu D Algoritmi genetici şi strategii evolutive ndash aplicaţii icircn Inteligenţa Artificială

şi icircn domenii conexe Ed Albastră Cluj-Napoca 2006

[8] Weka system and documentation (httpwwwcswaikatoacnzmlweka) Weka is a suiteof machine learning data mining software It contains Java implementation for various

mining algorithms data preprocessing filters and experimentation capabilities Weka is free

open-source software under the GNU General Public License (GPL)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 757

7

Data Mining

Definiţie

Aplicaţii tipice

Metode amp algoritmi

Instrumente

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 857

8

Lots of data is being collectedand warehoused ndash Web data e-commerce ndash purchases at department

grocery stores ndash BankCredit Card

transactions

Computers have become cheaper and more powerful

Competitive Pressure is Strong ndash Provide better customized services for an edge (eg in

Customer Relationship Management)

Why Mine Data Commercial Viewpoint

TanSteinbach Kumar Introduction to Data Miningwwwuserscsumnedu~kumardmbookindexphp

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 957

9

Why Mine Data Scientific Viewpoint

Data collected and stored at

enormous speeds (GBhour) ndash remote sensors on a satellite

ndash telescopes scanning the skies

ndash microarrays generating geneexpression data

ndash scientific simulationsgenerating terabytes of data

Traditional techniques infeasible for raw data Data mining may help scientists

ndash in classifying and segmenting data

ndash in Hypothesis Formation

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1057

10

Motivare ldquoNecesitatea este mama

invenţieirdquo

Problema exploziei cantităţii de date ndash Colectarea automată a datelor şi tehnologiile mature

de baze de date au condus la cantităţi uriaşe de datestocate icircn baze de date depozite de date şi alte

acumulări de date

Ne icircnecăm icircn date dar suntem icircnsetaţi de cunoaştere Soluţia Data warehouse şi data mining

ndash Data warehousing şi procesare on-line (OLAP)

ndash Extragerea cunoaşterii de interes (r eguli regularităţişabloane constracircngeri) din datele aflate icircn baze mari

Jiawei Han and Micheline Kamber Data Mining Concepts and

Techniques httpwwwcssfuca

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1157

11

Mining Large Data Sets - Motivation

There is often information ―hidden in the data that isnot readily evident

Human analysts may take weeks to discover usefulinformation Much of the data is never analyzed at all

0

500000

1000000

1500000

2000000

2500000

3000000

3500000

4000000

1995 1996 1997 1998 1999

The Data Gap

Total new disk (TB) since 1995

Number of

analysts

From R Grossman C Kamath V Kumar ―Data Mining for Scientific and Engineering Applications

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1257

12

Ce este Data Mining

Data mining (descoperirea cunoaşterii icircn baze de date)

ndash Extragerea informaţiilor sau şabloanelor de interes(nebanale implicite anterior necunoscute şi potenţialutile) din datele aflate icircn mari baze de date

Nume alternative

ndash Descoperirea cunoaşterii icircn baze de date (Knowledgediscovery in databases KDD) extragereacunoaşterii analiza datelorşabloanelor arheologiadatelor business intelligence etc

Ce nu este data mining ndash Procesarea deductivă a interogărilor ndash Sisteme expert sau programe mici statistice sau de

tipul maşinilor instruibile

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1357

13

Data mining sau căutarea informaţiei ascunse

De mai multe decenii mijloace şi tehnici informatice tot mai

evoluate au contribuit la amplificarea capacităţii de memorare şistocare a datelor

Ultimii ani au marcat o reorientare semnificativă icircn utilizareavolumelor de date stocate de la un proces de explorare

retrospectivă spre unul cu caracter prospectiv Această schimbare a devenit posibilă ca urmare a maturizării

tehnologiilor legate de data mining

Denumirea provine de la analogia cu activitatea minieră tot

aşa cum este necesară dislocarea şi rafinarea a tone de minereupentru a obţine cacircteva grame de aur aici sunt examinate şianalizate sute de mii sau milioane de date pentru a extrage dinele informaţii şi semnificaţii noi

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1457

14

Piramida datelor

Date

Informaţie

Cunoaştere

Icircnţelepciune

Date + context

Informa ţii + reguli

Cunoaştere + experien ţă

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1557

15

Definiţiile pentru data mining converg spre următoarea ideeDM este un proces de extragere de informaţii noi din colecţiile

de date existente

Principiul de funcţionare icircn data mining se prelucrează

datele referitoare la perioadele trecute examinacircnd o varietate de situaţii care s- au produs pentru a evidenţia caracteristicile

acestora şi a permite elaborarea unui model

Odată construit modelul poate fi aplicat situaţiilor noi de

acelaşi tip

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1657

16

Date deantrenare(icircnvare)

SistemDataMining

Date

noi

Predicie

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1757

17

Fundamentele explorării datelor

Dezvoltarea tehnicilor de data mining se explică printrealtele prin faptul că firmele au acumulat volume foarte mari dedate stocate pe suporturi informatice privitoare la tranzacţii dediverse tipuri derulate de-a lungul mai multor ani

Multă vreme acestea s-au acumulat pur şi simplu icircn virtuteanevoii de arhivare

Datele sunt la dispoziţia organizaţiei respective datele suntcacirct se poate de precise şi analitice datele sunt icircn volum mare şiacoperă perioade de timp de ordinul anilor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1857

18

Alături de existenţa colecţiilor de date istorice memorate pesuporturi informatice icircncă doi factori explică emergenţa

cunoscută actualmente de data mining (vezi figura următoare)

maturizarea algoritmilor şi a produselor programdedicate

creşterea capacităţii de memorare şi prelucrare acalculatoarelor care permite tratarea icircn corelaţiea volumelor foarte mari de date

Unele dintre tehnicile de data mining datează de ceva mai mulţiani Algoritmii folosiţi au cunoscut icircnsă un proces de evoluţiecontinuă care a permis icircnlăturarea unora dintre limitele saudeficienţele iniţiale

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1957

19

Putere de

calcul mrit

Algoritmistatisticii de

icircnvare

Colecii de date icircmbuntiteManagement

icircmbuntit aldatelor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2057

20

Produsele program au evoluat şi ele spre o utilizare cacirct maifacilă

Au apărut firme care oferă spre vacircnzare colecţii de dateistorice de uz general - cum ar fi spre exemplu evoluţiaindicatorilor bursieri din ultimii 20 de ani - special constituitepentru asemenea utilizări

Depozitele de date şi tehnologiile OLAP vizează şi ele datelecolectate la nivelul organizaţiilor

Depozitele de date se pretează foarte bine ca surse pentrudata mining iar rezultatele furnizate de acesta pot completacacircmpurile icircnregistrărilor celor dintacirci şi pot fi valorificate apoi prinproiecţiile multidimensionale specifice OLAP

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2157

21

Aplicaţii potenţiale

Analiza bazelor de date şi suport pentru decizie

ndash Analiza şi managementul pieţei

ndash Analiza şi managementul riscurilor

ndash Detecţia fraudelor

Analiza textelor - Text Mining

Analiză Web - Web Mining Răspuns inteligent la interogări

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2257

22

Analiza şi managementul pieţei

Care sunt sursele datelor de analizat ndash Tranzacţiile cu cardurile de credit cardurile de

fidelitate cupoanele de discount reclamaţiile clienţilorstudiile publice de stil de viaţă

Ţinta de marketing ndash Trebuie găsite grupuri de clienţi ―model care au

aceleaşi caracteristici interese nivel de venit obiceiuride cumpărare etc

Determinarea profilului cumpărătorului icircn timp ndash Conversia unui cont bancar icircn mai multe conectate

căsătorie etc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2357

23

Analiza şi managementul riscurilor

Planificare financiară şi evaluarea capitalului

ndash Analiza şi prognoza fluxului de numerar (cash flow)

ndash Analiza seriilor temporale (analiza tendinţelor etc)

Planificarea resurselor

ndash sumarizarea şi compararea resurselor şi acheltuielilor

Competiţie ndash Monitorizarea competitorilor şi a direcţiilor pieţei

ndash Fundamentarea strategiei preţului icircntr -o piaţă foartecompetitivă

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2457

24

Detecţia fraudelor

Folosirea datelor istorice pentru a construi modele decomportament fraudulos şi utilizarea data mining pentruidentificarea exemplelor similare

Exemple de aplicaţii

ndash Asigurări auto detectarea unui grup de persoane care icircnscenează accidente pentru a icircncasa asigurarea

ndash Spălare de bani detectarea tranzacţiilor suspecte

ndash Detectarea fraudelor telefonice detectareacomportamentelor suspecte (modelul de apel -destinaţie timp durată)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2557

25

DeviationAnomaly Detection

Detect significant deviations from normal behavior

Applications ndash Credit Card Fraud Detection

ndash Network IntrusionDetection

Typical network traffic at

University level may reach over 100

million connections per day

TanSteinbach Kumar Introduction to Data Miningwwwuserscsumnedu~kumardmbookindexphp

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2657

26

Alte domenii de aplicaţie

Sport

ndash Analiza jocurilor icircn NBA (ex detectarea strategieiadversarului) Astronomie

ndash Descoperirea şi clasificarea unor noi obiecte

Internet ndash Analiza acceselor Web descoperirea unor şabloane

(patterns) comportamentale analiza eficienţeimarketingului Web icircmbunătăţirea organizării site-urilor

Web Text

ndash Analiza ştirilor analiza icircnregistrărilor medicale sortarea şifiltrarea automată a e-mail-urilor clasificarea automată a

documentelor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2757

27

Contribuţii

Data Mining

Inteligenţă Artificială

Calculatoare performanteStatistică

Sisteme de baze dedate

Cercetări operaţionale

GIS

Vizualizare

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2857

28

Data miningintersecţia unor discipline multiple

Sisteme de baze de date data warehouse şi OLAP

Statistică

Maşini instruibile (Machine learning)

Vizualizare Informatică

Calcul de icircnaltă performanţă

Alte discipline ndash Reţele neuronale modelare matematică regăsirea

informaţiilor recunoaşterea formelor (patternrecognition)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2957

29

Architectura unui sistem tipic de Data Mining

Data

Warehouse

Curăţarea şi integrarea datelor Filtrare

Baze de date

Server de baze de date

sau de Data Warehouse

Motor data mining

Evaluarea şabloanelor

Interfaţă grafică utilizator

Bază de

cunoştinţe

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3057

30

Evoluţia tehnologiei bazelor de date

Anii 1960

ndash Colecţii de date crearea bazelor de date baze de datereţea

Anii 1970

ndash Modelul relaţional implementarea SGBD relaţional Anii 1980

ndash SGBD relaţionale modele de date avansate (relaţionalextins OO deductive etc) şi SGBD-uri specifice

(domeniul spatial ştiinţific inginerie etc) Anii 1990mdash2000

ndash Data mining şi data warehouse baze de date multimediabaze de date Web

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3157

31

Proces

Data mining inima

procesului de

descoperire a

cunoaşterii

Curăţirea datelor

Baze dedate

Data Warehouse

Date relevante

Data Mining

Evaluarea configuraţiilor

C ţi icirc t d ti b ă d

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3257

32

Comparaţie icircntre procesarea de tip bază de

date şi cea de tip Data Mining

Interogare ndash Bine definită ndash SQL

Interogare ndash Slab definită ndash Nu există limbaj precis de

interogare

Date ndash Date operaţ ionale

Ieşirea ndash Precisă ndash Subset al bazei dedate

Date ndash Date neoperaţionale

Ieşirea ndash Vagă ndash Nu este un subset al bazeide date

E l d i t ă i

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3357

33

Exemple de interogări

Bază de date

Data Mining

ndash Găseşte toţi clienţii care au cumpărat lapte

ndash Găseşte toţi clienţii care au cumpărat frecvent

lapte (Reguli de asociere)

ndash Găseşte toţi titularii de credite cu numele Smith ndash Identifică toţi clienţii care au cumpărat de maimult de $10000 icircn ultima lună

ndash Găseşte toţi titularii de credite cu risc mic decreditare (Clasificare)

ndash Identifică clienţii cu obiceiuri similare decumpărare (Grupare)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3457

34

Modele şi tehnici Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3557

35

Verificarea ipotezelor şi căutarea cunoştinţelor

Aplicarea tehnicilor de data mining poate fi făcută dinperspectiva unui demers ascendent sau descendent

Icircn abordarea descendentă efortul este orientat spre

confirmarea sau infirmarea unor idei (ipoteze) formulate icircnprealabil prin alte mijloace

Abordarea ascendentă are o cu totul altă finalitate ea

urmăreşte extragerea de cunoştinţe sau informaţii noi din dateledisponibile

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3657

36

Căutarea poate fi dirijată sau nedirijată

Căutarea dirijată ia icircn considerare un atribut sau un cacircmpale cărui valori icircncearcă să le explice prin celelalte cacircmpuriEste cea mai folosită icircn practică

Căutarea nedirijată are ca scop identificarea relaţiilor saustructurilor existente icircn ansamblul datelor examinate fără aacorda prioritate unui cacircmp sau altul

Deşi mai spectaculoasă icircn practică se recurge mult maipuţin la ea decacirct la căutarea dirijată

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3757

37

Data mining

verificarea

ipotezelor

căutarea de

cunoştinţe

dirijată nedirijată

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3857

38

Tehnici şi acţiuni

Data mining exploatează colecţiile de date de care dispune o

organizaţie

La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei

icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc

Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod

intrinsec

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3957

39

Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de

icircnţeles o tendinţă relevată de un număr foarte mare de cazuri

practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii

Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se

reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor

raţionamentele bazate pe cazuri analiza legăturilor

La acestea se pot asocia şi tehnici statistice cum sunt spre

exemplu regresiile analiza factorială etc

M d l di ti

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4057

40 40

Modele predictivehellip

Arbori de decizie

Clasificări după cel mai apropiat vecin

Reţele neuronale

Reguli

Analiza grupurilor

A l d i i ă l ă l i i

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4157

41

Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea

predicţiagrupareaanaliza grupărilor

Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un

grup limitat de clase predefinite

Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut

mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4257

42

Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare

Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări

Predicţia urmăreşte să claseze icircnregistrările tratate icircn

funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un

model care să explice comportamentul observat

Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora

icircn viitor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4357

43

Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună

Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei

Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster

Spre deosebire de celelalte tipuri de acţiuni asemănătoare

aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4457

44

Etapele procesului de exploatare a datelor

Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare

Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date

colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4557

45

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4657

46

Evaluarea modelului

Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare

Integrarea modelului

Această etapă finalizează procesul prin includerea

modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4757

172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up

Overview of Fisherrsquos Iris Dataset

Fisherrsquos iris dataset is available for download from the tutorial website

httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls

Iris photos courtesy of SIGNA ndash wwwsignaorg

Fisherrsquos iris dataset is well-known in

data mining research

This dataset is commonly used to

illustrate data mining tools

Mark Polczynski PhD The Technology Forge mhptechforgegmailnet

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4857

172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up

Fisherrsquos Database - Background

Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems

Annals of Eugenics 7 179 ndash188 available at

httpdigitallibraryadelaideeduaucollspecialfisher138pdf

iris setosa iris versicolor iris virginica

Dataset contains flower dimension measurements on 50 samples of each species

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4957

172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up

Fisherrsquos Dataset- Background

Data mining terminology

bull The four iris dimensions are termed attributes or input attributes

bull The three iris species are termed classes or output attributes

bull Each example of an iris is termed a sample or instance

Anderson measured these dimensions

bull sepal length

bull sepal width

bull petal length

bull petal width

Measurements on these iris speciesbull setosa

bull versicolor

bull virginica

S t f Fi h rsquo I i D t t

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5057

172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up

Segment of Fisherrsquos Iris Dataset

Input Output

Attributes Attribute

Inst

Sepal

Length

Sepal

Width

Petal

Length

Petal

Width Species1 51 35 14 02 setosa

2 49 3 14 02 setosa

3 47 32 13 02 setosa

4 46 31 15 02 setosa5 5 36 14 02 setosa

Numerical Nominal

ClassSample

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5157

172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up

What Problem are We Trying to Solve

Iris setosa

Weka

decisiontree

Iris versicolor

Iris virginica

Our taskClassify unknown iris using

measurements on 150 iris

samples of known species

Instrumente pentru Data-Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5257

52

Instrumente pentru Data-Mining

Weka Documentation httpwwwcswaikatoacnzmlweka

Waikato Environment for Knowledge Analysis

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5357

53

Instrumente pentru Data-Mining

Principalii producători de soft pentruData-Mining

ndash IBM ndash Intelligent Miner extensie pentru DB2

ndash SAS ndash Enterprise Miner

ndash SPSS ndash Clementine

ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)

ndash hellipmulți alți producători mai mici

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5457

54

Instrumente pentru Data-Mining

SPSS - Clementine

ndash httpwwwspsscomclementine Oracle - Darwin

ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet

ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner

ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml

Standarde Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5557

55

Standarde Data Mining

PMML (Predictive Modelling Markup Language)

ndash Limbaj similar XML pentru salvare și partajare de

modele (cel mai acceptat standard)

CRISP

ndash Metodologie standardizată pentru construirea deaplicații Data Mining

OLE DB pentru Data Mining

ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)

IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5657

56

1 INTRODUCERE

2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE

3-7

CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale

Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici

8 CLUSTERIZARE (ANALIZA CLUSTERILOR)

9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA

ASOCIERILOR)

10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR

11 EVALUAREA MODELELOR

12 APLICAŢII ŞI TENDINŢE IN DATA MINING

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5757

Mulţumesc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 357

3

Obiective

Cursul introduce concepte metode şi tehnici data mining din perspectiva bazelor dedate Accentul este pus asupra diferitelor funcţionalităţi (task-uri) data mining şi asoluţiilor corespunzătoare

Studenţii vor deprinde diverse tehnici de analiza datelor şi vor aplica aceste tehnicipentru rezolvarea unor probleme data mining folosind sisteme software speciale Se vaforma o percepţie asupra data mining ca fiind un puternic domeniu aplicativ dar şi undomeniu de cercetare semnificativ icircn bazele de date

Competenţe

Competenţe cognitive

Capacitatea de a1) identifica tipul sistem adecvat unei situaţii concrete (clasificare prognoză regresieetc)2) stabili care sunt instrumentele de implementare a unui sistem de data mining3) compara şi evalua diferite soluţii de icircnvăţare pentru o situaţie concretă Competenţe tehniceprofesionale

Capacitatea de a

1) implementa folosind diverse medii tehnici de data mining2) realiza sisteme de data miningCompetenţe afective

Capacitatea de a cunoaşte şi icircnţelege 1) conceptele de bază ale procesului de data mining2) principalele tipuri şi tehnici de icircnvăţare automată 3) principalele abordări ale extragerii cunoştinţelor din baze de date mari

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 457

4

Capitolul I INTRODUCEREI1 Data mining ndash definirea domeniului specificarea factorilor care au favorizatdezvoltarea domeniului şi definirea procesului de extragere a cunoştinţelor din baze dedate (Knowledge Discovery in Databases)I3 Exemplu de model de Data mining

Capitolul II CULEGEREA DATELOR ŞI SISTEMATIZAREA ACESTORA IcircN BAZE DEDATE

II1 Operaţii de depozitare date (acumulare conversie curăţire integrare şitransformare reducere şi discretizare)II2 Reconstituirea datelor lipsă

Capitolul III CLASIFICARE ŞI PREDICŢIEIII1 Definirea problemei

III2 Arbori de clasificare decizieIII3 Clasificatori bazaţi pe reguli de decizie III4 Clasificatori BayesieniIII5 Reţele neuronale III6 Clasificatori de tip k-nearest neighbourIII7 Maşini cu suport vectorial III8 Algoritmi genetici

III9 Predicţie - regresie linearăCapitolul IV CLUSTERIZARE (ANALIZA CLUSTERILOR)

IV1 Definirea problemeiIV2 Tipuri de date icircn analiza clusterilorIV3 Clasificarea metodelor de clusterizareIV4 Clase de metode de clusterizare de partiţionare ierarhice bazate pe densitate

bazate pe griduri bazate pe modeleIV5 Detecţia excepţiilor (outliers)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 557

5

Capitolul V DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA ASOCIERILOR)V1 Definirea problemeiV2 Algoritmi pentru extragerea regulilor de asociere unidimensionale booleene din

baze de date de tranzacţii - V1 V3 Apriori FP-GrowthV4 Algoritmi pentru extragerea regulilor de asociere multinivel multidimensionale cuconstracircngeriV5 Analiza corelaţiilor

Capitolul VI IDENTIFICAREA ANOMALIILOR ŞI DEVIAŢIILOR VI1 Metode grafice (box-plot diagrame de dispersie acoperire convexă) VI2 Metode statistice (testul Grubbs testul verosimilităţii) VI3 Metode bazate pe măsurarea distanţei (metoda k-nearest neighbour metodaclustering-ului)VI4 Metode bazate pe modele (clasificarea maşini instruibile modele autoregresive)

Capitolul VII EVALUAREA MODELELORVII1 Curbe de icircnvăţare VII2 Costul şi acurateţea clasificării

VII3 Curbe ROC (Receiver Operating Characteristic)VII4 Comparaţia statistică a performanţelor clasificării

Capitolul VIII APLICAŢII ŞI TENDINŢE IN DATA MININGVIII1 Aplicaţii telecomunicaţii analiza datelor financiare analiza datelor biologice etcVIII2 Data mining icircn baze de date statistice audio video

VIII3 Data mining securitatea şi secretul (privacy) datelor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 657

6

Evaluare

Forma de evaluare finală (E ndash examen C ndash colocviu VP ndash verificare pe parcurs) C

- nota obţinută la forma de evaluare finală 50

- nota pentru activităţi aplicative atestate (proiecte referate lucrări practice) 25

- nota la forme de evaluare continuă (teste lucrări de control) 25

Stabilireanotei finale(ponderi icircnprocente)

- alte forme de evaluare -

Bibliografie minimală

[1] Fayyad UM Piatetsky-Shapiro G Smyth P Uthurasamy R Advanced in Knowledge

Discovery and Data Mining Menlo Park AAAI Press 1996

[2] Han J Kamber M Data Mining Concepts and Techniques Second Edition MorganKaufmann Press Elsevier Inc San Francisco 2006

[3] Bramer M Principles of Data Mining Springer-Verlag London 2007

[4] Witten I H Frank E Data Mining Practical Machine Learning Tools and Techniques

Second Edition Kaufmann Press Elsevier Inc San Francisco 2005

[5] Gorunescu F Data mining Concepte modele şi tehnici Ed Albastră Cluj-Napoca 2006

[6] Ileană I Rotar C Muntean M Inteligenţă artificială Ed Risoprint Alba Iulia 2009

[7] Dumitrescu D Algoritmi genetici şi strategii evolutive ndash aplicaţii icircn Inteligenţa Artificială

şi icircn domenii conexe Ed Albastră Cluj-Napoca 2006

[8] Weka system and documentation (httpwwwcswaikatoacnzmlweka) Weka is a suiteof machine learning data mining software It contains Java implementation for various

mining algorithms data preprocessing filters and experimentation capabilities Weka is free

open-source software under the GNU General Public License (GPL)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 757

7

Data Mining

Definiţie

Aplicaţii tipice

Metode amp algoritmi

Instrumente

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 857

8

Lots of data is being collectedand warehoused ndash Web data e-commerce ndash purchases at department

grocery stores ndash BankCredit Card

transactions

Computers have become cheaper and more powerful

Competitive Pressure is Strong ndash Provide better customized services for an edge (eg in

Customer Relationship Management)

Why Mine Data Commercial Viewpoint

TanSteinbach Kumar Introduction to Data Miningwwwuserscsumnedu~kumardmbookindexphp

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 957

9

Why Mine Data Scientific Viewpoint

Data collected and stored at

enormous speeds (GBhour) ndash remote sensors on a satellite

ndash telescopes scanning the skies

ndash microarrays generating geneexpression data

ndash scientific simulationsgenerating terabytes of data

Traditional techniques infeasible for raw data Data mining may help scientists

ndash in classifying and segmenting data

ndash in Hypothesis Formation

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1057

10

Motivare ldquoNecesitatea este mama

invenţieirdquo

Problema exploziei cantităţii de date ndash Colectarea automată a datelor şi tehnologiile mature

de baze de date au condus la cantităţi uriaşe de datestocate icircn baze de date depozite de date şi alte

acumulări de date

Ne icircnecăm icircn date dar suntem icircnsetaţi de cunoaştere Soluţia Data warehouse şi data mining

ndash Data warehousing şi procesare on-line (OLAP)

ndash Extragerea cunoaşterii de interes (r eguli regularităţişabloane constracircngeri) din datele aflate icircn baze mari

Jiawei Han and Micheline Kamber Data Mining Concepts and

Techniques httpwwwcssfuca

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1157

11

Mining Large Data Sets - Motivation

There is often information ―hidden in the data that isnot readily evident

Human analysts may take weeks to discover usefulinformation Much of the data is never analyzed at all

0

500000

1000000

1500000

2000000

2500000

3000000

3500000

4000000

1995 1996 1997 1998 1999

The Data Gap

Total new disk (TB) since 1995

Number of

analysts

From R Grossman C Kamath V Kumar ―Data Mining for Scientific and Engineering Applications

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1257

12

Ce este Data Mining

Data mining (descoperirea cunoaşterii icircn baze de date)

ndash Extragerea informaţiilor sau şabloanelor de interes(nebanale implicite anterior necunoscute şi potenţialutile) din datele aflate icircn mari baze de date

Nume alternative

ndash Descoperirea cunoaşterii icircn baze de date (Knowledgediscovery in databases KDD) extragereacunoaşterii analiza datelorşabloanelor arheologiadatelor business intelligence etc

Ce nu este data mining ndash Procesarea deductivă a interogărilor ndash Sisteme expert sau programe mici statistice sau de

tipul maşinilor instruibile

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1357

13

Data mining sau căutarea informaţiei ascunse

De mai multe decenii mijloace şi tehnici informatice tot mai

evoluate au contribuit la amplificarea capacităţii de memorare şistocare a datelor

Ultimii ani au marcat o reorientare semnificativă icircn utilizareavolumelor de date stocate de la un proces de explorare

retrospectivă spre unul cu caracter prospectiv Această schimbare a devenit posibilă ca urmare a maturizării

tehnologiilor legate de data mining

Denumirea provine de la analogia cu activitatea minieră tot

aşa cum este necesară dislocarea şi rafinarea a tone de minereupentru a obţine cacircteva grame de aur aici sunt examinate şianalizate sute de mii sau milioane de date pentru a extrage dinele informaţii şi semnificaţii noi

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1457

14

Piramida datelor

Date

Informaţie

Cunoaştere

Icircnţelepciune

Date + context

Informa ţii + reguli

Cunoaştere + experien ţă

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1557

15

Definiţiile pentru data mining converg spre următoarea ideeDM este un proces de extragere de informaţii noi din colecţiile

de date existente

Principiul de funcţionare icircn data mining se prelucrează

datele referitoare la perioadele trecute examinacircnd o varietate de situaţii care s- au produs pentru a evidenţia caracteristicile

acestora şi a permite elaborarea unui model

Odată construit modelul poate fi aplicat situaţiilor noi de

acelaşi tip

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1657

16

Date deantrenare(icircnvare)

SistemDataMining

Date

noi

Predicie

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1757

17

Fundamentele explorării datelor

Dezvoltarea tehnicilor de data mining se explică printrealtele prin faptul că firmele au acumulat volume foarte mari dedate stocate pe suporturi informatice privitoare la tranzacţii dediverse tipuri derulate de-a lungul mai multor ani

Multă vreme acestea s-au acumulat pur şi simplu icircn virtuteanevoii de arhivare

Datele sunt la dispoziţia organizaţiei respective datele suntcacirct se poate de precise şi analitice datele sunt icircn volum mare şiacoperă perioade de timp de ordinul anilor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1857

18

Alături de existenţa colecţiilor de date istorice memorate pesuporturi informatice icircncă doi factori explică emergenţa

cunoscută actualmente de data mining (vezi figura următoare)

maturizarea algoritmilor şi a produselor programdedicate

creşterea capacităţii de memorare şi prelucrare acalculatoarelor care permite tratarea icircn corelaţiea volumelor foarte mari de date

Unele dintre tehnicile de data mining datează de ceva mai mulţiani Algoritmii folosiţi au cunoscut icircnsă un proces de evoluţiecontinuă care a permis icircnlăturarea unora dintre limitele saudeficienţele iniţiale

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1957

19

Putere de

calcul mrit

Algoritmistatisticii de

icircnvare

Colecii de date icircmbuntiteManagement

icircmbuntit aldatelor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2057

20

Produsele program au evoluat şi ele spre o utilizare cacirct maifacilă

Au apărut firme care oferă spre vacircnzare colecţii de dateistorice de uz general - cum ar fi spre exemplu evoluţiaindicatorilor bursieri din ultimii 20 de ani - special constituitepentru asemenea utilizări

Depozitele de date şi tehnologiile OLAP vizează şi ele datelecolectate la nivelul organizaţiilor

Depozitele de date se pretează foarte bine ca surse pentrudata mining iar rezultatele furnizate de acesta pot completacacircmpurile icircnregistrărilor celor dintacirci şi pot fi valorificate apoi prinproiecţiile multidimensionale specifice OLAP

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2157

21

Aplicaţii potenţiale

Analiza bazelor de date şi suport pentru decizie

ndash Analiza şi managementul pieţei

ndash Analiza şi managementul riscurilor

ndash Detecţia fraudelor

Analiza textelor - Text Mining

Analiză Web - Web Mining Răspuns inteligent la interogări

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2257

22

Analiza şi managementul pieţei

Care sunt sursele datelor de analizat ndash Tranzacţiile cu cardurile de credit cardurile de

fidelitate cupoanele de discount reclamaţiile clienţilorstudiile publice de stil de viaţă

Ţinta de marketing ndash Trebuie găsite grupuri de clienţi ―model care au

aceleaşi caracteristici interese nivel de venit obiceiuride cumpărare etc

Determinarea profilului cumpărătorului icircn timp ndash Conversia unui cont bancar icircn mai multe conectate

căsătorie etc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2357

23

Analiza şi managementul riscurilor

Planificare financiară şi evaluarea capitalului

ndash Analiza şi prognoza fluxului de numerar (cash flow)

ndash Analiza seriilor temporale (analiza tendinţelor etc)

Planificarea resurselor

ndash sumarizarea şi compararea resurselor şi acheltuielilor

Competiţie ndash Monitorizarea competitorilor şi a direcţiilor pieţei

ndash Fundamentarea strategiei preţului icircntr -o piaţă foartecompetitivă

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2457

24

Detecţia fraudelor

Folosirea datelor istorice pentru a construi modele decomportament fraudulos şi utilizarea data mining pentruidentificarea exemplelor similare

Exemple de aplicaţii

ndash Asigurări auto detectarea unui grup de persoane care icircnscenează accidente pentru a icircncasa asigurarea

ndash Spălare de bani detectarea tranzacţiilor suspecte

ndash Detectarea fraudelor telefonice detectareacomportamentelor suspecte (modelul de apel -destinaţie timp durată)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2557

25

DeviationAnomaly Detection

Detect significant deviations from normal behavior

Applications ndash Credit Card Fraud Detection

ndash Network IntrusionDetection

Typical network traffic at

University level may reach over 100

million connections per day

TanSteinbach Kumar Introduction to Data Miningwwwuserscsumnedu~kumardmbookindexphp

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2657

26

Alte domenii de aplicaţie

Sport

ndash Analiza jocurilor icircn NBA (ex detectarea strategieiadversarului) Astronomie

ndash Descoperirea şi clasificarea unor noi obiecte

Internet ndash Analiza acceselor Web descoperirea unor şabloane

(patterns) comportamentale analiza eficienţeimarketingului Web icircmbunătăţirea organizării site-urilor

Web Text

ndash Analiza ştirilor analiza icircnregistrărilor medicale sortarea şifiltrarea automată a e-mail-urilor clasificarea automată a

documentelor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2757

27

Contribuţii

Data Mining

Inteligenţă Artificială

Calculatoare performanteStatistică

Sisteme de baze dedate

Cercetări operaţionale

GIS

Vizualizare

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2857

28

Data miningintersecţia unor discipline multiple

Sisteme de baze de date data warehouse şi OLAP

Statistică

Maşini instruibile (Machine learning)

Vizualizare Informatică

Calcul de icircnaltă performanţă

Alte discipline ndash Reţele neuronale modelare matematică regăsirea

informaţiilor recunoaşterea formelor (patternrecognition)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2957

29

Architectura unui sistem tipic de Data Mining

Data

Warehouse

Curăţarea şi integrarea datelor Filtrare

Baze de date

Server de baze de date

sau de Data Warehouse

Motor data mining

Evaluarea şabloanelor

Interfaţă grafică utilizator

Bază de

cunoştinţe

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3057

30

Evoluţia tehnologiei bazelor de date

Anii 1960

ndash Colecţii de date crearea bazelor de date baze de datereţea

Anii 1970

ndash Modelul relaţional implementarea SGBD relaţional Anii 1980

ndash SGBD relaţionale modele de date avansate (relaţionalextins OO deductive etc) şi SGBD-uri specifice

(domeniul spatial ştiinţific inginerie etc) Anii 1990mdash2000

ndash Data mining şi data warehouse baze de date multimediabaze de date Web

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3157

31

Proces

Data mining inima

procesului de

descoperire a

cunoaşterii

Curăţirea datelor

Baze dedate

Data Warehouse

Date relevante

Data Mining

Evaluarea configuraţiilor

C ţi icirc t d ti b ă d

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3257

32

Comparaţie icircntre procesarea de tip bază de

date şi cea de tip Data Mining

Interogare ndash Bine definită ndash SQL

Interogare ndash Slab definită ndash Nu există limbaj precis de

interogare

Date ndash Date operaţ ionale

Ieşirea ndash Precisă ndash Subset al bazei dedate

Date ndash Date neoperaţionale

Ieşirea ndash Vagă ndash Nu este un subset al bazeide date

E l d i t ă i

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3357

33

Exemple de interogări

Bază de date

Data Mining

ndash Găseşte toţi clienţii care au cumpărat lapte

ndash Găseşte toţi clienţii care au cumpărat frecvent

lapte (Reguli de asociere)

ndash Găseşte toţi titularii de credite cu numele Smith ndash Identifică toţi clienţii care au cumpărat de maimult de $10000 icircn ultima lună

ndash Găseşte toţi titularii de credite cu risc mic decreditare (Clasificare)

ndash Identifică clienţii cu obiceiuri similare decumpărare (Grupare)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3457

34

Modele şi tehnici Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3557

35

Verificarea ipotezelor şi căutarea cunoştinţelor

Aplicarea tehnicilor de data mining poate fi făcută dinperspectiva unui demers ascendent sau descendent

Icircn abordarea descendentă efortul este orientat spre

confirmarea sau infirmarea unor idei (ipoteze) formulate icircnprealabil prin alte mijloace

Abordarea ascendentă are o cu totul altă finalitate ea

urmăreşte extragerea de cunoştinţe sau informaţii noi din dateledisponibile

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3657

36

Căutarea poate fi dirijată sau nedirijată

Căutarea dirijată ia icircn considerare un atribut sau un cacircmpale cărui valori icircncearcă să le explice prin celelalte cacircmpuriEste cea mai folosită icircn practică

Căutarea nedirijată are ca scop identificarea relaţiilor saustructurilor existente icircn ansamblul datelor examinate fără aacorda prioritate unui cacircmp sau altul

Deşi mai spectaculoasă icircn practică se recurge mult maipuţin la ea decacirct la căutarea dirijată

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3757

37

Data mining

verificarea

ipotezelor

căutarea de

cunoştinţe

dirijată nedirijată

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3857

38

Tehnici şi acţiuni

Data mining exploatează colecţiile de date de care dispune o

organizaţie

La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei

icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc

Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod

intrinsec

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3957

39

Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de

icircnţeles o tendinţă relevată de un număr foarte mare de cazuri

practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii

Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se

reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor

raţionamentele bazate pe cazuri analiza legăturilor

La acestea se pot asocia şi tehnici statistice cum sunt spre

exemplu regresiile analiza factorială etc

M d l di ti

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4057

40 40

Modele predictivehellip

Arbori de decizie

Clasificări după cel mai apropiat vecin

Reţele neuronale

Reguli

Analiza grupurilor

A l d i i ă l ă l i i

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4157

41

Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea

predicţiagrupareaanaliza grupărilor

Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un

grup limitat de clase predefinite

Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut

mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4257

42

Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare

Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări

Predicţia urmăreşte să claseze icircnregistrările tratate icircn

funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un

model care să explice comportamentul observat

Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora

icircn viitor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4357

43

Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună

Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei

Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster

Spre deosebire de celelalte tipuri de acţiuni asemănătoare

aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4457

44

Etapele procesului de exploatare a datelor

Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare

Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date

colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4557

45

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4657

46

Evaluarea modelului

Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare

Integrarea modelului

Această etapă finalizează procesul prin includerea

modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4757

172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up

Overview of Fisherrsquos Iris Dataset

Fisherrsquos iris dataset is available for download from the tutorial website

httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls

Iris photos courtesy of SIGNA ndash wwwsignaorg

Fisherrsquos iris dataset is well-known in

data mining research

This dataset is commonly used to

illustrate data mining tools

Mark Polczynski PhD The Technology Forge mhptechforgegmailnet

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4857

172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up

Fisherrsquos Database - Background

Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems

Annals of Eugenics 7 179 ndash188 available at

httpdigitallibraryadelaideeduaucollspecialfisher138pdf

iris setosa iris versicolor iris virginica

Dataset contains flower dimension measurements on 50 samples of each species

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4957

172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up

Fisherrsquos Dataset- Background

Data mining terminology

bull The four iris dimensions are termed attributes or input attributes

bull The three iris species are termed classes or output attributes

bull Each example of an iris is termed a sample or instance

Anderson measured these dimensions

bull sepal length

bull sepal width

bull petal length

bull petal width

Measurements on these iris speciesbull setosa

bull versicolor

bull virginica

S t f Fi h rsquo I i D t t

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5057

172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up

Segment of Fisherrsquos Iris Dataset

Input Output

Attributes Attribute

Inst

Sepal

Length

Sepal

Width

Petal

Length

Petal

Width Species1 51 35 14 02 setosa

2 49 3 14 02 setosa

3 47 32 13 02 setosa

4 46 31 15 02 setosa5 5 36 14 02 setosa

Numerical Nominal

ClassSample

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5157

172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up

What Problem are We Trying to Solve

Iris setosa

Weka

decisiontree

Iris versicolor

Iris virginica

Our taskClassify unknown iris using

measurements on 150 iris

samples of known species

Instrumente pentru Data-Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5257

52

Instrumente pentru Data-Mining

Weka Documentation httpwwwcswaikatoacnzmlweka

Waikato Environment for Knowledge Analysis

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5357

53

Instrumente pentru Data-Mining

Principalii producători de soft pentruData-Mining

ndash IBM ndash Intelligent Miner extensie pentru DB2

ndash SAS ndash Enterprise Miner

ndash SPSS ndash Clementine

ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)

ndash hellipmulți alți producători mai mici

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5457

54

Instrumente pentru Data-Mining

SPSS - Clementine

ndash httpwwwspsscomclementine Oracle - Darwin

ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet

ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner

ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml

Standarde Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5557

55

Standarde Data Mining

PMML (Predictive Modelling Markup Language)

ndash Limbaj similar XML pentru salvare și partajare de

modele (cel mai acceptat standard)

CRISP

ndash Metodologie standardizată pentru construirea deaplicații Data Mining

OLE DB pentru Data Mining

ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)

IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5657

56

1 INTRODUCERE

2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE

3-7

CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale

Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici

8 CLUSTERIZARE (ANALIZA CLUSTERILOR)

9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA

ASOCIERILOR)

10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR

11 EVALUAREA MODELELOR

12 APLICAŢII ŞI TENDINŢE IN DATA MINING

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5757

Mulţumesc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 457

4

Capitolul I INTRODUCEREI1 Data mining ndash definirea domeniului specificarea factorilor care au favorizatdezvoltarea domeniului şi definirea procesului de extragere a cunoştinţelor din baze dedate (Knowledge Discovery in Databases)I3 Exemplu de model de Data mining

Capitolul II CULEGEREA DATELOR ŞI SISTEMATIZAREA ACESTORA IcircN BAZE DEDATE

II1 Operaţii de depozitare date (acumulare conversie curăţire integrare şitransformare reducere şi discretizare)II2 Reconstituirea datelor lipsă

Capitolul III CLASIFICARE ŞI PREDICŢIEIII1 Definirea problemei

III2 Arbori de clasificare decizieIII3 Clasificatori bazaţi pe reguli de decizie III4 Clasificatori BayesieniIII5 Reţele neuronale III6 Clasificatori de tip k-nearest neighbourIII7 Maşini cu suport vectorial III8 Algoritmi genetici

III9 Predicţie - regresie linearăCapitolul IV CLUSTERIZARE (ANALIZA CLUSTERILOR)

IV1 Definirea problemeiIV2 Tipuri de date icircn analiza clusterilorIV3 Clasificarea metodelor de clusterizareIV4 Clase de metode de clusterizare de partiţionare ierarhice bazate pe densitate

bazate pe griduri bazate pe modeleIV5 Detecţia excepţiilor (outliers)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 557

5

Capitolul V DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA ASOCIERILOR)V1 Definirea problemeiV2 Algoritmi pentru extragerea regulilor de asociere unidimensionale booleene din

baze de date de tranzacţii - V1 V3 Apriori FP-GrowthV4 Algoritmi pentru extragerea regulilor de asociere multinivel multidimensionale cuconstracircngeriV5 Analiza corelaţiilor

Capitolul VI IDENTIFICAREA ANOMALIILOR ŞI DEVIAŢIILOR VI1 Metode grafice (box-plot diagrame de dispersie acoperire convexă) VI2 Metode statistice (testul Grubbs testul verosimilităţii) VI3 Metode bazate pe măsurarea distanţei (metoda k-nearest neighbour metodaclustering-ului)VI4 Metode bazate pe modele (clasificarea maşini instruibile modele autoregresive)

Capitolul VII EVALUAREA MODELELORVII1 Curbe de icircnvăţare VII2 Costul şi acurateţea clasificării

VII3 Curbe ROC (Receiver Operating Characteristic)VII4 Comparaţia statistică a performanţelor clasificării

Capitolul VIII APLICAŢII ŞI TENDINŢE IN DATA MININGVIII1 Aplicaţii telecomunicaţii analiza datelor financiare analiza datelor biologice etcVIII2 Data mining icircn baze de date statistice audio video

VIII3 Data mining securitatea şi secretul (privacy) datelor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 657

6

Evaluare

Forma de evaluare finală (E ndash examen C ndash colocviu VP ndash verificare pe parcurs) C

- nota obţinută la forma de evaluare finală 50

- nota pentru activităţi aplicative atestate (proiecte referate lucrări practice) 25

- nota la forme de evaluare continuă (teste lucrări de control) 25

Stabilireanotei finale(ponderi icircnprocente)

- alte forme de evaluare -

Bibliografie minimală

[1] Fayyad UM Piatetsky-Shapiro G Smyth P Uthurasamy R Advanced in Knowledge

Discovery and Data Mining Menlo Park AAAI Press 1996

[2] Han J Kamber M Data Mining Concepts and Techniques Second Edition MorganKaufmann Press Elsevier Inc San Francisco 2006

[3] Bramer M Principles of Data Mining Springer-Verlag London 2007

[4] Witten I H Frank E Data Mining Practical Machine Learning Tools and Techniques

Second Edition Kaufmann Press Elsevier Inc San Francisco 2005

[5] Gorunescu F Data mining Concepte modele şi tehnici Ed Albastră Cluj-Napoca 2006

[6] Ileană I Rotar C Muntean M Inteligenţă artificială Ed Risoprint Alba Iulia 2009

[7] Dumitrescu D Algoritmi genetici şi strategii evolutive ndash aplicaţii icircn Inteligenţa Artificială

şi icircn domenii conexe Ed Albastră Cluj-Napoca 2006

[8] Weka system and documentation (httpwwwcswaikatoacnzmlweka) Weka is a suiteof machine learning data mining software It contains Java implementation for various

mining algorithms data preprocessing filters and experimentation capabilities Weka is free

open-source software under the GNU General Public License (GPL)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 757

7

Data Mining

Definiţie

Aplicaţii tipice

Metode amp algoritmi

Instrumente

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 857

8

Lots of data is being collectedand warehoused ndash Web data e-commerce ndash purchases at department

grocery stores ndash BankCredit Card

transactions

Computers have become cheaper and more powerful

Competitive Pressure is Strong ndash Provide better customized services for an edge (eg in

Customer Relationship Management)

Why Mine Data Commercial Viewpoint

TanSteinbach Kumar Introduction to Data Miningwwwuserscsumnedu~kumardmbookindexphp

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 957

9

Why Mine Data Scientific Viewpoint

Data collected and stored at

enormous speeds (GBhour) ndash remote sensors on a satellite

ndash telescopes scanning the skies

ndash microarrays generating geneexpression data

ndash scientific simulationsgenerating terabytes of data

Traditional techniques infeasible for raw data Data mining may help scientists

ndash in classifying and segmenting data

ndash in Hypothesis Formation

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1057

10

Motivare ldquoNecesitatea este mama

invenţieirdquo

Problema exploziei cantităţii de date ndash Colectarea automată a datelor şi tehnologiile mature

de baze de date au condus la cantităţi uriaşe de datestocate icircn baze de date depozite de date şi alte

acumulări de date

Ne icircnecăm icircn date dar suntem icircnsetaţi de cunoaştere Soluţia Data warehouse şi data mining

ndash Data warehousing şi procesare on-line (OLAP)

ndash Extragerea cunoaşterii de interes (r eguli regularităţişabloane constracircngeri) din datele aflate icircn baze mari

Jiawei Han and Micheline Kamber Data Mining Concepts and

Techniques httpwwwcssfuca

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1157

11

Mining Large Data Sets - Motivation

There is often information ―hidden in the data that isnot readily evident

Human analysts may take weeks to discover usefulinformation Much of the data is never analyzed at all

0

500000

1000000

1500000

2000000

2500000

3000000

3500000

4000000

1995 1996 1997 1998 1999

The Data Gap

Total new disk (TB) since 1995

Number of

analysts

From R Grossman C Kamath V Kumar ―Data Mining for Scientific and Engineering Applications

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1257

12

Ce este Data Mining

Data mining (descoperirea cunoaşterii icircn baze de date)

ndash Extragerea informaţiilor sau şabloanelor de interes(nebanale implicite anterior necunoscute şi potenţialutile) din datele aflate icircn mari baze de date

Nume alternative

ndash Descoperirea cunoaşterii icircn baze de date (Knowledgediscovery in databases KDD) extragereacunoaşterii analiza datelorşabloanelor arheologiadatelor business intelligence etc

Ce nu este data mining ndash Procesarea deductivă a interogărilor ndash Sisteme expert sau programe mici statistice sau de

tipul maşinilor instruibile

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1357

13

Data mining sau căutarea informaţiei ascunse

De mai multe decenii mijloace şi tehnici informatice tot mai

evoluate au contribuit la amplificarea capacităţii de memorare şistocare a datelor

Ultimii ani au marcat o reorientare semnificativă icircn utilizareavolumelor de date stocate de la un proces de explorare

retrospectivă spre unul cu caracter prospectiv Această schimbare a devenit posibilă ca urmare a maturizării

tehnologiilor legate de data mining

Denumirea provine de la analogia cu activitatea minieră tot

aşa cum este necesară dislocarea şi rafinarea a tone de minereupentru a obţine cacircteva grame de aur aici sunt examinate şianalizate sute de mii sau milioane de date pentru a extrage dinele informaţii şi semnificaţii noi

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1457

14

Piramida datelor

Date

Informaţie

Cunoaştere

Icircnţelepciune

Date + context

Informa ţii + reguli

Cunoaştere + experien ţă

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1557

15

Definiţiile pentru data mining converg spre următoarea ideeDM este un proces de extragere de informaţii noi din colecţiile

de date existente

Principiul de funcţionare icircn data mining se prelucrează

datele referitoare la perioadele trecute examinacircnd o varietate de situaţii care s- au produs pentru a evidenţia caracteristicile

acestora şi a permite elaborarea unui model

Odată construit modelul poate fi aplicat situaţiilor noi de

acelaşi tip

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1657

16

Date deantrenare(icircnvare)

SistemDataMining

Date

noi

Predicie

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1757

17

Fundamentele explorării datelor

Dezvoltarea tehnicilor de data mining se explică printrealtele prin faptul că firmele au acumulat volume foarte mari dedate stocate pe suporturi informatice privitoare la tranzacţii dediverse tipuri derulate de-a lungul mai multor ani

Multă vreme acestea s-au acumulat pur şi simplu icircn virtuteanevoii de arhivare

Datele sunt la dispoziţia organizaţiei respective datele suntcacirct se poate de precise şi analitice datele sunt icircn volum mare şiacoperă perioade de timp de ordinul anilor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1857

18

Alături de existenţa colecţiilor de date istorice memorate pesuporturi informatice icircncă doi factori explică emergenţa

cunoscută actualmente de data mining (vezi figura următoare)

maturizarea algoritmilor şi a produselor programdedicate

creşterea capacităţii de memorare şi prelucrare acalculatoarelor care permite tratarea icircn corelaţiea volumelor foarte mari de date

Unele dintre tehnicile de data mining datează de ceva mai mulţiani Algoritmii folosiţi au cunoscut icircnsă un proces de evoluţiecontinuă care a permis icircnlăturarea unora dintre limitele saudeficienţele iniţiale

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1957

19

Putere de

calcul mrit

Algoritmistatisticii de

icircnvare

Colecii de date icircmbuntiteManagement

icircmbuntit aldatelor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2057

20

Produsele program au evoluat şi ele spre o utilizare cacirct maifacilă

Au apărut firme care oferă spre vacircnzare colecţii de dateistorice de uz general - cum ar fi spre exemplu evoluţiaindicatorilor bursieri din ultimii 20 de ani - special constituitepentru asemenea utilizări

Depozitele de date şi tehnologiile OLAP vizează şi ele datelecolectate la nivelul organizaţiilor

Depozitele de date se pretează foarte bine ca surse pentrudata mining iar rezultatele furnizate de acesta pot completacacircmpurile icircnregistrărilor celor dintacirci şi pot fi valorificate apoi prinproiecţiile multidimensionale specifice OLAP

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2157

21

Aplicaţii potenţiale

Analiza bazelor de date şi suport pentru decizie

ndash Analiza şi managementul pieţei

ndash Analiza şi managementul riscurilor

ndash Detecţia fraudelor

Analiza textelor - Text Mining

Analiză Web - Web Mining Răspuns inteligent la interogări

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2257

22

Analiza şi managementul pieţei

Care sunt sursele datelor de analizat ndash Tranzacţiile cu cardurile de credit cardurile de

fidelitate cupoanele de discount reclamaţiile clienţilorstudiile publice de stil de viaţă

Ţinta de marketing ndash Trebuie găsite grupuri de clienţi ―model care au

aceleaşi caracteristici interese nivel de venit obiceiuride cumpărare etc

Determinarea profilului cumpărătorului icircn timp ndash Conversia unui cont bancar icircn mai multe conectate

căsătorie etc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2357

23

Analiza şi managementul riscurilor

Planificare financiară şi evaluarea capitalului

ndash Analiza şi prognoza fluxului de numerar (cash flow)

ndash Analiza seriilor temporale (analiza tendinţelor etc)

Planificarea resurselor

ndash sumarizarea şi compararea resurselor şi acheltuielilor

Competiţie ndash Monitorizarea competitorilor şi a direcţiilor pieţei

ndash Fundamentarea strategiei preţului icircntr -o piaţă foartecompetitivă

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2457

24

Detecţia fraudelor

Folosirea datelor istorice pentru a construi modele decomportament fraudulos şi utilizarea data mining pentruidentificarea exemplelor similare

Exemple de aplicaţii

ndash Asigurări auto detectarea unui grup de persoane care icircnscenează accidente pentru a icircncasa asigurarea

ndash Spălare de bani detectarea tranzacţiilor suspecte

ndash Detectarea fraudelor telefonice detectareacomportamentelor suspecte (modelul de apel -destinaţie timp durată)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2557

25

DeviationAnomaly Detection

Detect significant deviations from normal behavior

Applications ndash Credit Card Fraud Detection

ndash Network IntrusionDetection

Typical network traffic at

University level may reach over 100

million connections per day

TanSteinbach Kumar Introduction to Data Miningwwwuserscsumnedu~kumardmbookindexphp

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2657

26

Alte domenii de aplicaţie

Sport

ndash Analiza jocurilor icircn NBA (ex detectarea strategieiadversarului) Astronomie

ndash Descoperirea şi clasificarea unor noi obiecte

Internet ndash Analiza acceselor Web descoperirea unor şabloane

(patterns) comportamentale analiza eficienţeimarketingului Web icircmbunătăţirea organizării site-urilor

Web Text

ndash Analiza ştirilor analiza icircnregistrărilor medicale sortarea şifiltrarea automată a e-mail-urilor clasificarea automată a

documentelor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2757

27

Contribuţii

Data Mining

Inteligenţă Artificială

Calculatoare performanteStatistică

Sisteme de baze dedate

Cercetări operaţionale

GIS

Vizualizare

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2857

28

Data miningintersecţia unor discipline multiple

Sisteme de baze de date data warehouse şi OLAP

Statistică

Maşini instruibile (Machine learning)

Vizualizare Informatică

Calcul de icircnaltă performanţă

Alte discipline ndash Reţele neuronale modelare matematică regăsirea

informaţiilor recunoaşterea formelor (patternrecognition)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2957

29

Architectura unui sistem tipic de Data Mining

Data

Warehouse

Curăţarea şi integrarea datelor Filtrare

Baze de date

Server de baze de date

sau de Data Warehouse

Motor data mining

Evaluarea şabloanelor

Interfaţă grafică utilizator

Bază de

cunoştinţe

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3057

30

Evoluţia tehnologiei bazelor de date

Anii 1960

ndash Colecţii de date crearea bazelor de date baze de datereţea

Anii 1970

ndash Modelul relaţional implementarea SGBD relaţional Anii 1980

ndash SGBD relaţionale modele de date avansate (relaţionalextins OO deductive etc) şi SGBD-uri specifice

(domeniul spatial ştiinţific inginerie etc) Anii 1990mdash2000

ndash Data mining şi data warehouse baze de date multimediabaze de date Web

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3157

31

Proces

Data mining inima

procesului de

descoperire a

cunoaşterii

Curăţirea datelor

Baze dedate

Data Warehouse

Date relevante

Data Mining

Evaluarea configuraţiilor

C ţi icirc t d ti b ă d

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3257

32

Comparaţie icircntre procesarea de tip bază de

date şi cea de tip Data Mining

Interogare ndash Bine definită ndash SQL

Interogare ndash Slab definită ndash Nu există limbaj precis de

interogare

Date ndash Date operaţ ionale

Ieşirea ndash Precisă ndash Subset al bazei dedate

Date ndash Date neoperaţionale

Ieşirea ndash Vagă ndash Nu este un subset al bazeide date

E l d i t ă i

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3357

33

Exemple de interogări

Bază de date

Data Mining

ndash Găseşte toţi clienţii care au cumpărat lapte

ndash Găseşte toţi clienţii care au cumpărat frecvent

lapte (Reguli de asociere)

ndash Găseşte toţi titularii de credite cu numele Smith ndash Identifică toţi clienţii care au cumpărat de maimult de $10000 icircn ultima lună

ndash Găseşte toţi titularii de credite cu risc mic decreditare (Clasificare)

ndash Identifică clienţii cu obiceiuri similare decumpărare (Grupare)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3457

34

Modele şi tehnici Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3557

35

Verificarea ipotezelor şi căutarea cunoştinţelor

Aplicarea tehnicilor de data mining poate fi făcută dinperspectiva unui demers ascendent sau descendent

Icircn abordarea descendentă efortul este orientat spre

confirmarea sau infirmarea unor idei (ipoteze) formulate icircnprealabil prin alte mijloace

Abordarea ascendentă are o cu totul altă finalitate ea

urmăreşte extragerea de cunoştinţe sau informaţii noi din dateledisponibile

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3657

36

Căutarea poate fi dirijată sau nedirijată

Căutarea dirijată ia icircn considerare un atribut sau un cacircmpale cărui valori icircncearcă să le explice prin celelalte cacircmpuriEste cea mai folosită icircn practică

Căutarea nedirijată are ca scop identificarea relaţiilor saustructurilor existente icircn ansamblul datelor examinate fără aacorda prioritate unui cacircmp sau altul

Deşi mai spectaculoasă icircn practică se recurge mult maipuţin la ea decacirct la căutarea dirijată

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3757

37

Data mining

verificarea

ipotezelor

căutarea de

cunoştinţe

dirijată nedirijată

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3857

38

Tehnici şi acţiuni

Data mining exploatează colecţiile de date de care dispune o

organizaţie

La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei

icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc

Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod

intrinsec

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3957

39

Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de

icircnţeles o tendinţă relevată de un număr foarte mare de cazuri

practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii

Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se

reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor

raţionamentele bazate pe cazuri analiza legăturilor

La acestea se pot asocia şi tehnici statistice cum sunt spre

exemplu regresiile analiza factorială etc

M d l di ti

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4057

40 40

Modele predictivehellip

Arbori de decizie

Clasificări după cel mai apropiat vecin

Reţele neuronale

Reguli

Analiza grupurilor

A l d i i ă l ă l i i

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4157

41

Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea

predicţiagrupareaanaliza grupărilor

Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un

grup limitat de clase predefinite

Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut

mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4257

42

Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare

Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări

Predicţia urmăreşte să claseze icircnregistrările tratate icircn

funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un

model care să explice comportamentul observat

Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora

icircn viitor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4357

43

Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună

Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei

Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster

Spre deosebire de celelalte tipuri de acţiuni asemănătoare

aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4457

44

Etapele procesului de exploatare a datelor

Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare

Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date

colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4557

45

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4657

46

Evaluarea modelului

Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare

Integrarea modelului

Această etapă finalizează procesul prin includerea

modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4757

172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up

Overview of Fisherrsquos Iris Dataset

Fisherrsquos iris dataset is available for download from the tutorial website

httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls

Iris photos courtesy of SIGNA ndash wwwsignaorg

Fisherrsquos iris dataset is well-known in

data mining research

This dataset is commonly used to

illustrate data mining tools

Mark Polczynski PhD The Technology Forge mhptechforgegmailnet

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4857

172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up

Fisherrsquos Database - Background

Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems

Annals of Eugenics 7 179 ndash188 available at

httpdigitallibraryadelaideeduaucollspecialfisher138pdf

iris setosa iris versicolor iris virginica

Dataset contains flower dimension measurements on 50 samples of each species

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4957

172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up

Fisherrsquos Dataset- Background

Data mining terminology

bull The four iris dimensions are termed attributes or input attributes

bull The three iris species are termed classes or output attributes

bull Each example of an iris is termed a sample or instance

Anderson measured these dimensions

bull sepal length

bull sepal width

bull petal length

bull petal width

Measurements on these iris speciesbull setosa

bull versicolor

bull virginica

S t f Fi h rsquo I i D t t

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5057

172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up

Segment of Fisherrsquos Iris Dataset

Input Output

Attributes Attribute

Inst

Sepal

Length

Sepal

Width

Petal

Length

Petal

Width Species1 51 35 14 02 setosa

2 49 3 14 02 setosa

3 47 32 13 02 setosa

4 46 31 15 02 setosa5 5 36 14 02 setosa

Numerical Nominal

ClassSample

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5157

172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up

What Problem are We Trying to Solve

Iris setosa

Weka

decisiontree

Iris versicolor

Iris virginica

Our taskClassify unknown iris using

measurements on 150 iris

samples of known species

Instrumente pentru Data-Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5257

52

Instrumente pentru Data-Mining

Weka Documentation httpwwwcswaikatoacnzmlweka

Waikato Environment for Knowledge Analysis

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5357

53

Instrumente pentru Data-Mining

Principalii producători de soft pentruData-Mining

ndash IBM ndash Intelligent Miner extensie pentru DB2

ndash SAS ndash Enterprise Miner

ndash SPSS ndash Clementine

ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)

ndash hellipmulți alți producători mai mici

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5457

54

Instrumente pentru Data-Mining

SPSS - Clementine

ndash httpwwwspsscomclementine Oracle - Darwin

ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet

ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner

ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml

Standarde Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5557

55

Standarde Data Mining

PMML (Predictive Modelling Markup Language)

ndash Limbaj similar XML pentru salvare și partajare de

modele (cel mai acceptat standard)

CRISP

ndash Metodologie standardizată pentru construirea deaplicații Data Mining

OLE DB pentru Data Mining

ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)

IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5657

56

1 INTRODUCERE

2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE

3-7

CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale

Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici

8 CLUSTERIZARE (ANALIZA CLUSTERILOR)

9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA

ASOCIERILOR)

10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR

11 EVALUAREA MODELELOR

12 APLICAŢII ŞI TENDINŢE IN DATA MINING

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5757

Mulţumesc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 557

5

Capitolul V DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA ASOCIERILOR)V1 Definirea problemeiV2 Algoritmi pentru extragerea regulilor de asociere unidimensionale booleene din

baze de date de tranzacţii - V1 V3 Apriori FP-GrowthV4 Algoritmi pentru extragerea regulilor de asociere multinivel multidimensionale cuconstracircngeriV5 Analiza corelaţiilor

Capitolul VI IDENTIFICAREA ANOMALIILOR ŞI DEVIAŢIILOR VI1 Metode grafice (box-plot diagrame de dispersie acoperire convexă) VI2 Metode statistice (testul Grubbs testul verosimilităţii) VI3 Metode bazate pe măsurarea distanţei (metoda k-nearest neighbour metodaclustering-ului)VI4 Metode bazate pe modele (clasificarea maşini instruibile modele autoregresive)

Capitolul VII EVALUAREA MODELELORVII1 Curbe de icircnvăţare VII2 Costul şi acurateţea clasificării

VII3 Curbe ROC (Receiver Operating Characteristic)VII4 Comparaţia statistică a performanţelor clasificării

Capitolul VIII APLICAŢII ŞI TENDINŢE IN DATA MININGVIII1 Aplicaţii telecomunicaţii analiza datelor financiare analiza datelor biologice etcVIII2 Data mining icircn baze de date statistice audio video

VIII3 Data mining securitatea şi secretul (privacy) datelor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 657

6

Evaluare

Forma de evaluare finală (E ndash examen C ndash colocviu VP ndash verificare pe parcurs) C

- nota obţinută la forma de evaluare finală 50

- nota pentru activităţi aplicative atestate (proiecte referate lucrări practice) 25

- nota la forme de evaluare continuă (teste lucrări de control) 25

Stabilireanotei finale(ponderi icircnprocente)

- alte forme de evaluare -

Bibliografie minimală

[1] Fayyad UM Piatetsky-Shapiro G Smyth P Uthurasamy R Advanced in Knowledge

Discovery and Data Mining Menlo Park AAAI Press 1996

[2] Han J Kamber M Data Mining Concepts and Techniques Second Edition MorganKaufmann Press Elsevier Inc San Francisco 2006

[3] Bramer M Principles of Data Mining Springer-Verlag London 2007

[4] Witten I H Frank E Data Mining Practical Machine Learning Tools and Techniques

Second Edition Kaufmann Press Elsevier Inc San Francisco 2005

[5] Gorunescu F Data mining Concepte modele şi tehnici Ed Albastră Cluj-Napoca 2006

[6] Ileană I Rotar C Muntean M Inteligenţă artificială Ed Risoprint Alba Iulia 2009

[7] Dumitrescu D Algoritmi genetici şi strategii evolutive ndash aplicaţii icircn Inteligenţa Artificială

şi icircn domenii conexe Ed Albastră Cluj-Napoca 2006

[8] Weka system and documentation (httpwwwcswaikatoacnzmlweka) Weka is a suiteof machine learning data mining software It contains Java implementation for various

mining algorithms data preprocessing filters and experimentation capabilities Weka is free

open-source software under the GNU General Public License (GPL)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 757

7

Data Mining

Definiţie

Aplicaţii tipice

Metode amp algoritmi

Instrumente

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 857

8

Lots of data is being collectedand warehoused ndash Web data e-commerce ndash purchases at department

grocery stores ndash BankCredit Card

transactions

Computers have become cheaper and more powerful

Competitive Pressure is Strong ndash Provide better customized services for an edge (eg in

Customer Relationship Management)

Why Mine Data Commercial Viewpoint

TanSteinbach Kumar Introduction to Data Miningwwwuserscsumnedu~kumardmbookindexphp

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 957

9

Why Mine Data Scientific Viewpoint

Data collected and stored at

enormous speeds (GBhour) ndash remote sensors on a satellite

ndash telescopes scanning the skies

ndash microarrays generating geneexpression data

ndash scientific simulationsgenerating terabytes of data

Traditional techniques infeasible for raw data Data mining may help scientists

ndash in classifying and segmenting data

ndash in Hypothesis Formation

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1057

10

Motivare ldquoNecesitatea este mama

invenţieirdquo

Problema exploziei cantităţii de date ndash Colectarea automată a datelor şi tehnologiile mature

de baze de date au condus la cantităţi uriaşe de datestocate icircn baze de date depozite de date şi alte

acumulări de date

Ne icircnecăm icircn date dar suntem icircnsetaţi de cunoaştere Soluţia Data warehouse şi data mining

ndash Data warehousing şi procesare on-line (OLAP)

ndash Extragerea cunoaşterii de interes (r eguli regularităţişabloane constracircngeri) din datele aflate icircn baze mari

Jiawei Han and Micheline Kamber Data Mining Concepts and

Techniques httpwwwcssfuca

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1157

11

Mining Large Data Sets - Motivation

There is often information ―hidden in the data that isnot readily evident

Human analysts may take weeks to discover usefulinformation Much of the data is never analyzed at all

0

500000

1000000

1500000

2000000

2500000

3000000

3500000

4000000

1995 1996 1997 1998 1999

The Data Gap

Total new disk (TB) since 1995

Number of

analysts

From R Grossman C Kamath V Kumar ―Data Mining for Scientific and Engineering Applications

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1257

12

Ce este Data Mining

Data mining (descoperirea cunoaşterii icircn baze de date)

ndash Extragerea informaţiilor sau şabloanelor de interes(nebanale implicite anterior necunoscute şi potenţialutile) din datele aflate icircn mari baze de date

Nume alternative

ndash Descoperirea cunoaşterii icircn baze de date (Knowledgediscovery in databases KDD) extragereacunoaşterii analiza datelorşabloanelor arheologiadatelor business intelligence etc

Ce nu este data mining ndash Procesarea deductivă a interogărilor ndash Sisteme expert sau programe mici statistice sau de

tipul maşinilor instruibile

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1357

13

Data mining sau căutarea informaţiei ascunse

De mai multe decenii mijloace şi tehnici informatice tot mai

evoluate au contribuit la amplificarea capacităţii de memorare şistocare a datelor

Ultimii ani au marcat o reorientare semnificativă icircn utilizareavolumelor de date stocate de la un proces de explorare

retrospectivă spre unul cu caracter prospectiv Această schimbare a devenit posibilă ca urmare a maturizării

tehnologiilor legate de data mining

Denumirea provine de la analogia cu activitatea minieră tot

aşa cum este necesară dislocarea şi rafinarea a tone de minereupentru a obţine cacircteva grame de aur aici sunt examinate şianalizate sute de mii sau milioane de date pentru a extrage dinele informaţii şi semnificaţii noi

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1457

14

Piramida datelor

Date

Informaţie

Cunoaştere

Icircnţelepciune

Date + context

Informa ţii + reguli

Cunoaştere + experien ţă

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1557

15

Definiţiile pentru data mining converg spre următoarea ideeDM este un proces de extragere de informaţii noi din colecţiile

de date existente

Principiul de funcţionare icircn data mining se prelucrează

datele referitoare la perioadele trecute examinacircnd o varietate de situaţii care s- au produs pentru a evidenţia caracteristicile

acestora şi a permite elaborarea unui model

Odată construit modelul poate fi aplicat situaţiilor noi de

acelaşi tip

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1657

16

Date deantrenare(icircnvare)

SistemDataMining

Date

noi

Predicie

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1757

17

Fundamentele explorării datelor

Dezvoltarea tehnicilor de data mining se explică printrealtele prin faptul că firmele au acumulat volume foarte mari dedate stocate pe suporturi informatice privitoare la tranzacţii dediverse tipuri derulate de-a lungul mai multor ani

Multă vreme acestea s-au acumulat pur şi simplu icircn virtuteanevoii de arhivare

Datele sunt la dispoziţia organizaţiei respective datele suntcacirct se poate de precise şi analitice datele sunt icircn volum mare şiacoperă perioade de timp de ordinul anilor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1857

18

Alături de existenţa colecţiilor de date istorice memorate pesuporturi informatice icircncă doi factori explică emergenţa

cunoscută actualmente de data mining (vezi figura următoare)

maturizarea algoritmilor şi a produselor programdedicate

creşterea capacităţii de memorare şi prelucrare acalculatoarelor care permite tratarea icircn corelaţiea volumelor foarte mari de date

Unele dintre tehnicile de data mining datează de ceva mai mulţiani Algoritmii folosiţi au cunoscut icircnsă un proces de evoluţiecontinuă care a permis icircnlăturarea unora dintre limitele saudeficienţele iniţiale

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1957

19

Putere de

calcul mrit

Algoritmistatisticii de

icircnvare

Colecii de date icircmbuntiteManagement

icircmbuntit aldatelor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2057

20

Produsele program au evoluat şi ele spre o utilizare cacirct maifacilă

Au apărut firme care oferă spre vacircnzare colecţii de dateistorice de uz general - cum ar fi spre exemplu evoluţiaindicatorilor bursieri din ultimii 20 de ani - special constituitepentru asemenea utilizări

Depozitele de date şi tehnologiile OLAP vizează şi ele datelecolectate la nivelul organizaţiilor

Depozitele de date se pretează foarte bine ca surse pentrudata mining iar rezultatele furnizate de acesta pot completacacircmpurile icircnregistrărilor celor dintacirci şi pot fi valorificate apoi prinproiecţiile multidimensionale specifice OLAP

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2157

21

Aplicaţii potenţiale

Analiza bazelor de date şi suport pentru decizie

ndash Analiza şi managementul pieţei

ndash Analiza şi managementul riscurilor

ndash Detecţia fraudelor

Analiza textelor - Text Mining

Analiză Web - Web Mining Răspuns inteligent la interogări

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2257

22

Analiza şi managementul pieţei

Care sunt sursele datelor de analizat ndash Tranzacţiile cu cardurile de credit cardurile de

fidelitate cupoanele de discount reclamaţiile clienţilorstudiile publice de stil de viaţă

Ţinta de marketing ndash Trebuie găsite grupuri de clienţi ―model care au

aceleaşi caracteristici interese nivel de venit obiceiuride cumpărare etc

Determinarea profilului cumpărătorului icircn timp ndash Conversia unui cont bancar icircn mai multe conectate

căsătorie etc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2357

23

Analiza şi managementul riscurilor

Planificare financiară şi evaluarea capitalului

ndash Analiza şi prognoza fluxului de numerar (cash flow)

ndash Analiza seriilor temporale (analiza tendinţelor etc)

Planificarea resurselor

ndash sumarizarea şi compararea resurselor şi acheltuielilor

Competiţie ndash Monitorizarea competitorilor şi a direcţiilor pieţei

ndash Fundamentarea strategiei preţului icircntr -o piaţă foartecompetitivă

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2457

24

Detecţia fraudelor

Folosirea datelor istorice pentru a construi modele decomportament fraudulos şi utilizarea data mining pentruidentificarea exemplelor similare

Exemple de aplicaţii

ndash Asigurări auto detectarea unui grup de persoane care icircnscenează accidente pentru a icircncasa asigurarea

ndash Spălare de bani detectarea tranzacţiilor suspecte

ndash Detectarea fraudelor telefonice detectareacomportamentelor suspecte (modelul de apel -destinaţie timp durată)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2557

25

DeviationAnomaly Detection

Detect significant deviations from normal behavior

Applications ndash Credit Card Fraud Detection

ndash Network IntrusionDetection

Typical network traffic at

University level may reach over 100

million connections per day

TanSteinbach Kumar Introduction to Data Miningwwwuserscsumnedu~kumardmbookindexphp

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2657

26

Alte domenii de aplicaţie

Sport

ndash Analiza jocurilor icircn NBA (ex detectarea strategieiadversarului) Astronomie

ndash Descoperirea şi clasificarea unor noi obiecte

Internet ndash Analiza acceselor Web descoperirea unor şabloane

(patterns) comportamentale analiza eficienţeimarketingului Web icircmbunătăţirea organizării site-urilor

Web Text

ndash Analiza ştirilor analiza icircnregistrărilor medicale sortarea şifiltrarea automată a e-mail-urilor clasificarea automată a

documentelor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2757

27

Contribuţii

Data Mining

Inteligenţă Artificială

Calculatoare performanteStatistică

Sisteme de baze dedate

Cercetări operaţionale

GIS

Vizualizare

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2857

28

Data miningintersecţia unor discipline multiple

Sisteme de baze de date data warehouse şi OLAP

Statistică

Maşini instruibile (Machine learning)

Vizualizare Informatică

Calcul de icircnaltă performanţă

Alte discipline ndash Reţele neuronale modelare matematică regăsirea

informaţiilor recunoaşterea formelor (patternrecognition)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2957

29

Architectura unui sistem tipic de Data Mining

Data

Warehouse

Curăţarea şi integrarea datelor Filtrare

Baze de date

Server de baze de date

sau de Data Warehouse

Motor data mining

Evaluarea şabloanelor

Interfaţă grafică utilizator

Bază de

cunoştinţe

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3057

30

Evoluţia tehnologiei bazelor de date

Anii 1960

ndash Colecţii de date crearea bazelor de date baze de datereţea

Anii 1970

ndash Modelul relaţional implementarea SGBD relaţional Anii 1980

ndash SGBD relaţionale modele de date avansate (relaţionalextins OO deductive etc) şi SGBD-uri specifice

(domeniul spatial ştiinţific inginerie etc) Anii 1990mdash2000

ndash Data mining şi data warehouse baze de date multimediabaze de date Web

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3157

31

Proces

Data mining inima

procesului de

descoperire a

cunoaşterii

Curăţirea datelor

Baze dedate

Data Warehouse

Date relevante

Data Mining

Evaluarea configuraţiilor

C ţi icirc t d ti b ă d

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3257

32

Comparaţie icircntre procesarea de tip bază de

date şi cea de tip Data Mining

Interogare ndash Bine definită ndash SQL

Interogare ndash Slab definită ndash Nu există limbaj precis de

interogare

Date ndash Date operaţ ionale

Ieşirea ndash Precisă ndash Subset al bazei dedate

Date ndash Date neoperaţionale

Ieşirea ndash Vagă ndash Nu este un subset al bazeide date

E l d i t ă i

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3357

33

Exemple de interogări

Bază de date

Data Mining

ndash Găseşte toţi clienţii care au cumpărat lapte

ndash Găseşte toţi clienţii care au cumpărat frecvent

lapte (Reguli de asociere)

ndash Găseşte toţi titularii de credite cu numele Smith ndash Identifică toţi clienţii care au cumpărat de maimult de $10000 icircn ultima lună

ndash Găseşte toţi titularii de credite cu risc mic decreditare (Clasificare)

ndash Identifică clienţii cu obiceiuri similare decumpărare (Grupare)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3457

34

Modele şi tehnici Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3557

35

Verificarea ipotezelor şi căutarea cunoştinţelor

Aplicarea tehnicilor de data mining poate fi făcută dinperspectiva unui demers ascendent sau descendent

Icircn abordarea descendentă efortul este orientat spre

confirmarea sau infirmarea unor idei (ipoteze) formulate icircnprealabil prin alte mijloace

Abordarea ascendentă are o cu totul altă finalitate ea

urmăreşte extragerea de cunoştinţe sau informaţii noi din dateledisponibile

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3657

36

Căutarea poate fi dirijată sau nedirijată

Căutarea dirijată ia icircn considerare un atribut sau un cacircmpale cărui valori icircncearcă să le explice prin celelalte cacircmpuriEste cea mai folosită icircn practică

Căutarea nedirijată are ca scop identificarea relaţiilor saustructurilor existente icircn ansamblul datelor examinate fără aacorda prioritate unui cacircmp sau altul

Deşi mai spectaculoasă icircn practică se recurge mult maipuţin la ea decacirct la căutarea dirijată

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3757

37

Data mining

verificarea

ipotezelor

căutarea de

cunoştinţe

dirijată nedirijată

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3857

38

Tehnici şi acţiuni

Data mining exploatează colecţiile de date de care dispune o

organizaţie

La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei

icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc

Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod

intrinsec

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3957

39

Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de

icircnţeles o tendinţă relevată de un număr foarte mare de cazuri

practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii

Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se

reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor

raţionamentele bazate pe cazuri analiza legăturilor

La acestea se pot asocia şi tehnici statistice cum sunt spre

exemplu regresiile analiza factorială etc

M d l di ti

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4057

40 40

Modele predictivehellip

Arbori de decizie

Clasificări după cel mai apropiat vecin

Reţele neuronale

Reguli

Analiza grupurilor

A l d i i ă l ă l i i

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4157

41

Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea

predicţiagrupareaanaliza grupărilor

Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un

grup limitat de clase predefinite

Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut

mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4257

42

Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare

Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări

Predicţia urmăreşte să claseze icircnregistrările tratate icircn

funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un

model care să explice comportamentul observat

Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora

icircn viitor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4357

43

Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună

Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei

Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster

Spre deosebire de celelalte tipuri de acţiuni asemănătoare

aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4457

44

Etapele procesului de exploatare a datelor

Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare

Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date

colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4557

45

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4657

46

Evaluarea modelului

Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare

Integrarea modelului

Această etapă finalizează procesul prin includerea

modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4757

172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up

Overview of Fisherrsquos Iris Dataset

Fisherrsquos iris dataset is available for download from the tutorial website

httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls

Iris photos courtesy of SIGNA ndash wwwsignaorg

Fisherrsquos iris dataset is well-known in

data mining research

This dataset is commonly used to

illustrate data mining tools

Mark Polczynski PhD The Technology Forge mhptechforgegmailnet

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4857

172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up

Fisherrsquos Database - Background

Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems

Annals of Eugenics 7 179 ndash188 available at

httpdigitallibraryadelaideeduaucollspecialfisher138pdf

iris setosa iris versicolor iris virginica

Dataset contains flower dimension measurements on 50 samples of each species

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4957

172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up

Fisherrsquos Dataset- Background

Data mining terminology

bull The four iris dimensions are termed attributes or input attributes

bull The three iris species are termed classes or output attributes

bull Each example of an iris is termed a sample or instance

Anderson measured these dimensions

bull sepal length

bull sepal width

bull petal length

bull petal width

Measurements on these iris speciesbull setosa

bull versicolor

bull virginica

S t f Fi h rsquo I i D t t

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5057

172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up

Segment of Fisherrsquos Iris Dataset

Input Output

Attributes Attribute

Inst

Sepal

Length

Sepal

Width

Petal

Length

Petal

Width Species1 51 35 14 02 setosa

2 49 3 14 02 setosa

3 47 32 13 02 setosa

4 46 31 15 02 setosa5 5 36 14 02 setosa

Numerical Nominal

ClassSample

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5157

172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up

What Problem are We Trying to Solve

Iris setosa

Weka

decisiontree

Iris versicolor

Iris virginica

Our taskClassify unknown iris using

measurements on 150 iris

samples of known species

Instrumente pentru Data-Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5257

52

Instrumente pentru Data-Mining

Weka Documentation httpwwwcswaikatoacnzmlweka

Waikato Environment for Knowledge Analysis

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5357

53

Instrumente pentru Data-Mining

Principalii producători de soft pentruData-Mining

ndash IBM ndash Intelligent Miner extensie pentru DB2

ndash SAS ndash Enterprise Miner

ndash SPSS ndash Clementine

ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)

ndash hellipmulți alți producători mai mici

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5457

54

Instrumente pentru Data-Mining

SPSS - Clementine

ndash httpwwwspsscomclementine Oracle - Darwin

ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet

ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner

ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml

Standarde Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5557

55

Standarde Data Mining

PMML (Predictive Modelling Markup Language)

ndash Limbaj similar XML pentru salvare și partajare de

modele (cel mai acceptat standard)

CRISP

ndash Metodologie standardizată pentru construirea deaplicații Data Mining

OLE DB pentru Data Mining

ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)

IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5657

56

1 INTRODUCERE

2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE

3-7

CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale

Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici

8 CLUSTERIZARE (ANALIZA CLUSTERILOR)

9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA

ASOCIERILOR)

10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR

11 EVALUAREA MODELELOR

12 APLICAŢII ŞI TENDINŢE IN DATA MINING

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5757

Mulţumesc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 657

6

Evaluare

Forma de evaluare finală (E ndash examen C ndash colocviu VP ndash verificare pe parcurs) C

- nota obţinută la forma de evaluare finală 50

- nota pentru activităţi aplicative atestate (proiecte referate lucrări practice) 25

- nota la forme de evaluare continuă (teste lucrări de control) 25

Stabilireanotei finale(ponderi icircnprocente)

- alte forme de evaluare -

Bibliografie minimală

[1] Fayyad UM Piatetsky-Shapiro G Smyth P Uthurasamy R Advanced in Knowledge

Discovery and Data Mining Menlo Park AAAI Press 1996

[2] Han J Kamber M Data Mining Concepts and Techniques Second Edition MorganKaufmann Press Elsevier Inc San Francisco 2006

[3] Bramer M Principles of Data Mining Springer-Verlag London 2007

[4] Witten I H Frank E Data Mining Practical Machine Learning Tools and Techniques

Second Edition Kaufmann Press Elsevier Inc San Francisco 2005

[5] Gorunescu F Data mining Concepte modele şi tehnici Ed Albastră Cluj-Napoca 2006

[6] Ileană I Rotar C Muntean M Inteligenţă artificială Ed Risoprint Alba Iulia 2009

[7] Dumitrescu D Algoritmi genetici şi strategii evolutive ndash aplicaţii icircn Inteligenţa Artificială

şi icircn domenii conexe Ed Albastră Cluj-Napoca 2006

[8] Weka system and documentation (httpwwwcswaikatoacnzmlweka) Weka is a suiteof machine learning data mining software It contains Java implementation for various

mining algorithms data preprocessing filters and experimentation capabilities Weka is free

open-source software under the GNU General Public License (GPL)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 757

7

Data Mining

Definiţie

Aplicaţii tipice

Metode amp algoritmi

Instrumente

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 857

8

Lots of data is being collectedand warehoused ndash Web data e-commerce ndash purchases at department

grocery stores ndash BankCredit Card

transactions

Computers have become cheaper and more powerful

Competitive Pressure is Strong ndash Provide better customized services for an edge (eg in

Customer Relationship Management)

Why Mine Data Commercial Viewpoint

TanSteinbach Kumar Introduction to Data Miningwwwuserscsumnedu~kumardmbookindexphp

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 957

9

Why Mine Data Scientific Viewpoint

Data collected and stored at

enormous speeds (GBhour) ndash remote sensors on a satellite

ndash telescopes scanning the skies

ndash microarrays generating geneexpression data

ndash scientific simulationsgenerating terabytes of data

Traditional techniques infeasible for raw data Data mining may help scientists

ndash in classifying and segmenting data

ndash in Hypothesis Formation

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1057

10

Motivare ldquoNecesitatea este mama

invenţieirdquo

Problema exploziei cantităţii de date ndash Colectarea automată a datelor şi tehnologiile mature

de baze de date au condus la cantităţi uriaşe de datestocate icircn baze de date depozite de date şi alte

acumulări de date

Ne icircnecăm icircn date dar suntem icircnsetaţi de cunoaştere Soluţia Data warehouse şi data mining

ndash Data warehousing şi procesare on-line (OLAP)

ndash Extragerea cunoaşterii de interes (r eguli regularităţişabloane constracircngeri) din datele aflate icircn baze mari

Jiawei Han and Micheline Kamber Data Mining Concepts and

Techniques httpwwwcssfuca

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1157

11

Mining Large Data Sets - Motivation

There is often information ―hidden in the data that isnot readily evident

Human analysts may take weeks to discover usefulinformation Much of the data is never analyzed at all

0

500000

1000000

1500000

2000000

2500000

3000000

3500000

4000000

1995 1996 1997 1998 1999

The Data Gap

Total new disk (TB) since 1995

Number of

analysts

From R Grossman C Kamath V Kumar ―Data Mining for Scientific and Engineering Applications

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1257

12

Ce este Data Mining

Data mining (descoperirea cunoaşterii icircn baze de date)

ndash Extragerea informaţiilor sau şabloanelor de interes(nebanale implicite anterior necunoscute şi potenţialutile) din datele aflate icircn mari baze de date

Nume alternative

ndash Descoperirea cunoaşterii icircn baze de date (Knowledgediscovery in databases KDD) extragereacunoaşterii analiza datelorşabloanelor arheologiadatelor business intelligence etc

Ce nu este data mining ndash Procesarea deductivă a interogărilor ndash Sisteme expert sau programe mici statistice sau de

tipul maşinilor instruibile

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1357

13

Data mining sau căutarea informaţiei ascunse

De mai multe decenii mijloace şi tehnici informatice tot mai

evoluate au contribuit la amplificarea capacităţii de memorare şistocare a datelor

Ultimii ani au marcat o reorientare semnificativă icircn utilizareavolumelor de date stocate de la un proces de explorare

retrospectivă spre unul cu caracter prospectiv Această schimbare a devenit posibilă ca urmare a maturizării

tehnologiilor legate de data mining

Denumirea provine de la analogia cu activitatea minieră tot

aşa cum este necesară dislocarea şi rafinarea a tone de minereupentru a obţine cacircteva grame de aur aici sunt examinate şianalizate sute de mii sau milioane de date pentru a extrage dinele informaţii şi semnificaţii noi

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1457

14

Piramida datelor

Date

Informaţie

Cunoaştere

Icircnţelepciune

Date + context

Informa ţii + reguli

Cunoaştere + experien ţă

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1557

15

Definiţiile pentru data mining converg spre următoarea ideeDM este un proces de extragere de informaţii noi din colecţiile

de date existente

Principiul de funcţionare icircn data mining se prelucrează

datele referitoare la perioadele trecute examinacircnd o varietate de situaţii care s- au produs pentru a evidenţia caracteristicile

acestora şi a permite elaborarea unui model

Odată construit modelul poate fi aplicat situaţiilor noi de

acelaşi tip

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1657

16

Date deantrenare(icircnvare)

SistemDataMining

Date

noi

Predicie

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1757

17

Fundamentele explorării datelor

Dezvoltarea tehnicilor de data mining se explică printrealtele prin faptul că firmele au acumulat volume foarte mari dedate stocate pe suporturi informatice privitoare la tranzacţii dediverse tipuri derulate de-a lungul mai multor ani

Multă vreme acestea s-au acumulat pur şi simplu icircn virtuteanevoii de arhivare

Datele sunt la dispoziţia organizaţiei respective datele suntcacirct se poate de precise şi analitice datele sunt icircn volum mare şiacoperă perioade de timp de ordinul anilor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1857

18

Alături de existenţa colecţiilor de date istorice memorate pesuporturi informatice icircncă doi factori explică emergenţa

cunoscută actualmente de data mining (vezi figura următoare)

maturizarea algoritmilor şi a produselor programdedicate

creşterea capacităţii de memorare şi prelucrare acalculatoarelor care permite tratarea icircn corelaţiea volumelor foarte mari de date

Unele dintre tehnicile de data mining datează de ceva mai mulţiani Algoritmii folosiţi au cunoscut icircnsă un proces de evoluţiecontinuă care a permis icircnlăturarea unora dintre limitele saudeficienţele iniţiale

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1957

19

Putere de

calcul mrit

Algoritmistatisticii de

icircnvare

Colecii de date icircmbuntiteManagement

icircmbuntit aldatelor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2057

20

Produsele program au evoluat şi ele spre o utilizare cacirct maifacilă

Au apărut firme care oferă spre vacircnzare colecţii de dateistorice de uz general - cum ar fi spre exemplu evoluţiaindicatorilor bursieri din ultimii 20 de ani - special constituitepentru asemenea utilizări

Depozitele de date şi tehnologiile OLAP vizează şi ele datelecolectate la nivelul organizaţiilor

Depozitele de date se pretează foarte bine ca surse pentrudata mining iar rezultatele furnizate de acesta pot completacacircmpurile icircnregistrărilor celor dintacirci şi pot fi valorificate apoi prinproiecţiile multidimensionale specifice OLAP

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2157

21

Aplicaţii potenţiale

Analiza bazelor de date şi suport pentru decizie

ndash Analiza şi managementul pieţei

ndash Analiza şi managementul riscurilor

ndash Detecţia fraudelor

Analiza textelor - Text Mining

Analiză Web - Web Mining Răspuns inteligent la interogări

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2257

22

Analiza şi managementul pieţei

Care sunt sursele datelor de analizat ndash Tranzacţiile cu cardurile de credit cardurile de

fidelitate cupoanele de discount reclamaţiile clienţilorstudiile publice de stil de viaţă

Ţinta de marketing ndash Trebuie găsite grupuri de clienţi ―model care au

aceleaşi caracteristici interese nivel de venit obiceiuride cumpărare etc

Determinarea profilului cumpărătorului icircn timp ndash Conversia unui cont bancar icircn mai multe conectate

căsătorie etc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2357

23

Analiza şi managementul riscurilor

Planificare financiară şi evaluarea capitalului

ndash Analiza şi prognoza fluxului de numerar (cash flow)

ndash Analiza seriilor temporale (analiza tendinţelor etc)

Planificarea resurselor

ndash sumarizarea şi compararea resurselor şi acheltuielilor

Competiţie ndash Monitorizarea competitorilor şi a direcţiilor pieţei

ndash Fundamentarea strategiei preţului icircntr -o piaţă foartecompetitivă

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2457

24

Detecţia fraudelor

Folosirea datelor istorice pentru a construi modele decomportament fraudulos şi utilizarea data mining pentruidentificarea exemplelor similare

Exemple de aplicaţii

ndash Asigurări auto detectarea unui grup de persoane care icircnscenează accidente pentru a icircncasa asigurarea

ndash Spălare de bani detectarea tranzacţiilor suspecte

ndash Detectarea fraudelor telefonice detectareacomportamentelor suspecte (modelul de apel -destinaţie timp durată)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2557

25

DeviationAnomaly Detection

Detect significant deviations from normal behavior

Applications ndash Credit Card Fraud Detection

ndash Network IntrusionDetection

Typical network traffic at

University level may reach over 100

million connections per day

TanSteinbach Kumar Introduction to Data Miningwwwuserscsumnedu~kumardmbookindexphp

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2657

26

Alte domenii de aplicaţie

Sport

ndash Analiza jocurilor icircn NBA (ex detectarea strategieiadversarului) Astronomie

ndash Descoperirea şi clasificarea unor noi obiecte

Internet ndash Analiza acceselor Web descoperirea unor şabloane

(patterns) comportamentale analiza eficienţeimarketingului Web icircmbunătăţirea organizării site-urilor

Web Text

ndash Analiza ştirilor analiza icircnregistrărilor medicale sortarea şifiltrarea automată a e-mail-urilor clasificarea automată a

documentelor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2757

27

Contribuţii

Data Mining

Inteligenţă Artificială

Calculatoare performanteStatistică

Sisteme de baze dedate

Cercetări operaţionale

GIS

Vizualizare

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2857

28

Data miningintersecţia unor discipline multiple

Sisteme de baze de date data warehouse şi OLAP

Statistică

Maşini instruibile (Machine learning)

Vizualizare Informatică

Calcul de icircnaltă performanţă

Alte discipline ndash Reţele neuronale modelare matematică regăsirea

informaţiilor recunoaşterea formelor (patternrecognition)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2957

29

Architectura unui sistem tipic de Data Mining

Data

Warehouse

Curăţarea şi integrarea datelor Filtrare

Baze de date

Server de baze de date

sau de Data Warehouse

Motor data mining

Evaluarea şabloanelor

Interfaţă grafică utilizator

Bază de

cunoştinţe

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3057

30

Evoluţia tehnologiei bazelor de date

Anii 1960

ndash Colecţii de date crearea bazelor de date baze de datereţea

Anii 1970

ndash Modelul relaţional implementarea SGBD relaţional Anii 1980

ndash SGBD relaţionale modele de date avansate (relaţionalextins OO deductive etc) şi SGBD-uri specifice

(domeniul spatial ştiinţific inginerie etc) Anii 1990mdash2000

ndash Data mining şi data warehouse baze de date multimediabaze de date Web

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3157

31

Proces

Data mining inima

procesului de

descoperire a

cunoaşterii

Curăţirea datelor

Baze dedate

Data Warehouse

Date relevante

Data Mining

Evaluarea configuraţiilor

C ţi icirc t d ti b ă d

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3257

32

Comparaţie icircntre procesarea de tip bază de

date şi cea de tip Data Mining

Interogare ndash Bine definită ndash SQL

Interogare ndash Slab definită ndash Nu există limbaj precis de

interogare

Date ndash Date operaţ ionale

Ieşirea ndash Precisă ndash Subset al bazei dedate

Date ndash Date neoperaţionale

Ieşirea ndash Vagă ndash Nu este un subset al bazeide date

E l d i t ă i

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3357

33

Exemple de interogări

Bază de date

Data Mining

ndash Găseşte toţi clienţii care au cumpărat lapte

ndash Găseşte toţi clienţii care au cumpărat frecvent

lapte (Reguli de asociere)

ndash Găseşte toţi titularii de credite cu numele Smith ndash Identifică toţi clienţii care au cumpărat de maimult de $10000 icircn ultima lună

ndash Găseşte toţi titularii de credite cu risc mic decreditare (Clasificare)

ndash Identifică clienţii cu obiceiuri similare decumpărare (Grupare)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3457

34

Modele şi tehnici Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3557

35

Verificarea ipotezelor şi căutarea cunoştinţelor

Aplicarea tehnicilor de data mining poate fi făcută dinperspectiva unui demers ascendent sau descendent

Icircn abordarea descendentă efortul este orientat spre

confirmarea sau infirmarea unor idei (ipoteze) formulate icircnprealabil prin alte mijloace

Abordarea ascendentă are o cu totul altă finalitate ea

urmăreşte extragerea de cunoştinţe sau informaţii noi din dateledisponibile

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3657

36

Căutarea poate fi dirijată sau nedirijată

Căutarea dirijată ia icircn considerare un atribut sau un cacircmpale cărui valori icircncearcă să le explice prin celelalte cacircmpuriEste cea mai folosită icircn practică

Căutarea nedirijată are ca scop identificarea relaţiilor saustructurilor existente icircn ansamblul datelor examinate fără aacorda prioritate unui cacircmp sau altul

Deşi mai spectaculoasă icircn practică se recurge mult maipuţin la ea decacirct la căutarea dirijată

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3757

37

Data mining

verificarea

ipotezelor

căutarea de

cunoştinţe

dirijată nedirijată

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3857

38

Tehnici şi acţiuni

Data mining exploatează colecţiile de date de care dispune o

organizaţie

La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei

icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc

Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod

intrinsec

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3957

39

Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de

icircnţeles o tendinţă relevată de un număr foarte mare de cazuri

practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii

Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se

reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor

raţionamentele bazate pe cazuri analiza legăturilor

La acestea se pot asocia şi tehnici statistice cum sunt spre

exemplu regresiile analiza factorială etc

M d l di ti

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4057

40 40

Modele predictivehellip

Arbori de decizie

Clasificări după cel mai apropiat vecin

Reţele neuronale

Reguli

Analiza grupurilor

A l d i i ă l ă l i i

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4157

41

Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea

predicţiagrupareaanaliza grupărilor

Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un

grup limitat de clase predefinite

Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut

mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4257

42

Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare

Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări

Predicţia urmăreşte să claseze icircnregistrările tratate icircn

funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un

model care să explice comportamentul observat

Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora

icircn viitor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4357

43

Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună

Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei

Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster

Spre deosebire de celelalte tipuri de acţiuni asemănătoare

aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4457

44

Etapele procesului de exploatare a datelor

Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare

Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date

colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4557

45

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4657

46

Evaluarea modelului

Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare

Integrarea modelului

Această etapă finalizează procesul prin includerea

modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4757

172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up

Overview of Fisherrsquos Iris Dataset

Fisherrsquos iris dataset is available for download from the tutorial website

httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls

Iris photos courtesy of SIGNA ndash wwwsignaorg

Fisherrsquos iris dataset is well-known in

data mining research

This dataset is commonly used to

illustrate data mining tools

Mark Polczynski PhD The Technology Forge mhptechforgegmailnet

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4857

172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up

Fisherrsquos Database - Background

Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems

Annals of Eugenics 7 179 ndash188 available at

httpdigitallibraryadelaideeduaucollspecialfisher138pdf

iris setosa iris versicolor iris virginica

Dataset contains flower dimension measurements on 50 samples of each species

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4957

172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up

Fisherrsquos Dataset- Background

Data mining terminology

bull The four iris dimensions are termed attributes or input attributes

bull The three iris species are termed classes or output attributes

bull Each example of an iris is termed a sample or instance

Anderson measured these dimensions

bull sepal length

bull sepal width

bull petal length

bull petal width

Measurements on these iris speciesbull setosa

bull versicolor

bull virginica

S t f Fi h rsquo I i D t t

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5057

172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up

Segment of Fisherrsquos Iris Dataset

Input Output

Attributes Attribute

Inst

Sepal

Length

Sepal

Width

Petal

Length

Petal

Width Species1 51 35 14 02 setosa

2 49 3 14 02 setosa

3 47 32 13 02 setosa

4 46 31 15 02 setosa5 5 36 14 02 setosa

Numerical Nominal

ClassSample

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5157

172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up

What Problem are We Trying to Solve

Iris setosa

Weka

decisiontree

Iris versicolor

Iris virginica

Our taskClassify unknown iris using

measurements on 150 iris

samples of known species

Instrumente pentru Data-Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5257

52

Instrumente pentru Data-Mining

Weka Documentation httpwwwcswaikatoacnzmlweka

Waikato Environment for Knowledge Analysis

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5357

53

Instrumente pentru Data-Mining

Principalii producători de soft pentruData-Mining

ndash IBM ndash Intelligent Miner extensie pentru DB2

ndash SAS ndash Enterprise Miner

ndash SPSS ndash Clementine

ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)

ndash hellipmulți alți producători mai mici

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5457

54

Instrumente pentru Data-Mining

SPSS - Clementine

ndash httpwwwspsscomclementine Oracle - Darwin

ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet

ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner

ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml

Standarde Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5557

55

Standarde Data Mining

PMML (Predictive Modelling Markup Language)

ndash Limbaj similar XML pentru salvare și partajare de

modele (cel mai acceptat standard)

CRISP

ndash Metodologie standardizată pentru construirea deaplicații Data Mining

OLE DB pentru Data Mining

ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)

IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5657

56

1 INTRODUCERE

2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE

3-7

CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale

Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici

8 CLUSTERIZARE (ANALIZA CLUSTERILOR)

9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA

ASOCIERILOR)

10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR

11 EVALUAREA MODELELOR

12 APLICAŢII ŞI TENDINŢE IN DATA MINING

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5757

Mulţumesc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 757

7

Data Mining

Definiţie

Aplicaţii tipice

Metode amp algoritmi

Instrumente

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 857

8

Lots of data is being collectedand warehoused ndash Web data e-commerce ndash purchases at department

grocery stores ndash BankCredit Card

transactions

Computers have become cheaper and more powerful

Competitive Pressure is Strong ndash Provide better customized services for an edge (eg in

Customer Relationship Management)

Why Mine Data Commercial Viewpoint

TanSteinbach Kumar Introduction to Data Miningwwwuserscsumnedu~kumardmbookindexphp

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 957

9

Why Mine Data Scientific Viewpoint

Data collected and stored at

enormous speeds (GBhour) ndash remote sensors on a satellite

ndash telescopes scanning the skies

ndash microarrays generating geneexpression data

ndash scientific simulationsgenerating terabytes of data

Traditional techniques infeasible for raw data Data mining may help scientists

ndash in classifying and segmenting data

ndash in Hypothesis Formation

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1057

10

Motivare ldquoNecesitatea este mama

invenţieirdquo

Problema exploziei cantităţii de date ndash Colectarea automată a datelor şi tehnologiile mature

de baze de date au condus la cantităţi uriaşe de datestocate icircn baze de date depozite de date şi alte

acumulări de date

Ne icircnecăm icircn date dar suntem icircnsetaţi de cunoaştere Soluţia Data warehouse şi data mining

ndash Data warehousing şi procesare on-line (OLAP)

ndash Extragerea cunoaşterii de interes (r eguli regularităţişabloane constracircngeri) din datele aflate icircn baze mari

Jiawei Han and Micheline Kamber Data Mining Concepts and

Techniques httpwwwcssfuca

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1157

11

Mining Large Data Sets - Motivation

There is often information ―hidden in the data that isnot readily evident

Human analysts may take weeks to discover usefulinformation Much of the data is never analyzed at all

0

500000

1000000

1500000

2000000

2500000

3000000

3500000

4000000

1995 1996 1997 1998 1999

The Data Gap

Total new disk (TB) since 1995

Number of

analysts

From R Grossman C Kamath V Kumar ―Data Mining for Scientific and Engineering Applications

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1257

12

Ce este Data Mining

Data mining (descoperirea cunoaşterii icircn baze de date)

ndash Extragerea informaţiilor sau şabloanelor de interes(nebanale implicite anterior necunoscute şi potenţialutile) din datele aflate icircn mari baze de date

Nume alternative

ndash Descoperirea cunoaşterii icircn baze de date (Knowledgediscovery in databases KDD) extragereacunoaşterii analiza datelorşabloanelor arheologiadatelor business intelligence etc

Ce nu este data mining ndash Procesarea deductivă a interogărilor ndash Sisteme expert sau programe mici statistice sau de

tipul maşinilor instruibile

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1357

13

Data mining sau căutarea informaţiei ascunse

De mai multe decenii mijloace şi tehnici informatice tot mai

evoluate au contribuit la amplificarea capacităţii de memorare şistocare a datelor

Ultimii ani au marcat o reorientare semnificativă icircn utilizareavolumelor de date stocate de la un proces de explorare

retrospectivă spre unul cu caracter prospectiv Această schimbare a devenit posibilă ca urmare a maturizării

tehnologiilor legate de data mining

Denumirea provine de la analogia cu activitatea minieră tot

aşa cum este necesară dislocarea şi rafinarea a tone de minereupentru a obţine cacircteva grame de aur aici sunt examinate şianalizate sute de mii sau milioane de date pentru a extrage dinele informaţii şi semnificaţii noi

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1457

14

Piramida datelor

Date

Informaţie

Cunoaştere

Icircnţelepciune

Date + context

Informa ţii + reguli

Cunoaştere + experien ţă

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1557

15

Definiţiile pentru data mining converg spre următoarea ideeDM este un proces de extragere de informaţii noi din colecţiile

de date existente

Principiul de funcţionare icircn data mining se prelucrează

datele referitoare la perioadele trecute examinacircnd o varietate de situaţii care s- au produs pentru a evidenţia caracteristicile

acestora şi a permite elaborarea unui model

Odată construit modelul poate fi aplicat situaţiilor noi de

acelaşi tip

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1657

16

Date deantrenare(icircnvare)

SistemDataMining

Date

noi

Predicie

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1757

17

Fundamentele explorării datelor

Dezvoltarea tehnicilor de data mining se explică printrealtele prin faptul că firmele au acumulat volume foarte mari dedate stocate pe suporturi informatice privitoare la tranzacţii dediverse tipuri derulate de-a lungul mai multor ani

Multă vreme acestea s-au acumulat pur şi simplu icircn virtuteanevoii de arhivare

Datele sunt la dispoziţia organizaţiei respective datele suntcacirct se poate de precise şi analitice datele sunt icircn volum mare şiacoperă perioade de timp de ordinul anilor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1857

18

Alături de existenţa colecţiilor de date istorice memorate pesuporturi informatice icircncă doi factori explică emergenţa

cunoscută actualmente de data mining (vezi figura următoare)

maturizarea algoritmilor şi a produselor programdedicate

creşterea capacităţii de memorare şi prelucrare acalculatoarelor care permite tratarea icircn corelaţiea volumelor foarte mari de date

Unele dintre tehnicile de data mining datează de ceva mai mulţiani Algoritmii folosiţi au cunoscut icircnsă un proces de evoluţiecontinuă care a permis icircnlăturarea unora dintre limitele saudeficienţele iniţiale

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1957

19

Putere de

calcul mrit

Algoritmistatisticii de

icircnvare

Colecii de date icircmbuntiteManagement

icircmbuntit aldatelor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2057

20

Produsele program au evoluat şi ele spre o utilizare cacirct maifacilă

Au apărut firme care oferă spre vacircnzare colecţii de dateistorice de uz general - cum ar fi spre exemplu evoluţiaindicatorilor bursieri din ultimii 20 de ani - special constituitepentru asemenea utilizări

Depozitele de date şi tehnologiile OLAP vizează şi ele datelecolectate la nivelul organizaţiilor

Depozitele de date se pretează foarte bine ca surse pentrudata mining iar rezultatele furnizate de acesta pot completacacircmpurile icircnregistrărilor celor dintacirci şi pot fi valorificate apoi prinproiecţiile multidimensionale specifice OLAP

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2157

21

Aplicaţii potenţiale

Analiza bazelor de date şi suport pentru decizie

ndash Analiza şi managementul pieţei

ndash Analiza şi managementul riscurilor

ndash Detecţia fraudelor

Analiza textelor - Text Mining

Analiză Web - Web Mining Răspuns inteligent la interogări

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2257

22

Analiza şi managementul pieţei

Care sunt sursele datelor de analizat ndash Tranzacţiile cu cardurile de credit cardurile de

fidelitate cupoanele de discount reclamaţiile clienţilorstudiile publice de stil de viaţă

Ţinta de marketing ndash Trebuie găsite grupuri de clienţi ―model care au

aceleaşi caracteristici interese nivel de venit obiceiuride cumpărare etc

Determinarea profilului cumpărătorului icircn timp ndash Conversia unui cont bancar icircn mai multe conectate

căsătorie etc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2357

23

Analiza şi managementul riscurilor

Planificare financiară şi evaluarea capitalului

ndash Analiza şi prognoza fluxului de numerar (cash flow)

ndash Analiza seriilor temporale (analiza tendinţelor etc)

Planificarea resurselor

ndash sumarizarea şi compararea resurselor şi acheltuielilor

Competiţie ndash Monitorizarea competitorilor şi a direcţiilor pieţei

ndash Fundamentarea strategiei preţului icircntr -o piaţă foartecompetitivă

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2457

24

Detecţia fraudelor

Folosirea datelor istorice pentru a construi modele decomportament fraudulos şi utilizarea data mining pentruidentificarea exemplelor similare

Exemple de aplicaţii

ndash Asigurări auto detectarea unui grup de persoane care icircnscenează accidente pentru a icircncasa asigurarea

ndash Spălare de bani detectarea tranzacţiilor suspecte

ndash Detectarea fraudelor telefonice detectareacomportamentelor suspecte (modelul de apel -destinaţie timp durată)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2557

25

DeviationAnomaly Detection

Detect significant deviations from normal behavior

Applications ndash Credit Card Fraud Detection

ndash Network IntrusionDetection

Typical network traffic at

University level may reach over 100

million connections per day

TanSteinbach Kumar Introduction to Data Miningwwwuserscsumnedu~kumardmbookindexphp

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2657

26

Alte domenii de aplicaţie

Sport

ndash Analiza jocurilor icircn NBA (ex detectarea strategieiadversarului) Astronomie

ndash Descoperirea şi clasificarea unor noi obiecte

Internet ndash Analiza acceselor Web descoperirea unor şabloane

(patterns) comportamentale analiza eficienţeimarketingului Web icircmbunătăţirea organizării site-urilor

Web Text

ndash Analiza ştirilor analiza icircnregistrărilor medicale sortarea şifiltrarea automată a e-mail-urilor clasificarea automată a

documentelor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2757

27

Contribuţii

Data Mining

Inteligenţă Artificială

Calculatoare performanteStatistică

Sisteme de baze dedate

Cercetări operaţionale

GIS

Vizualizare

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2857

28

Data miningintersecţia unor discipline multiple

Sisteme de baze de date data warehouse şi OLAP

Statistică

Maşini instruibile (Machine learning)

Vizualizare Informatică

Calcul de icircnaltă performanţă

Alte discipline ndash Reţele neuronale modelare matematică regăsirea

informaţiilor recunoaşterea formelor (patternrecognition)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2957

29

Architectura unui sistem tipic de Data Mining

Data

Warehouse

Curăţarea şi integrarea datelor Filtrare

Baze de date

Server de baze de date

sau de Data Warehouse

Motor data mining

Evaluarea şabloanelor

Interfaţă grafică utilizator

Bază de

cunoştinţe

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3057

30

Evoluţia tehnologiei bazelor de date

Anii 1960

ndash Colecţii de date crearea bazelor de date baze de datereţea

Anii 1970

ndash Modelul relaţional implementarea SGBD relaţional Anii 1980

ndash SGBD relaţionale modele de date avansate (relaţionalextins OO deductive etc) şi SGBD-uri specifice

(domeniul spatial ştiinţific inginerie etc) Anii 1990mdash2000

ndash Data mining şi data warehouse baze de date multimediabaze de date Web

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3157

31

Proces

Data mining inima

procesului de

descoperire a

cunoaşterii

Curăţirea datelor

Baze dedate

Data Warehouse

Date relevante

Data Mining

Evaluarea configuraţiilor

C ţi icirc t d ti b ă d

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3257

32

Comparaţie icircntre procesarea de tip bază de

date şi cea de tip Data Mining

Interogare ndash Bine definită ndash SQL

Interogare ndash Slab definită ndash Nu există limbaj precis de

interogare

Date ndash Date operaţ ionale

Ieşirea ndash Precisă ndash Subset al bazei dedate

Date ndash Date neoperaţionale

Ieşirea ndash Vagă ndash Nu este un subset al bazeide date

E l d i t ă i

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3357

33

Exemple de interogări

Bază de date

Data Mining

ndash Găseşte toţi clienţii care au cumpărat lapte

ndash Găseşte toţi clienţii care au cumpărat frecvent

lapte (Reguli de asociere)

ndash Găseşte toţi titularii de credite cu numele Smith ndash Identifică toţi clienţii care au cumpărat de maimult de $10000 icircn ultima lună

ndash Găseşte toţi titularii de credite cu risc mic decreditare (Clasificare)

ndash Identifică clienţii cu obiceiuri similare decumpărare (Grupare)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3457

34

Modele şi tehnici Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3557

35

Verificarea ipotezelor şi căutarea cunoştinţelor

Aplicarea tehnicilor de data mining poate fi făcută dinperspectiva unui demers ascendent sau descendent

Icircn abordarea descendentă efortul este orientat spre

confirmarea sau infirmarea unor idei (ipoteze) formulate icircnprealabil prin alte mijloace

Abordarea ascendentă are o cu totul altă finalitate ea

urmăreşte extragerea de cunoştinţe sau informaţii noi din dateledisponibile

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3657

36

Căutarea poate fi dirijată sau nedirijată

Căutarea dirijată ia icircn considerare un atribut sau un cacircmpale cărui valori icircncearcă să le explice prin celelalte cacircmpuriEste cea mai folosită icircn practică

Căutarea nedirijată are ca scop identificarea relaţiilor saustructurilor existente icircn ansamblul datelor examinate fără aacorda prioritate unui cacircmp sau altul

Deşi mai spectaculoasă icircn practică se recurge mult maipuţin la ea decacirct la căutarea dirijată

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3757

37

Data mining

verificarea

ipotezelor

căutarea de

cunoştinţe

dirijată nedirijată

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3857

38

Tehnici şi acţiuni

Data mining exploatează colecţiile de date de care dispune o

organizaţie

La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei

icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc

Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod

intrinsec

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3957

39

Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de

icircnţeles o tendinţă relevată de un număr foarte mare de cazuri

practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii

Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se

reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor

raţionamentele bazate pe cazuri analiza legăturilor

La acestea se pot asocia şi tehnici statistice cum sunt spre

exemplu regresiile analiza factorială etc

M d l di ti

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4057

40 40

Modele predictivehellip

Arbori de decizie

Clasificări după cel mai apropiat vecin

Reţele neuronale

Reguli

Analiza grupurilor

A l d i i ă l ă l i i

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4157

41

Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea

predicţiagrupareaanaliza grupărilor

Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un

grup limitat de clase predefinite

Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut

mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4257

42

Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare

Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări

Predicţia urmăreşte să claseze icircnregistrările tratate icircn

funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un

model care să explice comportamentul observat

Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora

icircn viitor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4357

43

Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună

Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei

Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster

Spre deosebire de celelalte tipuri de acţiuni asemănătoare

aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4457

44

Etapele procesului de exploatare a datelor

Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare

Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date

colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4557

45

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4657

46

Evaluarea modelului

Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare

Integrarea modelului

Această etapă finalizează procesul prin includerea

modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4757

172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up

Overview of Fisherrsquos Iris Dataset

Fisherrsquos iris dataset is available for download from the tutorial website

httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls

Iris photos courtesy of SIGNA ndash wwwsignaorg

Fisherrsquos iris dataset is well-known in

data mining research

This dataset is commonly used to

illustrate data mining tools

Mark Polczynski PhD The Technology Forge mhptechforgegmailnet

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4857

172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up

Fisherrsquos Database - Background

Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems

Annals of Eugenics 7 179 ndash188 available at

httpdigitallibraryadelaideeduaucollspecialfisher138pdf

iris setosa iris versicolor iris virginica

Dataset contains flower dimension measurements on 50 samples of each species

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4957

172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up

Fisherrsquos Dataset- Background

Data mining terminology

bull The four iris dimensions are termed attributes or input attributes

bull The three iris species are termed classes or output attributes

bull Each example of an iris is termed a sample or instance

Anderson measured these dimensions

bull sepal length

bull sepal width

bull petal length

bull petal width

Measurements on these iris speciesbull setosa

bull versicolor

bull virginica

S t f Fi h rsquo I i D t t

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5057

172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up

Segment of Fisherrsquos Iris Dataset

Input Output

Attributes Attribute

Inst

Sepal

Length

Sepal

Width

Petal

Length

Petal

Width Species1 51 35 14 02 setosa

2 49 3 14 02 setosa

3 47 32 13 02 setosa

4 46 31 15 02 setosa5 5 36 14 02 setosa

Numerical Nominal

ClassSample

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5157

172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up

What Problem are We Trying to Solve

Iris setosa

Weka

decisiontree

Iris versicolor

Iris virginica

Our taskClassify unknown iris using

measurements on 150 iris

samples of known species

Instrumente pentru Data-Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5257

52

Instrumente pentru Data-Mining

Weka Documentation httpwwwcswaikatoacnzmlweka

Waikato Environment for Knowledge Analysis

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5357

53

Instrumente pentru Data-Mining

Principalii producători de soft pentruData-Mining

ndash IBM ndash Intelligent Miner extensie pentru DB2

ndash SAS ndash Enterprise Miner

ndash SPSS ndash Clementine

ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)

ndash hellipmulți alți producători mai mici

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5457

54

Instrumente pentru Data-Mining

SPSS - Clementine

ndash httpwwwspsscomclementine Oracle - Darwin

ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet

ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner

ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml

Standarde Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5557

55

Standarde Data Mining

PMML (Predictive Modelling Markup Language)

ndash Limbaj similar XML pentru salvare și partajare de

modele (cel mai acceptat standard)

CRISP

ndash Metodologie standardizată pentru construirea deaplicații Data Mining

OLE DB pentru Data Mining

ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)

IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5657

56

1 INTRODUCERE

2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE

3-7

CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale

Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici

8 CLUSTERIZARE (ANALIZA CLUSTERILOR)

9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA

ASOCIERILOR)

10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR

11 EVALUAREA MODELELOR

12 APLICAŢII ŞI TENDINŢE IN DATA MINING

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5757

Mulţumesc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 857

8

Lots of data is being collectedand warehoused ndash Web data e-commerce ndash purchases at department

grocery stores ndash BankCredit Card

transactions

Computers have become cheaper and more powerful

Competitive Pressure is Strong ndash Provide better customized services for an edge (eg in

Customer Relationship Management)

Why Mine Data Commercial Viewpoint

TanSteinbach Kumar Introduction to Data Miningwwwuserscsumnedu~kumardmbookindexphp

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 957

9

Why Mine Data Scientific Viewpoint

Data collected and stored at

enormous speeds (GBhour) ndash remote sensors on a satellite

ndash telescopes scanning the skies

ndash microarrays generating geneexpression data

ndash scientific simulationsgenerating terabytes of data

Traditional techniques infeasible for raw data Data mining may help scientists

ndash in classifying and segmenting data

ndash in Hypothesis Formation

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1057

10

Motivare ldquoNecesitatea este mama

invenţieirdquo

Problema exploziei cantităţii de date ndash Colectarea automată a datelor şi tehnologiile mature

de baze de date au condus la cantităţi uriaşe de datestocate icircn baze de date depozite de date şi alte

acumulări de date

Ne icircnecăm icircn date dar suntem icircnsetaţi de cunoaştere Soluţia Data warehouse şi data mining

ndash Data warehousing şi procesare on-line (OLAP)

ndash Extragerea cunoaşterii de interes (r eguli regularităţişabloane constracircngeri) din datele aflate icircn baze mari

Jiawei Han and Micheline Kamber Data Mining Concepts and

Techniques httpwwwcssfuca

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1157

11

Mining Large Data Sets - Motivation

There is often information ―hidden in the data that isnot readily evident

Human analysts may take weeks to discover usefulinformation Much of the data is never analyzed at all

0

500000

1000000

1500000

2000000

2500000

3000000

3500000

4000000

1995 1996 1997 1998 1999

The Data Gap

Total new disk (TB) since 1995

Number of

analysts

From R Grossman C Kamath V Kumar ―Data Mining for Scientific and Engineering Applications

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1257

12

Ce este Data Mining

Data mining (descoperirea cunoaşterii icircn baze de date)

ndash Extragerea informaţiilor sau şabloanelor de interes(nebanale implicite anterior necunoscute şi potenţialutile) din datele aflate icircn mari baze de date

Nume alternative

ndash Descoperirea cunoaşterii icircn baze de date (Knowledgediscovery in databases KDD) extragereacunoaşterii analiza datelorşabloanelor arheologiadatelor business intelligence etc

Ce nu este data mining ndash Procesarea deductivă a interogărilor ndash Sisteme expert sau programe mici statistice sau de

tipul maşinilor instruibile

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1357

13

Data mining sau căutarea informaţiei ascunse

De mai multe decenii mijloace şi tehnici informatice tot mai

evoluate au contribuit la amplificarea capacităţii de memorare şistocare a datelor

Ultimii ani au marcat o reorientare semnificativă icircn utilizareavolumelor de date stocate de la un proces de explorare

retrospectivă spre unul cu caracter prospectiv Această schimbare a devenit posibilă ca urmare a maturizării

tehnologiilor legate de data mining

Denumirea provine de la analogia cu activitatea minieră tot

aşa cum este necesară dislocarea şi rafinarea a tone de minereupentru a obţine cacircteva grame de aur aici sunt examinate şianalizate sute de mii sau milioane de date pentru a extrage dinele informaţii şi semnificaţii noi

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1457

14

Piramida datelor

Date

Informaţie

Cunoaştere

Icircnţelepciune

Date + context

Informa ţii + reguli

Cunoaştere + experien ţă

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1557

15

Definiţiile pentru data mining converg spre următoarea ideeDM este un proces de extragere de informaţii noi din colecţiile

de date existente

Principiul de funcţionare icircn data mining se prelucrează

datele referitoare la perioadele trecute examinacircnd o varietate de situaţii care s- au produs pentru a evidenţia caracteristicile

acestora şi a permite elaborarea unui model

Odată construit modelul poate fi aplicat situaţiilor noi de

acelaşi tip

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1657

16

Date deantrenare(icircnvare)

SistemDataMining

Date

noi

Predicie

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1757

17

Fundamentele explorării datelor

Dezvoltarea tehnicilor de data mining se explică printrealtele prin faptul că firmele au acumulat volume foarte mari dedate stocate pe suporturi informatice privitoare la tranzacţii dediverse tipuri derulate de-a lungul mai multor ani

Multă vreme acestea s-au acumulat pur şi simplu icircn virtuteanevoii de arhivare

Datele sunt la dispoziţia organizaţiei respective datele suntcacirct se poate de precise şi analitice datele sunt icircn volum mare şiacoperă perioade de timp de ordinul anilor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1857

18

Alături de existenţa colecţiilor de date istorice memorate pesuporturi informatice icircncă doi factori explică emergenţa

cunoscută actualmente de data mining (vezi figura următoare)

maturizarea algoritmilor şi a produselor programdedicate

creşterea capacităţii de memorare şi prelucrare acalculatoarelor care permite tratarea icircn corelaţiea volumelor foarte mari de date

Unele dintre tehnicile de data mining datează de ceva mai mulţiani Algoritmii folosiţi au cunoscut icircnsă un proces de evoluţiecontinuă care a permis icircnlăturarea unora dintre limitele saudeficienţele iniţiale

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1957

19

Putere de

calcul mrit

Algoritmistatisticii de

icircnvare

Colecii de date icircmbuntiteManagement

icircmbuntit aldatelor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2057

20

Produsele program au evoluat şi ele spre o utilizare cacirct maifacilă

Au apărut firme care oferă spre vacircnzare colecţii de dateistorice de uz general - cum ar fi spre exemplu evoluţiaindicatorilor bursieri din ultimii 20 de ani - special constituitepentru asemenea utilizări

Depozitele de date şi tehnologiile OLAP vizează şi ele datelecolectate la nivelul organizaţiilor

Depozitele de date se pretează foarte bine ca surse pentrudata mining iar rezultatele furnizate de acesta pot completacacircmpurile icircnregistrărilor celor dintacirci şi pot fi valorificate apoi prinproiecţiile multidimensionale specifice OLAP

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2157

21

Aplicaţii potenţiale

Analiza bazelor de date şi suport pentru decizie

ndash Analiza şi managementul pieţei

ndash Analiza şi managementul riscurilor

ndash Detecţia fraudelor

Analiza textelor - Text Mining

Analiză Web - Web Mining Răspuns inteligent la interogări

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2257

22

Analiza şi managementul pieţei

Care sunt sursele datelor de analizat ndash Tranzacţiile cu cardurile de credit cardurile de

fidelitate cupoanele de discount reclamaţiile clienţilorstudiile publice de stil de viaţă

Ţinta de marketing ndash Trebuie găsite grupuri de clienţi ―model care au

aceleaşi caracteristici interese nivel de venit obiceiuride cumpărare etc

Determinarea profilului cumpărătorului icircn timp ndash Conversia unui cont bancar icircn mai multe conectate

căsătorie etc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2357

23

Analiza şi managementul riscurilor

Planificare financiară şi evaluarea capitalului

ndash Analiza şi prognoza fluxului de numerar (cash flow)

ndash Analiza seriilor temporale (analiza tendinţelor etc)

Planificarea resurselor

ndash sumarizarea şi compararea resurselor şi acheltuielilor

Competiţie ndash Monitorizarea competitorilor şi a direcţiilor pieţei

ndash Fundamentarea strategiei preţului icircntr -o piaţă foartecompetitivă

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2457

24

Detecţia fraudelor

Folosirea datelor istorice pentru a construi modele decomportament fraudulos şi utilizarea data mining pentruidentificarea exemplelor similare

Exemple de aplicaţii

ndash Asigurări auto detectarea unui grup de persoane care icircnscenează accidente pentru a icircncasa asigurarea

ndash Spălare de bani detectarea tranzacţiilor suspecte

ndash Detectarea fraudelor telefonice detectareacomportamentelor suspecte (modelul de apel -destinaţie timp durată)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2557

25

DeviationAnomaly Detection

Detect significant deviations from normal behavior

Applications ndash Credit Card Fraud Detection

ndash Network IntrusionDetection

Typical network traffic at

University level may reach over 100

million connections per day

TanSteinbach Kumar Introduction to Data Miningwwwuserscsumnedu~kumardmbookindexphp

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2657

26

Alte domenii de aplicaţie

Sport

ndash Analiza jocurilor icircn NBA (ex detectarea strategieiadversarului) Astronomie

ndash Descoperirea şi clasificarea unor noi obiecte

Internet ndash Analiza acceselor Web descoperirea unor şabloane

(patterns) comportamentale analiza eficienţeimarketingului Web icircmbunătăţirea organizării site-urilor

Web Text

ndash Analiza ştirilor analiza icircnregistrărilor medicale sortarea şifiltrarea automată a e-mail-urilor clasificarea automată a

documentelor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2757

27

Contribuţii

Data Mining

Inteligenţă Artificială

Calculatoare performanteStatistică

Sisteme de baze dedate

Cercetări operaţionale

GIS

Vizualizare

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2857

28

Data miningintersecţia unor discipline multiple

Sisteme de baze de date data warehouse şi OLAP

Statistică

Maşini instruibile (Machine learning)

Vizualizare Informatică

Calcul de icircnaltă performanţă

Alte discipline ndash Reţele neuronale modelare matematică regăsirea

informaţiilor recunoaşterea formelor (patternrecognition)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2957

29

Architectura unui sistem tipic de Data Mining

Data

Warehouse

Curăţarea şi integrarea datelor Filtrare

Baze de date

Server de baze de date

sau de Data Warehouse

Motor data mining

Evaluarea şabloanelor

Interfaţă grafică utilizator

Bază de

cunoştinţe

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3057

30

Evoluţia tehnologiei bazelor de date

Anii 1960

ndash Colecţii de date crearea bazelor de date baze de datereţea

Anii 1970

ndash Modelul relaţional implementarea SGBD relaţional Anii 1980

ndash SGBD relaţionale modele de date avansate (relaţionalextins OO deductive etc) şi SGBD-uri specifice

(domeniul spatial ştiinţific inginerie etc) Anii 1990mdash2000

ndash Data mining şi data warehouse baze de date multimediabaze de date Web

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3157

31

Proces

Data mining inima

procesului de

descoperire a

cunoaşterii

Curăţirea datelor

Baze dedate

Data Warehouse

Date relevante

Data Mining

Evaluarea configuraţiilor

C ţi icirc t d ti b ă d

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3257

32

Comparaţie icircntre procesarea de tip bază de

date şi cea de tip Data Mining

Interogare ndash Bine definită ndash SQL

Interogare ndash Slab definită ndash Nu există limbaj precis de

interogare

Date ndash Date operaţ ionale

Ieşirea ndash Precisă ndash Subset al bazei dedate

Date ndash Date neoperaţionale

Ieşirea ndash Vagă ndash Nu este un subset al bazeide date

E l d i t ă i

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3357

33

Exemple de interogări

Bază de date

Data Mining

ndash Găseşte toţi clienţii care au cumpărat lapte

ndash Găseşte toţi clienţii care au cumpărat frecvent

lapte (Reguli de asociere)

ndash Găseşte toţi titularii de credite cu numele Smith ndash Identifică toţi clienţii care au cumpărat de maimult de $10000 icircn ultima lună

ndash Găseşte toţi titularii de credite cu risc mic decreditare (Clasificare)

ndash Identifică clienţii cu obiceiuri similare decumpărare (Grupare)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3457

34

Modele şi tehnici Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3557

35

Verificarea ipotezelor şi căutarea cunoştinţelor

Aplicarea tehnicilor de data mining poate fi făcută dinperspectiva unui demers ascendent sau descendent

Icircn abordarea descendentă efortul este orientat spre

confirmarea sau infirmarea unor idei (ipoteze) formulate icircnprealabil prin alte mijloace

Abordarea ascendentă are o cu totul altă finalitate ea

urmăreşte extragerea de cunoştinţe sau informaţii noi din dateledisponibile

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3657

36

Căutarea poate fi dirijată sau nedirijată

Căutarea dirijată ia icircn considerare un atribut sau un cacircmpale cărui valori icircncearcă să le explice prin celelalte cacircmpuriEste cea mai folosită icircn practică

Căutarea nedirijată are ca scop identificarea relaţiilor saustructurilor existente icircn ansamblul datelor examinate fără aacorda prioritate unui cacircmp sau altul

Deşi mai spectaculoasă icircn practică se recurge mult maipuţin la ea decacirct la căutarea dirijată

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3757

37

Data mining

verificarea

ipotezelor

căutarea de

cunoştinţe

dirijată nedirijată

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3857

38

Tehnici şi acţiuni

Data mining exploatează colecţiile de date de care dispune o

organizaţie

La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei

icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc

Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod

intrinsec

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3957

39

Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de

icircnţeles o tendinţă relevată de un număr foarte mare de cazuri

practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii

Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se

reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor

raţionamentele bazate pe cazuri analiza legăturilor

La acestea se pot asocia şi tehnici statistice cum sunt spre

exemplu regresiile analiza factorială etc

M d l di ti

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4057

40 40

Modele predictivehellip

Arbori de decizie

Clasificări după cel mai apropiat vecin

Reţele neuronale

Reguli

Analiza grupurilor

A l d i i ă l ă l i i

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4157

41

Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea

predicţiagrupareaanaliza grupărilor

Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un

grup limitat de clase predefinite

Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut

mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4257

42

Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare

Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări

Predicţia urmăreşte să claseze icircnregistrările tratate icircn

funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un

model care să explice comportamentul observat

Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora

icircn viitor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4357

43

Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună

Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei

Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster

Spre deosebire de celelalte tipuri de acţiuni asemănătoare

aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4457

44

Etapele procesului de exploatare a datelor

Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare

Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date

colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4557

45

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4657

46

Evaluarea modelului

Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare

Integrarea modelului

Această etapă finalizează procesul prin includerea

modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4757

172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up

Overview of Fisherrsquos Iris Dataset

Fisherrsquos iris dataset is available for download from the tutorial website

httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls

Iris photos courtesy of SIGNA ndash wwwsignaorg

Fisherrsquos iris dataset is well-known in

data mining research

This dataset is commonly used to

illustrate data mining tools

Mark Polczynski PhD The Technology Forge mhptechforgegmailnet

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4857

172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up

Fisherrsquos Database - Background

Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems

Annals of Eugenics 7 179 ndash188 available at

httpdigitallibraryadelaideeduaucollspecialfisher138pdf

iris setosa iris versicolor iris virginica

Dataset contains flower dimension measurements on 50 samples of each species

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4957

172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up

Fisherrsquos Dataset- Background

Data mining terminology

bull The four iris dimensions are termed attributes or input attributes

bull The three iris species are termed classes or output attributes

bull Each example of an iris is termed a sample or instance

Anderson measured these dimensions

bull sepal length

bull sepal width

bull petal length

bull petal width

Measurements on these iris speciesbull setosa

bull versicolor

bull virginica

S t f Fi h rsquo I i D t t

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5057

172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up

Segment of Fisherrsquos Iris Dataset

Input Output

Attributes Attribute

Inst

Sepal

Length

Sepal

Width

Petal

Length

Petal

Width Species1 51 35 14 02 setosa

2 49 3 14 02 setosa

3 47 32 13 02 setosa

4 46 31 15 02 setosa5 5 36 14 02 setosa

Numerical Nominal

ClassSample

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5157

172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up

What Problem are We Trying to Solve

Iris setosa

Weka

decisiontree

Iris versicolor

Iris virginica

Our taskClassify unknown iris using

measurements on 150 iris

samples of known species

Instrumente pentru Data-Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5257

52

Instrumente pentru Data-Mining

Weka Documentation httpwwwcswaikatoacnzmlweka

Waikato Environment for Knowledge Analysis

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5357

53

Instrumente pentru Data-Mining

Principalii producători de soft pentruData-Mining

ndash IBM ndash Intelligent Miner extensie pentru DB2

ndash SAS ndash Enterprise Miner

ndash SPSS ndash Clementine

ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)

ndash hellipmulți alți producători mai mici

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5457

54

Instrumente pentru Data-Mining

SPSS - Clementine

ndash httpwwwspsscomclementine Oracle - Darwin

ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet

ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner

ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml

Standarde Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5557

55

Standarde Data Mining

PMML (Predictive Modelling Markup Language)

ndash Limbaj similar XML pentru salvare și partajare de

modele (cel mai acceptat standard)

CRISP

ndash Metodologie standardizată pentru construirea deaplicații Data Mining

OLE DB pentru Data Mining

ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)

IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5657

56

1 INTRODUCERE

2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE

3-7

CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale

Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici

8 CLUSTERIZARE (ANALIZA CLUSTERILOR)

9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA

ASOCIERILOR)

10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR

11 EVALUAREA MODELELOR

12 APLICAŢII ŞI TENDINŢE IN DATA MINING

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5757

Mulţumesc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 957

9

Why Mine Data Scientific Viewpoint

Data collected and stored at

enormous speeds (GBhour) ndash remote sensors on a satellite

ndash telescopes scanning the skies

ndash microarrays generating geneexpression data

ndash scientific simulationsgenerating terabytes of data

Traditional techniques infeasible for raw data Data mining may help scientists

ndash in classifying and segmenting data

ndash in Hypothesis Formation

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1057

10

Motivare ldquoNecesitatea este mama

invenţieirdquo

Problema exploziei cantităţii de date ndash Colectarea automată a datelor şi tehnologiile mature

de baze de date au condus la cantităţi uriaşe de datestocate icircn baze de date depozite de date şi alte

acumulări de date

Ne icircnecăm icircn date dar suntem icircnsetaţi de cunoaştere Soluţia Data warehouse şi data mining

ndash Data warehousing şi procesare on-line (OLAP)

ndash Extragerea cunoaşterii de interes (r eguli regularităţişabloane constracircngeri) din datele aflate icircn baze mari

Jiawei Han and Micheline Kamber Data Mining Concepts and

Techniques httpwwwcssfuca

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1157

11

Mining Large Data Sets - Motivation

There is often information ―hidden in the data that isnot readily evident

Human analysts may take weeks to discover usefulinformation Much of the data is never analyzed at all

0

500000

1000000

1500000

2000000

2500000

3000000

3500000

4000000

1995 1996 1997 1998 1999

The Data Gap

Total new disk (TB) since 1995

Number of

analysts

From R Grossman C Kamath V Kumar ―Data Mining for Scientific and Engineering Applications

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1257

12

Ce este Data Mining

Data mining (descoperirea cunoaşterii icircn baze de date)

ndash Extragerea informaţiilor sau şabloanelor de interes(nebanale implicite anterior necunoscute şi potenţialutile) din datele aflate icircn mari baze de date

Nume alternative

ndash Descoperirea cunoaşterii icircn baze de date (Knowledgediscovery in databases KDD) extragereacunoaşterii analiza datelorşabloanelor arheologiadatelor business intelligence etc

Ce nu este data mining ndash Procesarea deductivă a interogărilor ndash Sisteme expert sau programe mici statistice sau de

tipul maşinilor instruibile

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1357

13

Data mining sau căutarea informaţiei ascunse

De mai multe decenii mijloace şi tehnici informatice tot mai

evoluate au contribuit la amplificarea capacităţii de memorare şistocare a datelor

Ultimii ani au marcat o reorientare semnificativă icircn utilizareavolumelor de date stocate de la un proces de explorare

retrospectivă spre unul cu caracter prospectiv Această schimbare a devenit posibilă ca urmare a maturizării

tehnologiilor legate de data mining

Denumirea provine de la analogia cu activitatea minieră tot

aşa cum este necesară dislocarea şi rafinarea a tone de minereupentru a obţine cacircteva grame de aur aici sunt examinate şianalizate sute de mii sau milioane de date pentru a extrage dinele informaţii şi semnificaţii noi

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1457

14

Piramida datelor

Date

Informaţie

Cunoaştere

Icircnţelepciune

Date + context

Informa ţii + reguli

Cunoaştere + experien ţă

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1557

15

Definiţiile pentru data mining converg spre următoarea ideeDM este un proces de extragere de informaţii noi din colecţiile

de date existente

Principiul de funcţionare icircn data mining se prelucrează

datele referitoare la perioadele trecute examinacircnd o varietate de situaţii care s- au produs pentru a evidenţia caracteristicile

acestora şi a permite elaborarea unui model

Odată construit modelul poate fi aplicat situaţiilor noi de

acelaşi tip

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1657

16

Date deantrenare(icircnvare)

SistemDataMining

Date

noi

Predicie

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1757

17

Fundamentele explorării datelor

Dezvoltarea tehnicilor de data mining se explică printrealtele prin faptul că firmele au acumulat volume foarte mari dedate stocate pe suporturi informatice privitoare la tranzacţii dediverse tipuri derulate de-a lungul mai multor ani

Multă vreme acestea s-au acumulat pur şi simplu icircn virtuteanevoii de arhivare

Datele sunt la dispoziţia organizaţiei respective datele suntcacirct se poate de precise şi analitice datele sunt icircn volum mare şiacoperă perioade de timp de ordinul anilor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1857

18

Alături de existenţa colecţiilor de date istorice memorate pesuporturi informatice icircncă doi factori explică emergenţa

cunoscută actualmente de data mining (vezi figura următoare)

maturizarea algoritmilor şi a produselor programdedicate

creşterea capacităţii de memorare şi prelucrare acalculatoarelor care permite tratarea icircn corelaţiea volumelor foarte mari de date

Unele dintre tehnicile de data mining datează de ceva mai mulţiani Algoritmii folosiţi au cunoscut icircnsă un proces de evoluţiecontinuă care a permis icircnlăturarea unora dintre limitele saudeficienţele iniţiale

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1957

19

Putere de

calcul mrit

Algoritmistatisticii de

icircnvare

Colecii de date icircmbuntiteManagement

icircmbuntit aldatelor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2057

20

Produsele program au evoluat şi ele spre o utilizare cacirct maifacilă

Au apărut firme care oferă spre vacircnzare colecţii de dateistorice de uz general - cum ar fi spre exemplu evoluţiaindicatorilor bursieri din ultimii 20 de ani - special constituitepentru asemenea utilizări

Depozitele de date şi tehnologiile OLAP vizează şi ele datelecolectate la nivelul organizaţiilor

Depozitele de date se pretează foarte bine ca surse pentrudata mining iar rezultatele furnizate de acesta pot completacacircmpurile icircnregistrărilor celor dintacirci şi pot fi valorificate apoi prinproiecţiile multidimensionale specifice OLAP

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2157

21

Aplicaţii potenţiale

Analiza bazelor de date şi suport pentru decizie

ndash Analiza şi managementul pieţei

ndash Analiza şi managementul riscurilor

ndash Detecţia fraudelor

Analiza textelor - Text Mining

Analiză Web - Web Mining Răspuns inteligent la interogări

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2257

22

Analiza şi managementul pieţei

Care sunt sursele datelor de analizat ndash Tranzacţiile cu cardurile de credit cardurile de

fidelitate cupoanele de discount reclamaţiile clienţilorstudiile publice de stil de viaţă

Ţinta de marketing ndash Trebuie găsite grupuri de clienţi ―model care au

aceleaşi caracteristici interese nivel de venit obiceiuride cumpărare etc

Determinarea profilului cumpărătorului icircn timp ndash Conversia unui cont bancar icircn mai multe conectate

căsătorie etc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2357

23

Analiza şi managementul riscurilor

Planificare financiară şi evaluarea capitalului

ndash Analiza şi prognoza fluxului de numerar (cash flow)

ndash Analiza seriilor temporale (analiza tendinţelor etc)

Planificarea resurselor

ndash sumarizarea şi compararea resurselor şi acheltuielilor

Competiţie ndash Monitorizarea competitorilor şi a direcţiilor pieţei

ndash Fundamentarea strategiei preţului icircntr -o piaţă foartecompetitivă

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2457

24

Detecţia fraudelor

Folosirea datelor istorice pentru a construi modele decomportament fraudulos şi utilizarea data mining pentruidentificarea exemplelor similare

Exemple de aplicaţii

ndash Asigurări auto detectarea unui grup de persoane care icircnscenează accidente pentru a icircncasa asigurarea

ndash Spălare de bani detectarea tranzacţiilor suspecte

ndash Detectarea fraudelor telefonice detectareacomportamentelor suspecte (modelul de apel -destinaţie timp durată)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2557

25

DeviationAnomaly Detection

Detect significant deviations from normal behavior

Applications ndash Credit Card Fraud Detection

ndash Network IntrusionDetection

Typical network traffic at

University level may reach over 100

million connections per day

TanSteinbach Kumar Introduction to Data Miningwwwuserscsumnedu~kumardmbookindexphp

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2657

26

Alte domenii de aplicaţie

Sport

ndash Analiza jocurilor icircn NBA (ex detectarea strategieiadversarului) Astronomie

ndash Descoperirea şi clasificarea unor noi obiecte

Internet ndash Analiza acceselor Web descoperirea unor şabloane

(patterns) comportamentale analiza eficienţeimarketingului Web icircmbunătăţirea organizării site-urilor

Web Text

ndash Analiza ştirilor analiza icircnregistrărilor medicale sortarea şifiltrarea automată a e-mail-urilor clasificarea automată a

documentelor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2757

27

Contribuţii

Data Mining

Inteligenţă Artificială

Calculatoare performanteStatistică

Sisteme de baze dedate

Cercetări operaţionale

GIS

Vizualizare

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2857

28

Data miningintersecţia unor discipline multiple

Sisteme de baze de date data warehouse şi OLAP

Statistică

Maşini instruibile (Machine learning)

Vizualizare Informatică

Calcul de icircnaltă performanţă

Alte discipline ndash Reţele neuronale modelare matematică regăsirea

informaţiilor recunoaşterea formelor (patternrecognition)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2957

29

Architectura unui sistem tipic de Data Mining

Data

Warehouse

Curăţarea şi integrarea datelor Filtrare

Baze de date

Server de baze de date

sau de Data Warehouse

Motor data mining

Evaluarea şabloanelor

Interfaţă grafică utilizator

Bază de

cunoştinţe

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3057

30

Evoluţia tehnologiei bazelor de date

Anii 1960

ndash Colecţii de date crearea bazelor de date baze de datereţea

Anii 1970

ndash Modelul relaţional implementarea SGBD relaţional Anii 1980

ndash SGBD relaţionale modele de date avansate (relaţionalextins OO deductive etc) şi SGBD-uri specifice

(domeniul spatial ştiinţific inginerie etc) Anii 1990mdash2000

ndash Data mining şi data warehouse baze de date multimediabaze de date Web

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3157

31

Proces

Data mining inima

procesului de

descoperire a

cunoaşterii

Curăţirea datelor

Baze dedate

Data Warehouse

Date relevante

Data Mining

Evaluarea configuraţiilor

C ţi icirc t d ti b ă d

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3257

32

Comparaţie icircntre procesarea de tip bază de

date şi cea de tip Data Mining

Interogare ndash Bine definită ndash SQL

Interogare ndash Slab definită ndash Nu există limbaj precis de

interogare

Date ndash Date operaţ ionale

Ieşirea ndash Precisă ndash Subset al bazei dedate

Date ndash Date neoperaţionale

Ieşirea ndash Vagă ndash Nu este un subset al bazeide date

E l d i t ă i

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3357

33

Exemple de interogări

Bază de date

Data Mining

ndash Găseşte toţi clienţii care au cumpărat lapte

ndash Găseşte toţi clienţii care au cumpărat frecvent

lapte (Reguli de asociere)

ndash Găseşte toţi titularii de credite cu numele Smith ndash Identifică toţi clienţii care au cumpărat de maimult de $10000 icircn ultima lună

ndash Găseşte toţi titularii de credite cu risc mic decreditare (Clasificare)

ndash Identifică clienţii cu obiceiuri similare decumpărare (Grupare)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3457

34

Modele şi tehnici Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3557

35

Verificarea ipotezelor şi căutarea cunoştinţelor

Aplicarea tehnicilor de data mining poate fi făcută dinperspectiva unui demers ascendent sau descendent

Icircn abordarea descendentă efortul este orientat spre

confirmarea sau infirmarea unor idei (ipoteze) formulate icircnprealabil prin alte mijloace

Abordarea ascendentă are o cu totul altă finalitate ea

urmăreşte extragerea de cunoştinţe sau informaţii noi din dateledisponibile

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3657

36

Căutarea poate fi dirijată sau nedirijată

Căutarea dirijată ia icircn considerare un atribut sau un cacircmpale cărui valori icircncearcă să le explice prin celelalte cacircmpuriEste cea mai folosită icircn practică

Căutarea nedirijată are ca scop identificarea relaţiilor saustructurilor existente icircn ansamblul datelor examinate fără aacorda prioritate unui cacircmp sau altul

Deşi mai spectaculoasă icircn practică se recurge mult maipuţin la ea decacirct la căutarea dirijată

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3757

37

Data mining

verificarea

ipotezelor

căutarea de

cunoştinţe

dirijată nedirijată

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3857

38

Tehnici şi acţiuni

Data mining exploatează colecţiile de date de care dispune o

organizaţie

La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei

icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc

Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod

intrinsec

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3957

39

Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de

icircnţeles o tendinţă relevată de un număr foarte mare de cazuri

practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii

Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se

reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor

raţionamentele bazate pe cazuri analiza legăturilor

La acestea se pot asocia şi tehnici statistice cum sunt spre

exemplu regresiile analiza factorială etc

M d l di ti

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4057

40 40

Modele predictivehellip

Arbori de decizie

Clasificări după cel mai apropiat vecin

Reţele neuronale

Reguli

Analiza grupurilor

A l d i i ă l ă l i i

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4157

41

Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea

predicţiagrupareaanaliza grupărilor

Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un

grup limitat de clase predefinite

Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut

mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4257

42

Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare

Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări

Predicţia urmăreşte să claseze icircnregistrările tratate icircn

funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un

model care să explice comportamentul observat

Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora

icircn viitor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4357

43

Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună

Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei

Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster

Spre deosebire de celelalte tipuri de acţiuni asemănătoare

aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4457

44

Etapele procesului de exploatare a datelor

Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare

Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date

colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4557

45

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4657

46

Evaluarea modelului

Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare

Integrarea modelului

Această etapă finalizează procesul prin includerea

modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4757

172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up

Overview of Fisherrsquos Iris Dataset

Fisherrsquos iris dataset is available for download from the tutorial website

httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls

Iris photos courtesy of SIGNA ndash wwwsignaorg

Fisherrsquos iris dataset is well-known in

data mining research

This dataset is commonly used to

illustrate data mining tools

Mark Polczynski PhD The Technology Forge mhptechforgegmailnet

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4857

172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up

Fisherrsquos Database - Background

Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems

Annals of Eugenics 7 179 ndash188 available at

httpdigitallibraryadelaideeduaucollspecialfisher138pdf

iris setosa iris versicolor iris virginica

Dataset contains flower dimension measurements on 50 samples of each species

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4957

172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up

Fisherrsquos Dataset- Background

Data mining terminology

bull The four iris dimensions are termed attributes or input attributes

bull The three iris species are termed classes or output attributes

bull Each example of an iris is termed a sample or instance

Anderson measured these dimensions

bull sepal length

bull sepal width

bull petal length

bull petal width

Measurements on these iris speciesbull setosa

bull versicolor

bull virginica

S t f Fi h rsquo I i D t t

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5057

172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up

Segment of Fisherrsquos Iris Dataset

Input Output

Attributes Attribute

Inst

Sepal

Length

Sepal

Width

Petal

Length

Petal

Width Species1 51 35 14 02 setosa

2 49 3 14 02 setosa

3 47 32 13 02 setosa

4 46 31 15 02 setosa5 5 36 14 02 setosa

Numerical Nominal

ClassSample

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5157

172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up

What Problem are We Trying to Solve

Iris setosa

Weka

decisiontree

Iris versicolor

Iris virginica

Our taskClassify unknown iris using

measurements on 150 iris

samples of known species

Instrumente pentru Data-Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5257

52

Instrumente pentru Data-Mining

Weka Documentation httpwwwcswaikatoacnzmlweka

Waikato Environment for Knowledge Analysis

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5357

53

Instrumente pentru Data-Mining

Principalii producători de soft pentruData-Mining

ndash IBM ndash Intelligent Miner extensie pentru DB2

ndash SAS ndash Enterprise Miner

ndash SPSS ndash Clementine

ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)

ndash hellipmulți alți producători mai mici

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5457

54

Instrumente pentru Data-Mining

SPSS - Clementine

ndash httpwwwspsscomclementine Oracle - Darwin

ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet

ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner

ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml

Standarde Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5557

55

Standarde Data Mining

PMML (Predictive Modelling Markup Language)

ndash Limbaj similar XML pentru salvare și partajare de

modele (cel mai acceptat standard)

CRISP

ndash Metodologie standardizată pentru construirea deaplicații Data Mining

OLE DB pentru Data Mining

ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)

IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5657

56

1 INTRODUCERE

2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE

3-7

CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale

Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici

8 CLUSTERIZARE (ANALIZA CLUSTERILOR)

9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA

ASOCIERILOR)

10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR

11 EVALUAREA MODELELOR

12 APLICAŢII ŞI TENDINŢE IN DATA MINING

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5757

Mulţumesc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1057

10

Motivare ldquoNecesitatea este mama

invenţieirdquo

Problema exploziei cantităţii de date ndash Colectarea automată a datelor şi tehnologiile mature

de baze de date au condus la cantităţi uriaşe de datestocate icircn baze de date depozite de date şi alte

acumulări de date

Ne icircnecăm icircn date dar suntem icircnsetaţi de cunoaştere Soluţia Data warehouse şi data mining

ndash Data warehousing şi procesare on-line (OLAP)

ndash Extragerea cunoaşterii de interes (r eguli regularităţişabloane constracircngeri) din datele aflate icircn baze mari

Jiawei Han and Micheline Kamber Data Mining Concepts and

Techniques httpwwwcssfuca

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1157

11

Mining Large Data Sets - Motivation

There is often information ―hidden in the data that isnot readily evident

Human analysts may take weeks to discover usefulinformation Much of the data is never analyzed at all

0

500000

1000000

1500000

2000000

2500000

3000000

3500000

4000000

1995 1996 1997 1998 1999

The Data Gap

Total new disk (TB) since 1995

Number of

analysts

From R Grossman C Kamath V Kumar ―Data Mining for Scientific and Engineering Applications

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1257

12

Ce este Data Mining

Data mining (descoperirea cunoaşterii icircn baze de date)

ndash Extragerea informaţiilor sau şabloanelor de interes(nebanale implicite anterior necunoscute şi potenţialutile) din datele aflate icircn mari baze de date

Nume alternative

ndash Descoperirea cunoaşterii icircn baze de date (Knowledgediscovery in databases KDD) extragereacunoaşterii analiza datelorşabloanelor arheologiadatelor business intelligence etc

Ce nu este data mining ndash Procesarea deductivă a interogărilor ndash Sisteme expert sau programe mici statistice sau de

tipul maşinilor instruibile

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1357

13

Data mining sau căutarea informaţiei ascunse

De mai multe decenii mijloace şi tehnici informatice tot mai

evoluate au contribuit la amplificarea capacităţii de memorare şistocare a datelor

Ultimii ani au marcat o reorientare semnificativă icircn utilizareavolumelor de date stocate de la un proces de explorare

retrospectivă spre unul cu caracter prospectiv Această schimbare a devenit posibilă ca urmare a maturizării

tehnologiilor legate de data mining

Denumirea provine de la analogia cu activitatea minieră tot

aşa cum este necesară dislocarea şi rafinarea a tone de minereupentru a obţine cacircteva grame de aur aici sunt examinate şianalizate sute de mii sau milioane de date pentru a extrage dinele informaţii şi semnificaţii noi

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1457

14

Piramida datelor

Date

Informaţie

Cunoaştere

Icircnţelepciune

Date + context

Informa ţii + reguli

Cunoaştere + experien ţă

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1557

15

Definiţiile pentru data mining converg spre următoarea ideeDM este un proces de extragere de informaţii noi din colecţiile

de date existente

Principiul de funcţionare icircn data mining se prelucrează

datele referitoare la perioadele trecute examinacircnd o varietate de situaţii care s- au produs pentru a evidenţia caracteristicile

acestora şi a permite elaborarea unui model

Odată construit modelul poate fi aplicat situaţiilor noi de

acelaşi tip

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1657

16

Date deantrenare(icircnvare)

SistemDataMining

Date

noi

Predicie

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1757

17

Fundamentele explorării datelor

Dezvoltarea tehnicilor de data mining se explică printrealtele prin faptul că firmele au acumulat volume foarte mari dedate stocate pe suporturi informatice privitoare la tranzacţii dediverse tipuri derulate de-a lungul mai multor ani

Multă vreme acestea s-au acumulat pur şi simplu icircn virtuteanevoii de arhivare

Datele sunt la dispoziţia organizaţiei respective datele suntcacirct se poate de precise şi analitice datele sunt icircn volum mare şiacoperă perioade de timp de ordinul anilor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1857

18

Alături de existenţa colecţiilor de date istorice memorate pesuporturi informatice icircncă doi factori explică emergenţa

cunoscută actualmente de data mining (vezi figura următoare)

maturizarea algoritmilor şi a produselor programdedicate

creşterea capacităţii de memorare şi prelucrare acalculatoarelor care permite tratarea icircn corelaţiea volumelor foarte mari de date

Unele dintre tehnicile de data mining datează de ceva mai mulţiani Algoritmii folosiţi au cunoscut icircnsă un proces de evoluţiecontinuă care a permis icircnlăturarea unora dintre limitele saudeficienţele iniţiale

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1957

19

Putere de

calcul mrit

Algoritmistatisticii de

icircnvare

Colecii de date icircmbuntiteManagement

icircmbuntit aldatelor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2057

20

Produsele program au evoluat şi ele spre o utilizare cacirct maifacilă

Au apărut firme care oferă spre vacircnzare colecţii de dateistorice de uz general - cum ar fi spre exemplu evoluţiaindicatorilor bursieri din ultimii 20 de ani - special constituitepentru asemenea utilizări

Depozitele de date şi tehnologiile OLAP vizează şi ele datelecolectate la nivelul organizaţiilor

Depozitele de date se pretează foarte bine ca surse pentrudata mining iar rezultatele furnizate de acesta pot completacacircmpurile icircnregistrărilor celor dintacirci şi pot fi valorificate apoi prinproiecţiile multidimensionale specifice OLAP

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2157

21

Aplicaţii potenţiale

Analiza bazelor de date şi suport pentru decizie

ndash Analiza şi managementul pieţei

ndash Analiza şi managementul riscurilor

ndash Detecţia fraudelor

Analiza textelor - Text Mining

Analiză Web - Web Mining Răspuns inteligent la interogări

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2257

22

Analiza şi managementul pieţei

Care sunt sursele datelor de analizat ndash Tranzacţiile cu cardurile de credit cardurile de

fidelitate cupoanele de discount reclamaţiile clienţilorstudiile publice de stil de viaţă

Ţinta de marketing ndash Trebuie găsite grupuri de clienţi ―model care au

aceleaşi caracteristici interese nivel de venit obiceiuride cumpărare etc

Determinarea profilului cumpărătorului icircn timp ndash Conversia unui cont bancar icircn mai multe conectate

căsătorie etc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2357

23

Analiza şi managementul riscurilor

Planificare financiară şi evaluarea capitalului

ndash Analiza şi prognoza fluxului de numerar (cash flow)

ndash Analiza seriilor temporale (analiza tendinţelor etc)

Planificarea resurselor

ndash sumarizarea şi compararea resurselor şi acheltuielilor

Competiţie ndash Monitorizarea competitorilor şi a direcţiilor pieţei

ndash Fundamentarea strategiei preţului icircntr -o piaţă foartecompetitivă

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2457

24

Detecţia fraudelor

Folosirea datelor istorice pentru a construi modele decomportament fraudulos şi utilizarea data mining pentruidentificarea exemplelor similare

Exemple de aplicaţii

ndash Asigurări auto detectarea unui grup de persoane care icircnscenează accidente pentru a icircncasa asigurarea

ndash Spălare de bani detectarea tranzacţiilor suspecte

ndash Detectarea fraudelor telefonice detectareacomportamentelor suspecte (modelul de apel -destinaţie timp durată)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2557

25

DeviationAnomaly Detection

Detect significant deviations from normal behavior

Applications ndash Credit Card Fraud Detection

ndash Network IntrusionDetection

Typical network traffic at

University level may reach over 100

million connections per day

TanSteinbach Kumar Introduction to Data Miningwwwuserscsumnedu~kumardmbookindexphp

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2657

26

Alte domenii de aplicaţie

Sport

ndash Analiza jocurilor icircn NBA (ex detectarea strategieiadversarului) Astronomie

ndash Descoperirea şi clasificarea unor noi obiecte

Internet ndash Analiza acceselor Web descoperirea unor şabloane

(patterns) comportamentale analiza eficienţeimarketingului Web icircmbunătăţirea organizării site-urilor

Web Text

ndash Analiza ştirilor analiza icircnregistrărilor medicale sortarea şifiltrarea automată a e-mail-urilor clasificarea automată a

documentelor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2757

27

Contribuţii

Data Mining

Inteligenţă Artificială

Calculatoare performanteStatistică

Sisteme de baze dedate

Cercetări operaţionale

GIS

Vizualizare

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2857

28

Data miningintersecţia unor discipline multiple

Sisteme de baze de date data warehouse şi OLAP

Statistică

Maşini instruibile (Machine learning)

Vizualizare Informatică

Calcul de icircnaltă performanţă

Alte discipline ndash Reţele neuronale modelare matematică regăsirea

informaţiilor recunoaşterea formelor (patternrecognition)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2957

29

Architectura unui sistem tipic de Data Mining

Data

Warehouse

Curăţarea şi integrarea datelor Filtrare

Baze de date

Server de baze de date

sau de Data Warehouse

Motor data mining

Evaluarea şabloanelor

Interfaţă grafică utilizator

Bază de

cunoştinţe

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3057

30

Evoluţia tehnologiei bazelor de date

Anii 1960

ndash Colecţii de date crearea bazelor de date baze de datereţea

Anii 1970

ndash Modelul relaţional implementarea SGBD relaţional Anii 1980

ndash SGBD relaţionale modele de date avansate (relaţionalextins OO deductive etc) şi SGBD-uri specifice

(domeniul spatial ştiinţific inginerie etc) Anii 1990mdash2000

ndash Data mining şi data warehouse baze de date multimediabaze de date Web

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3157

31

Proces

Data mining inima

procesului de

descoperire a

cunoaşterii

Curăţirea datelor

Baze dedate

Data Warehouse

Date relevante

Data Mining

Evaluarea configuraţiilor

C ţi icirc t d ti b ă d

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3257

32

Comparaţie icircntre procesarea de tip bază de

date şi cea de tip Data Mining

Interogare ndash Bine definită ndash SQL

Interogare ndash Slab definită ndash Nu există limbaj precis de

interogare

Date ndash Date operaţ ionale

Ieşirea ndash Precisă ndash Subset al bazei dedate

Date ndash Date neoperaţionale

Ieşirea ndash Vagă ndash Nu este un subset al bazeide date

E l d i t ă i

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3357

33

Exemple de interogări

Bază de date

Data Mining

ndash Găseşte toţi clienţii care au cumpărat lapte

ndash Găseşte toţi clienţii care au cumpărat frecvent

lapte (Reguli de asociere)

ndash Găseşte toţi titularii de credite cu numele Smith ndash Identifică toţi clienţii care au cumpărat de maimult de $10000 icircn ultima lună

ndash Găseşte toţi titularii de credite cu risc mic decreditare (Clasificare)

ndash Identifică clienţii cu obiceiuri similare decumpărare (Grupare)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3457

34

Modele şi tehnici Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3557

35

Verificarea ipotezelor şi căutarea cunoştinţelor

Aplicarea tehnicilor de data mining poate fi făcută dinperspectiva unui demers ascendent sau descendent

Icircn abordarea descendentă efortul este orientat spre

confirmarea sau infirmarea unor idei (ipoteze) formulate icircnprealabil prin alte mijloace

Abordarea ascendentă are o cu totul altă finalitate ea

urmăreşte extragerea de cunoştinţe sau informaţii noi din dateledisponibile

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3657

36

Căutarea poate fi dirijată sau nedirijată

Căutarea dirijată ia icircn considerare un atribut sau un cacircmpale cărui valori icircncearcă să le explice prin celelalte cacircmpuriEste cea mai folosită icircn practică

Căutarea nedirijată are ca scop identificarea relaţiilor saustructurilor existente icircn ansamblul datelor examinate fără aacorda prioritate unui cacircmp sau altul

Deşi mai spectaculoasă icircn practică se recurge mult maipuţin la ea decacirct la căutarea dirijată

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3757

37

Data mining

verificarea

ipotezelor

căutarea de

cunoştinţe

dirijată nedirijată

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3857

38

Tehnici şi acţiuni

Data mining exploatează colecţiile de date de care dispune o

organizaţie

La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei

icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc

Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod

intrinsec

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3957

39

Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de

icircnţeles o tendinţă relevată de un număr foarte mare de cazuri

practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii

Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se

reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor

raţionamentele bazate pe cazuri analiza legăturilor

La acestea se pot asocia şi tehnici statistice cum sunt spre

exemplu regresiile analiza factorială etc

M d l di ti

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4057

40 40

Modele predictivehellip

Arbori de decizie

Clasificări după cel mai apropiat vecin

Reţele neuronale

Reguli

Analiza grupurilor

A l d i i ă l ă l i i

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4157

41

Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea

predicţiagrupareaanaliza grupărilor

Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un

grup limitat de clase predefinite

Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut

mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4257

42

Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare

Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări

Predicţia urmăreşte să claseze icircnregistrările tratate icircn

funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un

model care să explice comportamentul observat

Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora

icircn viitor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4357

43

Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună

Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei

Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster

Spre deosebire de celelalte tipuri de acţiuni asemănătoare

aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4457

44

Etapele procesului de exploatare a datelor

Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare

Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date

colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4557

45

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4657

46

Evaluarea modelului

Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare

Integrarea modelului

Această etapă finalizează procesul prin includerea

modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4757

172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up

Overview of Fisherrsquos Iris Dataset

Fisherrsquos iris dataset is available for download from the tutorial website

httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls

Iris photos courtesy of SIGNA ndash wwwsignaorg

Fisherrsquos iris dataset is well-known in

data mining research

This dataset is commonly used to

illustrate data mining tools

Mark Polczynski PhD The Technology Forge mhptechforgegmailnet

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4857

172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up

Fisherrsquos Database - Background

Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems

Annals of Eugenics 7 179 ndash188 available at

httpdigitallibraryadelaideeduaucollspecialfisher138pdf

iris setosa iris versicolor iris virginica

Dataset contains flower dimension measurements on 50 samples of each species

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4957

172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up

Fisherrsquos Dataset- Background

Data mining terminology

bull The four iris dimensions are termed attributes or input attributes

bull The three iris species are termed classes or output attributes

bull Each example of an iris is termed a sample or instance

Anderson measured these dimensions

bull sepal length

bull sepal width

bull petal length

bull petal width

Measurements on these iris speciesbull setosa

bull versicolor

bull virginica

S t f Fi h rsquo I i D t t

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5057

172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up

Segment of Fisherrsquos Iris Dataset

Input Output

Attributes Attribute

Inst

Sepal

Length

Sepal

Width

Petal

Length

Petal

Width Species1 51 35 14 02 setosa

2 49 3 14 02 setosa

3 47 32 13 02 setosa

4 46 31 15 02 setosa5 5 36 14 02 setosa

Numerical Nominal

ClassSample

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5157

172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up

What Problem are We Trying to Solve

Iris setosa

Weka

decisiontree

Iris versicolor

Iris virginica

Our taskClassify unknown iris using

measurements on 150 iris

samples of known species

Instrumente pentru Data-Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5257

52

Instrumente pentru Data-Mining

Weka Documentation httpwwwcswaikatoacnzmlweka

Waikato Environment for Knowledge Analysis

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5357

53

Instrumente pentru Data-Mining

Principalii producători de soft pentruData-Mining

ndash IBM ndash Intelligent Miner extensie pentru DB2

ndash SAS ndash Enterprise Miner

ndash SPSS ndash Clementine

ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)

ndash hellipmulți alți producători mai mici

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5457

54

Instrumente pentru Data-Mining

SPSS - Clementine

ndash httpwwwspsscomclementine Oracle - Darwin

ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet

ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner

ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml

Standarde Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5557

55

Standarde Data Mining

PMML (Predictive Modelling Markup Language)

ndash Limbaj similar XML pentru salvare și partajare de

modele (cel mai acceptat standard)

CRISP

ndash Metodologie standardizată pentru construirea deaplicații Data Mining

OLE DB pentru Data Mining

ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)

IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5657

56

1 INTRODUCERE

2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE

3-7

CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale

Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici

8 CLUSTERIZARE (ANALIZA CLUSTERILOR)

9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA

ASOCIERILOR)

10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR

11 EVALUAREA MODELELOR

12 APLICAŢII ŞI TENDINŢE IN DATA MINING

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5757

Mulţumesc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1157

11

Mining Large Data Sets - Motivation

There is often information ―hidden in the data that isnot readily evident

Human analysts may take weeks to discover usefulinformation Much of the data is never analyzed at all

0

500000

1000000

1500000

2000000

2500000

3000000

3500000

4000000

1995 1996 1997 1998 1999

The Data Gap

Total new disk (TB) since 1995

Number of

analysts

From R Grossman C Kamath V Kumar ―Data Mining for Scientific and Engineering Applications

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1257

12

Ce este Data Mining

Data mining (descoperirea cunoaşterii icircn baze de date)

ndash Extragerea informaţiilor sau şabloanelor de interes(nebanale implicite anterior necunoscute şi potenţialutile) din datele aflate icircn mari baze de date

Nume alternative

ndash Descoperirea cunoaşterii icircn baze de date (Knowledgediscovery in databases KDD) extragereacunoaşterii analiza datelorşabloanelor arheologiadatelor business intelligence etc

Ce nu este data mining ndash Procesarea deductivă a interogărilor ndash Sisteme expert sau programe mici statistice sau de

tipul maşinilor instruibile

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1357

13

Data mining sau căutarea informaţiei ascunse

De mai multe decenii mijloace şi tehnici informatice tot mai

evoluate au contribuit la amplificarea capacităţii de memorare şistocare a datelor

Ultimii ani au marcat o reorientare semnificativă icircn utilizareavolumelor de date stocate de la un proces de explorare

retrospectivă spre unul cu caracter prospectiv Această schimbare a devenit posibilă ca urmare a maturizării

tehnologiilor legate de data mining

Denumirea provine de la analogia cu activitatea minieră tot

aşa cum este necesară dislocarea şi rafinarea a tone de minereupentru a obţine cacircteva grame de aur aici sunt examinate şianalizate sute de mii sau milioane de date pentru a extrage dinele informaţii şi semnificaţii noi

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1457

14

Piramida datelor

Date

Informaţie

Cunoaştere

Icircnţelepciune

Date + context

Informa ţii + reguli

Cunoaştere + experien ţă

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1557

15

Definiţiile pentru data mining converg spre următoarea ideeDM este un proces de extragere de informaţii noi din colecţiile

de date existente

Principiul de funcţionare icircn data mining se prelucrează

datele referitoare la perioadele trecute examinacircnd o varietate de situaţii care s- au produs pentru a evidenţia caracteristicile

acestora şi a permite elaborarea unui model

Odată construit modelul poate fi aplicat situaţiilor noi de

acelaşi tip

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1657

16

Date deantrenare(icircnvare)

SistemDataMining

Date

noi

Predicie

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1757

17

Fundamentele explorării datelor

Dezvoltarea tehnicilor de data mining se explică printrealtele prin faptul că firmele au acumulat volume foarte mari dedate stocate pe suporturi informatice privitoare la tranzacţii dediverse tipuri derulate de-a lungul mai multor ani

Multă vreme acestea s-au acumulat pur şi simplu icircn virtuteanevoii de arhivare

Datele sunt la dispoziţia organizaţiei respective datele suntcacirct se poate de precise şi analitice datele sunt icircn volum mare şiacoperă perioade de timp de ordinul anilor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1857

18

Alături de existenţa colecţiilor de date istorice memorate pesuporturi informatice icircncă doi factori explică emergenţa

cunoscută actualmente de data mining (vezi figura următoare)

maturizarea algoritmilor şi a produselor programdedicate

creşterea capacităţii de memorare şi prelucrare acalculatoarelor care permite tratarea icircn corelaţiea volumelor foarte mari de date

Unele dintre tehnicile de data mining datează de ceva mai mulţiani Algoritmii folosiţi au cunoscut icircnsă un proces de evoluţiecontinuă care a permis icircnlăturarea unora dintre limitele saudeficienţele iniţiale

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1957

19

Putere de

calcul mrit

Algoritmistatisticii de

icircnvare

Colecii de date icircmbuntiteManagement

icircmbuntit aldatelor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2057

20

Produsele program au evoluat şi ele spre o utilizare cacirct maifacilă

Au apărut firme care oferă spre vacircnzare colecţii de dateistorice de uz general - cum ar fi spre exemplu evoluţiaindicatorilor bursieri din ultimii 20 de ani - special constituitepentru asemenea utilizări

Depozitele de date şi tehnologiile OLAP vizează şi ele datelecolectate la nivelul organizaţiilor

Depozitele de date se pretează foarte bine ca surse pentrudata mining iar rezultatele furnizate de acesta pot completacacircmpurile icircnregistrărilor celor dintacirci şi pot fi valorificate apoi prinproiecţiile multidimensionale specifice OLAP

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2157

21

Aplicaţii potenţiale

Analiza bazelor de date şi suport pentru decizie

ndash Analiza şi managementul pieţei

ndash Analiza şi managementul riscurilor

ndash Detecţia fraudelor

Analiza textelor - Text Mining

Analiză Web - Web Mining Răspuns inteligent la interogări

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2257

22

Analiza şi managementul pieţei

Care sunt sursele datelor de analizat ndash Tranzacţiile cu cardurile de credit cardurile de

fidelitate cupoanele de discount reclamaţiile clienţilorstudiile publice de stil de viaţă

Ţinta de marketing ndash Trebuie găsite grupuri de clienţi ―model care au

aceleaşi caracteristici interese nivel de venit obiceiuride cumpărare etc

Determinarea profilului cumpărătorului icircn timp ndash Conversia unui cont bancar icircn mai multe conectate

căsătorie etc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2357

23

Analiza şi managementul riscurilor

Planificare financiară şi evaluarea capitalului

ndash Analiza şi prognoza fluxului de numerar (cash flow)

ndash Analiza seriilor temporale (analiza tendinţelor etc)

Planificarea resurselor

ndash sumarizarea şi compararea resurselor şi acheltuielilor

Competiţie ndash Monitorizarea competitorilor şi a direcţiilor pieţei

ndash Fundamentarea strategiei preţului icircntr -o piaţă foartecompetitivă

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2457

24

Detecţia fraudelor

Folosirea datelor istorice pentru a construi modele decomportament fraudulos şi utilizarea data mining pentruidentificarea exemplelor similare

Exemple de aplicaţii

ndash Asigurări auto detectarea unui grup de persoane care icircnscenează accidente pentru a icircncasa asigurarea

ndash Spălare de bani detectarea tranzacţiilor suspecte

ndash Detectarea fraudelor telefonice detectareacomportamentelor suspecte (modelul de apel -destinaţie timp durată)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2557

25

DeviationAnomaly Detection

Detect significant deviations from normal behavior

Applications ndash Credit Card Fraud Detection

ndash Network IntrusionDetection

Typical network traffic at

University level may reach over 100

million connections per day

TanSteinbach Kumar Introduction to Data Miningwwwuserscsumnedu~kumardmbookindexphp

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2657

26

Alte domenii de aplicaţie

Sport

ndash Analiza jocurilor icircn NBA (ex detectarea strategieiadversarului) Astronomie

ndash Descoperirea şi clasificarea unor noi obiecte

Internet ndash Analiza acceselor Web descoperirea unor şabloane

(patterns) comportamentale analiza eficienţeimarketingului Web icircmbunătăţirea organizării site-urilor

Web Text

ndash Analiza ştirilor analiza icircnregistrărilor medicale sortarea şifiltrarea automată a e-mail-urilor clasificarea automată a

documentelor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2757

27

Contribuţii

Data Mining

Inteligenţă Artificială

Calculatoare performanteStatistică

Sisteme de baze dedate

Cercetări operaţionale

GIS

Vizualizare

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2857

28

Data miningintersecţia unor discipline multiple

Sisteme de baze de date data warehouse şi OLAP

Statistică

Maşini instruibile (Machine learning)

Vizualizare Informatică

Calcul de icircnaltă performanţă

Alte discipline ndash Reţele neuronale modelare matematică regăsirea

informaţiilor recunoaşterea formelor (patternrecognition)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2957

29

Architectura unui sistem tipic de Data Mining

Data

Warehouse

Curăţarea şi integrarea datelor Filtrare

Baze de date

Server de baze de date

sau de Data Warehouse

Motor data mining

Evaluarea şabloanelor

Interfaţă grafică utilizator

Bază de

cunoştinţe

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3057

30

Evoluţia tehnologiei bazelor de date

Anii 1960

ndash Colecţii de date crearea bazelor de date baze de datereţea

Anii 1970

ndash Modelul relaţional implementarea SGBD relaţional Anii 1980

ndash SGBD relaţionale modele de date avansate (relaţionalextins OO deductive etc) şi SGBD-uri specifice

(domeniul spatial ştiinţific inginerie etc) Anii 1990mdash2000

ndash Data mining şi data warehouse baze de date multimediabaze de date Web

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3157

31

Proces

Data mining inima

procesului de

descoperire a

cunoaşterii

Curăţirea datelor

Baze dedate

Data Warehouse

Date relevante

Data Mining

Evaluarea configuraţiilor

C ţi icirc t d ti b ă d

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3257

32

Comparaţie icircntre procesarea de tip bază de

date şi cea de tip Data Mining

Interogare ndash Bine definită ndash SQL

Interogare ndash Slab definită ndash Nu există limbaj precis de

interogare

Date ndash Date operaţ ionale

Ieşirea ndash Precisă ndash Subset al bazei dedate

Date ndash Date neoperaţionale

Ieşirea ndash Vagă ndash Nu este un subset al bazeide date

E l d i t ă i

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3357

33

Exemple de interogări

Bază de date

Data Mining

ndash Găseşte toţi clienţii care au cumpărat lapte

ndash Găseşte toţi clienţii care au cumpărat frecvent

lapte (Reguli de asociere)

ndash Găseşte toţi titularii de credite cu numele Smith ndash Identifică toţi clienţii care au cumpărat de maimult de $10000 icircn ultima lună

ndash Găseşte toţi titularii de credite cu risc mic decreditare (Clasificare)

ndash Identifică clienţii cu obiceiuri similare decumpărare (Grupare)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3457

34

Modele şi tehnici Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3557

35

Verificarea ipotezelor şi căutarea cunoştinţelor

Aplicarea tehnicilor de data mining poate fi făcută dinperspectiva unui demers ascendent sau descendent

Icircn abordarea descendentă efortul este orientat spre

confirmarea sau infirmarea unor idei (ipoteze) formulate icircnprealabil prin alte mijloace

Abordarea ascendentă are o cu totul altă finalitate ea

urmăreşte extragerea de cunoştinţe sau informaţii noi din dateledisponibile

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3657

36

Căutarea poate fi dirijată sau nedirijată

Căutarea dirijată ia icircn considerare un atribut sau un cacircmpale cărui valori icircncearcă să le explice prin celelalte cacircmpuriEste cea mai folosită icircn practică

Căutarea nedirijată are ca scop identificarea relaţiilor saustructurilor existente icircn ansamblul datelor examinate fără aacorda prioritate unui cacircmp sau altul

Deşi mai spectaculoasă icircn practică se recurge mult maipuţin la ea decacirct la căutarea dirijată

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3757

37

Data mining

verificarea

ipotezelor

căutarea de

cunoştinţe

dirijată nedirijată

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3857

38

Tehnici şi acţiuni

Data mining exploatează colecţiile de date de care dispune o

organizaţie

La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei

icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc

Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod

intrinsec

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3957

39

Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de

icircnţeles o tendinţă relevată de un număr foarte mare de cazuri

practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii

Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se

reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor

raţionamentele bazate pe cazuri analiza legăturilor

La acestea se pot asocia şi tehnici statistice cum sunt spre

exemplu regresiile analiza factorială etc

M d l di ti

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4057

40 40

Modele predictivehellip

Arbori de decizie

Clasificări după cel mai apropiat vecin

Reţele neuronale

Reguli

Analiza grupurilor

A l d i i ă l ă l i i

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4157

41

Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea

predicţiagrupareaanaliza grupărilor

Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un

grup limitat de clase predefinite

Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut

mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4257

42

Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare

Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări

Predicţia urmăreşte să claseze icircnregistrările tratate icircn

funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un

model care să explice comportamentul observat

Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora

icircn viitor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4357

43

Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună

Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei

Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster

Spre deosebire de celelalte tipuri de acţiuni asemănătoare

aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4457

44

Etapele procesului de exploatare a datelor

Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare

Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date

colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4557

45

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4657

46

Evaluarea modelului

Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare

Integrarea modelului

Această etapă finalizează procesul prin includerea

modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4757

172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up

Overview of Fisherrsquos Iris Dataset

Fisherrsquos iris dataset is available for download from the tutorial website

httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls

Iris photos courtesy of SIGNA ndash wwwsignaorg

Fisherrsquos iris dataset is well-known in

data mining research

This dataset is commonly used to

illustrate data mining tools

Mark Polczynski PhD The Technology Forge mhptechforgegmailnet

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4857

172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up

Fisherrsquos Database - Background

Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems

Annals of Eugenics 7 179 ndash188 available at

httpdigitallibraryadelaideeduaucollspecialfisher138pdf

iris setosa iris versicolor iris virginica

Dataset contains flower dimension measurements on 50 samples of each species

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4957

172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up

Fisherrsquos Dataset- Background

Data mining terminology

bull The four iris dimensions are termed attributes or input attributes

bull The three iris species are termed classes or output attributes

bull Each example of an iris is termed a sample or instance

Anderson measured these dimensions

bull sepal length

bull sepal width

bull petal length

bull petal width

Measurements on these iris speciesbull setosa

bull versicolor

bull virginica

S t f Fi h rsquo I i D t t

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5057

172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up

Segment of Fisherrsquos Iris Dataset

Input Output

Attributes Attribute

Inst

Sepal

Length

Sepal

Width

Petal

Length

Petal

Width Species1 51 35 14 02 setosa

2 49 3 14 02 setosa

3 47 32 13 02 setosa

4 46 31 15 02 setosa5 5 36 14 02 setosa

Numerical Nominal

ClassSample

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5157

172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up

What Problem are We Trying to Solve

Iris setosa

Weka

decisiontree

Iris versicolor

Iris virginica

Our taskClassify unknown iris using

measurements on 150 iris

samples of known species

Instrumente pentru Data-Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5257

52

Instrumente pentru Data-Mining

Weka Documentation httpwwwcswaikatoacnzmlweka

Waikato Environment for Knowledge Analysis

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5357

53

Instrumente pentru Data-Mining

Principalii producători de soft pentruData-Mining

ndash IBM ndash Intelligent Miner extensie pentru DB2

ndash SAS ndash Enterprise Miner

ndash SPSS ndash Clementine

ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)

ndash hellipmulți alți producători mai mici

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5457

54

Instrumente pentru Data-Mining

SPSS - Clementine

ndash httpwwwspsscomclementine Oracle - Darwin

ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet

ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner

ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml

Standarde Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5557

55

Standarde Data Mining

PMML (Predictive Modelling Markup Language)

ndash Limbaj similar XML pentru salvare și partajare de

modele (cel mai acceptat standard)

CRISP

ndash Metodologie standardizată pentru construirea deaplicații Data Mining

OLE DB pentru Data Mining

ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)

IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5657

56

1 INTRODUCERE

2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE

3-7

CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale

Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici

8 CLUSTERIZARE (ANALIZA CLUSTERILOR)

9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA

ASOCIERILOR)

10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR

11 EVALUAREA MODELELOR

12 APLICAŢII ŞI TENDINŢE IN DATA MINING

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5757

Mulţumesc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1257

12

Ce este Data Mining

Data mining (descoperirea cunoaşterii icircn baze de date)

ndash Extragerea informaţiilor sau şabloanelor de interes(nebanale implicite anterior necunoscute şi potenţialutile) din datele aflate icircn mari baze de date

Nume alternative

ndash Descoperirea cunoaşterii icircn baze de date (Knowledgediscovery in databases KDD) extragereacunoaşterii analiza datelorşabloanelor arheologiadatelor business intelligence etc

Ce nu este data mining ndash Procesarea deductivă a interogărilor ndash Sisteme expert sau programe mici statistice sau de

tipul maşinilor instruibile

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1357

13

Data mining sau căutarea informaţiei ascunse

De mai multe decenii mijloace şi tehnici informatice tot mai

evoluate au contribuit la amplificarea capacităţii de memorare şistocare a datelor

Ultimii ani au marcat o reorientare semnificativă icircn utilizareavolumelor de date stocate de la un proces de explorare

retrospectivă spre unul cu caracter prospectiv Această schimbare a devenit posibilă ca urmare a maturizării

tehnologiilor legate de data mining

Denumirea provine de la analogia cu activitatea minieră tot

aşa cum este necesară dislocarea şi rafinarea a tone de minereupentru a obţine cacircteva grame de aur aici sunt examinate şianalizate sute de mii sau milioane de date pentru a extrage dinele informaţii şi semnificaţii noi

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1457

14

Piramida datelor

Date

Informaţie

Cunoaştere

Icircnţelepciune

Date + context

Informa ţii + reguli

Cunoaştere + experien ţă

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1557

15

Definiţiile pentru data mining converg spre următoarea ideeDM este un proces de extragere de informaţii noi din colecţiile

de date existente

Principiul de funcţionare icircn data mining se prelucrează

datele referitoare la perioadele trecute examinacircnd o varietate de situaţii care s- au produs pentru a evidenţia caracteristicile

acestora şi a permite elaborarea unui model

Odată construit modelul poate fi aplicat situaţiilor noi de

acelaşi tip

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1657

16

Date deantrenare(icircnvare)

SistemDataMining

Date

noi

Predicie

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1757

17

Fundamentele explorării datelor

Dezvoltarea tehnicilor de data mining se explică printrealtele prin faptul că firmele au acumulat volume foarte mari dedate stocate pe suporturi informatice privitoare la tranzacţii dediverse tipuri derulate de-a lungul mai multor ani

Multă vreme acestea s-au acumulat pur şi simplu icircn virtuteanevoii de arhivare

Datele sunt la dispoziţia organizaţiei respective datele suntcacirct se poate de precise şi analitice datele sunt icircn volum mare şiacoperă perioade de timp de ordinul anilor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1857

18

Alături de existenţa colecţiilor de date istorice memorate pesuporturi informatice icircncă doi factori explică emergenţa

cunoscută actualmente de data mining (vezi figura următoare)

maturizarea algoritmilor şi a produselor programdedicate

creşterea capacităţii de memorare şi prelucrare acalculatoarelor care permite tratarea icircn corelaţiea volumelor foarte mari de date

Unele dintre tehnicile de data mining datează de ceva mai mulţiani Algoritmii folosiţi au cunoscut icircnsă un proces de evoluţiecontinuă care a permis icircnlăturarea unora dintre limitele saudeficienţele iniţiale

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1957

19

Putere de

calcul mrit

Algoritmistatisticii de

icircnvare

Colecii de date icircmbuntiteManagement

icircmbuntit aldatelor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2057

20

Produsele program au evoluat şi ele spre o utilizare cacirct maifacilă

Au apărut firme care oferă spre vacircnzare colecţii de dateistorice de uz general - cum ar fi spre exemplu evoluţiaindicatorilor bursieri din ultimii 20 de ani - special constituitepentru asemenea utilizări

Depozitele de date şi tehnologiile OLAP vizează şi ele datelecolectate la nivelul organizaţiilor

Depozitele de date se pretează foarte bine ca surse pentrudata mining iar rezultatele furnizate de acesta pot completacacircmpurile icircnregistrărilor celor dintacirci şi pot fi valorificate apoi prinproiecţiile multidimensionale specifice OLAP

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2157

21

Aplicaţii potenţiale

Analiza bazelor de date şi suport pentru decizie

ndash Analiza şi managementul pieţei

ndash Analiza şi managementul riscurilor

ndash Detecţia fraudelor

Analiza textelor - Text Mining

Analiză Web - Web Mining Răspuns inteligent la interogări

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2257

22

Analiza şi managementul pieţei

Care sunt sursele datelor de analizat ndash Tranzacţiile cu cardurile de credit cardurile de

fidelitate cupoanele de discount reclamaţiile clienţilorstudiile publice de stil de viaţă

Ţinta de marketing ndash Trebuie găsite grupuri de clienţi ―model care au

aceleaşi caracteristici interese nivel de venit obiceiuride cumpărare etc

Determinarea profilului cumpărătorului icircn timp ndash Conversia unui cont bancar icircn mai multe conectate

căsătorie etc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2357

23

Analiza şi managementul riscurilor

Planificare financiară şi evaluarea capitalului

ndash Analiza şi prognoza fluxului de numerar (cash flow)

ndash Analiza seriilor temporale (analiza tendinţelor etc)

Planificarea resurselor

ndash sumarizarea şi compararea resurselor şi acheltuielilor

Competiţie ndash Monitorizarea competitorilor şi a direcţiilor pieţei

ndash Fundamentarea strategiei preţului icircntr -o piaţă foartecompetitivă

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2457

24

Detecţia fraudelor

Folosirea datelor istorice pentru a construi modele decomportament fraudulos şi utilizarea data mining pentruidentificarea exemplelor similare

Exemple de aplicaţii

ndash Asigurări auto detectarea unui grup de persoane care icircnscenează accidente pentru a icircncasa asigurarea

ndash Spălare de bani detectarea tranzacţiilor suspecte

ndash Detectarea fraudelor telefonice detectareacomportamentelor suspecte (modelul de apel -destinaţie timp durată)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2557

25

DeviationAnomaly Detection

Detect significant deviations from normal behavior

Applications ndash Credit Card Fraud Detection

ndash Network IntrusionDetection

Typical network traffic at

University level may reach over 100

million connections per day

TanSteinbach Kumar Introduction to Data Miningwwwuserscsumnedu~kumardmbookindexphp

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2657

26

Alte domenii de aplicaţie

Sport

ndash Analiza jocurilor icircn NBA (ex detectarea strategieiadversarului) Astronomie

ndash Descoperirea şi clasificarea unor noi obiecte

Internet ndash Analiza acceselor Web descoperirea unor şabloane

(patterns) comportamentale analiza eficienţeimarketingului Web icircmbunătăţirea organizării site-urilor

Web Text

ndash Analiza ştirilor analiza icircnregistrărilor medicale sortarea şifiltrarea automată a e-mail-urilor clasificarea automată a

documentelor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2757

27

Contribuţii

Data Mining

Inteligenţă Artificială

Calculatoare performanteStatistică

Sisteme de baze dedate

Cercetări operaţionale

GIS

Vizualizare

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2857

28

Data miningintersecţia unor discipline multiple

Sisteme de baze de date data warehouse şi OLAP

Statistică

Maşini instruibile (Machine learning)

Vizualizare Informatică

Calcul de icircnaltă performanţă

Alte discipline ndash Reţele neuronale modelare matematică regăsirea

informaţiilor recunoaşterea formelor (patternrecognition)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2957

29

Architectura unui sistem tipic de Data Mining

Data

Warehouse

Curăţarea şi integrarea datelor Filtrare

Baze de date

Server de baze de date

sau de Data Warehouse

Motor data mining

Evaluarea şabloanelor

Interfaţă grafică utilizator

Bază de

cunoştinţe

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3057

30

Evoluţia tehnologiei bazelor de date

Anii 1960

ndash Colecţii de date crearea bazelor de date baze de datereţea

Anii 1970

ndash Modelul relaţional implementarea SGBD relaţional Anii 1980

ndash SGBD relaţionale modele de date avansate (relaţionalextins OO deductive etc) şi SGBD-uri specifice

(domeniul spatial ştiinţific inginerie etc) Anii 1990mdash2000

ndash Data mining şi data warehouse baze de date multimediabaze de date Web

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3157

31

Proces

Data mining inima

procesului de

descoperire a

cunoaşterii

Curăţirea datelor

Baze dedate

Data Warehouse

Date relevante

Data Mining

Evaluarea configuraţiilor

C ţi icirc t d ti b ă d

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3257

32

Comparaţie icircntre procesarea de tip bază de

date şi cea de tip Data Mining

Interogare ndash Bine definită ndash SQL

Interogare ndash Slab definită ndash Nu există limbaj precis de

interogare

Date ndash Date operaţ ionale

Ieşirea ndash Precisă ndash Subset al bazei dedate

Date ndash Date neoperaţionale

Ieşirea ndash Vagă ndash Nu este un subset al bazeide date

E l d i t ă i

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3357

33

Exemple de interogări

Bază de date

Data Mining

ndash Găseşte toţi clienţii care au cumpărat lapte

ndash Găseşte toţi clienţii care au cumpărat frecvent

lapte (Reguli de asociere)

ndash Găseşte toţi titularii de credite cu numele Smith ndash Identifică toţi clienţii care au cumpărat de maimult de $10000 icircn ultima lună

ndash Găseşte toţi titularii de credite cu risc mic decreditare (Clasificare)

ndash Identifică clienţii cu obiceiuri similare decumpărare (Grupare)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3457

34

Modele şi tehnici Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3557

35

Verificarea ipotezelor şi căutarea cunoştinţelor

Aplicarea tehnicilor de data mining poate fi făcută dinperspectiva unui demers ascendent sau descendent

Icircn abordarea descendentă efortul este orientat spre

confirmarea sau infirmarea unor idei (ipoteze) formulate icircnprealabil prin alte mijloace

Abordarea ascendentă are o cu totul altă finalitate ea

urmăreşte extragerea de cunoştinţe sau informaţii noi din dateledisponibile

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3657

36

Căutarea poate fi dirijată sau nedirijată

Căutarea dirijată ia icircn considerare un atribut sau un cacircmpale cărui valori icircncearcă să le explice prin celelalte cacircmpuriEste cea mai folosită icircn practică

Căutarea nedirijată are ca scop identificarea relaţiilor saustructurilor existente icircn ansamblul datelor examinate fără aacorda prioritate unui cacircmp sau altul

Deşi mai spectaculoasă icircn practică se recurge mult maipuţin la ea decacirct la căutarea dirijată

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3757

37

Data mining

verificarea

ipotezelor

căutarea de

cunoştinţe

dirijată nedirijată

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3857

38

Tehnici şi acţiuni

Data mining exploatează colecţiile de date de care dispune o

organizaţie

La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei

icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc

Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod

intrinsec

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3957

39

Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de

icircnţeles o tendinţă relevată de un număr foarte mare de cazuri

practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii

Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se

reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor

raţionamentele bazate pe cazuri analiza legăturilor

La acestea se pot asocia şi tehnici statistice cum sunt spre

exemplu regresiile analiza factorială etc

M d l di ti

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4057

40 40

Modele predictivehellip

Arbori de decizie

Clasificări după cel mai apropiat vecin

Reţele neuronale

Reguli

Analiza grupurilor

A l d i i ă l ă l i i

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4157

41

Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea

predicţiagrupareaanaliza grupărilor

Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un

grup limitat de clase predefinite

Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut

mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4257

42

Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare

Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări

Predicţia urmăreşte să claseze icircnregistrările tratate icircn

funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un

model care să explice comportamentul observat

Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora

icircn viitor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4357

43

Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună

Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei

Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster

Spre deosebire de celelalte tipuri de acţiuni asemănătoare

aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4457

44

Etapele procesului de exploatare a datelor

Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare

Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date

colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4557

45

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4657

46

Evaluarea modelului

Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare

Integrarea modelului

Această etapă finalizează procesul prin includerea

modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4757

172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up

Overview of Fisherrsquos Iris Dataset

Fisherrsquos iris dataset is available for download from the tutorial website

httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls

Iris photos courtesy of SIGNA ndash wwwsignaorg

Fisherrsquos iris dataset is well-known in

data mining research

This dataset is commonly used to

illustrate data mining tools

Mark Polczynski PhD The Technology Forge mhptechforgegmailnet

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4857

172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up

Fisherrsquos Database - Background

Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems

Annals of Eugenics 7 179 ndash188 available at

httpdigitallibraryadelaideeduaucollspecialfisher138pdf

iris setosa iris versicolor iris virginica

Dataset contains flower dimension measurements on 50 samples of each species

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4957

172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up

Fisherrsquos Dataset- Background

Data mining terminology

bull The four iris dimensions are termed attributes or input attributes

bull The three iris species are termed classes or output attributes

bull Each example of an iris is termed a sample or instance

Anderson measured these dimensions

bull sepal length

bull sepal width

bull petal length

bull petal width

Measurements on these iris speciesbull setosa

bull versicolor

bull virginica

S t f Fi h rsquo I i D t t

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5057

172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up

Segment of Fisherrsquos Iris Dataset

Input Output

Attributes Attribute

Inst

Sepal

Length

Sepal

Width

Petal

Length

Petal

Width Species1 51 35 14 02 setosa

2 49 3 14 02 setosa

3 47 32 13 02 setosa

4 46 31 15 02 setosa5 5 36 14 02 setosa

Numerical Nominal

ClassSample

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5157

172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up

What Problem are We Trying to Solve

Iris setosa

Weka

decisiontree

Iris versicolor

Iris virginica

Our taskClassify unknown iris using

measurements on 150 iris

samples of known species

Instrumente pentru Data-Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5257

52

Instrumente pentru Data-Mining

Weka Documentation httpwwwcswaikatoacnzmlweka

Waikato Environment for Knowledge Analysis

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5357

53

Instrumente pentru Data-Mining

Principalii producători de soft pentruData-Mining

ndash IBM ndash Intelligent Miner extensie pentru DB2

ndash SAS ndash Enterprise Miner

ndash SPSS ndash Clementine

ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)

ndash hellipmulți alți producători mai mici

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5457

54

Instrumente pentru Data-Mining

SPSS - Clementine

ndash httpwwwspsscomclementine Oracle - Darwin

ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet

ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner

ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml

Standarde Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5557

55

Standarde Data Mining

PMML (Predictive Modelling Markup Language)

ndash Limbaj similar XML pentru salvare și partajare de

modele (cel mai acceptat standard)

CRISP

ndash Metodologie standardizată pentru construirea deaplicații Data Mining

OLE DB pentru Data Mining

ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)

IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5657

56

1 INTRODUCERE

2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE

3-7

CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale

Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici

8 CLUSTERIZARE (ANALIZA CLUSTERILOR)

9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA

ASOCIERILOR)

10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR

11 EVALUAREA MODELELOR

12 APLICAŢII ŞI TENDINŢE IN DATA MINING

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5757

Mulţumesc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1357

13

Data mining sau căutarea informaţiei ascunse

De mai multe decenii mijloace şi tehnici informatice tot mai

evoluate au contribuit la amplificarea capacităţii de memorare şistocare a datelor

Ultimii ani au marcat o reorientare semnificativă icircn utilizareavolumelor de date stocate de la un proces de explorare

retrospectivă spre unul cu caracter prospectiv Această schimbare a devenit posibilă ca urmare a maturizării

tehnologiilor legate de data mining

Denumirea provine de la analogia cu activitatea minieră tot

aşa cum este necesară dislocarea şi rafinarea a tone de minereupentru a obţine cacircteva grame de aur aici sunt examinate şianalizate sute de mii sau milioane de date pentru a extrage dinele informaţii şi semnificaţii noi

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1457

14

Piramida datelor

Date

Informaţie

Cunoaştere

Icircnţelepciune

Date + context

Informa ţii + reguli

Cunoaştere + experien ţă

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1557

15

Definiţiile pentru data mining converg spre următoarea ideeDM este un proces de extragere de informaţii noi din colecţiile

de date existente

Principiul de funcţionare icircn data mining se prelucrează

datele referitoare la perioadele trecute examinacircnd o varietate de situaţii care s- au produs pentru a evidenţia caracteristicile

acestora şi a permite elaborarea unui model

Odată construit modelul poate fi aplicat situaţiilor noi de

acelaşi tip

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1657

16

Date deantrenare(icircnvare)

SistemDataMining

Date

noi

Predicie

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1757

17

Fundamentele explorării datelor

Dezvoltarea tehnicilor de data mining se explică printrealtele prin faptul că firmele au acumulat volume foarte mari dedate stocate pe suporturi informatice privitoare la tranzacţii dediverse tipuri derulate de-a lungul mai multor ani

Multă vreme acestea s-au acumulat pur şi simplu icircn virtuteanevoii de arhivare

Datele sunt la dispoziţia organizaţiei respective datele suntcacirct se poate de precise şi analitice datele sunt icircn volum mare şiacoperă perioade de timp de ordinul anilor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1857

18

Alături de existenţa colecţiilor de date istorice memorate pesuporturi informatice icircncă doi factori explică emergenţa

cunoscută actualmente de data mining (vezi figura următoare)

maturizarea algoritmilor şi a produselor programdedicate

creşterea capacităţii de memorare şi prelucrare acalculatoarelor care permite tratarea icircn corelaţiea volumelor foarte mari de date

Unele dintre tehnicile de data mining datează de ceva mai mulţiani Algoritmii folosiţi au cunoscut icircnsă un proces de evoluţiecontinuă care a permis icircnlăturarea unora dintre limitele saudeficienţele iniţiale

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1957

19

Putere de

calcul mrit

Algoritmistatisticii de

icircnvare

Colecii de date icircmbuntiteManagement

icircmbuntit aldatelor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2057

20

Produsele program au evoluat şi ele spre o utilizare cacirct maifacilă

Au apărut firme care oferă spre vacircnzare colecţii de dateistorice de uz general - cum ar fi spre exemplu evoluţiaindicatorilor bursieri din ultimii 20 de ani - special constituitepentru asemenea utilizări

Depozitele de date şi tehnologiile OLAP vizează şi ele datelecolectate la nivelul organizaţiilor

Depozitele de date se pretează foarte bine ca surse pentrudata mining iar rezultatele furnizate de acesta pot completacacircmpurile icircnregistrărilor celor dintacirci şi pot fi valorificate apoi prinproiecţiile multidimensionale specifice OLAP

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2157

21

Aplicaţii potenţiale

Analiza bazelor de date şi suport pentru decizie

ndash Analiza şi managementul pieţei

ndash Analiza şi managementul riscurilor

ndash Detecţia fraudelor

Analiza textelor - Text Mining

Analiză Web - Web Mining Răspuns inteligent la interogări

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2257

22

Analiza şi managementul pieţei

Care sunt sursele datelor de analizat ndash Tranzacţiile cu cardurile de credit cardurile de

fidelitate cupoanele de discount reclamaţiile clienţilorstudiile publice de stil de viaţă

Ţinta de marketing ndash Trebuie găsite grupuri de clienţi ―model care au

aceleaşi caracteristici interese nivel de venit obiceiuride cumpărare etc

Determinarea profilului cumpărătorului icircn timp ndash Conversia unui cont bancar icircn mai multe conectate

căsătorie etc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2357

23

Analiza şi managementul riscurilor

Planificare financiară şi evaluarea capitalului

ndash Analiza şi prognoza fluxului de numerar (cash flow)

ndash Analiza seriilor temporale (analiza tendinţelor etc)

Planificarea resurselor

ndash sumarizarea şi compararea resurselor şi acheltuielilor

Competiţie ndash Monitorizarea competitorilor şi a direcţiilor pieţei

ndash Fundamentarea strategiei preţului icircntr -o piaţă foartecompetitivă

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2457

24

Detecţia fraudelor

Folosirea datelor istorice pentru a construi modele decomportament fraudulos şi utilizarea data mining pentruidentificarea exemplelor similare

Exemple de aplicaţii

ndash Asigurări auto detectarea unui grup de persoane care icircnscenează accidente pentru a icircncasa asigurarea

ndash Spălare de bani detectarea tranzacţiilor suspecte

ndash Detectarea fraudelor telefonice detectareacomportamentelor suspecte (modelul de apel -destinaţie timp durată)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2557

25

DeviationAnomaly Detection

Detect significant deviations from normal behavior

Applications ndash Credit Card Fraud Detection

ndash Network IntrusionDetection

Typical network traffic at

University level may reach over 100

million connections per day

TanSteinbach Kumar Introduction to Data Miningwwwuserscsumnedu~kumardmbookindexphp

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2657

26

Alte domenii de aplicaţie

Sport

ndash Analiza jocurilor icircn NBA (ex detectarea strategieiadversarului) Astronomie

ndash Descoperirea şi clasificarea unor noi obiecte

Internet ndash Analiza acceselor Web descoperirea unor şabloane

(patterns) comportamentale analiza eficienţeimarketingului Web icircmbunătăţirea organizării site-urilor

Web Text

ndash Analiza ştirilor analiza icircnregistrărilor medicale sortarea şifiltrarea automată a e-mail-urilor clasificarea automată a

documentelor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2757

27

Contribuţii

Data Mining

Inteligenţă Artificială

Calculatoare performanteStatistică

Sisteme de baze dedate

Cercetări operaţionale

GIS

Vizualizare

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2857

28

Data miningintersecţia unor discipline multiple

Sisteme de baze de date data warehouse şi OLAP

Statistică

Maşini instruibile (Machine learning)

Vizualizare Informatică

Calcul de icircnaltă performanţă

Alte discipline ndash Reţele neuronale modelare matematică regăsirea

informaţiilor recunoaşterea formelor (patternrecognition)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2957

29

Architectura unui sistem tipic de Data Mining

Data

Warehouse

Curăţarea şi integrarea datelor Filtrare

Baze de date

Server de baze de date

sau de Data Warehouse

Motor data mining

Evaluarea şabloanelor

Interfaţă grafică utilizator

Bază de

cunoştinţe

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3057

30

Evoluţia tehnologiei bazelor de date

Anii 1960

ndash Colecţii de date crearea bazelor de date baze de datereţea

Anii 1970

ndash Modelul relaţional implementarea SGBD relaţional Anii 1980

ndash SGBD relaţionale modele de date avansate (relaţionalextins OO deductive etc) şi SGBD-uri specifice

(domeniul spatial ştiinţific inginerie etc) Anii 1990mdash2000

ndash Data mining şi data warehouse baze de date multimediabaze de date Web

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3157

31

Proces

Data mining inima

procesului de

descoperire a

cunoaşterii

Curăţirea datelor

Baze dedate

Data Warehouse

Date relevante

Data Mining

Evaluarea configuraţiilor

C ţi icirc t d ti b ă d

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3257

32

Comparaţie icircntre procesarea de tip bază de

date şi cea de tip Data Mining

Interogare ndash Bine definită ndash SQL

Interogare ndash Slab definită ndash Nu există limbaj precis de

interogare

Date ndash Date operaţ ionale

Ieşirea ndash Precisă ndash Subset al bazei dedate

Date ndash Date neoperaţionale

Ieşirea ndash Vagă ndash Nu este un subset al bazeide date

E l d i t ă i

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3357

33

Exemple de interogări

Bază de date

Data Mining

ndash Găseşte toţi clienţii care au cumpărat lapte

ndash Găseşte toţi clienţii care au cumpărat frecvent

lapte (Reguli de asociere)

ndash Găseşte toţi titularii de credite cu numele Smith ndash Identifică toţi clienţii care au cumpărat de maimult de $10000 icircn ultima lună

ndash Găseşte toţi titularii de credite cu risc mic decreditare (Clasificare)

ndash Identifică clienţii cu obiceiuri similare decumpărare (Grupare)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3457

34

Modele şi tehnici Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3557

35

Verificarea ipotezelor şi căutarea cunoştinţelor

Aplicarea tehnicilor de data mining poate fi făcută dinperspectiva unui demers ascendent sau descendent

Icircn abordarea descendentă efortul este orientat spre

confirmarea sau infirmarea unor idei (ipoteze) formulate icircnprealabil prin alte mijloace

Abordarea ascendentă are o cu totul altă finalitate ea

urmăreşte extragerea de cunoştinţe sau informaţii noi din dateledisponibile

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3657

36

Căutarea poate fi dirijată sau nedirijată

Căutarea dirijată ia icircn considerare un atribut sau un cacircmpale cărui valori icircncearcă să le explice prin celelalte cacircmpuriEste cea mai folosită icircn practică

Căutarea nedirijată are ca scop identificarea relaţiilor saustructurilor existente icircn ansamblul datelor examinate fără aacorda prioritate unui cacircmp sau altul

Deşi mai spectaculoasă icircn practică se recurge mult maipuţin la ea decacirct la căutarea dirijată

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3757

37

Data mining

verificarea

ipotezelor

căutarea de

cunoştinţe

dirijată nedirijată

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3857

38

Tehnici şi acţiuni

Data mining exploatează colecţiile de date de care dispune o

organizaţie

La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei

icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc

Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod

intrinsec

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3957

39

Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de

icircnţeles o tendinţă relevată de un număr foarte mare de cazuri

practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii

Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se

reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor

raţionamentele bazate pe cazuri analiza legăturilor

La acestea se pot asocia şi tehnici statistice cum sunt spre

exemplu regresiile analiza factorială etc

M d l di ti

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4057

40 40

Modele predictivehellip

Arbori de decizie

Clasificări după cel mai apropiat vecin

Reţele neuronale

Reguli

Analiza grupurilor

A l d i i ă l ă l i i

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4157

41

Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea

predicţiagrupareaanaliza grupărilor

Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un

grup limitat de clase predefinite

Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut

mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4257

42

Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare

Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări

Predicţia urmăreşte să claseze icircnregistrările tratate icircn

funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un

model care să explice comportamentul observat

Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora

icircn viitor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4357

43

Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună

Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei

Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster

Spre deosebire de celelalte tipuri de acţiuni asemănătoare

aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4457

44

Etapele procesului de exploatare a datelor

Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare

Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date

colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4557

45

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4657

46

Evaluarea modelului

Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare

Integrarea modelului

Această etapă finalizează procesul prin includerea

modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4757

172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up

Overview of Fisherrsquos Iris Dataset

Fisherrsquos iris dataset is available for download from the tutorial website

httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls

Iris photos courtesy of SIGNA ndash wwwsignaorg

Fisherrsquos iris dataset is well-known in

data mining research

This dataset is commonly used to

illustrate data mining tools

Mark Polczynski PhD The Technology Forge mhptechforgegmailnet

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4857

172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up

Fisherrsquos Database - Background

Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems

Annals of Eugenics 7 179 ndash188 available at

httpdigitallibraryadelaideeduaucollspecialfisher138pdf

iris setosa iris versicolor iris virginica

Dataset contains flower dimension measurements on 50 samples of each species

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4957

172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up

Fisherrsquos Dataset- Background

Data mining terminology

bull The four iris dimensions are termed attributes or input attributes

bull The three iris species are termed classes or output attributes

bull Each example of an iris is termed a sample or instance

Anderson measured these dimensions

bull sepal length

bull sepal width

bull petal length

bull petal width

Measurements on these iris speciesbull setosa

bull versicolor

bull virginica

S t f Fi h rsquo I i D t t

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5057

172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up

Segment of Fisherrsquos Iris Dataset

Input Output

Attributes Attribute

Inst

Sepal

Length

Sepal

Width

Petal

Length

Petal

Width Species1 51 35 14 02 setosa

2 49 3 14 02 setosa

3 47 32 13 02 setosa

4 46 31 15 02 setosa5 5 36 14 02 setosa

Numerical Nominal

ClassSample

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5157

172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up

What Problem are We Trying to Solve

Iris setosa

Weka

decisiontree

Iris versicolor

Iris virginica

Our taskClassify unknown iris using

measurements on 150 iris

samples of known species

Instrumente pentru Data-Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5257

52

Instrumente pentru Data-Mining

Weka Documentation httpwwwcswaikatoacnzmlweka

Waikato Environment for Knowledge Analysis

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5357

53

Instrumente pentru Data-Mining

Principalii producători de soft pentruData-Mining

ndash IBM ndash Intelligent Miner extensie pentru DB2

ndash SAS ndash Enterprise Miner

ndash SPSS ndash Clementine

ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)

ndash hellipmulți alți producători mai mici

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5457

54

Instrumente pentru Data-Mining

SPSS - Clementine

ndash httpwwwspsscomclementine Oracle - Darwin

ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet

ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner

ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml

Standarde Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5557

55

Standarde Data Mining

PMML (Predictive Modelling Markup Language)

ndash Limbaj similar XML pentru salvare și partajare de

modele (cel mai acceptat standard)

CRISP

ndash Metodologie standardizată pentru construirea deaplicații Data Mining

OLE DB pentru Data Mining

ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)

IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5657

56

1 INTRODUCERE

2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE

3-7

CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale

Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici

8 CLUSTERIZARE (ANALIZA CLUSTERILOR)

9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA

ASOCIERILOR)

10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR

11 EVALUAREA MODELELOR

12 APLICAŢII ŞI TENDINŢE IN DATA MINING

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5757

Mulţumesc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1457

14

Piramida datelor

Date

Informaţie

Cunoaştere

Icircnţelepciune

Date + context

Informa ţii + reguli

Cunoaştere + experien ţă

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1557

15

Definiţiile pentru data mining converg spre următoarea ideeDM este un proces de extragere de informaţii noi din colecţiile

de date existente

Principiul de funcţionare icircn data mining se prelucrează

datele referitoare la perioadele trecute examinacircnd o varietate de situaţii care s- au produs pentru a evidenţia caracteristicile

acestora şi a permite elaborarea unui model

Odată construit modelul poate fi aplicat situaţiilor noi de

acelaşi tip

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1657

16

Date deantrenare(icircnvare)

SistemDataMining

Date

noi

Predicie

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1757

17

Fundamentele explorării datelor

Dezvoltarea tehnicilor de data mining se explică printrealtele prin faptul că firmele au acumulat volume foarte mari dedate stocate pe suporturi informatice privitoare la tranzacţii dediverse tipuri derulate de-a lungul mai multor ani

Multă vreme acestea s-au acumulat pur şi simplu icircn virtuteanevoii de arhivare

Datele sunt la dispoziţia organizaţiei respective datele suntcacirct se poate de precise şi analitice datele sunt icircn volum mare şiacoperă perioade de timp de ordinul anilor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1857

18

Alături de existenţa colecţiilor de date istorice memorate pesuporturi informatice icircncă doi factori explică emergenţa

cunoscută actualmente de data mining (vezi figura următoare)

maturizarea algoritmilor şi a produselor programdedicate

creşterea capacităţii de memorare şi prelucrare acalculatoarelor care permite tratarea icircn corelaţiea volumelor foarte mari de date

Unele dintre tehnicile de data mining datează de ceva mai mulţiani Algoritmii folosiţi au cunoscut icircnsă un proces de evoluţiecontinuă care a permis icircnlăturarea unora dintre limitele saudeficienţele iniţiale

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1957

19

Putere de

calcul mrit

Algoritmistatisticii de

icircnvare

Colecii de date icircmbuntiteManagement

icircmbuntit aldatelor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2057

20

Produsele program au evoluat şi ele spre o utilizare cacirct maifacilă

Au apărut firme care oferă spre vacircnzare colecţii de dateistorice de uz general - cum ar fi spre exemplu evoluţiaindicatorilor bursieri din ultimii 20 de ani - special constituitepentru asemenea utilizări

Depozitele de date şi tehnologiile OLAP vizează şi ele datelecolectate la nivelul organizaţiilor

Depozitele de date se pretează foarte bine ca surse pentrudata mining iar rezultatele furnizate de acesta pot completacacircmpurile icircnregistrărilor celor dintacirci şi pot fi valorificate apoi prinproiecţiile multidimensionale specifice OLAP

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2157

21

Aplicaţii potenţiale

Analiza bazelor de date şi suport pentru decizie

ndash Analiza şi managementul pieţei

ndash Analiza şi managementul riscurilor

ndash Detecţia fraudelor

Analiza textelor - Text Mining

Analiză Web - Web Mining Răspuns inteligent la interogări

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2257

22

Analiza şi managementul pieţei

Care sunt sursele datelor de analizat ndash Tranzacţiile cu cardurile de credit cardurile de

fidelitate cupoanele de discount reclamaţiile clienţilorstudiile publice de stil de viaţă

Ţinta de marketing ndash Trebuie găsite grupuri de clienţi ―model care au

aceleaşi caracteristici interese nivel de venit obiceiuride cumpărare etc

Determinarea profilului cumpărătorului icircn timp ndash Conversia unui cont bancar icircn mai multe conectate

căsătorie etc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2357

23

Analiza şi managementul riscurilor

Planificare financiară şi evaluarea capitalului

ndash Analiza şi prognoza fluxului de numerar (cash flow)

ndash Analiza seriilor temporale (analiza tendinţelor etc)

Planificarea resurselor

ndash sumarizarea şi compararea resurselor şi acheltuielilor

Competiţie ndash Monitorizarea competitorilor şi a direcţiilor pieţei

ndash Fundamentarea strategiei preţului icircntr -o piaţă foartecompetitivă

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2457

24

Detecţia fraudelor

Folosirea datelor istorice pentru a construi modele decomportament fraudulos şi utilizarea data mining pentruidentificarea exemplelor similare

Exemple de aplicaţii

ndash Asigurări auto detectarea unui grup de persoane care icircnscenează accidente pentru a icircncasa asigurarea

ndash Spălare de bani detectarea tranzacţiilor suspecte

ndash Detectarea fraudelor telefonice detectareacomportamentelor suspecte (modelul de apel -destinaţie timp durată)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2557

25

DeviationAnomaly Detection

Detect significant deviations from normal behavior

Applications ndash Credit Card Fraud Detection

ndash Network IntrusionDetection

Typical network traffic at

University level may reach over 100

million connections per day

TanSteinbach Kumar Introduction to Data Miningwwwuserscsumnedu~kumardmbookindexphp

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2657

26

Alte domenii de aplicaţie

Sport

ndash Analiza jocurilor icircn NBA (ex detectarea strategieiadversarului) Astronomie

ndash Descoperirea şi clasificarea unor noi obiecte

Internet ndash Analiza acceselor Web descoperirea unor şabloane

(patterns) comportamentale analiza eficienţeimarketingului Web icircmbunătăţirea organizării site-urilor

Web Text

ndash Analiza ştirilor analiza icircnregistrărilor medicale sortarea şifiltrarea automată a e-mail-urilor clasificarea automată a

documentelor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2757

27

Contribuţii

Data Mining

Inteligenţă Artificială

Calculatoare performanteStatistică

Sisteme de baze dedate

Cercetări operaţionale

GIS

Vizualizare

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2857

28

Data miningintersecţia unor discipline multiple

Sisteme de baze de date data warehouse şi OLAP

Statistică

Maşini instruibile (Machine learning)

Vizualizare Informatică

Calcul de icircnaltă performanţă

Alte discipline ndash Reţele neuronale modelare matematică regăsirea

informaţiilor recunoaşterea formelor (patternrecognition)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2957

29

Architectura unui sistem tipic de Data Mining

Data

Warehouse

Curăţarea şi integrarea datelor Filtrare

Baze de date

Server de baze de date

sau de Data Warehouse

Motor data mining

Evaluarea şabloanelor

Interfaţă grafică utilizator

Bază de

cunoştinţe

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3057

30

Evoluţia tehnologiei bazelor de date

Anii 1960

ndash Colecţii de date crearea bazelor de date baze de datereţea

Anii 1970

ndash Modelul relaţional implementarea SGBD relaţional Anii 1980

ndash SGBD relaţionale modele de date avansate (relaţionalextins OO deductive etc) şi SGBD-uri specifice

(domeniul spatial ştiinţific inginerie etc) Anii 1990mdash2000

ndash Data mining şi data warehouse baze de date multimediabaze de date Web

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3157

31

Proces

Data mining inima

procesului de

descoperire a

cunoaşterii

Curăţirea datelor

Baze dedate

Data Warehouse

Date relevante

Data Mining

Evaluarea configuraţiilor

C ţi icirc t d ti b ă d

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3257

32

Comparaţie icircntre procesarea de tip bază de

date şi cea de tip Data Mining

Interogare ndash Bine definită ndash SQL

Interogare ndash Slab definită ndash Nu există limbaj precis de

interogare

Date ndash Date operaţ ionale

Ieşirea ndash Precisă ndash Subset al bazei dedate

Date ndash Date neoperaţionale

Ieşirea ndash Vagă ndash Nu este un subset al bazeide date

E l d i t ă i

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3357

33

Exemple de interogări

Bază de date

Data Mining

ndash Găseşte toţi clienţii care au cumpărat lapte

ndash Găseşte toţi clienţii care au cumpărat frecvent

lapte (Reguli de asociere)

ndash Găseşte toţi titularii de credite cu numele Smith ndash Identifică toţi clienţii care au cumpărat de maimult de $10000 icircn ultima lună

ndash Găseşte toţi titularii de credite cu risc mic decreditare (Clasificare)

ndash Identifică clienţii cu obiceiuri similare decumpărare (Grupare)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3457

34

Modele şi tehnici Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3557

35

Verificarea ipotezelor şi căutarea cunoştinţelor

Aplicarea tehnicilor de data mining poate fi făcută dinperspectiva unui demers ascendent sau descendent

Icircn abordarea descendentă efortul este orientat spre

confirmarea sau infirmarea unor idei (ipoteze) formulate icircnprealabil prin alte mijloace

Abordarea ascendentă are o cu totul altă finalitate ea

urmăreşte extragerea de cunoştinţe sau informaţii noi din dateledisponibile

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3657

36

Căutarea poate fi dirijată sau nedirijată

Căutarea dirijată ia icircn considerare un atribut sau un cacircmpale cărui valori icircncearcă să le explice prin celelalte cacircmpuriEste cea mai folosită icircn practică

Căutarea nedirijată are ca scop identificarea relaţiilor saustructurilor existente icircn ansamblul datelor examinate fără aacorda prioritate unui cacircmp sau altul

Deşi mai spectaculoasă icircn practică se recurge mult maipuţin la ea decacirct la căutarea dirijată

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3757

37

Data mining

verificarea

ipotezelor

căutarea de

cunoştinţe

dirijată nedirijată

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3857

38

Tehnici şi acţiuni

Data mining exploatează colecţiile de date de care dispune o

organizaţie

La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei

icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc

Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod

intrinsec

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3957

39

Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de

icircnţeles o tendinţă relevată de un număr foarte mare de cazuri

practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii

Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se

reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor

raţionamentele bazate pe cazuri analiza legăturilor

La acestea se pot asocia şi tehnici statistice cum sunt spre

exemplu regresiile analiza factorială etc

M d l di ti

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4057

40 40

Modele predictivehellip

Arbori de decizie

Clasificări după cel mai apropiat vecin

Reţele neuronale

Reguli

Analiza grupurilor

A l d i i ă l ă l i i

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4157

41

Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea

predicţiagrupareaanaliza grupărilor

Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un

grup limitat de clase predefinite

Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut

mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4257

42

Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare

Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări

Predicţia urmăreşte să claseze icircnregistrările tratate icircn

funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un

model care să explice comportamentul observat

Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora

icircn viitor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4357

43

Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună

Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei

Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster

Spre deosebire de celelalte tipuri de acţiuni asemănătoare

aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4457

44

Etapele procesului de exploatare a datelor

Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare

Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date

colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4557

45

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4657

46

Evaluarea modelului

Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare

Integrarea modelului

Această etapă finalizează procesul prin includerea

modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4757

172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up

Overview of Fisherrsquos Iris Dataset

Fisherrsquos iris dataset is available for download from the tutorial website

httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls

Iris photos courtesy of SIGNA ndash wwwsignaorg

Fisherrsquos iris dataset is well-known in

data mining research

This dataset is commonly used to

illustrate data mining tools

Mark Polczynski PhD The Technology Forge mhptechforgegmailnet

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4857

172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up

Fisherrsquos Database - Background

Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems

Annals of Eugenics 7 179 ndash188 available at

httpdigitallibraryadelaideeduaucollspecialfisher138pdf

iris setosa iris versicolor iris virginica

Dataset contains flower dimension measurements on 50 samples of each species

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4957

172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up

Fisherrsquos Dataset- Background

Data mining terminology

bull The four iris dimensions are termed attributes or input attributes

bull The three iris species are termed classes or output attributes

bull Each example of an iris is termed a sample or instance

Anderson measured these dimensions

bull sepal length

bull sepal width

bull petal length

bull petal width

Measurements on these iris speciesbull setosa

bull versicolor

bull virginica

S t f Fi h rsquo I i D t t

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5057

172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up

Segment of Fisherrsquos Iris Dataset

Input Output

Attributes Attribute

Inst

Sepal

Length

Sepal

Width

Petal

Length

Petal

Width Species1 51 35 14 02 setosa

2 49 3 14 02 setosa

3 47 32 13 02 setosa

4 46 31 15 02 setosa5 5 36 14 02 setosa

Numerical Nominal

ClassSample

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5157

172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up

What Problem are We Trying to Solve

Iris setosa

Weka

decisiontree

Iris versicolor

Iris virginica

Our taskClassify unknown iris using

measurements on 150 iris

samples of known species

Instrumente pentru Data-Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5257

52

Instrumente pentru Data-Mining

Weka Documentation httpwwwcswaikatoacnzmlweka

Waikato Environment for Knowledge Analysis

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5357

53

Instrumente pentru Data-Mining

Principalii producători de soft pentruData-Mining

ndash IBM ndash Intelligent Miner extensie pentru DB2

ndash SAS ndash Enterprise Miner

ndash SPSS ndash Clementine

ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)

ndash hellipmulți alți producători mai mici

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5457

54

Instrumente pentru Data-Mining

SPSS - Clementine

ndash httpwwwspsscomclementine Oracle - Darwin

ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet

ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner

ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml

Standarde Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5557

55

Standarde Data Mining

PMML (Predictive Modelling Markup Language)

ndash Limbaj similar XML pentru salvare și partajare de

modele (cel mai acceptat standard)

CRISP

ndash Metodologie standardizată pentru construirea deaplicații Data Mining

OLE DB pentru Data Mining

ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)

IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5657

56

1 INTRODUCERE

2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE

3-7

CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale

Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici

8 CLUSTERIZARE (ANALIZA CLUSTERILOR)

9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA

ASOCIERILOR)

10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR

11 EVALUAREA MODELELOR

12 APLICAŢII ŞI TENDINŢE IN DATA MINING

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5757

Mulţumesc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1557

15

Definiţiile pentru data mining converg spre următoarea ideeDM este un proces de extragere de informaţii noi din colecţiile

de date existente

Principiul de funcţionare icircn data mining se prelucrează

datele referitoare la perioadele trecute examinacircnd o varietate de situaţii care s- au produs pentru a evidenţia caracteristicile

acestora şi a permite elaborarea unui model

Odată construit modelul poate fi aplicat situaţiilor noi de

acelaşi tip

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1657

16

Date deantrenare(icircnvare)

SistemDataMining

Date

noi

Predicie

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1757

17

Fundamentele explorării datelor

Dezvoltarea tehnicilor de data mining se explică printrealtele prin faptul că firmele au acumulat volume foarte mari dedate stocate pe suporturi informatice privitoare la tranzacţii dediverse tipuri derulate de-a lungul mai multor ani

Multă vreme acestea s-au acumulat pur şi simplu icircn virtuteanevoii de arhivare

Datele sunt la dispoziţia organizaţiei respective datele suntcacirct se poate de precise şi analitice datele sunt icircn volum mare şiacoperă perioade de timp de ordinul anilor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1857

18

Alături de existenţa colecţiilor de date istorice memorate pesuporturi informatice icircncă doi factori explică emergenţa

cunoscută actualmente de data mining (vezi figura următoare)

maturizarea algoritmilor şi a produselor programdedicate

creşterea capacităţii de memorare şi prelucrare acalculatoarelor care permite tratarea icircn corelaţiea volumelor foarte mari de date

Unele dintre tehnicile de data mining datează de ceva mai mulţiani Algoritmii folosiţi au cunoscut icircnsă un proces de evoluţiecontinuă care a permis icircnlăturarea unora dintre limitele saudeficienţele iniţiale

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1957

19

Putere de

calcul mrit

Algoritmistatisticii de

icircnvare

Colecii de date icircmbuntiteManagement

icircmbuntit aldatelor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2057

20

Produsele program au evoluat şi ele spre o utilizare cacirct maifacilă

Au apărut firme care oferă spre vacircnzare colecţii de dateistorice de uz general - cum ar fi spre exemplu evoluţiaindicatorilor bursieri din ultimii 20 de ani - special constituitepentru asemenea utilizări

Depozitele de date şi tehnologiile OLAP vizează şi ele datelecolectate la nivelul organizaţiilor

Depozitele de date se pretează foarte bine ca surse pentrudata mining iar rezultatele furnizate de acesta pot completacacircmpurile icircnregistrărilor celor dintacirci şi pot fi valorificate apoi prinproiecţiile multidimensionale specifice OLAP

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2157

21

Aplicaţii potenţiale

Analiza bazelor de date şi suport pentru decizie

ndash Analiza şi managementul pieţei

ndash Analiza şi managementul riscurilor

ndash Detecţia fraudelor

Analiza textelor - Text Mining

Analiză Web - Web Mining Răspuns inteligent la interogări

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2257

22

Analiza şi managementul pieţei

Care sunt sursele datelor de analizat ndash Tranzacţiile cu cardurile de credit cardurile de

fidelitate cupoanele de discount reclamaţiile clienţilorstudiile publice de stil de viaţă

Ţinta de marketing ndash Trebuie găsite grupuri de clienţi ―model care au

aceleaşi caracteristici interese nivel de venit obiceiuride cumpărare etc

Determinarea profilului cumpărătorului icircn timp ndash Conversia unui cont bancar icircn mai multe conectate

căsătorie etc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2357

23

Analiza şi managementul riscurilor

Planificare financiară şi evaluarea capitalului

ndash Analiza şi prognoza fluxului de numerar (cash flow)

ndash Analiza seriilor temporale (analiza tendinţelor etc)

Planificarea resurselor

ndash sumarizarea şi compararea resurselor şi acheltuielilor

Competiţie ndash Monitorizarea competitorilor şi a direcţiilor pieţei

ndash Fundamentarea strategiei preţului icircntr -o piaţă foartecompetitivă

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2457

24

Detecţia fraudelor

Folosirea datelor istorice pentru a construi modele decomportament fraudulos şi utilizarea data mining pentruidentificarea exemplelor similare

Exemple de aplicaţii

ndash Asigurări auto detectarea unui grup de persoane care icircnscenează accidente pentru a icircncasa asigurarea

ndash Spălare de bani detectarea tranzacţiilor suspecte

ndash Detectarea fraudelor telefonice detectareacomportamentelor suspecte (modelul de apel -destinaţie timp durată)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2557

25

DeviationAnomaly Detection

Detect significant deviations from normal behavior

Applications ndash Credit Card Fraud Detection

ndash Network IntrusionDetection

Typical network traffic at

University level may reach over 100

million connections per day

TanSteinbach Kumar Introduction to Data Miningwwwuserscsumnedu~kumardmbookindexphp

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2657

26

Alte domenii de aplicaţie

Sport

ndash Analiza jocurilor icircn NBA (ex detectarea strategieiadversarului) Astronomie

ndash Descoperirea şi clasificarea unor noi obiecte

Internet ndash Analiza acceselor Web descoperirea unor şabloane

(patterns) comportamentale analiza eficienţeimarketingului Web icircmbunătăţirea organizării site-urilor

Web Text

ndash Analiza ştirilor analiza icircnregistrărilor medicale sortarea şifiltrarea automată a e-mail-urilor clasificarea automată a

documentelor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2757

27

Contribuţii

Data Mining

Inteligenţă Artificială

Calculatoare performanteStatistică

Sisteme de baze dedate

Cercetări operaţionale

GIS

Vizualizare

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2857

28

Data miningintersecţia unor discipline multiple

Sisteme de baze de date data warehouse şi OLAP

Statistică

Maşini instruibile (Machine learning)

Vizualizare Informatică

Calcul de icircnaltă performanţă

Alte discipline ndash Reţele neuronale modelare matematică regăsirea

informaţiilor recunoaşterea formelor (patternrecognition)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2957

29

Architectura unui sistem tipic de Data Mining

Data

Warehouse

Curăţarea şi integrarea datelor Filtrare

Baze de date

Server de baze de date

sau de Data Warehouse

Motor data mining

Evaluarea şabloanelor

Interfaţă grafică utilizator

Bază de

cunoştinţe

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3057

30

Evoluţia tehnologiei bazelor de date

Anii 1960

ndash Colecţii de date crearea bazelor de date baze de datereţea

Anii 1970

ndash Modelul relaţional implementarea SGBD relaţional Anii 1980

ndash SGBD relaţionale modele de date avansate (relaţionalextins OO deductive etc) şi SGBD-uri specifice

(domeniul spatial ştiinţific inginerie etc) Anii 1990mdash2000

ndash Data mining şi data warehouse baze de date multimediabaze de date Web

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3157

31

Proces

Data mining inima

procesului de

descoperire a

cunoaşterii

Curăţirea datelor

Baze dedate

Data Warehouse

Date relevante

Data Mining

Evaluarea configuraţiilor

C ţi icirc t d ti b ă d

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3257

32

Comparaţie icircntre procesarea de tip bază de

date şi cea de tip Data Mining

Interogare ndash Bine definită ndash SQL

Interogare ndash Slab definită ndash Nu există limbaj precis de

interogare

Date ndash Date operaţ ionale

Ieşirea ndash Precisă ndash Subset al bazei dedate

Date ndash Date neoperaţionale

Ieşirea ndash Vagă ndash Nu este un subset al bazeide date

E l d i t ă i

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3357

33

Exemple de interogări

Bază de date

Data Mining

ndash Găseşte toţi clienţii care au cumpărat lapte

ndash Găseşte toţi clienţii care au cumpărat frecvent

lapte (Reguli de asociere)

ndash Găseşte toţi titularii de credite cu numele Smith ndash Identifică toţi clienţii care au cumpărat de maimult de $10000 icircn ultima lună

ndash Găseşte toţi titularii de credite cu risc mic decreditare (Clasificare)

ndash Identifică clienţii cu obiceiuri similare decumpărare (Grupare)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3457

34

Modele şi tehnici Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3557

35

Verificarea ipotezelor şi căutarea cunoştinţelor

Aplicarea tehnicilor de data mining poate fi făcută dinperspectiva unui demers ascendent sau descendent

Icircn abordarea descendentă efortul este orientat spre

confirmarea sau infirmarea unor idei (ipoteze) formulate icircnprealabil prin alte mijloace

Abordarea ascendentă are o cu totul altă finalitate ea

urmăreşte extragerea de cunoştinţe sau informaţii noi din dateledisponibile

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3657

36

Căutarea poate fi dirijată sau nedirijată

Căutarea dirijată ia icircn considerare un atribut sau un cacircmpale cărui valori icircncearcă să le explice prin celelalte cacircmpuriEste cea mai folosită icircn practică

Căutarea nedirijată are ca scop identificarea relaţiilor saustructurilor existente icircn ansamblul datelor examinate fără aacorda prioritate unui cacircmp sau altul

Deşi mai spectaculoasă icircn practică se recurge mult maipuţin la ea decacirct la căutarea dirijată

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3757

37

Data mining

verificarea

ipotezelor

căutarea de

cunoştinţe

dirijată nedirijată

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3857

38

Tehnici şi acţiuni

Data mining exploatează colecţiile de date de care dispune o

organizaţie

La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei

icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc

Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod

intrinsec

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3957

39

Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de

icircnţeles o tendinţă relevată de un număr foarte mare de cazuri

practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii

Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se

reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor

raţionamentele bazate pe cazuri analiza legăturilor

La acestea se pot asocia şi tehnici statistice cum sunt spre

exemplu regresiile analiza factorială etc

M d l di ti

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4057

40 40

Modele predictivehellip

Arbori de decizie

Clasificări după cel mai apropiat vecin

Reţele neuronale

Reguli

Analiza grupurilor

A l d i i ă l ă l i i

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4157

41

Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea

predicţiagrupareaanaliza grupărilor

Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un

grup limitat de clase predefinite

Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut

mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4257

42

Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare

Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări

Predicţia urmăreşte să claseze icircnregistrările tratate icircn

funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un

model care să explice comportamentul observat

Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora

icircn viitor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4357

43

Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună

Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei

Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster

Spre deosebire de celelalte tipuri de acţiuni asemănătoare

aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4457

44

Etapele procesului de exploatare a datelor

Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare

Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date

colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4557

45

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4657

46

Evaluarea modelului

Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare

Integrarea modelului

Această etapă finalizează procesul prin includerea

modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4757

172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up

Overview of Fisherrsquos Iris Dataset

Fisherrsquos iris dataset is available for download from the tutorial website

httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls

Iris photos courtesy of SIGNA ndash wwwsignaorg

Fisherrsquos iris dataset is well-known in

data mining research

This dataset is commonly used to

illustrate data mining tools

Mark Polczynski PhD The Technology Forge mhptechforgegmailnet

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4857

172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up

Fisherrsquos Database - Background

Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems

Annals of Eugenics 7 179 ndash188 available at

httpdigitallibraryadelaideeduaucollspecialfisher138pdf

iris setosa iris versicolor iris virginica

Dataset contains flower dimension measurements on 50 samples of each species

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4957

172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up

Fisherrsquos Dataset- Background

Data mining terminology

bull The four iris dimensions are termed attributes or input attributes

bull The three iris species are termed classes or output attributes

bull Each example of an iris is termed a sample or instance

Anderson measured these dimensions

bull sepal length

bull sepal width

bull petal length

bull petal width

Measurements on these iris speciesbull setosa

bull versicolor

bull virginica

S t f Fi h rsquo I i D t t

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5057

172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up

Segment of Fisherrsquos Iris Dataset

Input Output

Attributes Attribute

Inst

Sepal

Length

Sepal

Width

Petal

Length

Petal

Width Species1 51 35 14 02 setosa

2 49 3 14 02 setosa

3 47 32 13 02 setosa

4 46 31 15 02 setosa5 5 36 14 02 setosa

Numerical Nominal

ClassSample

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5157

172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up

What Problem are We Trying to Solve

Iris setosa

Weka

decisiontree

Iris versicolor

Iris virginica

Our taskClassify unknown iris using

measurements on 150 iris

samples of known species

Instrumente pentru Data-Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5257

52

Instrumente pentru Data-Mining

Weka Documentation httpwwwcswaikatoacnzmlweka

Waikato Environment for Knowledge Analysis

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5357

53

Instrumente pentru Data-Mining

Principalii producători de soft pentruData-Mining

ndash IBM ndash Intelligent Miner extensie pentru DB2

ndash SAS ndash Enterprise Miner

ndash SPSS ndash Clementine

ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)

ndash hellipmulți alți producători mai mici

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5457

54

Instrumente pentru Data-Mining

SPSS - Clementine

ndash httpwwwspsscomclementine Oracle - Darwin

ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet

ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner

ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml

Standarde Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5557

55

Standarde Data Mining

PMML (Predictive Modelling Markup Language)

ndash Limbaj similar XML pentru salvare și partajare de

modele (cel mai acceptat standard)

CRISP

ndash Metodologie standardizată pentru construirea deaplicații Data Mining

OLE DB pentru Data Mining

ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)

IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5657

56

1 INTRODUCERE

2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE

3-7

CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale

Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici

8 CLUSTERIZARE (ANALIZA CLUSTERILOR)

9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA

ASOCIERILOR)

10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR

11 EVALUAREA MODELELOR

12 APLICAŢII ŞI TENDINŢE IN DATA MINING

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5757

Mulţumesc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1657

16

Date deantrenare(icircnvare)

SistemDataMining

Date

noi

Predicie

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1757

17

Fundamentele explorării datelor

Dezvoltarea tehnicilor de data mining se explică printrealtele prin faptul că firmele au acumulat volume foarte mari dedate stocate pe suporturi informatice privitoare la tranzacţii dediverse tipuri derulate de-a lungul mai multor ani

Multă vreme acestea s-au acumulat pur şi simplu icircn virtuteanevoii de arhivare

Datele sunt la dispoziţia organizaţiei respective datele suntcacirct se poate de precise şi analitice datele sunt icircn volum mare şiacoperă perioade de timp de ordinul anilor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1857

18

Alături de existenţa colecţiilor de date istorice memorate pesuporturi informatice icircncă doi factori explică emergenţa

cunoscută actualmente de data mining (vezi figura următoare)

maturizarea algoritmilor şi a produselor programdedicate

creşterea capacităţii de memorare şi prelucrare acalculatoarelor care permite tratarea icircn corelaţiea volumelor foarte mari de date

Unele dintre tehnicile de data mining datează de ceva mai mulţiani Algoritmii folosiţi au cunoscut icircnsă un proces de evoluţiecontinuă care a permis icircnlăturarea unora dintre limitele saudeficienţele iniţiale

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1957

19

Putere de

calcul mrit

Algoritmistatisticii de

icircnvare

Colecii de date icircmbuntiteManagement

icircmbuntit aldatelor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2057

20

Produsele program au evoluat şi ele spre o utilizare cacirct maifacilă

Au apărut firme care oferă spre vacircnzare colecţii de dateistorice de uz general - cum ar fi spre exemplu evoluţiaindicatorilor bursieri din ultimii 20 de ani - special constituitepentru asemenea utilizări

Depozitele de date şi tehnologiile OLAP vizează şi ele datelecolectate la nivelul organizaţiilor

Depozitele de date se pretează foarte bine ca surse pentrudata mining iar rezultatele furnizate de acesta pot completacacircmpurile icircnregistrărilor celor dintacirci şi pot fi valorificate apoi prinproiecţiile multidimensionale specifice OLAP

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2157

21

Aplicaţii potenţiale

Analiza bazelor de date şi suport pentru decizie

ndash Analiza şi managementul pieţei

ndash Analiza şi managementul riscurilor

ndash Detecţia fraudelor

Analiza textelor - Text Mining

Analiză Web - Web Mining Răspuns inteligent la interogări

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2257

22

Analiza şi managementul pieţei

Care sunt sursele datelor de analizat ndash Tranzacţiile cu cardurile de credit cardurile de

fidelitate cupoanele de discount reclamaţiile clienţilorstudiile publice de stil de viaţă

Ţinta de marketing ndash Trebuie găsite grupuri de clienţi ―model care au

aceleaşi caracteristici interese nivel de venit obiceiuride cumpărare etc

Determinarea profilului cumpărătorului icircn timp ndash Conversia unui cont bancar icircn mai multe conectate

căsătorie etc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2357

23

Analiza şi managementul riscurilor

Planificare financiară şi evaluarea capitalului

ndash Analiza şi prognoza fluxului de numerar (cash flow)

ndash Analiza seriilor temporale (analiza tendinţelor etc)

Planificarea resurselor

ndash sumarizarea şi compararea resurselor şi acheltuielilor

Competiţie ndash Monitorizarea competitorilor şi a direcţiilor pieţei

ndash Fundamentarea strategiei preţului icircntr -o piaţă foartecompetitivă

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2457

24

Detecţia fraudelor

Folosirea datelor istorice pentru a construi modele decomportament fraudulos şi utilizarea data mining pentruidentificarea exemplelor similare

Exemple de aplicaţii

ndash Asigurări auto detectarea unui grup de persoane care icircnscenează accidente pentru a icircncasa asigurarea

ndash Spălare de bani detectarea tranzacţiilor suspecte

ndash Detectarea fraudelor telefonice detectareacomportamentelor suspecte (modelul de apel -destinaţie timp durată)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2557

25

DeviationAnomaly Detection

Detect significant deviations from normal behavior

Applications ndash Credit Card Fraud Detection

ndash Network IntrusionDetection

Typical network traffic at

University level may reach over 100

million connections per day

TanSteinbach Kumar Introduction to Data Miningwwwuserscsumnedu~kumardmbookindexphp

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2657

26

Alte domenii de aplicaţie

Sport

ndash Analiza jocurilor icircn NBA (ex detectarea strategieiadversarului) Astronomie

ndash Descoperirea şi clasificarea unor noi obiecte

Internet ndash Analiza acceselor Web descoperirea unor şabloane

(patterns) comportamentale analiza eficienţeimarketingului Web icircmbunătăţirea organizării site-urilor

Web Text

ndash Analiza ştirilor analiza icircnregistrărilor medicale sortarea şifiltrarea automată a e-mail-urilor clasificarea automată a

documentelor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2757

27

Contribuţii

Data Mining

Inteligenţă Artificială

Calculatoare performanteStatistică

Sisteme de baze dedate

Cercetări operaţionale

GIS

Vizualizare

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2857

28

Data miningintersecţia unor discipline multiple

Sisteme de baze de date data warehouse şi OLAP

Statistică

Maşini instruibile (Machine learning)

Vizualizare Informatică

Calcul de icircnaltă performanţă

Alte discipline ndash Reţele neuronale modelare matematică regăsirea

informaţiilor recunoaşterea formelor (patternrecognition)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2957

29

Architectura unui sistem tipic de Data Mining

Data

Warehouse

Curăţarea şi integrarea datelor Filtrare

Baze de date

Server de baze de date

sau de Data Warehouse

Motor data mining

Evaluarea şabloanelor

Interfaţă grafică utilizator

Bază de

cunoştinţe

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3057

30

Evoluţia tehnologiei bazelor de date

Anii 1960

ndash Colecţii de date crearea bazelor de date baze de datereţea

Anii 1970

ndash Modelul relaţional implementarea SGBD relaţional Anii 1980

ndash SGBD relaţionale modele de date avansate (relaţionalextins OO deductive etc) şi SGBD-uri specifice

(domeniul spatial ştiinţific inginerie etc) Anii 1990mdash2000

ndash Data mining şi data warehouse baze de date multimediabaze de date Web

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3157

31

Proces

Data mining inima

procesului de

descoperire a

cunoaşterii

Curăţirea datelor

Baze dedate

Data Warehouse

Date relevante

Data Mining

Evaluarea configuraţiilor

C ţi icirc t d ti b ă d

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3257

32

Comparaţie icircntre procesarea de tip bază de

date şi cea de tip Data Mining

Interogare ndash Bine definită ndash SQL

Interogare ndash Slab definită ndash Nu există limbaj precis de

interogare

Date ndash Date operaţ ionale

Ieşirea ndash Precisă ndash Subset al bazei dedate

Date ndash Date neoperaţionale

Ieşirea ndash Vagă ndash Nu este un subset al bazeide date

E l d i t ă i

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3357

33

Exemple de interogări

Bază de date

Data Mining

ndash Găseşte toţi clienţii care au cumpărat lapte

ndash Găseşte toţi clienţii care au cumpărat frecvent

lapte (Reguli de asociere)

ndash Găseşte toţi titularii de credite cu numele Smith ndash Identifică toţi clienţii care au cumpărat de maimult de $10000 icircn ultima lună

ndash Găseşte toţi titularii de credite cu risc mic decreditare (Clasificare)

ndash Identifică clienţii cu obiceiuri similare decumpărare (Grupare)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3457

34

Modele şi tehnici Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3557

35

Verificarea ipotezelor şi căutarea cunoştinţelor

Aplicarea tehnicilor de data mining poate fi făcută dinperspectiva unui demers ascendent sau descendent

Icircn abordarea descendentă efortul este orientat spre

confirmarea sau infirmarea unor idei (ipoteze) formulate icircnprealabil prin alte mijloace

Abordarea ascendentă are o cu totul altă finalitate ea

urmăreşte extragerea de cunoştinţe sau informaţii noi din dateledisponibile

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3657

36

Căutarea poate fi dirijată sau nedirijată

Căutarea dirijată ia icircn considerare un atribut sau un cacircmpale cărui valori icircncearcă să le explice prin celelalte cacircmpuriEste cea mai folosită icircn practică

Căutarea nedirijată are ca scop identificarea relaţiilor saustructurilor existente icircn ansamblul datelor examinate fără aacorda prioritate unui cacircmp sau altul

Deşi mai spectaculoasă icircn practică se recurge mult maipuţin la ea decacirct la căutarea dirijată

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3757

37

Data mining

verificarea

ipotezelor

căutarea de

cunoştinţe

dirijată nedirijată

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3857

38

Tehnici şi acţiuni

Data mining exploatează colecţiile de date de care dispune o

organizaţie

La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei

icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc

Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod

intrinsec

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3957

39

Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de

icircnţeles o tendinţă relevată de un număr foarte mare de cazuri

practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii

Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se

reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor

raţionamentele bazate pe cazuri analiza legăturilor

La acestea se pot asocia şi tehnici statistice cum sunt spre

exemplu regresiile analiza factorială etc

M d l di ti

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4057

40 40

Modele predictivehellip

Arbori de decizie

Clasificări după cel mai apropiat vecin

Reţele neuronale

Reguli

Analiza grupurilor

A l d i i ă l ă l i i

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4157

41

Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea

predicţiagrupareaanaliza grupărilor

Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un

grup limitat de clase predefinite

Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut

mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4257

42

Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare

Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări

Predicţia urmăreşte să claseze icircnregistrările tratate icircn

funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un

model care să explice comportamentul observat

Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora

icircn viitor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4357

43

Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună

Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei

Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster

Spre deosebire de celelalte tipuri de acţiuni asemănătoare

aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4457

44

Etapele procesului de exploatare a datelor

Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare

Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date

colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4557

45

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4657

46

Evaluarea modelului

Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare

Integrarea modelului

Această etapă finalizează procesul prin includerea

modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4757

172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up

Overview of Fisherrsquos Iris Dataset

Fisherrsquos iris dataset is available for download from the tutorial website

httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls

Iris photos courtesy of SIGNA ndash wwwsignaorg

Fisherrsquos iris dataset is well-known in

data mining research

This dataset is commonly used to

illustrate data mining tools

Mark Polczynski PhD The Technology Forge mhptechforgegmailnet

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4857

172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up

Fisherrsquos Database - Background

Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems

Annals of Eugenics 7 179 ndash188 available at

httpdigitallibraryadelaideeduaucollspecialfisher138pdf

iris setosa iris versicolor iris virginica

Dataset contains flower dimension measurements on 50 samples of each species

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4957

172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up

Fisherrsquos Dataset- Background

Data mining terminology

bull The four iris dimensions are termed attributes or input attributes

bull The three iris species are termed classes or output attributes

bull Each example of an iris is termed a sample or instance

Anderson measured these dimensions

bull sepal length

bull sepal width

bull petal length

bull petal width

Measurements on these iris speciesbull setosa

bull versicolor

bull virginica

S t f Fi h rsquo I i D t t

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5057

172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up

Segment of Fisherrsquos Iris Dataset

Input Output

Attributes Attribute

Inst

Sepal

Length

Sepal

Width

Petal

Length

Petal

Width Species1 51 35 14 02 setosa

2 49 3 14 02 setosa

3 47 32 13 02 setosa

4 46 31 15 02 setosa5 5 36 14 02 setosa

Numerical Nominal

ClassSample

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5157

172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up

What Problem are We Trying to Solve

Iris setosa

Weka

decisiontree

Iris versicolor

Iris virginica

Our taskClassify unknown iris using

measurements on 150 iris

samples of known species

Instrumente pentru Data-Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5257

52

Instrumente pentru Data-Mining

Weka Documentation httpwwwcswaikatoacnzmlweka

Waikato Environment for Knowledge Analysis

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5357

53

Instrumente pentru Data-Mining

Principalii producători de soft pentruData-Mining

ndash IBM ndash Intelligent Miner extensie pentru DB2

ndash SAS ndash Enterprise Miner

ndash SPSS ndash Clementine

ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)

ndash hellipmulți alți producători mai mici

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5457

54

Instrumente pentru Data-Mining

SPSS - Clementine

ndash httpwwwspsscomclementine Oracle - Darwin

ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet

ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner

ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml

Standarde Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5557

55

Standarde Data Mining

PMML (Predictive Modelling Markup Language)

ndash Limbaj similar XML pentru salvare și partajare de

modele (cel mai acceptat standard)

CRISP

ndash Metodologie standardizată pentru construirea deaplicații Data Mining

OLE DB pentru Data Mining

ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)

IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5657

56

1 INTRODUCERE

2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE

3-7

CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale

Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici

8 CLUSTERIZARE (ANALIZA CLUSTERILOR)

9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA

ASOCIERILOR)

10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR

11 EVALUAREA MODELELOR

12 APLICAŢII ŞI TENDINŢE IN DATA MINING

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5757

Mulţumesc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1757

17

Fundamentele explorării datelor

Dezvoltarea tehnicilor de data mining se explică printrealtele prin faptul că firmele au acumulat volume foarte mari dedate stocate pe suporturi informatice privitoare la tranzacţii dediverse tipuri derulate de-a lungul mai multor ani

Multă vreme acestea s-au acumulat pur şi simplu icircn virtuteanevoii de arhivare

Datele sunt la dispoziţia organizaţiei respective datele suntcacirct se poate de precise şi analitice datele sunt icircn volum mare şiacoperă perioade de timp de ordinul anilor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1857

18

Alături de existenţa colecţiilor de date istorice memorate pesuporturi informatice icircncă doi factori explică emergenţa

cunoscută actualmente de data mining (vezi figura următoare)

maturizarea algoritmilor şi a produselor programdedicate

creşterea capacităţii de memorare şi prelucrare acalculatoarelor care permite tratarea icircn corelaţiea volumelor foarte mari de date

Unele dintre tehnicile de data mining datează de ceva mai mulţiani Algoritmii folosiţi au cunoscut icircnsă un proces de evoluţiecontinuă care a permis icircnlăturarea unora dintre limitele saudeficienţele iniţiale

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1957

19

Putere de

calcul mrit

Algoritmistatisticii de

icircnvare

Colecii de date icircmbuntiteManagement

icircmbuntit aldatelor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2057

20

Produsele program au evoluat şi ele spre o utilizare cacirct maifacilă

Au apărut firme care oferă spre vacircnzare colecţii de dateistorice de uz general - cum ar fi spre exemplu evoluţiaindicatorilor bursieri din ultimii 20 de ani - special constituitepentru asemenea utilizări

Depozitele de date şi tehnologiile OLAP vizează şi ele datelecolectate la nivelul organizaţiilor

Depozitele de date se pretează foarte bine ca surse pentrudata mining iar rezultatele furnizate de acesta pot completacacircmpurile icircnregistrărilor celor dintacirci şi pot fi valorificate apoi prinproiecţiile multidimensionale specifice OLAP

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2157

21

Aplicaţii potenţiale

Analiza bazelor de date şi suport pentru decizie

ndash Analiza şi managementul pieţei

ndash Analiza şi managementul riscurilor

ndash Detecţia fraudelor

Analiza textelor - Text Mining

Analiză Web - Web Mining Răspuns inteligent la interogări

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2257

22

Analiza şi managementul pieţei

Care sunt sursele datelor de analizat ndash Tranzacţiile cu cardurile de credit cardurile de

fidelitate cupoanele de discount reclamaţiile clienţilorstudiile publice de stil de viaţă

Ţinta de marketing ndash Trebuie găsite grupuri de clienţi ―model care au

aceleaşi caracteristici interese nivel de venit obiceiuride cumpărare etc

Determinarea profilului cumpărătorului icircn timp ndash Conversia unui cont bancar icircn mai multe conectate

căsătorie etc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2357

23

Analiza şi managementul riscurilor

Planificare financiară şi evaluarea capitalului

ndash Analiza şi prognoza fluxului de numerar (cash flow)

ndash Analiza seriilor temporale (analiza tendinţelor etc)

Planificarea resurselor

ndash sumarizarea şi compararea resurselor şi acheltuielilor

Competiţie ndash Monitorizarea competitorilor şi a direcţiilor pieţei

ndash Fundamentarea strategiei preţului icircntr -o piaţă foartecompetitivă

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2457

24

Detecţia fraudelor

Folosirea datelor istorice pentru a construi modele decomportament fraudulos şi utilizarea data mining pentruidentificarea exemplelor similare

Exemple de aplicaţii

ndash Asigurări auto detectarea unui grup de persoane care icircnscenează accidente pentru a icircncasa asigurarea

ndash Spălare de bani detectarea tranzacţiilor suspecte

ndash Detectarea fraudelor telefonice detectareacomportamentelor suspecte (modelul de apel -destinaţie timp durată)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2557

25

DeviationAnomaly Detection

Detect significant deviations from normal behavior

Applications ndash Credit Card Fraud Detection

ndash Network IntrusionDetection

Typical network traffic at

University level may reach over 100

million connections per day

TanSteinbach Kumar Introduction to Data Miningwwwuserscsumnedu~kumardmbookindexphp

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2657

26

Alte domenii de aplicaţie

Sport

ndash Analiza jocurilor icircn NBA (ex detectarea strategieiadversarului) Astronomie

ndash Descoperirea şi clasificarea unor noi obiecte

Internet ndash Analiza acceselor Web descoperirea unor şabloane

(patterns) comportamentale analiza eficienţeimarketingului Web icircmbunătăţirea organizării site-urilor

Web Text

ndash Analiza ştirilor analiza icircnregistrărilor medicale sortarea şifiltrarea automată a e-mail-urilor clasificarea automată a

documentelor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2757

27

Contribuţii

Data Mining

Inteligenţă Artificială

Calculatoare performanteStatistică

Sisteme de baze dedate

Cercetări operaţionale

GIS

Vizualizare

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2857

28

Data miningintersecţia unor discipline multiple

Sisteme de baze de date data warehouse şi OLAP

Statistică

Maşini instruibile (Machine learning)

Vizualizare Informatică

Calcul de icircnaltă performanţă

Alte discipline ndash Reţele neuronale modelare matematică regăsirea

informaţiilor recunoaşterea formelor (patternrecognition)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2957

29

Architectura unui sistem tipic de Data Mining

Data

Warehouse

Curăţarea şi integrarea datelor Filtrare

Baze de date

Server de baze de date

sau de Data Warehouse

Motor data mining

Evaluarea şabloanelor

Interfaţă grafică utilizator

Bază de

cunoştinţe

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3057

30

Evoluţia tehnologiei bazelor de date

Anii 1960

ndash Colecţii de date crearea bazelor de date baze de datereţea

Anii 1970

ndash Modelul relaţional implementarea SGBD relaţional Anii 1980

ndash SGBD relaţionale modele de date avansate (relaţionalextins OO deductive etc) şi SGBD-uri specifice

(domeniul spatial ştiinţific inginerie etc) Anii 1990mdash2000

ndash Data mining şi data warehouse baze de date multimediabaze de date Web

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3157

31

Proces

Data mining inima

procesului de

descoperire a

cunoaşterii

Curăţirea datelor

Baze dedate

Data Warehouse

Date relevante

Data Mining

Evaluarea configuraţiilor

C ţi icirc t d ti b ă d

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3257

32

Comparaţie icircntre procesarea de tip bază de

date şi cea de tip Data Mining

Interogare ndash Bine definită ndash SQL

Interogare ndash Slab definită ndash Nu există limbaj precis de

interogare

Date ndash Date operaţ ionale

Ieşirea ndash Precisă ndash Subset al bazei dedate

Date ndash Date neoperaţionale

Ieşirea ndash Vagă ndash Nu este un subset al bazeide date

E l d i t ă i

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3357

33

Exemple de interogări

Bază de date

Data Mining

ndash Găseşte toţi clienţii care au cumpărat lapte

ndash Găseşte toţi clienţii care au cumpărat frecvent

lapte (Reguli de asociere)

ndash Găseşte toţi titularii de credite cu numele Smith ndash Identifică toţi clienţii care au cumpărat de maimult de $10000 icircn ultima lună

ndash Găseşte toţi titularii de credite cu risc mic decreditare (Clasificare)

ndash Identifică clienţii cu obiceiuri similare decumpărare (Grupare)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3457

34

Modele şi tehnici Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3557

35

Verificarea ipotezelor şi căutarea cunoştinţelor

Aplicarea tehnicilor de data mining poate fi făcută dinperspectiva unui demers ascendent sau descendent

Icircn abordarea descendentă efortul este orientat spre

confirmarea sau infirmarea unor idei (ipoteze) formulate icircnprealabil prin alte mijloace

Abordarea ascendentă are o cu totul altă finalitate ea

urmăreşte extragerea de cunoştinţe sau informaţii noi din dateledisponibile

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3657

36

Căutarea poate fi dirijată sau nedirijată

Căutarea dirijată ia icircn considerare un atribut sau un cacircmpale cărui valori icircncearcă să le explice prin celelalte cacircmpuriEste cea mai folosită icircn practică

Căutarea nedirijată are ca scop identificarea relaţiilor saustructurilor existente icircn ansamblul datelor examinate fără aacorda prioritate unui cacircmp sau altul

Deşi mai spectaculoasă icircn practică se recurge mult maipuţin la ea decacirct la căutarea dirijată

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3757

37

Data mining

verificarea

ipotezelor

căutarea de

cunoştinţe

dirijată nedirijată

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3857

38

Tehnici şi acţiuni

Data mining exploatează colecţiile de date de care dispune o

organizaţie

La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei

icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc

Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod

intrinsec

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3957

39

Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de

icircnţeles o tendinţă relevată de un număr foarte mare de cazuri

practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii

Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se

reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor

raţionamentele bazate pe cazuri analiza legăturilor

La acestea se pot asocia şi tehnici statistice cum sunt spre

exemplu regresiile analiza factorială etc

M d l di ti

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4057

40 40

Modele predictivehellip

Arbori de decizie

Clasificări după cel mai apropiat vecin

Reţele neuronale

Reguli

Analiza grupurilor

A l d i i ă l ă l i i

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4157

41

Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea

predicţiagrupareaanaliza grupărilor

Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un

grup limitat de clase predefinite

Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut

mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4257

42

Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare

Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări

Predicţia urmăreşte să claseze icircnregistrările tratate icircn

funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un

model care să explice comportamentul observat

Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora

icircn viitor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4357

43

Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună

Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei

Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster

Spre deosebire de celelalte tipuri de acţiuni asemănătoare

aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4457

44

Etapele procesului de exploatare a datelor

Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare

Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date

colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4557

45

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4657

46

Evaluarea modelului

Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare

Integrarea modelului

Această etapă finalizează procesul prin includerea

modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4757

172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up

Overview of Fisherrsquos Iris Dataset

Fisherrsquos iris dataset is available for download from the tutorial website

httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls

Iris photos courtesy of SIGNA ndash wwwsignaorg

Fisherrsquos iris dataset is well-known in

data mining research

This dataset is commonly used to

illustrate data mining tools

Mark Polczynski PhD The Technology Forge mhptechforgegmailnet

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4857

172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up

Fisherrsquos Database - Background

Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems

Annals of Eugenics 7 179 ndash188 available at

httpdigitallibraryadelaideeduaucollspecialfisher138pdf

iris setosa iris versicolor iris virginica

Dataset contains flower dimension measurements on 50 samples of each species

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4957

172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up

Fisherrsquos Dataset- Background

Data mining terminology

bull The four iris dimensions are termed attributes or input attributes

bull The three iris species are termed classes or output attributes

bull Each example of an iris is termed a sample or instance

Anderson measured these dimensions

bull sepal length

bull sepal width

bull petal length

bull petal width

Measurements on these iris speciesbull setosa

bull versicolor

bull virginica

S t f Fi h rsquo I i D t t

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5057

172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up

Segment of Fisherrsquos Iris Dataset

Input Output

Attributes Attribute

Inst

Sepal

Length

Sepal

Width

Petal

Length

Petal

Width Species1 51 35 14 02 setosa

2 49 3 14 02 setosa

3 47 32 13 02 setosa

4 46 31 15 02 setosa5 5 36 14 02 setosa

Numerical Nominal

ClassSample

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5157

172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up

What Problem are We Trying to Solve

Iris setosa

Weka

decisiontree

Iris versicolor

Iris virginica

Our taskClassify unknown iris using

measurements on 150 iris

samples of known species

Instrumente pentru Data-Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5257

52

Instrumente pentru Data-Mining

Weka Documentation httpwwwcswaikatoacnzmlweka

Waikato Environment for Knowledge Analysis

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5357

53

Instrumente pentru Data-Mining

Principalii producători de soft pentruData-Mining

ndash IBM ndash Intelligent Miner extensie pentru DB2

ndash SAS ndash Enterprise Miner

ndash SPSS ndash Clementine

ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)

ndash hellipmulți alți producători mai mici

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5457

54

Instrumente pentru Data-Mining

SPSS - Clementine

ndash httpwwwspsscomclementine Oracle - Darwin

ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet

ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner

ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml

Standarde Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5557

55

Standarde Data Mining

PMML (Predictive Modelling Markup Language)

ndash Limbaj similar XML pentru salvare și partajare de

modele (cel mai acceptat standard)

CRISP

ndash Metodologie standardizată pentru construirea deaplicații Data Mining

OLE DB pentru Data Mining

ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)

IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5657

56

1 INTRODUCERE

2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE

3-7

CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale

Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici

8 CLUSTERIZARE (ANALIZA CLUSTERILOR)

9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA

ASOCIERILOR)

10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR

11 EVALUAREA MODELELOR

12 APLICAŢII ŞI TENDINŢE IN DATA MINING

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5757

Mulţumesc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1857

18

Alături de existenţa colecţiilor de date istorice memorate pesuporturi informatice icircncă doi factori explică emergenţa

cunoscută actualmente de data mining (vezi figura următoare)

maturizarea algoritmilor şi a produselor programdedicate

creşterea capacităţii de memorare şi prelucrare acalculatoarelor care permite tratarea icircn corelaţiea volumelor foarte mari de date

Unele dintre tehnicile de data mining datează de ceva mai mulţiani Algoritmii folosiţi au cunoscut icircnsă un proces de evoluţiecontinuă care a permis icircnlăturarea unora dintre limitele saudeficienţele iniţiale

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1957

19

Putere de

calcul mrit

Algoritmistatisticii de

icircnvare

Colecii de date icircmbuntiteManagement

icircmbuntit aldatelor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2057

20

Produsele program au evoluat şi ele spre o utilizare cacirct maifacilă

Au apărut firme care oferă spre vacircnzare colecţii de dateistorice de uz general - cum ar fi spre exemplu evoluţiaindicatorilor bursieri din ultimii 20 de ani - special constituitepentru asemenea utilizări

Depozitele de date şi tehnologiile OLAP vizează şi ele datelecolectate la nivelul organizaţiilor

Depozitele de date se pretează foarte bine ca surse pentrudata mining iar rezultatele furnizate de acesta pot completacacircmpurile icircnregistrărilor celor dintacirci şi pot fi valorificate apoi prinproiecţiile multidimensionale specifice OLAP

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2157

21

Aplicaţii potenţiale

Analiza bazelor de date şi suport pentru decizie

ndash Analiza şi managementul pieţei

ndash Analiza şi managementul riscurilor

ndash Detecţia fraudelor

Analiza textelor - Text Mining

Analiză Web - Web Mining Răspuns inteligent la interogări

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2257

22

Analiza şi managementul pieţei

Care sunt sursele datelor de analizat ndash Tranzacţiile cu cardurile de credit cardurile de

fidelitate cupoanele de discount reclamaţiile clienţilorstudiile publice de stil de viaţă

Ţinta de marketing ndash Trebuie găsite grupuri de clienţi ―model care au

aceleaşi caracteristici interese nivel de venit obiceiuride cumpărare etc

Determinarea profilului cumpărătorului icircn timp ndash Conversia unui cont bancar icircn mai multe conectate

căsătorie etc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2357

23

Analiza şi managementul riscurilor

Planificare financiară şi evaluarea capitalului

ndash Analiza şi prognoza fluxului de numerar (cash flow)

ndash Analiza seriilor temporale (analiza tendinţelor etc)

Planificarea resurselor

ndash sumarizarea şi compararea resurselor şi acheltuielilor

Competiţie ndash Monitorizarea competitorilor şi a direcţiilor pieţei

ndash Fundamentarea strategiei preţului icircntr -o piaţă foartecompetitivă

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2457

24

Detecţia fraudelor

Folosirea datelor istorice pentru a construi modele decomportament fraudulos şi utilizarea data mining pentruidentificarea exemplelor similare

Exemple de aplicaţii

ndash Asigurări auto detectarea unui grup de persoane care icircnscenează accidente pentru a icircncasa asigurarea

ndash Spălare de bani detectarea tranzacţiilor suspecte

ndash Detectarea fraudelor telefonice detectareacomportamentelor suspecte (modelul de apel -destinaţie timp durată)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2557

25

DeviationAnomaly Detection

Detect significant deviations from normal behavior

Applications ndash Credit Card Fraud Detection

ndash Network IntrusionDetection

Typical network traffic at

University level may reach over 100

million connections per day

TanSteinbach Kumar Introduction to Data Miningwwwuserscsumnedu~kumardmbookindexphp

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2657

26

Alte domenii de aplicaţie

Sport

ndash Analiza jocurilor icircn NBA (ex detectarea strategieiadversarului) Astronomie

ndash Descoperirea şi clasificarea unor noi obiecte

Internet ndash Analiza acceselor Web descoperirea unor şabloane

(patterns) comportamentale analiza eficienţeimarketingului Web icircmbunătăţirea organizării site-urilor

Web Text

ndash Analiza ştirilor analiza icircnregistrărilor medicale sortarea şifiltrarea automată a e-mail-urilor clasificarea automată a

documentelor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2757

27

Contribuţii

Data Mining

Inteligenţă Artificială

Calculatoare performanteStatistică

Sisteme de baze dedate

Cercetări operaţionale

GIS

Vizualizare

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2857

28

Data miningintersecţia unor discipline multiple

Sisteme de baze de date data warehouse şi OLAP

Statistică

Maşini instruibile (Machine learning)

Vizualizare Informatică

Calcul de icircnaltă performanţă

Alte discipline ndash Reţele neuronale modelare matematică regăsirea

informaţiilor recunoaşterea formelor (patternrecognition)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2957

29

Architectura unui sistem tipic de Data Mining

Data

Warehouse

Curăţarea şi integrarea datelor Filtrare

Baze de date

Server de baze de date

sau de Data Warehouse

Motor data mining

Evaluarea şabloanelor

Interfaţă grafică utilizator

Bază de

cunoştinţe

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3057

30

Evoluţia tehnologiei bazelor de date

Anii 1960

ndash Colecţii de date crearea bazelor de date baze de datereţea

Anii 1970

ndash Modelul relaţional implementarea SGBD relaţional Anii 1980

ndash SGBD relaţionale modele de date avansate (relaţionalextins OO deductive etc) şi SGBD-uri specifice

(domeniul spatial ştiinţific inginerie etc) Anii 1990mdash2000

ndash Data mining şi data warehouse baze de date multimediabaze de date Web

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3157

31

Proces

Data mining inima

procesului de

descoperire a

cunoaşterii

Curăţirea datelor

Baze dedate

Data Warehouse

Date relevante

Data Mining

Evaluarea configuraţiilor

C ţi icirc t d ti b ă d

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3257

32

Comparaţie icircntre procesarea de tip bază de

date şi cea de tip Data Mining

Interogare ndash Bine definită ndash SQL

Interogare ndash Slab definită ndash Nu există limbaj precis de

interogare

Date ndash Date operaţ ionale

Ieşirea ndash Precisă ndash Subset al bazei dedate

Date ndash Date neoperaţionale

Ieşirea ndash Vagă ndash Nu este un subset al bazeide date

E l d i t ă i

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3357

33

Exemple de interogări

Bază de date

Data Mining

ndash Găseşte toţi clienţii care au cumpărat lapte

ndash Găseşte toţi clienţii care au cumpărat frecvent

lapte (Reguli de asociere)

ndash Găseşte toţi titularii de credite cu numele Smith ndash Identifică toţi clienţii care au cumpărat de maimult de $10000 icircn ultima lună

ndash Găseşte toţi titularii de credite cu risc mic decreditare (Clasificare)

ndash Identifică clienţii cu obiceiuri similare decumpărare (Grupare)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3457

34

Modele şi tehnici Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3557

35

Verificarea ipotezelor şi căutarea cunoştinţelor

Aplicarea tehnicilor de data mining poate fi făcută dinperspectiva unui demers ascendent sau descendent

Icircn abordarea descendentă efortul este orientat spre

confirmarea sau infirmarea unor idei (ipoteze) formulate icircnprealabil prin alte mijloace

Abordarea ascendentă are o cu totul altă finalitate ea

urmăreşte extragerea de cunoştinţe sau informaţii noi din dateledisponibile

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3657

36

Căutarea poate fi dirijată sau nedirijată

Căutarea dirijată ia icircn considerare un atribut sau un cacircmpale cărui valori icircncearcă să le explice prin celelalte cacircmpuriEste cea mai folosită icircn practică

Căutarea nedirijată are ca scop identificarea relaţiilor saustructurilor existente icircn ansamblul datelor examinate fără aacorda prioritate unui cacircmp sau altul

Deşi mai spectaculoasă icircn practică se recurge mult maipuţin la ea decacirct la căutarea dirijată

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3757

37

Data mining

verificarea

ipotezelor

căutarea de

cunoştinţe

dirijată nedirijată

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3857

38

Tehnici şi acţiuni

Data mining exploatează colecţiile de date de care dispune o

organizaţie

La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei

icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc

Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod

intrinsec

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3957

39

Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de

icircnţeles o tendinţă relevată de un număr foarte mare de cazuri

practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii

Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se

reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor

raţionamentele bazate pe cazuri analiza legăturilor

La acestea se pot asocia şi tehnici statistice cum sunt spre

exemplu regresiile analiza factorială etc

M d l di ti

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4057

40 40

Modele predictivehellip

Arbori de decizie

Clasificări după cel mai apropiat vecin

Reţele neuronale

Reguli

Analiza grupurilor

A l d i i ă l ă l i i

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4157

41

Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea

predicţiagrupareaanaliza grupărilor

Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un

grup limitat de clase predefinite

Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut

mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4257

42

Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare

Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări

Predicţia urmăreşte să claseze icircnregistrările tratate icircn

funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un

model care să explice comportamentul observat

Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora

icircn viitor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4357

43

Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună

Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei

Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster

Spre deosebire de celelalte tipuri de acţiuni asemănătoare

aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4457

44

Etapele procesului de exploatare a datelor

Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare

Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date

colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4557

45

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4657

46

Evaluarea modelului

Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare

Integrarea modelului

Această etapă finalizează procesul prin includerea

modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4757

172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up

Overview of Fisherrsquos Iris Dataset

Fisherrsquos iris dataset is available for download from the tutorial website

httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls

Iris photos courtesy of SIGNA ndash wwwsignaorg

Fisherrsquos iris dataset is well-known in

data mining research

This dataset is commonly used to

illustrate data mining tools

Mark Polczynski PhD The Technology Forge mhptechforgegmailnet

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4857

172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up

Fisherrsquos Database - Background

Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems

Annals of Eugenics 7 179 ndash188 available at

httpdigitallibraryadelaideeduaucollspecialfisher138pdf

iris setosa iris versicolor iris virginica

Dataset contains flower dimension measurements on 50 samples of each species

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4957

172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up

Fisherrsquos Dataset- Background

Data mining terminology

bull The four iris dimensions are termed attributes or input attributes

bull The three iris species are termed classes or output attributes

bull Each example of an iris is termed a sample or instance

Anderson measured these dimensions

bull sepal length

bull sepal width

bull petal length

bull petal width

Measurements on these iris speciesbull setosa

bull versicolor

bull virginica

S t f Fi h rsquo I i D t t

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5057

172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up

Segment of Fisherrsquos Iris Dataset

Input Output

Attributes Attribute

Inst

Sepal

Length

Sepal

Width

Petal

Length

Petal

Width Species1 51 35 14 02 setosa

2 49 3 14 02 setosa

3 47 32 13 02 setosa

4 46 31 15 02 setosa5 5 36 14 02 setosa

Numerical Nominal

ClassSample

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5157

172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up

What Problem are We Trying to Solve

Iris setosa

Weka

decisiontree

Iris versicolor

Iris virginica

Our taskClassify unknown iris using

measurements on 150 iris

samples of known species

Instrumente pentru Data-Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5257

52

Instrumente pentru Data-Mining

Weka Documentation httpwwwcswaikatoacnzmlweka

Waikato Environment for Knowledge Analysis

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5357

53

Instrumente pentru Data-Mining

Principalii producători de soft pentruData-Mining

ndash IBM ndash Intelligent Miner extensie pentru DB2

ndash SAS ndash Enterprise Miner

ndash SPSS ndash Clementine

ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)

ndash hellipmulți alți producători mai mici

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5457

54

Instrumente pentru Data-Mining

SPSS - Clementine

ndash httpwwwspsscomclementine Oracle - Darwin

ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet

ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner

ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml

Standarde Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5557

55

Standarde Data Mining

PMML (Predictive Modelling Markup Language)

ndash Limbaj similar XML pentru salvare și partajare de

modele (cel mai acceptat standard)

CRISP

ndash Metodologie standardizată pentru construirea deaplicații Data Mining

OLE DB pentru Data Mining

ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)

IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5657

56

1 INTRODUCERE

2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE

3-7

CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale

Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici

8 CLUSTERIZARE (ANALIZA CLUSTERILOR)

9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA

ASOCIERILOR)

10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR

11 EVALUAREA MODELELOR

12 APLICAŢII ŞI TENDINŢE IN DATA MINING

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5757

Mulţumesc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 1957

19

Putere de

calcul mrit

Algoritmistatisticii de

icircnvare

Colecii de date icircmbuntiteManagement

icircmbuntit aldatelor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2057

20

Produsele program au evoluat şi ele spre o utilizare cacirct maifacilă

Au apărut firme care oferă spre vacircnzare colecţii de dateistorice de uz general - cum ar fi spre exemplu evoluţiaindicatorilor bursieri din ultimii 20 de ani - special constituitepentru asemenea utilizări

Depozitele de date şi tehnologiile OLAP vizează şi ele datelecolectate la nivelul organizaţiilor

Depozitele de date se pretează foarte bine ca surse pentrudata mining iar rezultatele furnizate de acesta pot completacacircmpurile icircnregistrărilor celor dintacirci şi pot fi valorificate apoi prinproiecţiile multidimensionale specifice OLAP

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2157

21

Aplicaţii potenţiale

Analiza bazelor de date şi suport pentru decizie

ndash Analiza şi managementul pieţei

ndash Analiza şi managementul riscurilor

ndash Detecţia fraudelor

Analiza textelor - Text Mining

Analiză Web - Web Mining Răspuns inteligent la interogări

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2257

22

Analiza şi managementul pieţei

Care sunt sursele datelor de analizat ndash Tranzacţiile cu cardurile de credit cardurile de

fidelitate cupoanele de discount reclamaţiile clienţilorstudiile publice de stil de viaţă

Ţinta de marketing ndash Trebuie găsite grupuri de clienţi ―model care au

aceleaşi caracteristici interese nivel de venit obiceiuride cumpărare etc

Determinarea profilului cumpărătorului icircn timp ndash Conversia unui cont bancar icircn mai multe conectate

căsătorie etc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2357

23

Analiza şi managementul riscurilor

Planificare financiară şi evaluarea capitalului

ndash Analiza şi prognoza fluxului de numerar (cash flow)

ndash Analiza seriilor temporale (analiza tendinţelor etc)

Planificarea resurselor

ndash sumarizarea şi compararea resurselor şi acheltuielilor

Competiţie ndash Monitorizarea competitorilor şi a direcţiilor pieţei

ndash Fundamentarea strategiei preţului icircntr -o piaţă foartecompetitivă

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2457

24

Detecţia fraudelor

Folosirea datelor istorice pentru a construi modele decomportament fraudulos şi utilizarea data mining pentruidentificarea exemplelor similare

Exemple de aplicaţii

ndash Asigurări auto detectarea unui grup de persoane care icircnscenează accidente pentru a icircncasa asigurarea

ndash Spălare de bani detectarea tranzacţiilor suspecte

ndash Detectarea fraudelor telefonice detectareacomportamentelor suspecte (modelul de apel -destinaţie timp durată)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2557

25

DeviationAnomaly Detection

Detect significant deviations from normal behavior

Applications ndash Credit Card Fraud Detection

ndash Network IntrusionDetection

Typical network traffic at

University level may reach over 100

million connections per day

TanSteinbach Kumar Introduction to Data Miningwwwuserscsumnedu~kumardmbookindexphp

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2657

26

Alte domenii de aplicaţie

Sport

ndash Analiza jocurilor icircn NBA (ex detectarea strategieiadversarului) Astronomie

ndash Descoperirea şi clasificarea unor noi obiecte

Internet ndash Analiza acceselor Web descoperirea unor şabloane

(patterns) comportamentale analiza eficienţeimarketingului Web icircmbunătăţirea organizării site-urilor

Web Text

ndash Analiza ştirilor analiza icircnregistrărilor medicale sortarea şifiltrarea automată a e-mail-urilor clasificarea automată a

documentelor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2757

27

Contribuţii

Data Mining

Inteligenţă Artificială

Calculatoare performanteStatistică

Sisteme de baze dedate

Cercetări operaţionale

GIS

Vizualizare

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2857

28

Data miningintersecţia unor discipline multiple

Sisteme de baze de date data warehouse şi OLAP

Statistică

Maşini instruibile (Machine learning)

Vizualizare Informatică

Calcul de icircnaltă performanţă

Alte discipline ndash Reţele neuronale modelare matematică regăsirea

informaţiilor recunoaşterea formelor (patternrecognition)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2957

29

Architectura unui sistem tipic de Data Mining

Data

Warehouse

Curăţarea şi integrarea datelor Filtrare

Baze de date

Server de baze de date

sau de Data Warehouse

Motor data mining

Evaluarea şabloanelor

Interfaţă grafică utilizator

Bază de

cunoştinţe

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3057

30

Evoluţia tehnologiei bazelor de date

Anii 1960

ndash Colecţii de date crearea bazelor de date baze de datereţea

Anii 1970

ndash Modelul relaţional implementarea SGBD relaţional Anii 1980

ndash SGBD relaţionale modele de date avansate (relaţionalextins OO deductive etc) şi SGBD-uri specifice

(domeniul spatial ştiinţific inginerie etc) Anii 1990mdash2000

ndash Data mining şi data warehouse baze de date multimediabaze de date Web

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3157

31

Proces

Data mining inima

procesului de

descoperire a

cunoaşterii

Curăţirea datelor

Baze dedate

Data Warehouse

Date relevante

Data Mining

Evaluarea configuraţiilor

C ţi icirc t d ti b ă d

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3257

32

Comparaţie icircntre procesarea de tip bază de

date şi cea de tip Data Mining

Interogare ndash Bine definită ndash SQL

Interogare ndash Slab definită ndash Nu există limbaj precis de

interogare

Date ndash Date operaţ ionale

Ieşirea ndash Precisă ndash Subset al bazei dedate

Date ndash Date neoperaţionale

Ieşirea ndash Vagă ndash Nu este un subset al bazeide date

E l d i t ă i

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3357

33

Exemple de interogări

Bază de date

Data Mining

ndash Găseşte toţi clienţii care au cumpărat lapte

ndash Găseşte toţi clienţii care au cumpărat frecvent

lapte (Reguli de asociere)

ndash Găseşte toţi titularii de credite cu numele Smith ndash Identifică toţi clienţii care au cumpărat de maimult de $10000 icircn ultima lună

ndash Găseşte toţi titularii de credite cu risc mic decreditare (Clasificare)

ndash Identifică clienţii cu obiceiuri similare decumpărare (Grupare)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3457

34

Modele şi tehnici Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3557

35

Verificarea ipotezelor şi căutarea cunoştinţelor

Aplicarea tehnicilor de data mining poate fi făcută dinperspectiva unui demers ascendent sau descendent

Icircn abordarea descendentă efortul este orientat spre

confirmarea sau infirmarea unor idei (ipoteze) formulate icircnprealabil prin alte mijloace

Abordarea ascendentă are o cu totul altă finalitate ea

urmăreşte extragerea de cunoştinţe sau informaţii noi din dateledisponibile

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3657

36

Căutarea poate fi dirijată sau nedirijată

Căutarea dirijată ia icircn considerare un atribut sau un cacircmpale cărui valori icircncearcă să le explice prin celelalte cacircmpuriEste cea mai folosită icircn practică

Căutarea nedirijată are ca scop identificarea relaţiilor saustructurilor existente icircn ansamblul datelor examinate fără aacorda prioritate unui cacircmp sau altul

Deşi mai spectaculoasă icircn practică se recurge mult maipuţin la ea decacirct la căutarea dirijată

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3757

37

Data mining

verificarea

ipotezelor

căutarea de

cunoştinţe

dirijată nedirijată

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3857

38

Tehnici şi acţiuni

Data mining exploatează colecţiile de date de care dispune o

organizaţie

La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei

icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc

Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod

intrinsec

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3957

39

Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de

icircnţeles o tendinţă relevată de un număr foarte mare de cazuri

practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii

Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se

reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor

raţionamentele bazate pe cazuri analiza legăturilor

La acestea se pot asocia şi tehnici statistice cum sunt spre

exemplu regresiile analiza factorială etc

M d l di ti

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4057

40 40

Modele predictivehellip

Arbori de decizie

Clasificări după cel mai apropiat vecin

Reţele neuronale

Reguli

Analiza grupurilor

A l d i i ă l ă l i i

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4157

41

Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea

predicţiagrupareaanaliza grupărilor

Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un

grup limitat de clase predefinite

Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut

mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4257

42

Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare

Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări

Predicţia urmăreşte să claseze icircnregistrările tratate icircn

funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un

model care să explice comportamentul observat

Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora

icircn viitor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4357

43

Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună

Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei

Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster

Spre deosebire de celelalte tipuri de acţiuni asemănătoare

aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4457

44

Etapele procesului de exploatare a datelor

Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare

Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date

colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4557

45

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4657

46

Evaluarea modelului

Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare

Integrarea modelului

Această etapă finalizează procesul prin includerea

modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4757

172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up

Overview of Fisherrsquos Iris Dataset

Fisherrsquos iris dataset is available for download from the tutorial website

httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls

Iris photos courtesy of SIGNA ndash wwwsignaorg

Fisherrsquos iris dataset is well-known in

data mining research

This dataset is commonly used to

illustrate data mining tools

Mark Polczynski PhD The Technology Forge mhptechforgegmailnet

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4857

172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up

Fisherrsquos Database - Background

Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems

Annals of Eugenics 7 179 ndash188 available at

httpdigitallibraryadelaideeduaucollspecialfisher138pdf

iris setosa iris versicolor iris virginica

Dataset contains flower dimension measurements on 50 samples of each species

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4957

172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up

Fisherrsquos Dataset- Background

Data mining terminology

bull The four iris dimensions are termed attributes or input attributes

bull The three iris species are termed classes or output attributes

bull Each example of an iris is termed a sample or instance

Anderson measured these dimensions

bull sepal length

bull sepal width

bull petal length

bull petal width

Measurements on these iris speciesbull setosa

bull versicolor

bull virginica

S t f Fi h rsquo I i D t t

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5057

172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up

Segment of Fisherrsquos Iris Dataset

Input Output

Attributes Attribute

Inst

Sepal

Length

Sepal

Width

Petal

Length

Petal

Width Species1 51 35 14 02 setosa

2 49 3 14 02 setosa

3 47 32 13 02 setosa

4 46 31 15 02 setosa5 5 36 14 02 setosa

Numerical Nominal

ClassSample

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5157

172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up

What Problem are We Trying to Solve

Iris setosa

Weka

decisiontree

Iris versicolor

Iris virginica

Our taskClassify unknown iris using

measurements on 150 iris

samples of known species

Instrumente pentru Data-Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5257

52

Instrumente pentru Data-Mining

Weka Documentation httpwwwcswaikatoacnzmlweka

Waikato Environment for Knowledge Analysis

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5357

53

Instrumente pentru Data-Mining

Principalii producători de soft pentruData-Mining

ndash IBM ndash Intelligent Miner extensie pentru DB2

ndash SAS ndash Enterprise Miner

ndash SPSS ndash Clementine

ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)

ndash hellipmulți alți producători mai mici

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5457

54

Instrumente pentru Data-Mining

SPSS - Clementine

ndash httpwwwspsscomclementine Oracle - Darwin

ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet

ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner

ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml

Standarde Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5557

55

Standarde Data Mining

PMML (Predictive Modelling Markup Language)

ndash Limbaj similar XML pentru salvare și partajare de

modele (cel mai acceptat standard)

CRISP

ndash Metodologie standardizată pentru construirea deaplicații Data Mining

OLE DB pentru Data Mining

ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)

IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5657

56

1 INTRODUCERE

2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE

3-7

CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale

Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici

8 CLUSTERIZARE (ANALIZA CLUSTERILOR)

9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA

ASOCIERILOR)

10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR

11 EVALUAREA MODELELOR

12 APLICAŢII ŞI TENDINŢE IN DATA MINING

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5757

Mulţumesc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2057

20

Produsele program au evoluat şi ele spre o utilizare cacirct maifacilă

Au apărut firme care oferă spre vacircnzare colecţii de dateistorice de uz general - cum ar fi spre exemplu evoluţiaindicatorilor bursieri din ultimii 20 de ani - special constituitepentru asemenea utilizări

Depozitele de date şi tehnologiile OLAP vizează şi ele datelecolectate la nivelul organizaţiilor

Depozitele de date se pretează foarte bine ca surse pentrudata mining iar rezultatele furnizate de acesta pot completacacircmpurile icircnregistrărilor celor dintacirci şi pot fi valorificate apoi prinproiecţiile multidimensionale specifice OLAP

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2157

21

Aplicaţii potenţiale

Analiza bazelor de date şi suport pentru decizie

ndash Analiza şi managementul pieţei

ndash Analiza şi managementul riscurilor

ndash Detecţia fraudelor

Analiza textelor - Text Mining

Analiză Web - Web Mining Răspuns inteligent la interogări

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2257

22

Analiza şi managementul pieţei

Care sunt sursele datelor de analizat ndash Tranzacţiile cu cardurile de credit cardurile de

fidelitate cupoanele de discount reclamaţiile clienţilorstudiile publice de stil de viaţă

Ţinta de marketing ndash Trebuie găsite grupuri de clienţi ―model care au

aceleaşi caracteristici interese nivel de venit obiceiuride cumpărare etc

Determinarea profilului cumpărătorului icircn timp ndash Conversia unui cont bancar icircn mai multe conectate

căsătorie etc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2357

23

Analiza şi managementul riscurilor

Planificare financiară şi evaluarea capitalului

ndash Analiza şi prognoza fluxului de numerar (cash flow)

ndash Analiza seriilor temporale (analiza tendinţelor etc)

Planificarea resurselor

ndash sumarizarea şi compararea resurselor şi acheltuielilor

Competiţie ndash Monitorizarea competitorilor şi a direcţiilor pieţei

ndash Fundamentarea strategiei preţului icircntr -o piaţă foartecompetitivă

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2457

24

Detecţia fraudelor

Folosirea datelor istorice pentru a construi modele decomportament fraudulos şi utilizarea data mining pentruidentificarea exemplelor similare

Exemple de aplicaţii

ndash Asigurări auto detectarea unui grup de persoane care icircnscenează accidente pentru a icircncasa asigurarea

ndash Spălare de bani detectarea tranzacţiilor suspecte

ndash Detectarea fraudelor telefonice detectareacomportamentelor suspecte (modelul de apel -destinaţie timp durată)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2557

25

DeviationAnomaly Detection

Detect significant deviations from normal behavior

Applications ndash Credit Card Fraud Detection

ndash Network IntrusionDetection

Typical network traffic at

University level may reach over 100

million connections per day

TanSteinbach Kumar Introduction to Data Miningwwwuserscsumnedu~kumardmbookindexphp

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2657

26

Alte domenii de aplicaţie

Sport

ndash Analiza jocurilor icircn NBA (ex detectarea strategieiadversarului) Astronomie

ndash Descoperirea şi clasificarea unor noi obiecte

Internet ndash Analiza acceselor Web descoperirea unor şabloane

(patterns) comportamentale analiza eficienţeimarketingului Web icircmbunătăţirea organizării site-urilor

Web Text

ndash Analiza ştirilor analiza icircnregistrărilor medicale sortarea şifiltrarea automată a e-mail-urilor clasificarea automată a

documentelor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2757

27

Contribuţii

Data Mining

Inteligenţă Artificială

Calculatoare performanteStatistică

Sisteme de baze dedate

Cercetări operaţionale

GIS

Vizualizare

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2857

28

Data miningintersecţia unor discipline multiple

Sisteme de baze de date data warehouse şi OLAP

Statistică

Maşini instruibile (Machine learning)

Vizualizare Informatică

Calcul de icircnaltă performanţă

Alte discipline ndash Reţele neuronale modelare matematică regăsirea

informaţiilor recunoaşterea formelor (patternrecognition)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2957

29

Architectura unui sistem tipic de Data Mining

Data

Warehouse

Curăţarea şi integrarea datelor Filtrare

Baze de date

Server de baze de date

sau de Data Warehouse

Motor data mining

Evaluarea şabloanelor

Interfaţă grafică utilizator

Bază de

cunoştinţe

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3057

30

Evoluţia tehnologiei bazelor de date

Anii 1960

ndash Colecţii de date crearea bazelor de date baze de datereţea

Anii 1970

ndash Modelul relaţional implementarea SGBD relaţional Anii 1980

ndash SGBD relaţionale modele de date avansate (relaţionalextins OO deductive etc) şi SGBD-uri specifice

(domeniul spatial ştiinţific inginerie etc) Anii 1990mdash2000

ndash Data mining şi data warehouse baze de date multimediabaze de date Web

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3157

31

Proces

Data mining inima

procesului de

descoperire a

cunoaşterii

Curăţirea datelor

Baze dedate

Data Warehouse

Date relevante

Data Mining

Evaluarea configuraţiilor

C ţi icirc t d ti b ă d

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3257

32

Comparaţie icircntre procesarea de tip bază de

date şi cea de tip Data Mining

Interogare ndash Bine definită ndash SQL

Interogare ndash Slab definită ndash Nu există limbaj precis de

interogare

Date ndash Date operaţ ionale

Ieşirea ndash Precisă ndash Subset al bazei dedate

Date ndash Date neoperaţionale

Ieşirea ndash Vagă ndash Nu este un subset al bazeide date

E l d i t ă i

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3357

33

Exemple de interogări

Bază de date

Data Mining

ndash Găseşte toţi clienţii care au cumpărat lapte

ndash Găseşte toţi clienţii care au cumpărat frecvent

lapte (Reguli de asociere)

ndash Găseşte toţi titularii de credite cu numele Smith ndash Identifică toţi clienţii care au cumpărat de maimult de $10000 icircn ultima lună

ndash Găseşte toţi titularii de credite cu risc mic decreditare (Clasificare)

ndash Identifică clienţii cu obiceiuri similare decumpărare (Grupare)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3457

34

Modele şi tehnici Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3557

35

Verificarea ipotezelor şi căutarea cunoştinţelor

Aplicarea tehnicilor de data mining poate fi făcută dinperspectiva unui demers ascendent sau descendent

Icircn abordarea descendentă efortul este orientat spre

confirmarea sau infirmarea unor idei (ipoteze) formulate icircnprealabil prin alte mijloace

Abordarea ascendentă are o cu totul altă finalitate ea

urmăreşte extragerea de cunoştinţe sau informaţii noi din dateledisponibile

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3657

36

Căutarea poate fi dirijată sau nedirijată

Căutarea dirijată ia icircn considerare un atribut sau un cacircmpale cărui valori icircncearcă să le explice prin celelalte cacircmpuriEste cea mai folosită icircn practică

Căutarea nedirijată are ca scop identificarea relaţiilor saustructurilor existente icircn ansamblul datelor examinate fără aacorda prioritate unui cacircmp sau altul

Deşi mai spectaculoasă icircn practică se recurge mult maipuţin la ea decacirct la căutarea dirijată

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3757

37

Data mining

verificarea

ipotezelor

căutarea de

cunoştinţe

dirijată nedirijată

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3857

38

Tehnici şi acţiuni

Data mining exploatează colecţiile de date de care dispune o

organizaţie

La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei

icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc

Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod

intrinsec

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3957

39

Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de

icircnţeles o tendinţă relevată de un număr foarte mare de cazuri

practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii

Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se

reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor

raţionamentele bazate pe cazuri analiza legăturilor

La acestea se pot asocia şi tehnici statistice cum sunt spre

exemplu regresiile analiza factorială etc

M d l di ti

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4057

40 40

Modele predictivehellip

Arbori de decizie

Clasificări după cel mai apropiat vecin

Reţele neuronale

Reguli

Analiza grupurilor

A l d i i ă l ă l i i

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4157

41

Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea

predicţiagrupareaanaliza grupărilor

Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un

grup limitat de clase predefinite

Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut

mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4257

42

Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare

Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări

Predicţia urmăreşte să claseze icircnregistrările tratate icircn

funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un

model care să explice comportamentul observat

Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora

icircn viitor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4357

43

Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună

Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei

Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster

Spre deosebire de celelalte tipuri de acţiuni asemănătoare

aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4457

44

Etapele procesului de exploatare a datelor

Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare

Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date

colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4557

45

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4657

46

Evaluarea modelului

Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare

Integrarea modelului

Această etapă finalizează procesul prin includerea

modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4757

172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up

Overview of Fisherrsquos Iris Dataset

Fisherrsquos iris dataset is available for download from the tutorial website

httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls

Iris photos courtesy of SIGNA ndash wwwsignaorg

Fisherrsquos iris dataset is well-known in

data mining research

This dataset is commonly used to

illustrate data mining tools

Mark Polczynski PhD The Technology Forge mhptechforgegmailnet

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4857

172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up

Fisherrsquos Database - Background

Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems

Annals of Eugenics 7 179 ndash188 available at

httpdigitallibraryadelaideeduaucollspecialfisher138pdf

iris setosa iris versicolor iris virginica

Dataset contains flower dimension measurements on 50 samples of each species

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4957

172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up

Fisherrsquos Dataset- Background

Data mining terminology

bull The four iris dimensions are termed attributes or input attributes

bull The three iris species are termed classes or output attributes

bull Each example of an iris is termed a sample or instance

Anderson measured these dimensions

bull sepal length

bull sepal width

bull petal length

bull petal width

Measurements on these iris speciesbull setosa

bull versicolor

bull virginica

S t f Fi h rsquo I i D t t

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5057

172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up

Segment of Fisherrsquos Iris Dataset

Input Output

Attributes Attribute

Inst

Sepal

Length

Sepal

Width

Petal

Length

Petal

Width Species1 51 35 14 02 setosa

2 49 3 14 02 setosa

3 47 32 13 02 setosa

4 46 31 15 02 setosa5 5 36 14 02 setosa

Numerical Nominal

ClassSample

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5157

172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up

What Problem are We Trying to Solve

Iris setosa

Weka

decisiontree

Iris versicolor

Iris virginica

Our taskClassify unknown iris using

measurements on 150 iris

samples of known species

Instrumente pentru Data-Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5257

52

Instrumente pentru Data-Mining

Weka Documentation httpwwwcswaikatoacnzmlweka

Waikato Environment for Knowledge Analysis

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5357

53

Instrumente pentru Data-Mining

Principalii producători de soft pentruData-Mining

ndash IBM ndash Intelligent Miner extensie pentru DB2

ndash SAS ndash Enterprise Miner

ndash SPSS ndash Clementine

ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)

ndash hellipmulți alți producători mai mici

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5457

54

Instrumente pentru Data-Mining

SPSS - Clementine

ndash httpwwwspsscomclementine Oracle - Darwin

ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet

ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner

ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml

Standarde Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5557

55

Standarde Data Mining

PMML (Predictive Modelling Markup Language)

ndash Limbaj similar XML pentru salvare și partajare de

modele (cel mai acceptat standard)

CRISP

ndash Metodologie standardizată pentru construirea deaplicații Data Mining

OLE DB pentru Data Mining

ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)

IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5657

56

1 INTRODUCERE

2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE

3-7

CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale

Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici

8 CLUSTERIZARE (ANALIZA CLUSTERILOR)

9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA

ASOCIERILOR)

10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR

11 EVALUAREA MODELELOR

12 APLICAŢII ŞI TENDINŢE IN DATA MINING

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5757

Mulţumesc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2157

21

Aplicaţii potenţiale

Analiza bazelor de date şi suport pentru decizie

ndash Analiza şi managementul pieţei

ndash Analiza şi managementul riscurilor

ndash Detecţia fraudelor

Analiza textelor - Text Mining

Analiză Web - Web Mining Răspuns inteligent la interogări

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2257

22

Analiza şi managementul pieţei

Care sunt sursele datelor de analizat ndash Tranzacţiile cu cardurile de credit cardurile de

fidelitate cupoanele de discount reclamaţiile clienţilorstudiile publice de stil de viaţă

Ţinta de marketing ndash Trebuie găsite grupuri de clienţi ―model care au

aceleaşi caracteristici interese nivel de venit obiceiuride cumpărare etc

Determinarea profilului cumpărătorului icircn timp ndash Conversia unui cont bancar icircn mai multe conectate

căsătorie etc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2357

23

Analiza şi managementul riscurilor

Planificare financiară şi evaluarea capitalului

ndash Analiza şi prognoza fluxului de numerar (cash flow)

ndash Analiza seriilor temporale (analiza tendinţelor etc)

Planificarea resurselor

ndash sumarizarea şi compararea resurselor şi acheltuielilor

Competiţie ndash Monitorizarea competitorilor şi a direcţiilor pieţei

ndash Fundamentarea strategiei preţului icircntr -o piaţă foartecompetitivă

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2457

24

Detecţia fraudelor

Folosirea datelor istorice pentru a construi modele decomportament fraudulos şi utilizarea data mining pentruidentificarea exemplelor similare

Exemple de aplicaţii

ndash Asigurări auto detectarea unui grup de persoane care icircnscenează accidente pentru a icircncasa asigurarea

ndash Spălare de bani detectarea tranzacţiilor suspecte

ndash Detectarea fraudelor telefonice detectareacomportamentelor suspecte (modelul de apel -destinaţie timp durată)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2557

25

DeviationAnomaly Detection

Detect significant deviations from normal behavior

Applications ndash Credit Card Fraud Detection

ndash Network IntrusionDetection

Typical network traffic at

University level may reach over 100

million connections per day

TanSteinbach Kumar Introduction to Data Miningwwwuserscsumnedu~kumardmbookindexphp

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2657

26

Alte domenii de aplicaţie

Sport

ndash Analiza jocurilor icircn NBA (ex detectarea strategieiadversarului) Astronomie

ndash Descoperirea şi clasificarea unor noi obiecte

Internet ndash Analiza acceselor Web descoperirea unor şabloane

(patterns) comportamentale analiza eficienţeimarketingului Web icircmbunătăţirea organizării site-urilor

Web Text

ndash Analiza ştirilor analiza icircnregistrărilor medicale sortarea şifiltrarea automată a e-mail-urilor clasificarea automată a

documentelor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2757

27

Contribuţii

Data Mining

Inteligenţă Artificială

Calculatoare performanteStatistică

Sisteme de baze dedate

Cercetări operaţionale

GIS

Vizualizare

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2857

28

Data miningintersecţia unor discipline multiple

Sisteme de baze de date data warehouse şi OLAP

Statistică

Maşini instruibile (Machine learning)

Vizualizare Informatică

Calcul de icircnaltă performanţă

Alte discipline ndash Reţele neuronale modelare matematică regăsirea

informaţiilor recunoaşterea formelor (patternrecognition)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2957

29

Architectura unui sistem tipic de Data Mining

Data

Warehouse

Curăţarea şi integrarea datelor Filtrare

Baze de date

Server de baze de date

sau de Data Warehouse

Motor data mining

Evaluarea şabloanelor

Interfaţă grafică utilizator

Bază de

cunoştinţe

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3057

30

Evoluţia tehnologiei bazelor de date

Anii 1960

ndash Colecţii de date crearea bazelor de date baze de datereţea

Anii 1970

ndash Modelul relaţional implementarea SGBD relaţional Anii 1980

ndash SGBD relaţionale modele de date avansate (relaţionalextins OO deductive etc) şi SGBD-uri specifice

(domeniul spatial ştiinţific inginerie etc) Anii 1990mdash2000

ndash Data mining şi data warehouse baze de date multimediabaze de date Web

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3157

31

Proces

Data mining inima

procesului de

descoperire a

cunoaşterii

Curăţirea datelor

Baze dedate

Data Warehouse

Date relevante

Data Mining

Evaluarea configuraţiilor

C ţi icirc t d ti b ă d

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3257

32

Comparaţie icircntre procesarea de tip bază de

date şi cea de tip Data Mining

Interogare ndash Bine definită ndash SQL

Interogare ndash Slab definită ndash Nu există limbaj precis de

interogare

Date ndash Date operaţ ionale

Ieşirea ndash Precisă ndash Subset al bazei dedate

Date ndash Date neoperaţionale

Ieşirea ndash Vagă ndash Nu este un subset al bazeide date

E l d i t ă i

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3357

33

Exemple de interogări

Bază de date

Data Mining

ndash Găseşte toţi clienţii care au cumpărat lapte

ndash Găseşte toţi clienţii care au cumpărat frecvent

lapte (Reguli de asociere)

ndash Găseşte toţi titularii de credite cu numele Smith ndash Identifică toţi clienţii care au cumpărat de maimult de $10000 icircn ultima lună

ndash Găseşte toţi titularii de credite cu risc mic decreditare (Clasificare)

ndash Identifică clienţii cu obiceiuri similare decumpărare (Grupare)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3457

34

Modele şi tehnici Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3557

35

Verificarea ipotezelor şi căutarea cunoştinţelor

Aplicarea tehnicilor de data mining poate fi făcută dinperspectiva unui demers ascendent sau descendent

Icircn abordarea descendentă efortul este orientat spre

confirmarea sau infirmarea unor idei (ipoteze) formulate icircnprealabil prin alte mijloace

Abordarea ascendentă are o cu totul altă finalitate ea

urmăreşte extragerea de cunoştinţe sau informaţii noi din dateledisponibile

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3657

36

Căutarea poate fi dirijată sau nedirijată

Căutarea dirijată ia icircn considerare un atribut sau un cacircmpale cărui valori icircncearcă să le explice prin celelalte cacircmpuriEste cea mai folosită icircn practică

Căutarea nedirijată are ca scop identificarea relaţiilor saustructurilor existente icircn ansamblul datelor examinate fără aacorda prioritate unui cacircmp sau altul

Deşi mai spectaculoasă icircn practică se recurge mult maipuţin la ea decacirct la căutarea dirijată

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3757

37

Data mining

verificarea

ipotezelor

căutarea de

cunoştinţe

dirijată nedirijată

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3857

38

Tehnici şi acţiuni

Data mining exploatează colecţiile de date de care dispune o

organizaţie

La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei

icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc

Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod

intrinsec

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3957

39

Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de

icircnţeles o tendinţă relevată de un număr foarte mare de cazuri

practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii

Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se

reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor

raţionamentele bazate pe cazuri analiza legăturilor

La acestea se pot asocia şi tehnici statistice cum sunt spre

exemplu regresiile analiza factorială etc

M d l di ti

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4057

40 40

Modele predictivehellip

Arbori de decizie

Clasificări după cel mai apropiat vecin

Reţele neuronale

Reguli

Analiza grupurilor

A l d i i ă l ă l i i

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4157

41

Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea

predicţiagrupareaanaliza grupărilor

Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un

grup limitat de clase predefinite

Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut

mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4257

42

Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare

Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări

Predicţia urmăreşte să claseze icircnregistrările tratate icircn

funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un

model care să explice comportamentul observat

Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora

icircn viitor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4357

43

Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună

Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei

Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster

Spre deosebire de celelalte tipuri de acţiuni asemănătoare

aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4457

44

Etapele procesului de exploatare a datelor

Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare

Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date

colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4557

45

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4657

46

Evaluarea modelului

Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare

Integrarea modelului

Această etapă finalizează procesul prin includerea

modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4757

172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up

Overview of Fisherrsquos Iris Dataset

Fisherrsquos iris dataset is available for download from the tutorial website

httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls

Iris photos courtesy of SIGNA ndash wwwsignaorg

Fisherrsquos iris dataset is well-known in

data mining research

This dataset is commonly used to

illustrate data mining tools

Mark Polczynski PhD The Technology Forge mhptechforgegmailnet

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4857

172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up

Fisherrsquos Database - Background

Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems

Annals of Eugenics 7 179 ndash188 available at

httpdigitallibraryadelaideeduaucollspecialfisher138pdf

iris setosa iris versicolor iris virginica

Dataset contains flower dimension measurements on 50 samples of each species

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4957

172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up

Fisherrsquos Dataset- Background

Data mining terminology

bull The four iris dimensions are termed attributes or input attributes

bull The three iris species are termed classes or output attributes

bull Each example of an iris is termed a sample or instance

Anderson measured these dimensions

bull sepal length

bull sepal width

bull petal length

bull petal width

Measurements on these iris speciesbull setosa

bull versicolor

bull virginica

S t f Fi h rsquo I i D t t

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5057

172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up

Segment of Fisherrsquos Iris Dataset

Input Output

Attributes Attribute

Inst

Sepal

Length

Sepal

Width

Petal

Length

Petal

Width Species1 51 35 14 02 setosa

2 49 3 14 02 setosa

3 47 32 13 02 setosa

4 46 31 15 02 setosa5 5 36 14 02 setosa

Numerical Nominal

ClassSample

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5157

172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up

What Problem are We Trying to Solve

Iris setosa

Weka

decisiontree

Iris versicolor

Iris virginica

Our taskClassify unknown iris using

measurements on 150 iris

samples of known species

Instrumente pentru Data-Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5257

52

Instrumente pentru Data-Mining

Weka Documentation httpwwwcswaikatoacnzmlweka

Waikato Environment for Knowledge Analysis

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5357

53

Instrumente pentru Data-Mining

Principalii producători de soft pentruData-Mining

ndash IBM ndash Intelligent Miner extensie pentru DB2

ndash SAS ndash Enterprise Miner

ndash SPSS ndash Clementine

ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)

ndash hellipmulți alți producători mai mici

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5457

54

Instrumente pentru Data-Mining

SPSS - Clementine

ndash httpwwwspsscomclementine Oracle - Darwin

ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet

ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner

ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml

Standarde Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5557

55

Standarde Data Mining

PMML (Predictive Modelling Markup Language)

ndash Limbaj similar XML pentru salvare și partajare de

modele (cel mai acceptat standard)

CRISP

ndash Metodologie standardizată pentru construirea deaplicații Data Mining

OLE DB pentru Data Mining

ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)

IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5657

56

1 INTRODUCERE

2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE

3-7

CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale

Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici

8 CLUSTERIZARE (ANALIZA CLUSTERILOR)

9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA

ASOCIERILOR)

10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR

11 EVALUAREA MODELELOR

12 APLICAŢII ŞI TENDINŢE IN DATA MINING

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5757

Mulţumesc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2257

22

Analiza şi managementul pieţei

Care sunt sursele datelor de analizat ndash Tranzacţiile cu cardurile de credit cardurile de

fidelitate cupoanele de discount reclamaţiile clienţilorstudiile publice de stil de viaţă

Ţinta de marketing ndash Trebuie găsite grupuri de clienţi ―model care au

aceleaşi caracteristici interese nivel de venit obiceiuride cumpărare etc

Determinarea profilului cumpărătorului icircn timp ndash Conversia unui cont bancar icircn mai multe conectate

căsătorie etc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2357

23

Analiza şi managementul riscurilor

Planificare financiară şi evaluarea capitalului

ndash Analiza şi prognoza fluxului de numerar (cash flow)

ndash Analiza seriilor temporale (analiza tendinţelor etc)

Planificarea resurselor

ndash sumarizarea şi compararea resurselor şi acheltuielilor

Competiţie ndash Monitorizarea competitorilor şi a direcţiilor pieţei

ndash Fundamentarea strategiei preţului icircntr -o piaţă foartecompetitivă

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2457

24

Detecţia fraudelor

Folosirea datelor istorice pentru a construi modele decomportament fraudulos şi utilizarea data mining pentruidentificarea exemplelor similare

Exemple de aplicaţii

ndash Asigurări auto detectarea unui grup de persoane care icircnscenează accidente pentru a icircncasa asigurarea

ndash Spălare de bani detectarea tranzacţiilor suspecte

ndash Detectarea fraudelor telefonice detectareacomportamentelor suspecte (modelul de apel -destinaţie timp durată)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2557

25

DeviationAnomaly Detection

Detect significant deviations from normal behavior

Applications ndash Credit Card Fraud Detection

ndash Network IntrusionDetection

Typical network traffic at

University level may reach over 100

million connections per day

TanSteinbach Kumar Introduction to Data Miningwwwuserscsumnedu~kumardmbookindexphp

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2657

26

Alte domenii de aplicaţie

Sport

ndash Analiza jocurilor icircn NBA (ex detectarea strategieiadversarului) Astronomie

ndash Descoperirea şi clasificarea unor noi obiecte

Internet ndash Analiza acceselor Web descoperirea unor şabloane

(patterns) comportamentale analiza eficienţeimarketingului Web icircmbunătăţirea organizării site-urilor

Web Text

ndash Analiza ştirilor analiza icircnregistrărilor medicale sortarea şifiltrarea automată a e-mail-urilor clasificarea automată a

documentelor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2757

27

Contribuţii

Data Mining

Inteligenţă Artificială

Calculatoare performanteStatistică

Sisteme de baze dedate

Cercetări operaţionale

GIS

Vizualizare

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2857

28

Data miningintersecţia unor discipline multiple

Sisteme de baze de date data warehouse şi OLAP

Statistică

Maşini instruibile (Machine learning)

Vizualizare Informatică

Calcul de icircnaltă performanţă

Alte discipline ndash Reţele neuronale modelare matematică regăsirea

informaţiilor recunoaşterea formelor (patternrecognition)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2957

29

Architectura unui sistem tipic de Data Mining

Data

Warehouse

Curăţarea şi integrarea datelor Filtrare

Baze de date

Server de baze de date

sau de Data Warehouse

Motor data mining

Evaluarea şabloanelor

Interfaţă grafică utilizator

Bază de

cunoştinţe

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3057

30

Evoluţia tehnologiei bazelor de date

Anii 1960

ndash Colecţii de date crearea bazelor de date baze de datereţea

Anii 1970

ndash Modelul relaţional implementarea SGBD relaţional Anii 1980

ndash SGBD relaţionale modele de date avansate (relaţionalextins OO deductive etc) şi SGBD-uri specifice

(domeniul spatial ştiinţific inginerie etc) Anii 1990mdash2000

ndash Data mining şi data warehouse baze de date multimediabaze de date Web

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3157

31

Proces

Data mining inima

procesului de

descoperire a

cunoaşterii

Curăţirea datelor

Baze dedate

Data Warehouse

Date relevante

Data Mining

Evaluarea configuraţiilor

C ţi icirc t d ti b ă d

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3257

32

Comparaţie icircntre procesarea de tip bază de

date şi cea de tip Data Mining

Interogare ndash Bine definită ndash SQL

Interogare ndash Slab definită ndash Nu există limbaj precis de

interogare

Date ndash Date operaţ ionale

Ieşirea ndash Precisă ndash Subset al bazei dedate

Date ndash Date neoperaţionale

Ieşirea ndash Vagă ndash Nu este un subset al bazeide date

E l d i t ă i

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3357

33

Exemple de interogări

Bază de date

Data Mining

ndash Găseşte toţi clienţii care au cumpărat lapte

ndash Găseşte toţi clienţii care au cumpărat frecvent

lapte (Reguli de asociere)

ndash Găseşte toţi titularii de credite cu numele Smith ndash Identifică toţi clienţii care au cumpărat de maimult de $10000 icircn ultima lună

ndash Găseşte toţi titularii de credite cu risc mic decreditare (Clasificare)

ndash Identifică clienţii cu obiceiuri similare decumpărare (Grupare)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3457

34

Modele şi tehnici Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3557

35

Verificarea ipotezelor şi căutarea cunoştinţelor

Aplicarea tehnicilor de data mining poate fi făcută dinperspectiva unui demers ascendent sau descendent

Icircn abordarea descendentă efortul este orientat spre

confirmarea sau infirmarea unor idei (ipoteze) formulate icircnprealabil prin alte mijloace

Abordarea ascendentă are o cu totul altă finalitate ea

urmăreşte extragerea de cunoştinţe sau informaţii noi din dateledisponibile

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3657

36

Căutarea poate fi dirijată sau nedirijată

Căutarea dirijată ia icircn considerare un atribut sau un cacircmpale cărui valori icircncearcă să le explice prin celelalte cacircmpuriEste cea mai folosită icircn practică

Căutarea nedirijată are ca scop identificarea relaţiilor saustructurilor existente icircn ansamblul datelor examinate fără aacorda prioritate unui cacircmp sau altul

Deşi mai spectaculoasă icircn practică se recurge mult maipuţin la ea decacirct la căutarea dirijată

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3757

37

Data mining

verificarea

ipotezelor

căutarea de

cunoştinţe

dirijată nedirijată

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3857

38

Tehnici şi acţiuni

Data mining exploatează colecţiile de date de care dispune o

organizaţie

La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei

icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc

Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod

intrinsec

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3957

39

Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de

icircnţeles o tendinţă relevată de un număr foarte mare de cazuri

practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii

Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se

reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor

raţionamentele bazate pe cazuri analiza legăturilor

La acestea se pot asocia şi tehnici statistice cum sunt spre

exemplu regresiile analiza factorială etc

M d l di ti

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4057

40 40

Modele predictivehellip

Arbori de decizie

Clasificări după cel mai apropiat vecin

Reţele neuronale

Reguli

Analiza grupurilor

A l d i i ă l ă l i i

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4157

41

Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea

predicţiagrupareaanaliza grupărilor

Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un

grup limitat de clase predefinite

Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut

mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4257

42

Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare

Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări

Predicţia urmăreşte să claseze icircnregistrările tratate icircn

funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un

model care să explice comportamentul observat

Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora

icircn viitor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4357

43

Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună

Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei

Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster

Spre deosebire de celelalte tipuri de acţiuni asemănătoare

aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4457

44

Etapele procesului de exploatare a datelor

Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare

Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date

colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4557

45

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4657

46

Evaluarea modelului

Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare

Integrarea modelului

Această etapă finalizează procesul prin includerea

modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4757

172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up

Overview of Fisherrsquos Iris Dataset

Fisherrsquos iris dataset is available for download from the tutorial website

httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls

Iris photos courtesy of SIGNA ndash wwwsignaorg

Fisherrsquos iris dataset is well-known in

data mining research

This dataset is commonly used to

illustrate data mining tools

Mark Polczynski PhD The Technology Forge mhptechforgegmailnet

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4857

172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up

Fisherrsquos Database - Background

Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems

Annals of Eugenics 7 179 ndash188 available at

httpdigitallibraryadelaideeduaucollspecialfisher138pdf

iris setosa iris versicolor iris virginica

Dataset contains flower dimension measurements on 50 samples of each species

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4957

172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up

Fisherrsquos Dataset- Background

Data mining terminology

bull The four iris dimensions are termed attributes or input attributes

bull The three iris species are termed classes or output attributes

bull Each example of an iris is termed a sample or instance

Anderson measured these dimensions

bull sepal length

bull sepal width

bull petal length

bull petal width

Measurements on these iris speciesbull setosa

bull versicolor

bull virginica

S t f Fi h rsquo I i D t t

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5057

172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up

Segment of Fisherrsquos Iris Dataset

Input Output

Attributes Attribute

Inst

Sepal

Length

Sepal

Width

Petal

Length

Petal

Width Species1 51 35 14 02 setosa

2 49 3 14 02 setosa

3 47 32 13 02 setosa

4 46 31 15 02 setosa5 5 36 14 02 setosa

Numerical Nominal

ClassSample

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5157

172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up

What Problem are We Trying to Solve

Iris setosa

Weka

decisiontree

Iris versicolor

Iris virginica

Our taskClassify unknown iris using

measurements on 150 iris

samples of known species

Instrumente pentru Data-Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5257

52

Instrumente pentru Data-Mining

Weka Documentation httpwwwcswaikatoacnzmlweka

Waikato Environment for Knowledge Analysis

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5357

53

Instrumente pentru Data-Mining

Principalii producători de soft pentruData-Mining

ndash IBM ndash Intelligent Miner extensie pentru DB2

ndash SAS ndash Enterprise Miner

ndash SPSS ndash Clementine

ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)

ndash hellipmulți alți producători mai mici

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5457

54

Instrumente pentru Data-Mining

SPSS - Clementine

ndash httpwwwspsscomclementine Oracle - Darwin

ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet

ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner

ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml

Standarde Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5557

55

Standarde Data Mining

PMML (Predictive Modelling Markup Language)

ndash Limbaj similar XML pentru salvare și partajare de

modele (cel mai acceptat standard)

CRISP

ndash Metodologie standardizată pentru construirea deaplicații Data Mining

OLE DB pentru Data Mining

ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)

IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5657

56

1 INTRODUCERE

2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE

3-7

CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale

Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici

8 CLUSTERIZARE (ANALIZA CLUSTERILOR)

9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA

ASOCIERILOR)

10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR

11 EVALUAREA MODELELOR

12 APLICAŢII ŞI TENDINŢE IN DATA MINING

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5757

Mulţumesc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2357

23

Analiza şi managementul riscurilor

Planificare financiară şi evaluarea capitalului

ndash Analiza şi prognoza fluxului de numerar (cash flow)

ndash Analiza seriilor temporale (analiza tendinţelor etc)

Planificarea resurselor

ndash sumarizarea şi compararea resurselor şi acheltuielilor

Competiţie ndash Monitorizarea competitorilor şi a direcţiilor pieţei

ndash Fundamentarea strategiei preţului icircntr -o piaţă foartecompetitivă

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2457

24

Detecţia fraudelor

Folosirea datelor istorice pentru a construi modele decomportament fraudulos şi utilizarea data mining pentruidentificarea exemplelor similare

Exemple de aplicaţii

ndash Asigurări auto detectarea unui grup de persoane care icircnscenează accidente pentru a icircncasa asigurarea

ndash Spălare de bani detectarea tranzacţiilor suspecte

ndash Detectarea fraudelor telefonice detectareacomportamentelor suspecte (modelul de apel -destinaţie timp durată)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2557

25

DeviationAnomaly Detection

Detect significant deviations from normal behavior

Applications ndash Credit Card Fraud Detection

ndash Network IntrusionDetection

Typical network traffic at

University level may reach over 100

million connections per day

TanSteinbach Kumar Introduction to Data Miningwwwuserscsumnedu~kumardmbookindexphp

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2657

26

Alte domenii de aplicaţie

Sport

ndash Analiza jocurilor icircn NBA (ex detectarea strategieiadversarului) Astronomie

ndash Descoperirea şi clasificarea unor noi obiecte

Internet ndash Analiza acceselor Web descoperirea unor şabloane

(patterns) comportamentale analiza eficienţeimarketingului Web icircmbunătăţirea organizării site-urilor

Web Text

ndash Analiza ştirilor analiza icircnregistrărilor medicale sortarea şifiltrarea automată a e-mail-urilor clasificarea automată a

documentelor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2757

27

Contribuţii

Data Mining

Inteligenţă Artificială

Calculatoare performanteStatistică

Sisteme de baze dedate

Cercetări operaţionale

GIS

Vizualizare

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2857

28

Data miningintersecţia unor discipline multiple

Sisteme de baze de date data warehouse şi OLAP

Statistică

Maşini instruibile (Machine learning)

Vizualizare Informatică

Calcul de icircnaltă performanţă

Alte discipline ndash Reţele neuronale modelare matematică regăsirea

informaţiilor recunoaşterea formelor (patternrecognition)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2957

29

Architectura unui sistem tipic de Data Mining

Data

Warehouse

Curăţarea şi integrarea datelor Filtrare

Baze de date

Server de baze de date

sau de Data Warehouse

Motor data mining

Evaluarea şabloanelor

Interfaţă grafică utilizator

Bază de

cunoştinţe

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3057

30

Evoluţia tehnologiei bazelor de date

Anii 1960

ndash Colecţii de date crearea bazelor de date baze de datereţea

Anii 1970

ndash Modelul relaţional implementarea SGBD relaţional Anii 1980

ndash SGBD relaţionale modele de date avansate (relaţionalextins OO deductive etc) şi SGBD-uri specifice

(domeniul spatial ştiinţific inginerie etc) Anii 1990mdash2000

ndash Data mining şi data warehouse baze de date multimediabaze de date Web

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3157

31

Proces

Data mining inima

procesului de

descoperire a

cunoaşterii

Curăţirea datelor

Baze dedate

Data Warehouse

Date relevante

Data Mining

Evaluarea configuraţiilor

C ţi icirc t d ti b ă d

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3257

32

Comparaţie icircntre procesarea de tip bază de

date şi cea de tip Data Mining

Interogare ndash Bine definită ndash SQL

Interogare ndash Slab definită ndash Nu există limbaj precis de

interogare

Date ndash Date operaţ ionale

Ieşirea ndash Precisă ndash Subset al bazei dedate

Date ndash Date neoperaţionale

Ieşirea ndash Vagă ndash Nu este un subset al bazeide date

E l d i t ă i

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3357

33

Exemple de interogări

Bază de date

Data Mining

ndash Găseşte toţi clienţii care au cumpărat lapte

ndash Găseşte toţi clienţii care au cumpărat frecvent

lapte (Reguli de asociere)

ndash Găseşte toţi titularii de credite cu numele Smith ndash Identifică toţi clienţii care au cumpărat de maimult de $10000 icircn ultima lună

ndash Găseşte toţi titularii de credite cu risc mic decreditare (Clasificare)

ndash Identifică clienţii cu obiceiuri similare decumpărare (Grupare)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3457

34

Modele şi tehnici Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3557

35

Verificarea ipotezelor şi căutarea cunoştinţelor

Aplicarea tehnicilor de data mining poate fi făcută dinperspectiva unui demers ascendent sau descendent

Icircn abordarea descendentă efortul este orientat spre

confirmarea sau infirmarea unor idei (ipoteze) formulate icircnprealabil prin alte mijloace

Abordarea ascendentă are o cu totul altă finalitate ea

urmăreşte extragerea de cunoştinţe sau informaţii noi din dateledisponibile

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3657

36

Căutarea poate fi dirijată sau nedirijată

Căutarea dirijată ia icircn considerare un atribut sau un cacircmpale cărui valori icircncearcă să le explice prin celelalte cacircmpuriEste cea mai folosită icircn practică

Căutarea nedirijată are ca scop identificarea relaţiilor saustructurilor existente icircn ansamblul datelor examinate fără aacorda prioritate unui cacircmp sau altul

Deşi mai spectaculoasă icircn practică se recurge mult maipuţin la ea decacirct la căutarea dirijată

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3757

37

Data mining

verificarea

ipotezelor

căutarea de

cunoştinţe

dirijată nedirijată

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3857

38

Tehnici şi acţiuni

Data mining exploatează colecţiile de date de care dispune o

organizaţie

La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei

icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc

Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod

intrinsec

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3957

39

Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de

icircnţeles o tendinţă relevată de un număr foarte mare de cazuri

practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii

Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se

reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor

raţionamentele bazate pe cazuri analiza legăturilor

La acestea se pot asocia şi tehnici statistice cum sunt spre

exemplu regresiile analiza factorială etc

M d l di ti

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4057

40 40

Modele predictivehellip

Arbori de decizie

Clasificări după cel mai apropiat vecin

Reţele neuronale

Reguli

Analiza grupurilor

A l d i i ă l ă l i i

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4157

41

Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea

predicţiagrupareaanaliza grupărilor

Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un

grup limitat de clase predefinite

Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut

mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4257

42

Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare

Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări

Predicţia urmăreşte să claseze icircnregistrările tratate icircn

funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un

model care să explice comportamentul observat

Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora

icircn viitor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4357

43

Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună

Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei

Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster

Spre deosebire de celelalte tipuri de acţiuni asemănătoare

aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4457

44

Etapele procesului de exploatare a datelor

Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare

Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date

colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4557

45

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4657

46

Evaluarea modelului

Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare

Integrarea modelului

Această etapă finalizează procesul prin includerea

modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4757

172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up

Overview of Fisherrsquos Iris Dataset

Fisherrsquos iris dataset is available for download from the tutorial website

httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls

Iris photos courtesy of SIGNA ndash wwwsignaorg

Fisherrsquos iris dataset is well-known in

data mining research

This dataset is commonly used to

illustrate data mining tools

Mark Polczynski PhD The Technology Forge mhptechforgegmailnet

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4857

172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up

Fisherrsquos Database - Background

Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems

Annals of Eugenics 7 179 ndash188 available at

httpdigitallibraryadelaideeduaucollspecialfisher138pdf

iris setosa iris versicolor iris virginica

Dataset contains flower dimension measurements on 50 samples of each species

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4957

172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up

Fisherrsquos Dataset- Background

Data mining terminology

bull The four iris dimensions are termed attributes or input attributes

bull The three iris species are termed classes or output attributes

bull Each example of an iris is termed a sample or instance

Anderson measured these dimensions

bull sepal length

bull sepal width

bull petal length

bull petal width

Measurements on these iris speciesbull setosa

bull versicolor

bull virginica

S t f Fi h rsquo I i D t t

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5057

172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up

Segment of Fisherrsquos Iris Dataset

Input Output

Attributes Attribute

Inst

Sepal

Length

Sepal

Width

Petal

Length

Petal

Width Species1 51 35 14 02 setosa

2 49 3 14 02 setosa

3 47 32 13 02 setosa

4 46 31 15 02 setosa5 5 36 14 02 setosa

Numerical Nominal

ClassSample

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5157

172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up

What Problem are We Trying to Solve

Iris setosa

Weka

decisiontree

Iris versicolor

Iris virginica

Our taskClassify unknown iris using

measurements on 150 iris

samples of known species

Instrumente pentru Data-Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5257

52

Instrumente pentru Data-Mining

Weka Documentation httpwwwcswaikatoacnzmlweka

Waikato Environment for Knowledge Analysis

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5357

53

Instrumente pentru Data-Mining

Principalii producători de soft pentruData-Mining

ndash IBM ndash Intelligent Miner extensie pentru DB2

ndash SAS ndash Enterprise Miner

ndash SPSS ndash Clementine

ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)

ndash hellipmulți alți producători mai mici

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5457

54

Instrumente pentru Data-Mining

SPSS - Clementine

ndash httpwwwspsscomclementine Oracle - Darwin

ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet

ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner

ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml

Standarde Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5557

55

Standarde Data Mining

PMML (Predictive Modelling Markup Language)

ndash Limbaj similar XML pentru salvare și partajare de

modele (cel mai acceptat standard)

CRISP

ndash Metodologie standardizată pentru construirea deaplicații Data Mining

OLE DB pentru Data Mining

ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)

IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5657

56

1 INTRODUCERE

2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE

3-7

CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale

Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici

8 CLUSTERIZARE (ANALIZA CLUSTERILOR)

9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA

ASOCIERILOR)

10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR

11 EVALUAREA MODELELOR

12 APLICAŢII ŞI TENDINŢE IN DATA MINING

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5757

Mulţumesc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2457

24

Detecţia fraudelor

Folosirea datelor istorice pentru a construi modele decomportament fraudulos şi utilizarea data mining pentruidentificarea exemplelor similare

Exemple de aplicaţii

ndash Asigurări auto detectarea unui grup de persoane care icircnscenează accidente pentru a icircncasa asigurarea

ndash Spălare de bani detectarea tranzacţiilor suspecte

ndash Detectarea fraudelor telefonice detectareacomportamentelor suspecte (modelul de apel -destinaţie timp durată)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2557

25

DeviationAnomaly Detection

Detect significant deviations from normal behavior

Applications ndash Credit Card Fraud Detection

ndash Network IntrusionDetection

Typical network traffic at

University level may reach over 100

million connections per day

TanSteinbach Kumar Introduction to Data Miningwwwuserscsumnedu~kumardmbookindexphp

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2657

26

Alte domenii de aplicaţie

Sport

ndash Analiza jocurilor icircn NBA (ex detectarea strategieiadversarului) Astronomie

ndash Descoperirea şi clasificarea unor noi obiecte

Internet ndash Analiza acceselor Web descoperirea unor şabloane

(patterns) comportamentale analiza eficienţeimarketingului Web icircmbunătăţirea organizării site-urilor

Web Text

ndash Analiza ştirilor analiza icircnregistrărilor medicale sortarea şifiltrarea automată a e-mail-urilor clasificarea automată a

documentelor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2757

27

Contribuţii

Data Mining

Inteligenţă Artificială

Calculatoare performanteStatistică

Sisteme de baze dedate

Cercetări operaţionale

GIS

Vizualizare

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2857

28

Data miningintersecţia unor discipline multiple

Sisteme de baze de date data warehouse şi OLAP

Statistică

Maşini instruibile (Machine learning)

Vizualizare Informatică

Calcul de icircnaltă performanţă

Alte discipline ndash Reţele neuronale modelare matematică regăsirea

informaţiilor recunoaşterea formelor (patternrecognition)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2957

29

Architectura unui sistem tipic de Data Mining

Data

Warehouse

Curăţarea şi integrarea datelor Filtrare

Baze de date

Server de baze de date

sau de Data Warehouse

Motor data mining

Evaluarea şabloanelor

Interfaţă grafică utilizator

Bază de

cunoştinţe

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3057

30

Evoluţia tehnologiei bazelor de date

Anii 1960

ndash Colecţii de date crearea bazelor de date baze de datereţea

Anii 1970

ndash Modelul relaţional implementarea SGBD relaţional Anii 1980

ndash SGBD relaţionale modele de date avansate (relaţionalextins OO deductive etc) şi SGBD-uri specifice

(domeniul spatial ştiinţific inginerie etc) Anii 1990mdash2000

ndash Data mining şi data warehouse baze de date multimediabaze de date Web

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3157

31

Proces

Data mining inima

procesului de

descoperire a

cunoaşterii

Curăţirea datelor

Baze dedate

Data Warehouse

Date relevante

Data Mining

Evaluarea configuraţiilor

C ţi icirc t d ti b ă d

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3257

32

Comparaţie icircntre procesarea de tip bază de

date şi cea de tip Data Mining

Interogare ndash Bine definită ndash SQL

Interogare ndash Slab definită ndash Nu există limbaj precis de

interogare

Date ndash Date operaţ ionale

Ieşirea ndash Precisă ndash Subset al bazei dedate

Date ndash Date neoperaţionale

Ieşirea ndash Vagă ndash Nu este un subset al bazeide date

E l d i t ă i

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3357

33

Exemple de interogări

Bază de date

Data Mining

ndash Găseşte toţi clienţii care au cumpărat lapte

ndash Găseşte toţi clienţii care au cumpărat frecvent

lapte (Reguli de asociere)

ndash Găseşte toţi titularii de credite cu numele Smith ndash Identifică toţi clienţii care au cumpărat de maimult de $10000 icircn ultima lună

ndash Găseşte toţi titularii de credite cu risc mic decreditare (Clasificare)

ndash Identifică clienţii cu obiceiuri similare decumpărare (Grupare)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3457

34

Modele şi tehnici Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3557

35

Verificarea ipotezelor şi căutarea cunoştinţelor

Aplicarea tehnicilor de data mining poate fi făcută dinperspectiva unui demers ascendent sau descendent

Icircn abordarea descendentă efortul este orientat spre

confirmarea sau infirmarea unor idei (ipoteze) formulate icircnprealabil prin alte mijloace

Abordarea ascendentă are o cu totul altă finalitate ea

urmăreşte extragerea de cunoştinţe sau informaţii noi din dateledisponibile

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3657

36

Căutarea poate fi dirijată sau nedirijată

Căutarea dirijată ia icircn considerare un atribut sau un cacircmpale cărui valori icircncearcă să le explice prin celelalte cacircmpuriEste cea mai folosită icircn practică

Căutarea nedirijată are ca scop identificarea relaţiilor saustructurilor existente icircn ansamblul datelor examinate fără aacorda prioritate unui cacircmp sau altul

Deşi mai spectaculoasă icircn practică se recurge mult maipuţin la ea decacirct la căutarea dirijată

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3757

37

Data mining

verificarea

ipotezelor

căutarea de

cunoştinţe

dirijată nedirijată

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3857

38

Tehnici şi acţiuni

Data mining exploatează colecţiile de date de care dispune o

organizaţie

La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei

icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc

Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod

intrinsec

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3957

39

Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de

icircnţeles o tendinţă relevată de un număr foarte mare de cazuri

practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii

Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se

reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor

raţionamentele bazate pe cazuri analiza legăturilor

La acestea se pot asocia şi tehnici statistice cum sunt spre

exemplu regresiile analiza factorială etc

M d l di ti

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4057

40 40

Modele predictivehellip

Arbori de decizie

Clasificări după cel mai apropiat vecin

Reţele neuronale

Reguli

Analiza grupurilor

A l d i i ă l ă l i i

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4157

41

Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea

predicţiagrupareaanaliza grupărilor

Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un

grup limitat de clase predefinite

Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut

mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4257

42

Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare

Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări

Predicţia urmăreşte să claseze icircnregistrările tratate icircn

funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un

model care să explice comportamentul observat

Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora

icircn viitor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4357

43

Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună

Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei

Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster

Spre deosebire de celelalte tipuri de acţiuni asemănătoare

aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4457

44

Etapele procesului de exploatare a datelor

Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare

Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date

colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4557

45

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4657

46

Evaluarea modelului

Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare

Integrarea modelului

Această etapă finalizează procesul prin includerea

modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4757

172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up

Overview of Fisherrsquos Iris Dataset

Fisherrsquos iris dataset is available for download from the tutorial website

httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls

Iris photos courtesy of SIGNA ndash wwwsignaorg

Fisherrsquos iris dataset is well-known in

data mining research

This dataset is commonly used to

illustrate data mining tools

Mark Polczynski PhD The Technology Forge mhptechforgegmailnet

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4857

172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up

Fisherrsquos Database - Background

Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems

Annals of Eugenics 7 179 ndash188 available at

httpdigitallibraryadelaideeduaucollspecialfisher138pdf

iris setosa iris versicolor iris virginica

Dataset contains flower dimension measurements on 50 samples of each species

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4957

172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up

Fisherrsquos Dataset- Background

Data mining terminology

bull The four iris dimensions are termed attributes or input attributes

bull The three iris species are termed classes or output attributes

bull Each example of an iris is termed a sample or instance

Anderson measured these dimensions

bull sepal length

bull sepal width

bull petal length

bull petal width

Measurements on these iris speciesbull setosa

bull versicolor

bull virginica

S t f Fi h rsquo I i D t t

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5057

172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up

Segment of Fisherrsquos Iris Dataset

Input Output

Attributes Attribute

Inst

Sepal

Length

Sepal

Width

Petal

Length

Petal

Width Species1 51 35 14 02 setosa

2 49 3 14 02 setosa

3 47 32 13 02 setosa

4 46 31 15 02 setosa5 5 36 14 02 setosa

Numerical Nominal

ClassSample

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5157

172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up

What Problem are We Trying to Solve

Iris setosa

Weka

decisiontree

Iris versicolor

Iris virginica

Our taskClassify unknown iris using

measurements on 150 iris

samples of known species

Instrumente pentru Data-Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5257

52

Instrumente pentru Data-Mining

Weka Documentation httpwwwcswaikatoacnzmlweka

Waikato Environment for Knowledge Analysis

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5357

53

Instrumente pentru Data-Mining

Principalii producători de soft pentruData-Mining

ndash IBM ndash Intelligent Miner extensie pentru DB2

ndash SAS ndash Enterprise Miner

ndash SPSS ndash Clementine

ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)

ndash hellipmulți alți producători mai mici

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5457

54

Instrumente pentru Data-Mining

SPSS - Clementine

ndash httpwwwspsscomclementine Oracle - Darwin

ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet

ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner

ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml

Standarde Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5557

55

Standarde Data Mining

PMML (Predictive Modelling Markup Language)

ndash Limbaj similar XML pentru salvare și partajare de

modele (cel mai acceptat standard)

CRISP

ndash Metodologie standardizată pentru construirea deaplicații Data Mining

OLE DB pentru Data Mining

ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)

IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5657

56

1 INTRODUCERE

2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE

3-7

CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale

Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici

8 CLUSTERIZARE (ANALIZA CLUSTERILOR)

9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA

ASOCIERILOR)

10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR

11 EVALUAREA MODELELOR

12 APLICAŢII ŞI TENDINŢE IN DATA MINING

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5757

Mulţumesc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2557

25

DeviationAnomaly Detection

Detect significant deviations from normal behavior

Applications ndash Credit Card Fraud Detection

ndash Network IntrusionDetection

Typical network traffic at

University level may reach over 100

million connections per day

TanSteinbach Kumar Introduction to Data Miningwwwuserscsumnedu~kumardmbookindexphp

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2657

26

Alte domenii de aplicaţie

Sport

ndash Analiza jocurilor icircn NBA (ex detectarea strategieiadversarului) Astronomie

ndash Descoperirea şi clasificarea unor noi obiecte

Internet ndash Analiza acceselor Web descoperirea unor şabloane

(patterns) comportamentale analiza eficienţeimarketingului Web icircmbunătăţirea organizării site-urilor

Web Text

ndash Analiza ştirilor analiza icircnregistrărilor medicale sortarea şifiltrarea automată a e-mail-urilor clasificarea automată a

documentelor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2757

27

Contribuţii

Data Mining

Inteligenţă Artificială

Calculatoare performanteStatistică

Sisteme de baze dedate

Cercetări operaţionale

GIS

Vizualizare

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2857

28

Data miningintersecţia unor discipline multiple

Sisteme de baze de date data warehouse şi OLAP

Statistică

Maşini instruibile (Machine learning)

Vizualizare Informatică

Calcul de icircnaltă performanţă

Alte discipline ndash Reţele neuronale modelare matematică regăsirea

informaţiilor recunoaşterea formelor (patternrecognition)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2957

29

Architectura unui sistem tipic de Data Mining

Data

Warehouse

Curăţarea şi integrarea datelor Filtrare

Baze de date

Server de baze de date

sau de Data Warehouse

Motor data mining

Evaluarea şabloanelor

Interfaţă grafică utilizator

Bază de

cunoştinţe

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3057

30

Evoluţia tehnologiei bazelor de date

Anii 1960

ndash Colecţii de date crearea bazelor de date baze de datereţea

Anii 1970

ndash Modelul relaţional implementarea SGBD relaţional Anii 1980

ndash SGBD relaţionale modele de date avansate (relaţionalextins OO deductive etc) şi SGBD-uri specifice

(domeniul spatial ştiinţific inginerie etc) Anii 1990mdash2000

ndash Data mining şi data warehouse baze de date multimediabaze de date Web

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3157

31

Proces

Data mining inima

procesului de

descoperire a

cunoaşterii

Curăţirea datelor

Baze dedate

Data Warehouse

Date relevante

Data Mining

Evaluarea configuraţiilor

C ţi icirc t d ti b ă d

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3257

32

Comparaţie icircntre procesarea de tip bază de

date şi cea de tip Data Mining

Interogare ndash Bine definită ndash SQL

Interogare ndash Slab definită ndash Nu există limbaj precis de

interogare

Date ndash Date operaţ ionale

Ieşirea ndash Precisă ndash Subset al bazei dedate

Date ndash Date neoperaţionale

Ieşirea ndash Vagă ndash Nu este un subset al bazeide date

E l d i t ă i

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3357

33

Exemple de interogări

Bază de date

Data Mining

ndash Găseşte toţi clienţii care au cumpărat lapte

ndash Găseşte toţi clienţii care au cumpărat frecvent

lapte (Reguli de asociere)

ndash Găseşte toţi titularii de credite cu numele Smith ndash Identifică toţi clienţii care au cumpărat de maimult de $10000 icircn ultima lună

ndash Găseşte toţi titularii de credite cu risc mic decreditare (Clasificare)

ndash Identifică clienţii cu obiceiuri similare decumpărare (Grupare)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3457

34

Modele şi tehnici Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3557

35

Verificarea ipotezelor şi căutarea cunoştinţelor

Aplicarea tehnicilor de data mining poate fi făcută dinperspectiva unui demers ascendent sau descendent

Icircn abordarea descendentă efortul este orientat spre

confirmarea sau infirmarea unor idei (ipoteze) formulate icircnprealabil prin alte mijloace

Abordarea ascendentă are o cu totul altă finalitate ea

urmăreşte extragerea de cunoştinţe sau informaţii noi din dateledisponibile

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3657

36

Căutarea poate fi dirijată sau nedirijată

Căutarea dirijată ia icircn considerare un atribut sau un cacircmpale cărui valori icircncearcă să le explice prin celelalte cacircmpuriEste cea mai folosită icircn practică

Căutarea nedirijată are ca scop identificarea relaţiilor saustructurilor existente icircn ansamblul datelor examinate fără aacorda prioritate unui cacircmp sau altul

Deşi mai spectaculoasă icircn practică se recurge mult maipuţin la ea decacirct la căutarea dirijată

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3757

37

Data mining

verificarea

ipotezelor

căutarea de

cunoştinţe

dirijată nedirijată

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3857

38

Tehnici şi acţiuni

Data mining exploatează colecţiile de date de care dispune o

organizaţie

La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei

icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc

Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod

intrinsec

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3957

39

Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de

icircnţeles o tendinţă relevată de un număr foarte mare de cazuri

practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii

Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se

reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor

raţionamentele bazate pe cazuri analiza legăturilor

La acestea se pot asocia şi tehnici statistice cum sunt spre

exemplu regresiile analiza factorială etc

M d l di ti

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4057

40 40

Modele predictivehellip

Arbori de decizie

Clasificări după cel mai apropiat vecin

Reţele neuronale

Reguli

Analiza grupurilor

A l d i i ă l ă l i i

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4157

41

Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea

predicţiagrupareaanaliza grupărilor

Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un

grup limitat de clase predefinite

Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut

mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4257

42

Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare

Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări

Predicţia urmăreşte să claseze icircnregistrările tratate icircn

funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un

model care să explice comportamentul observat

Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora

icircn viitor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4357

43

Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună

Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei

Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster

Spre deosebire de celelalte tipuri de acţiuni asemănătoare

aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4457

44

Etapele procesului de exploatare a datelor

Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare

Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date

colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4557

45

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4657

46

Evaluarea modelului

Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare

Integrarea modelului

Această etapă finalizează procesul prin includerea

modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4757

172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up

Overview of Fisherrsquos Iris Dataset

Fisherrsquos iris dataset is available for download from the tutorial website

httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls

Iris photos courtesy of SIGNA ndash wwwsignaorg

Fisherrsquos iris dataset is well-known in

data mining research

This dataset is commonly used to

illustrate data mining tools

Mark Polczynski PhD The Technology Forge mhptechforgegmailnet

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4857

172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up

Fisherrsquos Database - Background

Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems

Annals of Eugenics 7 179 ndash188 available at

httpdigitallibraryadelaideeduaucollspecialfisher138pdf

iris setosa iris versicolor iris virginica

Dataset contains flower dimension measurements on 50 samples of each species

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4957

172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up

Fisherrsquos Dataset- Background

Data mining terminology

bull The four iris dimensions are termed attributes or input attributes

bull The three iris species are termed classes or output attributes

bull Each example of an iris is termed a sample or instance

Anderson measured these dimensions

bull sepal length

bull sepal width

bull petal length

bull petal width

Measurements on these iris speciesbull setosa

bull versicolor

bull virginica

S t f Fi h rsquo I i D t t

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5057

172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up

Segment of Fisherrsquos Iris Dataset

Input Output

Attributes Attribute

Inst

Sepal

Length

Sepal

Width

Petal

Length

Petal

Width Species1 51 35 14 02 setosa

2 49 3 14 02 setosa

3 47 32 13 02 setosa

4 46 31 15 02 setosa5 5 36 14 02 setosa

Numerical Nominal

ClassSample

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5157

172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up

What Problem are We Trying to Solve

Iris setosa

Weka

decisiontree

Iris versicolor

Iris virginica

Our taskClassify unknown iris using

measurements on 150 iris

samples of known species

Instrumente pentru Data-Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5257

52

Instrumente pentru Data-Mining

Weka Documentation httpwwwcswaikatoacnzmlweka

Waikato Environment for Knowledge Analysis

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5357

53

Instrumente pentru Data-Mining

Principalii producători de soft pentruData-Mining

ndash IBM ndash Intelligent Miner extensie pentru DB2

ndash SAS ndash Enterprise Miner

ndash SPSS ndash Clementine

ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)

ndash hellipmulți alți producători mai mici

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5457

54

Instrumente pentru Data-Mining

SPSS - Clementine

ndash httpwwwspsscomclementine Oracle - Darwin

ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet

ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner

ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml

Standarde Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5557

55

Standarde Data Mining

PMML (Predictive Modelling Markup Language)

ndash Limbaj similar XML pentru salvare și partajare de

modele (cel mai acceptat standard)

CRISP

ndash Metodologie standardizată pentru construirea deaplicații Data Mining

OLE DB pentru Data Mining

ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)

IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5657

56

1 INTRODUCERE

2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE

3-7

CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale

Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici

8 CLUSTERIZARE (ANALIZA CLUSTERILOR)

9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA

ASOCIERILOR)

10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR

11 EVALUAREA MODELELOR

12 APLICAŢII ŞI TENDINŢE IN DATA MINING

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5757

Mulţumesc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2657

26

Alte domenii de aplicaţie

Sport

ndash Analiza jocurilor icircn NBA (ex detectarea strategieiadversarului) Astronomie

ndash Descoperirea şi clasificarea unor noi obiecte

Internet ndash Analiza acceselor Web descoperirea unor şabloane

(patterns) comportamentale analiza eficienţeimarketingului Web icircmbunătăţirea organizării site-urilor

Web Text

ndash Analiza ştirilor analiza icircnregistrărilor medicale sortarea şifiltrarea automată a e-mail-urilor clasificarea automată a

documentelor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2757

27

Contribuţii

Data Mining

Inteligenţă Artificială

Calculatoare performanteStatistică

Sisteme de baze dedate

Cercetări operaţionale

GIS

Vizualizare

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2857

28

Data miningintersecţia unor discipline multiple

Sisteme de baze de date data warehouse şi OLAP

Statistică

Maşini instruibile (Machine learning)

Vizualizare Informatică

Calcul de icircnaltă performanţă

Alte discipline ndash Reţele neuronale modelare matematică regăsirea

informaţiilor recunoaşterea formelor (patternrecognition)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2957

29

Architectura unui sistem tipic de Data Mining

Data

Warehouse

Curăţarea şi integrarea datelor Filtrare

Baze de date

Server de baze de date

sau de Data Warehouse

Motor data mining

Evaluarea şabloanelor

Interfaţă grafică utilizator

Bază de

cunoştinţe

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3057

30

Evoluţia tehnologiei bazelor de date

Anii 1960

ndash Colecţii de date crearea bazelor de date baze de datereţea

Anii 1970

ndash Modelul relaţional implementarea SGBD relaţional Anii 1980

ndash SGBD relaţionale modele de date avansate (relaţionalextins OO deductive etc) şi SGBD-uri specifice

(domeniul spatial ştiinţific inginerie etc) Anii 1990mdash2000

ndash Data mining şi data warehouse baze de date multimediabaze de date Web

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3157

31

Proces

Data mining inima

procesului de

descoperire a

cunoaşterii

Curăţirea datelor

Baze dedate

Data Warehouse

Date relevante

Data Mining

Evaluarea configuraţiilor

C ţi icirc t d ti b ă d

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3257

32

Comparaţie icircntre procesarea de tip bază de

date şi cea de tip Data Mining

Interogare ndash Bine definită ndash SQL

Interogare ndash Slab definită ndash Nu există limbaj precis de

interogare

Date ndash Date operaţ ionale

Ieşirea ndash Precisă ndash Subset al bazei dedate

Date ndash Date neoperaţionale

Ieşirea ndash Vagă ndash Nu este un subset al bazeide date

E l d i t ă i

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3357

33

Exemple de interogări

Bază de date

Data Mining

ndash Găseşte toţi clienţii care au cumpărat lapte

ndash Găseşte toţi clienţii care au cumpărat frecvent

lapte (Reguli de asociere)

ndash Găseşte toţi titularii de credite cu numele Smith ndash Identifică toţi clienţii care au cumpărat de maimult de $10000 icircn ultima lună

ndash Găseşte toţi titularii de credite cu risc mic decreditare (Clasificare)

ndash Identifică clienţii cu obiceiuri similare decumpărare (Grupare)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3457

34

Modele şi tehnici Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3557

35

Verificarea ipotezelor şi căutarea cunoştinţelor

Aplicarea tehnicilor de data mining poate fi făcută dinperspectiva unui demers ascendent sau descendent

Icircn abordarea descendentă efortul este orientat spre

confirmarea sau infirmarea unor idei (ipoteze) formulate icircnprealabil prin alte mijloace

Abordarea ascendentă are o cu totul altă finalitate ea

urmăreşte extragerea de cunoştinţe sau informaţii noi din dateledisponibile

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3657

36

Căutarea poate fi dirijată sau nedirijată

Căutarea dirijată ia icircn considerare un atribut sau un cacircmpale cărui valori icircncearcă să le explice prin celelalte cacircmpuriEste cea mai folosită icircn practică

Căutarea nedirijată are ca scop identificarea relaţiilor saustructurilor existente icircn ansamblul datelor examinate fără aacorda prioritate unui cacircmp sau altul

Deşi mai spectaculoasă icircn practică se recurge mult maipuţin la ea decacirct la căutarea dirijată

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3757

37

Data mining

verificarea

ipotezelor

căutarea de

cunoştinţe

dirijată nedirijată

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3857

38

Tehnici şi acţiuni

Data mining exploatează colecţiile de date de care dispune o

organizaţie

La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei

icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc

Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod

intrinsec

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3957

39

Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de

icircnţeles o tendinţă relevată de un număr foarte mare de cazuri

practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii

Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se

reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor

raţionamentele bazate pe cazuri analiza legăturilor

La acestea se pot asocia şi tehnici statistice cum sunt spre

exemplu regresiile analiza factorială etc

M d l di ti

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4057

40 40

Modele predictivehellip

Arbori de decizie

Clasificări după cel mai apropiat vecin

Reţele neuronale

Reguli

Analiza grupurilor

A l d i i ă l ă l i i

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4157

41

Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea

predicţiagrupareaanaliza grupărilor

Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un

grup limitat de clase predefinite

Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut

mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4257

42

Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare

Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări

Predicţia urmăreşte să claseze icircnregistrările tratate icircn

funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un

model care să explice comportamentul observat

Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora

icircn viitor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4357

43

Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună

Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei

Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster

Spre deosebire de celelalte tipuri de acţiuni asemănătoare

aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4457

44

Etapele procesului de exploatare a datelor

Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare

Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date

colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4557

45

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4657

46

Evaluarea modelului

Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare

Integrarea modelului

Această etapă finalizează procesul prin includerea

modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4757

172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up

Overview of Fisherrsquos Iris Dataset

Fisherrsquos iris dataset is available for download from the tutorial website

httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls

Iris photos courtesy of SIGNA ndash wwwsignaorg

Fisherrsquos iris dataset is well-known in

data mining research

This dataset is commonly used to

illustrate data mining tools

Mark Polczynski PhD The Technology Forge mhptechforgegmailnet

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4857

172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up

Fisherrsquos Database - Background

Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems

Annals of Eugenics 7 179 ndash188 available at

httpdigitallibraryadelaideeduaucollspecialfisher138pdf

iris setosa iris versicolor iris virginica

Dataset contains flower dimension measurements on 50 samples of each species

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4957

172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up

Fisherrsquos Dataset- Background

Data mining terminology

bull The four iris dimensions are termed attributes or input attributes

bull The three iris species are termed classes or output attributes

bull Each example of an iris is termed a sample or instance

Anderson measured these dimensions

bull sepal length

bull sepal width

bull petal length

bull petal width

Measurements on these iris speciesbull setosa

bull versicolor

bull virginica

S t f Fi h rsquo I i D t t

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5057

172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up

Segment of Fisherrsquos Iris Dataset

Input Output

Attributes Attribute

Inst

Sepal

Length

Sepal

Width

Petal

Length

Petal

Width Species1 51 35 14 02 setosa

2 49 3 14 02 setosa

3 47 32 13 02 setosa

4 46 31 15 02 setosa5 5 36 14 02 setosa

Numerical Nominal

ClassSample

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5157

172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up

What Problem are We Trying to Solve

Iris setosa

Weka

decisiontree

Iris versicolor

Iris virginica

Our taskClassify unknown iris using

measurements on 150 iris

samples of known species

Instrumente pentru Data-Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5257

52

Instrumente pentru Data-Mining

Weka Documentation httpwwwcswaikatoacnzmlweka

Waikato Environment for Knowledge Analysis

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5357

53

Instrumente pentru Data-Mining

Principalii producători de soft pentruData-Mining

ndash IBM ndash Intelligent Miner extensie pentru DB2

ndash SAS ndash Enterprise Miner

ndash SPSS ndash Clementine

ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)

ndash hellipmulți alți producători mai mici

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5457

54

Instrumente pentru Data-Mining

SPSS - Clementine

ndash httpwwwspsscomclementine Oracle - Darwin

ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet

ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner

ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml

Standarde Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5557

55

Standarde Data Mining

PMML (Predictive Modelling Markup Language)

ndash Limbaj similar XML pentru salvare și partajare de

modele (cel mai acceptat standard)

CRISP

ndash Metodologie standardizată pentru construirea deaplicații Data Mining

OLE DB pentru Data Mining

ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)

IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5657

56

1 INTRODUCERE

2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE

3-7

CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale

Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici

8 CLUSTERIZARE (ANALIZA CLUSTERILOR)

9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA

ASOCIERILOR)

10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR

11 EVALUAREA MODELELOR

12 APLICAŢII ŞI TENDINŢE IN DATA MINING

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5757

Mulţumesc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2757

27

Contribuţii

Data Mining

Inteligenţă Artificială

Calculatoare performanteStatistică

Sisteme de baze dedate

Cercetări operaţionale

GIS

Vizualizare

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2857

28

Data miningintersecţia unor discipline multiple

Sisteme de baze de date data warehouse şi OLAP

Statistică

Maşini instruibile (Machine learning)

Vizualizare Informatică

Calcul de icircnaltă performanţă

Alte discipline ndash Reţele neuronale modelare matematică regăsirea

informaţiilor recunoaşterea formelor (patternrecognition)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2957

29

Architectura unui sistem tipic de Data Mining

Data

Warehouse

Curăţarea şi integrarea datelor Filtrare

Baze de date

Server de baze de date

sau de Data Warehouse

Motor data mining

Evaluarea şabloanelor

Interfaţă grafică utilizator

Bază de

cunoştinţe

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3057

30

Evoluţia tehnologiei bazelor de date

Anii 1960

ndash Colecţii de date crearea bazelor de date baze de datereţea

Anii 1970

ndash Modelul relaţional implementarea SGBD relaţional Anii 1980

ndash SGBD relaţionale modele de date avansate (relaţionalextins OO deductive etc) şi SGBD-uri specifice

(domeniul spatial ştiinţific inginerie etc) Anii 1990mdash2000

ndash Data mining şi data warehouse baze de date multimediabaze de date Web

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3157

31

Proces

Data mining inima

procesului de

descoperire a

cunoaşterii

Curăţirea datelor

Baze dedate

Data Warehouse

Date relevante

Data Mining

Evaluarea configuraţiilor

C ţi icirc t d ti b ă d

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3257

32

Comparaţie icircntre procesarea de tip bază de

date şi cea de tip Data Mining

Interogare ndash Bine definită ndash SQL

Interogare ndash Slab definită ndash Nu există limbaj precis de

interogare

Date ndash Date operaţ ionale

Ieşirea ndash Precisă ndash Subset al bazei dedate

Date ndash Date neoperaţionale

Ieşirea ndash Vagă ndash Nu este un subset al bazeide date

E l d i t ă i

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3357

33

Exemple de interogări

Bază de date

Data Mining

ndash Găseşte toţi clienţii care au cumpărat lapte

ndash Găseşte toţi clienţii care au cumpărat frecvent

lapte (Reguli de asociere)

ndash Găseşte toţi titularii de credite cu numele Smith ndash Identifică toţi clienţii care au cumpărat de maimult de $10000 icircn ultima lună

ndash Găseşte toţi titularii de credite cu risc mic decreditare (Clasificare)

ndash Identifică clienţii cu obiceiuri similare decumpărare (Grupare)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3457

34

Modele şi tehnici Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3557

35

Verificarea ipotezelor şi căutarea cunoştinţelor

Aplicarea tehnicilor de data mining poate fi făcută dinperspectiva unui demers ascendent sau descendent

Icircn abordarea descendentă efortul este orientat spre

confirmarea sau infirmarea unor idei (ipoteze) formulate icircnprealabil prin alte mijloace

Abordarea ascendentă are o cu totul altă finalitate ea

urmăreşte extragerea de cunoştinţe sau informaţii noi din dateledisponibile

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3657

36

Căutarea poate fi dirijată sau nedirijată

Căutarea dirijată ia icircn considerare un atribut sau un cacircmpale cărui valori icircncearcă să le explice prin celelalte cacircmpuriEste cea mai folosită icircn practică

Căutarea nedirijată are ca scop identificarea relaţiilor saustructurilor existente icircn ansamblul datelor examinate fără aacorda prioritate unui cacircmp sau altul

Deşi mai spectaculoasă icircn practică se recurge mult maipuţin la ea decacirct la căutarea dirijată

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3757

37

Data mining

verificarea

ipotezelor

căutarea de

cunoştinţe

dirijată nedirijată

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3857

38

Tehnici şi acţiuni

Data mining exploatează colecţiile de date de care dispune o

organizaţie

La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei

icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc

Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod

intrinsec

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3957

39

Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de

icircnţeles o tendinţă relevată de un număr foarte mare de cazuri

practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii

Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se

reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor

raţionamentele bazate pe cazuri analiza legăturilor

La acestea se pot asocia şi tehnici statistice cum sunt spre

exemplu regresiile analiza factorială etc

M d l di ti

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4057

40 40

Modele predictivehellip

Arbori de decizie

Clasificări după cel mai apropiat vecin

Reţele neuronale

Reguli

Analiza grupurilor

A l d i i ă l ă l i i

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4157

41

Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea

predicţiagrupareaanaliza grupărilor

Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un

grup limitat de clase predefinite

Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut

mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4257

42

Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare

Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări

Predicţia urmăreşte să claseze icircnregistrările tratate icircn

funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un

model care să explice comportamentul observat

Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora

icircn viitor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4357

43

Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună

Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei

Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster

Spre deosebire de celelalte tipuri de acţiuni asemănătoare

aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4457

44

Etapele procesului de exploatare a datelor

Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare

Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date

colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4557

45

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4657

46

Evaluarea modelului

Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare

Integrarea modelului

Această etapă finalizează procesul prin includerea

modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4757

172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up

Overview of Fisherrsquos Iris Dataset

Fisherrsquos iris dataset is available for download from the tutorial website

httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls

Iris photos courtesy of SIGNA ndash wwwsignaorg

Fisherrsquos iris dataset is well-known in

data mining research

This dataset is commonly used to

illustrate data mining tools

Mark Polczynski PhD The Technology Forge mhptechforgegmailnet

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4857

172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up

Fisherrsquos Database - Background

Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems

Annals of Eugenics 7 179 ndash188 available at

httpdigitallibraryadelaideeduaucollspecialfisher138pdf

iris setosa iris versicolor iris virginica

Dataset contains flower dimension measurements on 50 samples of each species

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4957

172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up

Fisherrsquos Dataset- Background

Data mining terminology

bull The four iris dimensions are termed attributes or input attributes

bull The three iris species are termed classes or output attributes

bull Each example of an iris is termed a sample or instance

Anderson measured these dimensions

bull sepal length

bull sepal width

bull petal length

bull petal width

Measurements on these iris speciesbull setosa

bull versicolor

bull virginica

S t f Fi h rsquo I i D t t

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5057

172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up

Segment of Fisherrsquos Iris Dataset

Input Output

Attributes Attribute

Inst

Sepal

Length

Sepal

Width

Petal

Length

Petal

Width Species1 51 35 14 02 setosa

2 49 3 14 02 setosa

3 47 32 13 02 setosa

4 46 31 15 02 setosa5 5 36 14 02 setosa

Numerical Nominal

ClassSample

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5157

172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up

What Problem are We Trying to Solve

Iris setosa

Weka

decisiontree

Iris versicolor

Iris virginica

Our taskClassify unknown iris using

measurements on 150 iris

samples of known species

Instrumente pentru Data-Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5257

52

Instrumente pentru Data-Mining

Weka Documentation httpwwwcswaikatoacnzmlweka

Waikato Environment for Knowledge Analysis

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5357

53

Instrumente pentru Data-Mining

Principalii producători de soft pentruData-Mining

ndash IBM ndash Intelligent Miner extensie pentru DB2

ndash SAS ndash Enterprise Miner

ndash SPSS ndash Clementine

ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)

ndash hellipmulți alți producători mai mici

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5457

54

Instrumente pentru Data-Mining

SPSS - Clementine

ndash httpwwwspsscomclementine Oracle - Darwin

ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet

ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner

ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml

Standarde Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5557

55

Standarde Data Mining

PMML (Predictive Modelling Markup Language)

ndash Limbaj similar XML pentru salvare și partajare de

modele (cel mai acceptat standard)

CRISP

ndash Metodologie standardizată pentru construirea deaplicații Data Mining

OLE DB pentru Data Mining

ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)

IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5657

56

1 INTRODUCERE

2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE

3-7

CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale

Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici

8 CLUSTERIZARE (ANALIZA CLUSTERILOR)

9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA

ASOCIERILOR)

10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR

11 EVALUAREA MODELELOR

12 APLICAŢII ŞI TENDINŢE IN DATA MINING

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5757

Mulţumesc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2857

28

Data miningintersecţia unor discipline multiple

Sisteme de baze de date data warehouse şi OLAP

Statistică

Maşini instruibile (Machine learning)

Vizualizare Informatică

Calcul de icircnaltă performanţă

Alte discipline ndash Reţele neuronale modelare matematică regăsirea

informaţiilor recunoaşterea formelor (patternrecognition)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2957

29

Architectura unui sistem tipic de Data Mining

Data

Warehouse

Curăţarea şi integrarea datelor Filtrare

Baze de date

Server de baze de date

sau de Data Warehouse

Motor data mining

Evaluarea şabloanelor

Interfaţă grafică utilizator

Bază de

cunoştinţe

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3057

30

Evoluţia tehnologiei bazelor de date

Anii 1960

ndash Colecţii de date crearea bazelor de date baze de datereţea

Anii 1970

ndash Modelul relaţional implementarea SGBD relaţional Anii 1980

ndash SGBD relaţionale modele de date avansate (relaţionalextins OO deductive etc) şi SGBD-uri specifice

(domeniul spatial ştiinţific inginerie etc) Anii 1990mdash2000

ndash Data mining şi data warehouse baze de date multimediabaze de date Web

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3157

31

Proces

Data mining inima

procesului de

descoperire a

cunoaşterii

Curăţirea datelor

Baze dedate

Data Warehouse

Date relevante

Data Mining

Evaluarea configuraţiilor

C ţi icirc t d ti b ă d

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3257

32

Comparaţie icircntre procesarea de tip bază de

date şi cea de tip Data Mining

Interogare ndash Bine definită ndash SQL

Interogare ndash Slab definită ndash Nu există limbaj precis de

interogare

Date ndash Date operaţ ionale

Ieşirea ndash Precisă ndash Subset al bazei dedate

Date ndash Date neoperaţionale

Ieşirea ndash Vagă ndash Nu este un subset al bazeide date

E l d i t ă i

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3357

33

Exemple de interogări

Bază de date

Data Mining

ndash Găseşte toţi clienţii care au cumpărat lapte

ndash Găseşte toţi clienţii care au cumpărat frecvent

lapte (Reguli de asociere)

ndash Găseşte toţi titularii de credite cu numele Smith ndash Identifică toţi clienţii care au cumpărat de maimult de $10000 icircn ultima lună

ndash Găseşte toţi titularii de credite cu risc mic decreditare (Clasificare)

ndash Identifică clienţii cu obiceiuri similare decumpărare (Grupare)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3457

34

Modele şi tehnici Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3557

35

Verificarea ipotezelor şi căutarea cunoştinţelor

Aplicarea tehnicilor de data mining poate fi făcută dinperspectiva unui demers ascendent sau descendent

Icircn abordarea descendentă efortul este orientat spre

confirmarea sau infirmarea unor idei (ipoteze) formulate icircnprealabil prin alte mijloace

Abordarea ascendentă are o cu totul altă finalitate ea

urmăreşte extragerea de cunoştinţe sau informaţii noi din dateledisponibile

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3657

36

Căutarea poate fi dirijată sau nedirijată

Căutarea dirijată ia icircn considerare un atribut sau un cacircmpale cărui valori icircncearcă să le explice prin celelalte cacircmpuriEste cea mai folosită icircn practică

Căutarea nedirijată are ca scop identificarea relaţiilor saustructurilor existente icircn ansamblul datelor examinate fără aacorda prioritate unui cacircmp sau altul

Deşi mai spectaculoasă icircn practică se recurge mult maipuţin la ea decacirct la căutarea dirijată

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3757

37

Data mining

verificarea

ipotezelor

căutarea de

cunoştinţe

dirijată nedirijată

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3857

38

Tehnici şi acţiuni

Data mining exploatează colecţiile de date de care dispune o

organizaţie

La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei

icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc

Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod

intrinsec

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3957

39

Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de

icircnţeles o tendinţă relevată de un număr foarte mare de cazuri

practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii

Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se

reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor

raţionamentele bazate pe cazuri analiza legăturilor

La acestea se pot asocia şi tehnici statistice cum sunt spre

exemplu regresiile analiza factorială etc

M d l di ti

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4057

40 40

Modele predictivehellip

Arbori de decizie

Clasificări după cel mai apropiat vecin

Reţele neuronale

Reguli

Analiza grupurilor

A l d i i ă l ă l i i

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4157

41

Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea

predicţiagrupareaanaliza grupărilor

Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un

grup limitat de clase predefinite

Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut

mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4257

42

Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare

Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări

Predicţia urmăreşte să claseze icircnregistrările tratate icircn

funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un

model care să explice comportamentul observat

Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora

icircn viitor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4357

43

Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună

Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei

Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster

Spre deosebire de celelalte tipuri de acţiuni asemănătoare

aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4457

44

Etapele procesului de exploatare a datelor

Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare

Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date

colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4557

45

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4657

46

Evaluarea modelului

Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare

Integrarea modelului

Această etapă finalizează procesul prin includerea

modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4757

172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up

Overview of Fisherrsquos Iris Dataset

Fisherrsquos iris dataset is available for download from the tutorial website

httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls

Iris photos courtesy of SIGNA ndash wwwsignaorg

Fisherrsquos iris dataset is well-known in

data mining research

This dataset is commonly used to

illustrate data mining tools

Mark Polczynski PhD The Technology Forge mhptechforgegmailnet

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4857

172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up

Fisherrsquos Database - Background

Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems

Annals of Eugenics 7 179 ndash188 available at

httpdigitallibraryadelaideeduaucollspecialfisher138pdf

iris setosa iris versicolor iris virginica

Dataset contains flower dimension measurements on 50 samples of each species

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4957

172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up

Fisherrsquos Dataset- Background

Data mining terminology

bull The four iris dimensions are termed attributes or input attributes

bull The three iris species are termed classes or output attributes

bull Each example of an iris is termed a sample or instance

Anderson measured these dimensions

bull sepal length

bull sepal width

bull petal length

bull petal width

Measurements on these iris speciesbull setosa

bull versicolor

bull virginica

S t f Fi h rsquo I i D t t

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5057

172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up

Segment of Fisherrsquos Iris Dataset

Input Output

Attributes Attribute

Inst

Sepal

Length

Sepal

Width

Petal

Length

Petal

Width Species1 51 35 14 02 setosa

2 49 3 14 02 setosa

3 47 32 13 02 setosa

4 46 31 15 02 setosa5 5 36 14 02 setosa

Numerical Nominal

ClassSample

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5157

172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up

What Problem are We Trying to Solve

Iris setosa

Weka

decisiontree

Iris versicolor

Iris virginica

Our taskClassify unknown iris using

measurements on 150 iris

samples of known species

Instrumente pentru Data-Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5257

52

Instrumente pentru Data-Mining

Weka Documentation httpwwwcswaikatoacnzmlweka

Waikato Environment for Knowledge Analysis

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5357

53

Instrumente pentru Data-Mining

Principalii producători de soft pentruData-Mining

ndash IBM ndash Intelligent Miner extensie pentru DB2

ndash SAS ndash Enterprise Miner

ndash SPSS ndash Clementine

ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)

ndash hellipmulți alți producători mai mici

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5457

54

Instrumente pentru Data-Mining

SPSS - Clementine

ndash httpwwwspsscomclementine Oracle - Darwin

ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet

ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner

ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml

Standarde Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5557

55

Standarde Data Mining

PMML (Predictive Modelling Markup Language)

ndash Limbaj similar XML pentru salvare și partajare de

modele (cel mai acceptat standard)

CRISP

ndash Metodologie standardizată pentru construirea deaplicații Data Mining

OLE DB pentru Data Mining

ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)

IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5657

56

1 INTRODUCERE

2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE

3-7

CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale

Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici

8 CLUSTERIZARE (ANALIZA CLUSTERILOR)

9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA

ASOCIERILOR)

10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR

11 EVALUAREA MODELELOR

12 APLICAŢII ŞI TENDINŢE IN DATA MINING

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5757

Mulţumesc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 2957

29

Architectura unui sistem tipic de Data Mining

Data

Warehouse

Curăţarea şi integrarea datelor Filtrare

Baze de date

Server de baze de date

sau de Data Warehouse

Motor data mining

Evaluarea şabloanelor

Interfaţă grafică utilizator

Bază de

cunoştinţe

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3057

30

Evoluţia tehnologiei bazelor de date

Anii 1960

ndash Colecţii de date crearea bazelor de date baze de datereţea

Anii 1970

ndash Modelul relaţional implementarea SGBD relaţional Anii 1980

ndash SGBD relaţionale modele de date avansate (relaţionalextins OO deductive etc) şi SGBD-uri specifice

(domeniul spatial ştiinţific inginerie etc) Anii 1990mdash2000

ndash Data mining şi data warehouse baze de date multimediabaze de date Web

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3157

31

Proces

Data mining inima

procesului de

descoperire a

cunoaşterii

Curăţirea datelor

Baze dedate

Data Warehouse

Date relevante

Data Mining

Evaluarea configuraţiilor

C ţi icirc t d ti b ă d

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3257

32

Comparaţie icircntre procesarea de tip bază de

date şi cea de tip Data Mining

Interogare ndash Bine definită ndash SQL

Interogare ndash Slab definită ndash Nu există limbaj precis de

interogare

Date ndash Date operaţ ionale

Ieşirea ndash Precisă ndash Subset al bazei dedate

Date ndash Date neoperaţionale

Ieşirea ndash Vagă ndash Nu este un subset al bazeide date

E l d i t ă i

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3357

33

Exemple de interogări

Bază de date

Data Mining

ndash Găseşte toţi clienţii care au cumpărat lapte

ndash Găseşte toţi clienţii care au cumpărat frecvent

lapte (Reguli de asociere)

ndash Găseşte toţi titularii de credite cu numele Smith ndash Identifică toţi clienţii care au cumpărat de maimult de $10000 icircn ultima lună

ndash Găseşte toţi titularii de credite cu risc mic decreditare (Clasificare)

ndash Identifică clienţii cu obiceiuri similare decumpărare (Grupare)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3457

34

Modele şi tehnici Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3557

35

Verificarea ipotezelor şi căutarea cunoştinţelor

Aplicarea tehnicilor de data mining poate fi făcută dinperspectiva unui demers ascendent sau descendent

Icircn abordarea descendentă efortul este orientat spre

confirmarea sau infirmarea unor idei (ipoteze) formulate icircnprealabil prin alte mijloace

Abordarea ascendentă are o cu totul altă finalitate ea

urmăreşte extragerea de cunoştinţe sau informaţii noi din dateledisponibile

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3657

36

Căutarea poate fi dirijată sau nedirijată

Căutarea dirijată ia icircn considerare un atribut sau un cacircmpale cărui valori icircncearcă să le explice prin celelalte cacircmpuriEste cea mai folosită icircn practică

Căutarea nedirijată are ca scop identificarea relaţiilor saustructurilor existente icircn ansamblul datelor examinate fără aacorda prioritate unui cacircmp sau altul

Deşi mai spectaculoasă icircn practică se recurge mult maipuţin la ea decacirct la căutarea dirijată

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3757

37

Data mining

verificarea

ipotezelor

căutarea de

cunoştinţe

dirijată nedirijată

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3857

38

Tehnici şi acţiuni

Data mining exploatează colecţiile de date de care dispune o

organizaţie

La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei

icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc

Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod

intrinsec

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3957

39

Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de

icircnţeles o tendinţă relevată de un număr foarte mare de cazuri

practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii

Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se

reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor

raţionamentele bazate pe cazuri analiza legăturilor

La acestea se pot asocia şi tehnici statistice cum sunt spre

exemplu regresiile analiza factorială etc

M d l di ti

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4057

40 40

Modele predictivehellip

Arbori de decizie

Clasificări după cel mai apropiat vecin

Reţele neuronale

Reguli

Analiza grupurilor

A l d i i ă l ă l i i

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4157

41

Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea

predicţiagrupareaanaliza grupărilor

Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un

grup limitat de clase predefinite

Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut

mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4257

42

Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare

Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări

Predicţia urmăreşte să claseze icircnregistrările tratate icircn

funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un

model care să explice comportamentul observat

Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora

icircn viitor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4357

43

Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună

Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei

Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster

Spre deosebire de celelalte tipuri de acţiuni asemănătoare

aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4457

44

Etapele procesului de exploatare a datelor

Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare

Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date

colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4557

45

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4657

46

Evaluarea modelului

Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare

Integrarea modelului

Această etapă finalizează procesul prin includerea

modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4757

172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up

Overview of Fisherrsquos Iris Dataset

Fisherrsquos iris dataset is available for download from the tutorial website

httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls

Iris photos courtesy of SIGNA ndash wwwsignaorg

Fisherrsquos iris dataset is well-known in

data mining research

This dataset is commonly used to

illustrate data mining tools

Mark Polczynski PhD The Technology Forge mhptechforgegmailnet

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4857

172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up

Fisherrsquos Database - Background

Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems

Annals of Eugenics 7 179 ndash188 available at

httpdigitallibraryadelaideeduaucollspecialfisher138pdf

iris setosa iris versicolor iris virginica

Dataset contains flower dimension measurements on 50 samples of each species

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4957

172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up

Fisherrsquos Dataset- Background

Data mining terminology

bull The four iris dimensions are termed attributes or input attributes

bull The three iris species are termed classes or output attributes

bull Each example of an iris is termed a sample or instance

Anderson measured these dimensions

bull sepal length

bull sepal width

bull petal length

bull petal width

Measurements on these iris speciesbull setosa

bull versicolor

bull virginica

S t f Fi h rsquo I i D t t

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5057

172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up

Segment of Fisherrsquos Iris Dataset

Input Output

Attributes Attribute

Inst

Sepal

Length

Sepal

Width

Petal

Length

Petal

Width Species1 51 35 14 02 setosa

2 49 3 14 02 setosa

3 47 32 13 02 setosa

4 46 31 15 02 setosa5 5 36 14 02 setosa

Numerical Nominal

ClassSample

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5157

172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up

What Problem are We Trying to Solve

Iris setosa

Weka

decisiontree

Iris versicolor

Iris virginica

Our taskClassify unknown iris using

measurements on 150 iris

samples of known species

Instrumente pentru Data-Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5257

52

Instrumente pentru Data-Mining

Weka Documentation httpwwwcswaikatoacnzmlweka

Waikato Environment for Knowledge Analysis

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5357

53

Instrumente pentru Data-Mining

Principalii producători de soft pentruData-Mining

ndash IBM ndash Intelligent Miner extensie pentru DB2

ndash SAS ndash Enterprise Miner

ndash SPSS ndash Clementine

ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)

ndash hellipmulți alți producători mai mici

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5457

54

Instrumente pentru Data-Mining

SPSS - Clementine

ndash httpwwwspsscomclementine Oracle - Darwin

ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet

ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner

ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml

Standarde Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5557

55

Standarde Data Mining

PMML (Predictive Modelling Markup Language)

ndash Limbaj similar XML pentru salvare și partajare de

modele (cel mai acceptat standard)

CRISP

ndash Metodologie standardizată pentru construirea deaplicații Data Mining

OLE DB pentru Data Mining

ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)

IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5657

56

1 INTRODUCERE

2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE

3-7

CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale

Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici

8 CLUSTERIZARE (ANALIZA CLUSTERILOR)

9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA

ASOCIERILOR)

10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR

11 EVALUAREA MODELELOR

12 APLICAŢII ŞI TENDINŢE IN DATA MINING

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5757

Mulţumesc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3057

30

Evoluţia tehnologiei bazelor de date

Anii 1960

ndash Colecţii de date crearea bazelor de date baze de datereţea

Anii 1970

ndash Modelul relaţional implementarea SGBD relaţional Anii 1980

ndash SGBD relaţionale modele de date avansate (relaţionalextins OO deductive etc) şi SGBD-uri specifice

(domeniul spatial ştiinţific inginerie etc) Anii 1990mdash2000

ndash Data mining şi data warehouse baze de date multimediabaze de date Web

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3157

31

Proces

Data mining inima

procesului de

descoperire a

cunoaşterii

Curăţirea datelor

Baze dedate

Data Warehouse

Date relevante

Data Mining

Evaluarea configuraţiilor

C ţi icirc t d ti b ă d

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3257

32

Comparaţie icircntre procesarea de tip bază de

date şi cea de tip Data Mining

Interogare ndash Bine definită ndash SQL

Interogare ndash Slab definită ndash Nu există limbaj precis de

interogare

Date ndash Date operaţ ionale

Ieşirea ndash Precisă ndash Subset al bazei dedate

Date ndash Date neoperaţionale

Ieşirea ndash Vagă ndash Nu este un subset al bazeide date

E l d i t ă i

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3357

33

Exemple de interogări

Bază de date

Data Mining

ndash Găseşte toţi clienţii care au cumpărat lapte

ndash Găseşte toţi clienţii care au cumpărat frecvent

lapte (Reguli de asociere)

ndash Găseşte toţi titularii de credite cu numele Smith ndash Identifică toţi clienţii care au cumpărat de maimult de $10000 icircn ultima lună

ndash Găseşte toţi titularii de credite cu risc mic decreditare (Clasificare)

ndash Identifică clienţii cu obiceiuri similare decumpărare (Grupare)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3457

34

Modele şi tehnici Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3557

35

Verificarea ipotezelor şi căutarea cunoştinţelor

Aplicarea tehnicilor de data mining poate fi făcută dinperspectiva unui demers ascendent sau descendent

Icircn abordarea descendentă efortul este orientat spre

confirmarea sau infirmarea unor idei (ipoteze) formulate icircnprealabil prin alte mijloace

Abordarea ascendentă are o cu totul altă finalitate ea

urmăreşte extragerea de cunoştinţe sau informaţii noi din dateledisponibile

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3657

36

Căutarea poate fi dirijată sau nedirijată

Căutarea dirijată ia icircn considerare un atribut sau un cacircmpale cărui valori icircncearcă să le explice prin celelalte cacircmpuriEste cea mai folosită icircn practică

Căutarea nedirijată are ca scop identificarea relaţiilor saustructurilor existente icircn ansamblul datelor examinate fără aacorda prioritate unui cacircmp sau altul

Deşi mai spectaculoasă icircn practică se recurge mult maipuţin la ea decacirct la căutarea dirijată

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3757

37

Data mining

verificarea

ipotezelor

căutarea de

cunoştinţe

dirijată nedirijată

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3857

38

Tehnici şi acţiuni

Data mining exploatează colecţiile de date de care dispune o

organizaţie

La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei

icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc

Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod

intrinsec

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3957

39

Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de

icircnţeles o tendinţă relevată de un număr foarte mare de cazuri

practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii

Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se

reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor

raţionamentele bazate pe cazuri analiza legăturilor

La acestea se pot asocia şi tehnici statistice cum sunt spre

exemplu regresiile analiza factorială etc

M d l di ti

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4057

40 40

Modele predictivehellip

Arbori de decizie

Clasificări după cel mai apropiat vecin

Reţele neuronale

Reguli

Analiza grupurilor

A l d i i ă l ă l i i

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4157

41

Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea

predicţiagrupareaanaliza grupărilor

Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un

grup limitat de clase predefinite

Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut

mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4257

42

Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare

Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări

Predicţia urmăreşte să claseze icircnregistrările tratate icircn

funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un

model care să explice comportamentul observat

Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora

icircn viitor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4357

43

Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună

Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei

Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster

Spre deosebire de celelalte tipuri de acţiuni asemănătoare

aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4457

44

Etapele procesului de exploatare a datelor

Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare

Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date

colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4557

45

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4657

46

Evaluarea modelului

Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare

Integrarea modelului

Această etapă finalizează procesul prin includerea

modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4757

172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up

Overview of Fisherrsquos Iris Dataset

Fisherrsquos iris dataset is available for download from the tutorial website

httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls

Iris photos courtesy of SIGNA ndash wwwsignaorg

Fisherrsquos iris dataset is well-known in

data mining research

This dataset is commonly used to

illustrate data mining tools

Mark Polczynski PhD The Technology Forge mhptechforgegmailnet

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4857

172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up

Fisherrsquos Database - Background

Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems

Annals of Eugenics 7 179 ndash188 available at

httpdigitallibraryadelaideeduaucollspecialfisher138pdf

iris setosa iris versicolor iris virginica

Dataset contains flower dimension measurements on 50 samples of each species

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4957

172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up

Fisherrsquos Dataset- Background

Data mining terminology

bull The four iris dimensions are termed attributes or input attributes

bull The three iris species are termed classes or output attributes

bull Each example of an iris is termed a sample or instance

Anderson measured these dimensions

bull sepal length

bull sepal width

bull petal length

bull petal width

Measurements on these iris speciesbull setosa

bull versicolor

bull virginica

S t f Fi h rsquo I i D t t

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5057

172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up

Segment of Fisherrsquos Iris Dataset

Input Output

Attributes Attribute

Inst

Sepal

Length

Sepal

Width

Petal

Length

Petal

Width Species1 51 35 14 02 setosa

2 49 3 14 02 setosa

3 47 32 13 02 setosa

4 46 31 15 02 setosa5 5 36 14 02 setosa

Numerical Nominal

ClassSample

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5157

172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up

What Problem are We Trying to Solve

Iris setosa

Weka

decisiontree

Iris versicolor

Iris virginica

Our taskClassify unknown iris using

measurements on 150 iris

samples of known species

Instrumente pentru Data-Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5257

52

Instrumente pentru Data-Mining

Weka Documentation httpwwwcswaikatoacnzmlweka

Waikato Environment for Knowledge Analysis

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5357

53

Instrumente pentru Data-Mining

Principalii producători de soft pentruData-Mining

ndash IBM ndash Intelligent Miner extensie pentru DB2

ndash SAS ndash Enterprise Miner

ndash SPSS ndash Clementine

ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)

ndash hellipmulți alți producători mai mici

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5457

54

Instrumente pentru Data-Mining

SPSS - Clementine

ndash httpwwwspsscomclementine Oracle - Darwin

ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet

ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner

ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml

Standarde Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5557

55

Standarde Data Mining

PMML (Predictive Modelling Markup Language)

ndash Limbaj similar XML pentru salvare și partajare de

modele (cel mai acceptat standard)

CRISP

ndash Metodologie standardizată pentru construirea deaplicații Data Mining

OLE DB pentru Data Mining

ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)

IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5657

56

1 INTRODUCERE

2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE

3-7

CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale

Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici

8 CLUSTERIZARE (ANALIZA CLUSTERILOR)

9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA

ASOCIERILOR)

10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR

11 EVALUAREA MODELELOR

12 APLICAŢII ŞI TENDINŢE IN DATA MINING

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5757

Mulţumesc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3157

31

Proces

Data mining inima

procesului de

descoperire a

cunoaşterii

Curăţirea datelor

Baze dedate

Data Warehouse

Date relevante

Data Mining

Evaluarea configuraţiilor

C ţi icirc t d ti b ă d

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3257

32

Comparaţie icircntre procesarea de tip bază de

date şi cea de tip Data Mining

Interogare ndash Bine definită ndash SQL

Interogare ndash Slab definită ndash Nu există limbaj precis de

interogare

Date ndash Date operaţ ionale

Ieşirea ndash Precisă ndash Subset al bazei dedate

Date ndash Date neoperaţionale

Ieşirea ndash Vagă ndash Nu este un subset al bazeide date

E l d i t ă i

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3357

33

Exemple de interogări

Bază de date

Data Mining

ndash Găseşte toţi clienţii care au cumpărat lapte

ndash Găseşte toţi clienţii care au cumpărat frecvent

lapte (Reguli de asociere)

ndash Găseşte toţi titularii de credite cu numele Smith ndash Identifică toţi clienţii care au cumpărat de maimult de $10000 icircn ultima lună

ndash Găseşte toţi titularii de credite cu risc mic decreditare (Clasificare)

ndash Identifică clienţii cu obiceiuri similare decumpărare (Grupare)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3457

34

Modele şi tehnici Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3557

35

Verificarea ipotezelor şi căutarea cunoştinţelor

Aplicarea tehnicilor de data mining poate fi făcută dinperspectiva unui demers ascendent sau descendent

Icircn abordarea descendentă efortul este orientat spre

confirmarea sau infirmarea unor idei (ipoteze) formulate icircnprealabil prin alte mijloace

Abordarea ascendentă are o cu totul altă finalitate ea

urmăreşte extragerea de cunoştinţe sau informaţii noi din dateledisponibile

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3657

36

Căutarea poate fi dirijată sau nedirijată

Căutarea dirijată ia icircn considerare un atribut sau un cacircmpale cărui valori icircncearcă să le explice prin celelalte cacircmpuriEste cea mai folosită icircn practică

Căutarea nedirijată are ca scop identificarea relaţiilor saustructurilor existente icircn ansamblul datelor examinate fără aacorda prioritate unui cacircmp sau altul

Deşi mai spectaculoasă icircn practică se recurge mult maipuţin la ea decacirct la căutarea dirijată

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3757

37

Data mining

verificarea

ipotezelor

căutarea de

cunoştinţe

dirijată nedirijată

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3857

38

Tehnici şi acţiuni

Data mining exploatează colecţiile de date de care dispune o

organizaţie

La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei

icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc

Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod

intrinsec

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3957

39

Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de

icircnţeles o tendinţă relevată de un număr foarte mare de cazuri

practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii

Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se

reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor

raţionamentele bazate pe cazuri analiza legăturilor

La acestea se pot asocia şi tehnici statistice cum sunt spre

exemplu regresiile analiza factorială etc

M d l di ti

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4057

40 40

Modele predictivehellip

Arbori de decizie

Clasificări după cel mai apropiat vecin

Reţele neuronale

Reguli

Analiza grupurilor

A l d i i ă l ă l i i

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4157

41

Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea

predicţiagrupareaanaliza grupărilor

Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un

grup limitat de clase predefinite

Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut

mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4257

42

Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare

Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări

Predicţia urmăreşte să claseze icircnregistrările tratate icircn

funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un

model care să explice comportamentul observat

Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora

icircn viitor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4357

43

Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună

Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei

Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster

Spre deosebire de celelalte tipuri de acţiuni asemănătoare

aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4457

44

Etapele procesului de exploatare a datelor

Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare

Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date

colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4557

45

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4657

46

Evaluarea modelului

Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare

Integrarea modelului

Această etapă finalizează procesul prin includerea

modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4757

172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up

Overview of Fisherrsquos Iris Dataset

Fisherrsquos iris dataset is available for download from the tutorial website

httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls

Iris photos courtesy of SIGNA ndash wwwsignaorg

Fisherrsquos iris dataset is well-known in

data mining research

This dataset is commonly used to

illustrate data mining tools

Mark Polczynski PhD The Technology Forge mhptechforgegmailnet

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4857

172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up

Fisherrsquos Database - Background

Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems

Annals of Eugenics 7 179 ndash188 available at

httpdigitallibraryadelaideeduaucollspecialfisher138pdf

iris setosa iris versicolor iris virginica

Dataset contains flower dimension measurements on 50 samples of each species

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4957

172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up

Fisherrsquos Dataset- Background

Data mining terminology

bull The four iris dimensions are termed attributes or input attributes

bull The three iris species are termed classes or output attributes

bull Each example of an iris is termed a sample or instance

Anderson measured these dimensions

bull sepal length

bull sepal width

bull petal length

bull petal width

Measurements on these iris speciesbull setosa

bull versicolor

bull virginica

S t f Fi h rsquo I i D t t

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5057

172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up

Segment of Fisherrsquos Iris Dataset

Input Output

Attributes Attribute

Inst

Sepal

Length

Sepal

Width

Petal

Length

Petal

Width Species1 51 35 14 02 setosa

2 49 3 14 02 setosa

3 47 32 13 02 setosa

4 46 31 15 02 setosa5 5 36 14 02 setosa

Numerical Nominal

ClassSample

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5157

172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up

What Problem are We Trying to Solve

Iris setosa

Weka

decisiontree

Iris versicolor

Iris virginica

Our taskClassify unknown iris using

measurements on 150 iris

samples of known species

Instrumente pentru Data-Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5257

52

Instrumente pentru Data-Mining

Weka Documentation httpwwwcswaikatoacnzmlweka

Waikato Environment for Knowledge Analysis

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5357

53

Instrumente pentru Data-Mining

Principalii producători de soft pentruData-Mining

ndash IBM ndash Intelligent Miner extensie pentru DB2

ndash SAS ndash Enterprise Miner

ndash SPSS ndash Clementine

ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)

ndash hellipmulți alți producători mai mici

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5457

54

Instrumente pentru Data-Mining

SPSS - Clementine

ndash httpwwwspsscomclementine Oracle - Darwin

ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet

ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner

ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml

Standarde Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5557

55

Standarde Data Mining

PMML (Predictive Modelling Markup Language)

ndash Limbaj similar XML pentru salvare și partajare de

modele (cel mai acceptat standard)

CRISP

ndash Metodologie standardizată pentru construirea deaplicații Data Mining

OLE DB pentru Data Mining

ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)

IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5657

56

1 INTRODUCERE

2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE

3-7

CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale

Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici

8 CLUSTERIZARE (ANALIZA CLUSTERILOR)

9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA

ASOCIERILOR)

10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR

11 EVALUAREA MODELELOR

12 APLICAŢII ŞI TENDINŢE IN DATA MINING

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5757

Mulţumesc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3257

32

Comparaţie icircntre procesarea de tip bază de

date şi cea de tip Data Mining

Interogare ndash Bine definită ndash SQL

Interogare ndash Slab definită ndash Nu există limbaj precis de

interogare

Date ndash Date operaţ ionale

Ieşirea ndash Precisă ndash Subset al bazei dedate

Date ndash Date neoperaţionale

Ieşirea ndash Vagă ndash Nu este un subset al bazeide date

E l d i t ă i

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3357

33

Exemple de interogări

Bază de date

Data Mining

ndash Găseşte toţi clienţii care au cumpărat lapte

ndash Găseşte toţi clienţii care au cumpărat frecvent

lapte (Reguli de asociere)

ndash Găseşte toţi titularii de credite cu numele Smith ndash Identifică toţi clienţii care au cumpărat de maimult de $10000 icircn ultima lună

ndash Găseşte toţi titularii de credite cu risc mic decreditare (Clasificare)

ndash Identifică clienţii cu obiceiuri similare decumpărare (Grupare)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3457

34

Modele şi tehnici Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3557

35

Verificarea ipotezelor şi căutarea cunoştinţelor

Aplicarea tehnicilor de data mining poate fi făcută dinperspectiva unui demers ascendent sau descendent

Icircn abordarea descendentă efortul este orientat spre

confirmarea sau infirmarea unor idei (ipoteze) formulate icircnprealabil prin alte mijloace

Abordarea ascendentă are o cu totul altă finalitate ea

urmăreşte extragerea de cunoştinţe sau informaţii noi din dateledisponibile

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3657

36

Căutarea poate fi dirijată sau nedirijată

Căutarea dirijată ia icircn considerare un atribut sau un cacircmpale cărui valori icircncearcă să le explice prin celelalte cacircmpuriEste cea mai folosită icircn practică

Căutarea nedirijată are ca scop identificarea relaţiilor saustructurilor existente icircn ansamblul datelor examinate fără aacorda prioritate unui cacircmp sau altul

Deşi mai spectaculoasă icircn practică se recurge mult maipuţin la ea decacirct la căutarea dirijată

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3757

37

Data mining

verificarea

ipotezelor

căutarea de

cunoştinţe

dirijată nedirijată

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3857

38

Tehnici şi acţiuni

Data mining exploatează colecţiile de date de care dispune o

organizaţie

La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei

icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc

Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod

intrinsec

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3957

39

Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de

icircnţeles o tendinţă relevată de un număr foarte mare de cazuri

practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii

Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se

reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor

raţionamentele bazate pe cazuri analiza legăturilor

La acestea se pot asocia şi tehnici statistice cum sunt spre

exemplu regresiile analiza factorială etc

M d l di ti

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4057

40 40

Modele predictivehellip

Arbori de decizie

Clasificări după cel mai apropiat vecin

Reţele neuronale

Reguli

Analiza grupurilor

A l d i i ă l ă l i i

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4157

41

Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea

predicţiagrupareaanaliza grupărilor

Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un

grup limitat de clase predefinite

Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut

mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4257

42

Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare

Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări

Predicţia urmăreşte să claseze icircnregistrările tratate icircn

funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un

model care să explice comportamentul observat

Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora

icircn viitor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4357

43

Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună

Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei

Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster

Spre deosebire de celelalte tipuri de acţiuni asemănătoare

aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4457

44

Etapele procesului de exploatare a datelor

Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare

Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date

colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4557

45

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4657

46

Evaluarea modelului

Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare

Integrarea modelului

Această etapă finalizează procesul prin includerea

modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4757

172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up

Overview of Fisherrsquos Iris Dataset

Fisherrsquos iris dataset is available for download from the tutorial website

httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls

Iris photos courtesy of SIGNA ndash wwwsignaorg

Fisherrsquos iris dataset is well-known in

data mining research

This dataset is commonly used to

illustrate data mining tools

Mark Polczynski PhD The Technology Forge mhptechforgegmailnet

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4857

172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up

Fisherrsquos Database - Background

Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems

Annals of Eugenics 7 179 ndash188 available at

httpdigitallibraryadelaideeduaucollspecialfisher138pdf

iris setosa iris versicolor iris virginica

Dataset contains flower dimension measurements on 50 samples of each species

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4957

172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up

Fisherrsquos Dataset- Background

Data mining terminology

bull The four iris dimensions are termed attributes or input attributes

bull The three iris species are termed classes or output attributes

bull Each example of an iris is termed a sample or instance

Anderson measured these dimensions

bull sepal length

bull sepal width

bull petal length

bull petal width

Measurements on these iris speciesbull setosa

bull versicolor

bull virginica

S t f Fi h rsquo I i D t t

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5057

172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up

Segment of Fisherrsquos Iris Dataset

Input Output

Attributes Attribute

Inst

Sepal

Length

Sepal

Width

Petal

Length

Petal

Width Species1 51 35 14 02 setosa

2 49 3 14 02 setosa

3 47 32 13 02 setosa

4 46 31 15 02 setosa5 5 36 14 02 setosa

Numerical Nominal

ClassSample

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5157

172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up

What Problem are We Trying to Solve

Iris setosa

Weka

decisiontree

Iris versicolor

Iris virginica

Our taskClassify unknown iris using

measurements on 150 iris

samples of known species

Instrumente pentru Data-Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5257

52

Instrumente pentru Data-Mining

Weka Documentation httpwwwcswaikatoacnzmlweka

Waikato Environment for Knowledge Analysis

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5357

53

Instrumente pentru Data-Mining

Principalii producători de soft pentruData-Mining

ndash IBM ndash Intelligent Miner extensie pentru DB2

ndash SAS ndash Enterprise Miner

ndash SPSS ndash Clementine

ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)

ndash hellipmulți alți producători mai mici

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5457

54

Instrumente pentru Data-Mining

SPSS - Clementine

ndash httpwwwspsscomclementine Oracle - Darwin

ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet

ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner

ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml

Standarde Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5557

55

Standarde Data Mining

PMML (Predictive Modelling Markup Language)

ndash Limbaj similar XML pentru salvare și partajare de

modele (cel mai acceptat standard)

CRISP

ndash Metodologie standardizată pentru construirea deaplicații Data Mining

OLE DB pentru Data Mining

ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)

IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5657

56

1 INTRODUCERE

2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE

3-7

CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale

Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici

8 CLUSTERIZARE (ANALIZA CLUSTERILOR)

9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA

ASOCIERILOR)

10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR

11 EVALUAREA MODELELOR

12 APLICAŢII ŞI TENDINŢE IN DATA MINING

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5757

Mulţumesc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3357

33

Exemple de interogări

Bază de date

Data Mining

ndash Găseşte toţi clienţii care au cumpărat lapte

ndash Găseşte toţi clienţii care au cumpărat frecvent

lapte (Reguli de asociere)

ndash Găseşte toţi titularii de credite cu numele Smith ndash Identifică toţi clienţii care au cumpărat de maimult de $10000 icircn ultima lună

ndash Găseşte toţi titularii de credite cu risc mic decreditare (Clasificare)

ndash Identifică clienţii cu obiceiuri similare decumpărare (Grupare)

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3457

34

Modele şi tehnici Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3557

35

Verificarea ipotezelor şi căutarea cunoştinţelor

Aplicarea tehnicilor de data mining poate fi făcută dinperspectiva unui demers ascendent sau descendent

Icircn abordarea descendentă efortul este orientat spre

confirmarea sau infirmarea unor idei (ipoteze) formulate icircnprealabil prin alte mijloace

Abordarea ascendentă are o cu totul altă finalitate ea

urmăreşte extragerea de cunoştinţe sau informaţii noi din dateledisponibile

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3657

36

Căutarea poate fi dirijată sau nedirijată

Căutarea dirijată ia icircn considerare un atribut sau un cacircmpale cărui valori icircncearcă să le explice prin celelalte cacircmpuriEste cea mai folosită icircn practică

Căutarea nedirijată are ca scop identificarea relaţiilor saustructurilor existente icircn ansamblul datelor examinate fără aacorda prioritate unui cacircmp sau altul

Deşi mai spectaculoasă icircn practică se recurge mult maipuţin la ea decacirct la căutarea dirijată

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3757

37

Data mining

verificarea

ipotezelor

căutarea de

cunoştinţe

dirijată nedirijată

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3857

38

Tehnici şi acţiuni

Data mining exploatează colecţiile de date de care dispune o

organizaţie

La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei

icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc

Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod

intrinsec

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3957

39

Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de

icircnţeles o tendinţă relevată de un număr foarte mare de cazuri

practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii

Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se

reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor

raţionamentele bazate pe cazuri analiza legăturilor

La acestea se pot asocia şi tehnici statistice cum sunt spre

exemplu regresiile analiza factorială etc

M d l di ti

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4057

40 40

Modele predictivehellip

Arbori de decizie

Clasificări după cel mai apropiat vecin

Reţele neuronale

Reguli

Analiza grupurilor

A l d i i ă l ă l i i

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4157

41

Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea

predicţiagrupareaanaliza grupărilor

Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un

grup limitat de clase predefinite

Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut

mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4257

42

Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare

Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări

Predicţia urmăreşte să claseze icircnregistrările tratate icircn

funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un

model care să explice comportamentul observat

Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora

icircn viitor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4357

43

Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună

Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei

Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster

Spre deosebire de celelalte tipuri de acţiuni asemănătoare

aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4457

44

Etapele procesului de exploatare a datelor

Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare

Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date

colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4557

45

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4657

46

Evaluarea modelului

Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare

Integrarea modelului

Această etapă finalizează procesul prin includerea

modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4757

172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up

Overview of Fisherrsquos Iris Dataset

Fisherrsquos iris dataset is available for download from the tutorial website

httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls

Iris photos courtesy of SIGNA ndash wwwsignaorg

Fisherrsquos iris dataset is well-known in

data mining research

This dataset is commonly used to

illustrate data mining tools

Mark Polczynski PhD The Technology Forge mhptechforgegmailnet

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4857

172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up

Fisherrsquos Database - Background

Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems

Annals of Eugenics 7 179 ndash188 available at

httpdigitallibraryadelaideeduaucollspecialfisher138pdf

iris setosa iris versicolor iris virginica

Dataset contains flower dimension measurements on 50 samples of each species

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4957

172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up

Fisherrsquos Dataset- Background

Data mining terminology

bull The four iris dimensions are termed attributes or input attributes

bull The three iris species are termed classes or output attributes

bull Each example of an iris is termed a sample or instance

Anderson measured these dimensions

bull sepal length

bull sepal width

bull petal length

bull petal width

Measurements on these iris speciesbull setosa

bull versicolor

bull virginica

S t f Fi h rsquo I i D t t

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5057

172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up

Segment of Fisherrsquos Iris Dataset

Input Output

Attributes Attribute

Inst

Sepal

Length

Sepal

Width

Petal

Length

Petal

Width Species1 51 35 14 02 setosa

2 49 3 14 02 setosa

3 47 32 13 02 setosa

4 46 31 15 02 setosa5 5 36 14 02 setosa

Numerical Nominal

ClassSample

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5157

172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up

What Problem are We Trying to Solve

Iris setosa

Weka

decisiontree

Iris versicolor

Iris virginica

Our taskClassify unknown iris using

measurements on 150 iris

samples of known species

Instrumente pentru Data-Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5257

52

Instrumente pentru Data-Mining

Weka Documentation httpwwwcswaikatoacnzmlweka

Waikato Environment for Knowledge Analysis

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5357

53

Instrumente pentru Data-Mining

Principalii producători de soft pentruData-Mining

ndash IBM ndash Intelligent Miner extensie pentru DB2

ndash SAS ndash Enterprise Miner

ndash SPSS ndash Clementine

ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)

ndash hellipmulți alți producători mai mici

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5457

54

Instrumente pentru Data-Mining

SPSS - Clementine

ndash httpwwwspsscomclementine Oracle - Darwin

ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet

ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner

ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml

Standarde Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5557

55

Standarde Data Mining

PMML (Predictive Modelling Markup Language)

ndash Limbaj similar XML pentru salvare și partajare de

modele (cel mai acceptat standard)

CRISP

ndash Metodologie standardizată pentru construirea deaplicații Data Mining

OLE DB pentru Data Mining

ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)

IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5657

56

1 INTRODUCERE

2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE

3-7

CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale

Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici

8 CLUSTERIZARE (ANALIZA CLUSTERILOR)

9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA

ASOCIERILOR)

10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR

11 EVALUAREA MODELELOR

12 APLICAŢII ŞI TENDINŢE IN DATA MINING

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5757

Mulţumesc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3457

34

Modele şi tehnici Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3557

35

Verificarea ipotezelor şi căutarea cunoştinţelor

Aplicarea tehnicilor de data mining poate fi făcută dinperspectiva unui demers ascendent sau descendent

Icircn abordarea descendentă efortul este orientat spre

confirmarea sau infirmarea unor idei (ipoteze) formulate icircnprealabil prin alte mijloace

Abordarea ascendentă are o cu totul altă finalitate ea

urmăreşte extragerea de cunoştinţe sau informaţii noi din dateledisponibile

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3657

36

Căutarea poate fi dirijată sau nedirijată

Căutarea dirijată ia icircn considerare un atribut sau un cacircmpale cărui valori icircncearcă să le explice prin celelalte cacircmpuriEste cea mai folosită icircn practică

Căutarea nedirijată are ca scop identificarea relaţiilor saustructurilor existente icircn ansamblul datelor examinate fără aacorda prioritate unui cacircmp sau altul

Deşi mai spectaculoasă icircn practică se recurge mult maipuţin la ea decacirct la căutarea dirijată

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3757

37

Data mining

verificarea

ipotezelor

căutarea de

cunoştinţe

dirijată nedirijată

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3857

38

Tehnici şi acţiuni

Data mining exploatează colecţiile de date de care dispune o

organizaţie

La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei

icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc

Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod

intrinsec

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3957

39

Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de

icircnţeles o tendinţă relevată de un număr foarte mare de cazuri

practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii

Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se

reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor

raţionamentele bazate pe cazuri analiza legăturilor

La acestea se pot asocia şi tehnici statistice cum sunt spre

exemplu regresiile analiza factorială etc

M d l di ti

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4057

40 40

Modele predictivehellip

Arbori de decizie

Clasificări după cel mai apropiat vecin

Reţele neuronale

Reguli

Analiza grupurilor

A l d i i ă l ă l i i

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4157

41

Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea

predicţiagrupareaanaliza grupărilor

Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un

grup limitat de clase predefinite

Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut

mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4257

42

Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare

Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări

Predicţia urmăreşte să claseze icircnregistrările tratate icircn

funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un

model care să explice comportamentul observat

Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora

icircn viitor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4357

43

Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună

Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei

Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster

Spre deosebire de celelalte tipuri de acţiuni asemănătoare

aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4457

44

Etapele procesului de exploatare a datelor

Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare

Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date

colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4557

45

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4657

46

Evaluarea modelului

Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare

Integrarea modelului

Această etapă finalizează procesul prin includerea

modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4757

172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up

Overview of Fisherrsquos Iris Dataset

Fisherrsquos iris dataset is available for download from the tutorial website

httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls

Iris photos courtesy of SIGNA ndash wwwsignaorg

Fisherrsquos iris dataset is well-known in

data mining research

This dataset is commonly used to

illustrate data mining tools

Mark Polczynski PhD The Technology Forge mhptechforgegmailnet

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4857

172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up

Fisherrsquos Database - Background

Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems

Annals of Eugenics 7 179 ndash188 available at

httpdigitallibraryadelaideeduaucollspecialfisher138pdf

iris setosa iris versicolor iris virginica

Dataset contains flower dimension measurements on 50 samples of each species

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4957

172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up

Fisherrsquos Dataset- Background

Data mining terminology

bull The four iris dimensions are termed attributes or input attributes

bull The three iris species are termed classes or output attributes

bull Each example of an iris is termed a sample or instance

Anderson measured these dimensions

bull sepal length

bull sepal width

bull petal length

bull petal width

Measurements on these iris speciesbull setosa

bull versicolor

bull virginica

S t f Fi h rsquo I i D t t

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5057

172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up

Segment of Fisherrsquos Iris Dataset

Input Output

Attributes Attribute

Inst

Sepal

Length

Sepal

Width

Petal

Length

Petal

Width Species1 51 35 14 02 setosa

2 49 3 14 02 setosa

3 47 32 13 02 setosa

4 46 31 15 02 setosa5 5 36 14 02 setosa

Numerical Nominal

ClassSample

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5157

172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up

What Problem are We Trying to Solve

Iris setosa

Weka

decisiontree

Iris versicolor

Iris virginica

Our taskClassify unknown iris using

measurements on 150 iris

samples of known species

Instrumente pentru Data-Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5257

52

Instrumente pentru Data-Mining

Weka Documentation httpwwwcswaikatoacnzmlweka

Waikato Environment for Knowledge Analysis

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5357

53

Instrumente pentru Data-Mining

Principalii producători de soft pentruData-Mining

ndash IBM ndash Intelligent Miner extensie pentru DB2

ndash SAS ndash Enterprise Miner

ndash SPSS ndash Clementine

ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)

ndash hellipmulți alți producători mai mici

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5457

54

Instrumente pentru Data-Mining

SPSS - Clementine

ndash httpwwwspsscomclementine Oracle - Darwin

ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet

ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner

ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml

Standarde Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5557

55

Standarde Data Mining

PMML (Predictive Modelling Markup Language)

ndash Limbaj similar XML pentru salvare și partajare de

modele (cel mai acceptat standard)

CRISP

ndash Metodologie standardizată pentru construirea deaplicații Data Mining

OLE DB pentru Data Mining

ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)

IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5657

56

1 INTRODUCERE

2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE

3-7

CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale

Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici

8 CLUSTERIZARE (ANALIZA CLUSTERILOR)

9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA

ASOCIERILOR)

10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR

11 EVALUAREA MODELELOR

12 APLICAŢII ŞI TENDINŢE IN DATA MINING

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5757

Mulţumesc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3557

35

Verificarea ipotezelor şi căutarea cunoştinţelor

Aplicarea tehnicilor de data mining poate fi făcută dinperspectiva unui demers ascendent sau descendent

Icircn abordarea descendentă efortul este orientat spre

confirmarea sau infirmarea unor idei (ipoteze) formulate icircnprealabil prin alte mijloace

Abordarea ascendentă are o cu totul altă finalitate ea

urmăreşte extragerea de cunoştinţe sau informaţii noi din dateledisponibile

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3657

36

Căutarea poate fi dirijată sau nedirijată

Căutarea dirijată ia icircn considerare un atribut sau un cacircmpale cărui valori icircncearcă să le explice prin celelalte cacircmpuriEste cea mai folosită icircn practică

Căutarea nedirijată are ca scop identificarea relaţiilor saustructurilor existente icircn ansamblul datelor examinate fără aacorda prioritate unui cacircmp sau altul

Deşi mai spectaculoasă icircn practică se recurge mult maipuţin la ea decacirct la căutarea dirijată

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3757

37

Data mining

verificarea

ipotezelor

căutarea de

cunoştinţe

dirijată nedirijată

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3857

38

Tehnici şi acţiuni

Data mining exploatează colecţiile de date de care dispune o

organizaţie

La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei

icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc

Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod

intrinsec

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3957

39

Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de

icircnţeles o tendinţă relevată de un număr foarte mare de cazuri

practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii

Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se

reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor

raţionamentele bazate pe cazuri analiza legăturilor

La acestea se pot asocia şi tehnici statistice cum sunt spre

exemplu regresiile analiza factorială etc

M d l di ti

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4057

40 40

Modele predictivehellip

Arbori de decizie

Clasificări după cel mai apropiat vecin

Reţele neuronale

Reguli

Analiza grupurilor

A l d i i ă l ă l i i

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4157

41

Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea

predicţiagrupareaanaliza grupărilor

Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un

grup limitat de clase predefinite

Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut

mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4257

42

Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare

Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări

Predicţia urmăreşte să claseze icircnregistrările tratate icircn

funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un

model care să explice comportamentul observat

Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora

icircn viitor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4357

43

Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună

Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei

Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster

Spre deosebire de celelalte tipuri de acţiuni asemănătoare

aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4457

44

Etapele procesului de exploatare a datelor

Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare

Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date

colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4557

45

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4657

46

Evaluarea modelului

Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare

Integrarea modelului

Această etapă finalizează procesul prin includerea

modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4757

172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up

Overview of Fisherrsquos Iris Dataset

Fisherrsquos iris dataset is available for download from the tutorial website

httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls

Iris photos courtesy of SIGNA ndash wwwsignaorg

Fisherrsquos iris dataset is well-known in

data mining research

This dataset is commonly used to

illustrate data mining tools

Mark Polczynski PhD The Technology Forge mhptechforgegmailnet

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4857

172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up

Fisherrsquos Database - Background

Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems

Annals of Eugenics 7 179 ndash188 available at

httpdigitallibraryadelaideeduaucollspecialfisher138pdf

iris setosa iris versicolor iris virginica

Dataset contains flower dimension measurements on 50 samples of each species

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4957

172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up

Fisherrsquos Dataset- Background

Data mining terminology

bull The four iris dimensions are termed attributes or input attributes

bull The three iris species are termed classes or output attributes

bull Each example of an iris is termed a sample or instance

Anderson measured these dimensions

bull sepal length

bull sepal width

bull petal length

bull petal width

Measurements on these iris speciesbull setosa

bull versicolor

bull virginica

S t f Fi h rsquo I i D t t

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5057

172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up

Segment of Fisherrsquos Iris Dataset

Input Output

Attributes Attribute

Inst

Sepal

Length

Sepal

Width

Petal

Length

Petal

Width Species1 51 35 14 02 setosa

2 49 3 14 02 setosa

3 47 32 13 02 setosa

4 46 31 15 02 setosa5 5 36 14 02 setosa

Numerical Nominal

ClassSample

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5157

172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up

What Problem are We Trying to Solve

Iris setosa

Weka

decisiontree

Iris versicolor

Iris virginica

Our taskClassify unknown iris using

measurements on 150 iris

samples of known species

Instrumente pentru Data-Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5257

52

Instrumente pentru Data-Mining

Weka Documentation httpwwwcswaikatoacnzmlweka

Waikato Environment for Knowledge Analysis

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5357

53

Instrumente pentru Data-Mining

Principalii producători de soft pentruData-Mining

ndash IBM ndash Intelligent Miner extensie pentru DB2

ndash SAS ndash Enterprise Miner

ndash SPSS ndash Clementine

ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)

ndash hellipmulți alți producători mai mici

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5457

54

Instrumente pentru Data-Mining

SPSS - Clementine

ndash httpwwwspsscomclementine Oracle - Darwin

ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet

ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner

ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml

Standarde Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5557

55

Standarde Data Mining

PMML (Predictive Modelling Markup Language)

ndash Limbaj similar XML pentru salvare și partajare de

modele (cel mai acceptat standard)

CRISP

ndash Metodologie standardizată pentru construirea deaplicații Data Mining

OLE DB pentru Data Mining

ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)

IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5657

56

1 INTRODUCERE

2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE

3-7

CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale

Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici

8 CLUSTERIZARE (ANALIZA CLUSTERILOR)

9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA

ASOCIERILOR)

10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR

11 EVALUAREA MODELELOR

12 APLICAŢII ŞI TENDINŢE IN DATA MINING

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5757

Mulţumesc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3657

36

Căutarea poate fi dirijată sau nedirijată

Căutarea dirijată ia icircn considerare un atribut sau un cacircmpale cărui valori icircncearcă să le explice prin celelalte cacircmpuriEste cea mai folosită icircn practică

Căutarea nedirijată are ca scop identificarea relaţiilor saustructurilor existente icircn ansamblul datelor examinate fără aacorda prioritate unui cacircmp sau altul

Deşi mai spectaculoasă icircn practică se recurge mult maipuţin la ea decacirct la căutarea dirijată

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3757

37

Data mining

verificarea

ipotezelor

căutarea de

cunoştinţe

dirijată nedirijată

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3857

38

Tehnici şi acţiuni

Data mining exploatează colecţiile de date de care dispune o

organizaţie

La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei

icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc

Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod

intrinsec

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3957

39

Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de

icircnţeles o tendinţă relevată de un număr foarte mare de cazuri

practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii

Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se

reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor

raţionamentele bazate pe cazuri analiza legăturilor

La acestea se pot asocia şi tehnici statistice cum sunt spre

exemplu regresiile analiza factorială etc

M d l di ti

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4057

40 40

Modele predictivehellip

Arbori de decizie

Clasificări după cel mai apropiat vecin

Reţele neuronale

Reguli

Analiza grupurilor

A l d i i ă l ă l i i

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4157

41

Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea

predicţiagrupareaanaliza grupărilor

Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un

grup limitat de clase predefinite

Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut

mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4257

42

Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare

Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări

Predicţia urmăreşte să claseze icircnregistrările tratate icircn

funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un

model care să explice comportamentul observat

Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora

icircn viitor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4357

43

Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună

Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei

Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster

Spre deosebire de celelalte tipuri de acţiuni asemănătoare

aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4457

44

Etapele procesului de exploatare a datelor

Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare

Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date

colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4557

45

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4657

46

Evaluarea modelului

Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare

Integrarea modelului

Această etapă finalizează procesul prin includerea

modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4757

172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up

Overview of Fisherrsquos Iris Dataset

Fisherrsquos iris dataset is available for download from the tutorial website

httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls

Iris photos courtesy of SIGNA ndash wwwsignaorg

Fisherrsquos iris dataset is well-known in

data mining research

This dataset is commonly used to

illustrate data mining tools

Mark Polczynski PhD The Technology Forge mhptechforgegmailnet

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4857

172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up

Fisherrsquos Database - Background

Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems

Annals of Eugenics 7 179 ndash188 available at

httpdigitallibraryadelaideeduaucollspecialfisher138pdf

iris setosa iris versicolor iris virginica

Dataset contains flower dimension measurements on 50 samples of each species

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4957

172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up

Fisherrsquos Dataset- Background

Data mining terminology

bull The four iris dimensions are termed attributes or input attributes

bull The three iris species are termed classes or output attributes

bull Each example of an iris is termed a sample or instance

Anderson measured these dimensions

bull sepal length

bull sepal width

bull petal length

bull petal width

Measurements on these iris speciesbull setosa

bull versicolor

bull virginica

S t f Fi h rsquo I i D t t

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5057

172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up

Segment of Fisherrsquos Iris Dataset

Input Output

Attributes Attribute

Inst

Sepal

Length

Sepal

Width

Petal

Length

Petal

Width Species1 51 35 14 02 setosa

2 49 3 14 02 setosa

3 47 32 13 02 setosa

4 46 31 15 02 setosa5 5 36 14 02 setosa

Numerical Nominal

ClassSample

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5157

172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up

What Problem are We Trying to Solve

Iris setosa

Weka

decisiontree

Iris versicolor

Iris virginica

Our taskClassify unknown iris using

measurements on 150 iris

samples of known species

Instrumente pentru Data-Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5257

52

Instrumente pentru Data-Mining

Weka Documentation httpwwwcswaikatoacnzmlweka

Waikato Environment for Knowledge Analysis

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5357

53

Instrumente pentru Data-Mining

Principalii producători de soft pentruData-Mining

ndash IBM ndash Intelligent Miner extensie pentru DB2

ndash SAS ndash Enterprise Miner

ndash SPSS ndash Clementine

ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)

ndash hellipmulți alți producători mai mici

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5457

54

Instrumente pentru Data-Mining

SPSS - Clementine

ndash httpwwwspsscomclementine Oracle - Darwin

ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet

ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner

ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml

Standarde Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5557

55

Standarde Data Mining

PMML (Predictive Modelling Markup Language)

ndash Limbaj similar XML pentru salvare și partajare de

modele (cel mai acceptat standard)

CRISP

ndash Metodologie standardizată pentru construirea deaplicații Data Mining

OLE DB pentru Data Mining

ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)

IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5657

56

1 INTRODUCERE

2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE

3-7

CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale

Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici

8 CLUSTERIZARE (ANALIZA CLUSTERILOR)

9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA

ASOCIERILOR)

10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR

11 EVALUAREA MODELELOR

12 APLICAŢII ŞI TENDINŢE IN DATA MINING

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5757

Mulţumesc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3757

37

Data mining

verificarea

ipotezelor

căutarea de

cunoştinţe

dirijată nedirijată

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3857

38

Tehnici şi acţiuni

Data mining exploatează colecţiile de date de care dispune o

organizaţie

La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei

icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc

Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod

intrinsec

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3957

39

Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de

icircnţeles o tendinţă relevată de un număr foarte mare de cazuri

practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii

Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se

reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor

raţionamentele bazate pe cazuri analiza legăturilor

La acestea se pot asocia şi tehnici statistice cum sunt spre

exemplu regresiile analiza factorială etc

M d l di ti

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4057

40 40

Modele predictivehellip

Arbori de decizie

Clasificări după cel mai apropiat vecin

Reţele neuronale

Reguli

Analiza grupurilor

A l d i i ă l ă l i i

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4157

41

Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea

predicţiagrupareaanaliza grupărilor

Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un

grup limitat de clase predefinite

Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut

mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4257

42

Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare

Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări

Predicţia urmăreşte să claseze icircnregistrările tratate icircn

funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un

model care să explice comportamentul observat

Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora

icircn viitor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4357

43

Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună

Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei

Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster

Spre deosebire de celelalte tipuri de acţiuni asemănătoare

aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4457

44

Etapele procesului de exploatare a datelor

Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare

Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date

colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4557

45

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4657

46

Evaluarea modelului

Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare

Integrarea modelului

Această etapă finalizează procesul prin includerea

modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4757

172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up

Overview of Fisherrsquos Iris Dataset

Fisherrsquos iris dataset is available for download from the tutorial website

httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls

Iris photos courtesy of SIGNA ndash wwwsignaorg

Fisherrsquos iris dataset is well-known in

data mining research

This dataset is commonly used to

illustrate data mining tools

Mark Polczynski PhD The Technology Forge mhptechforgegmailnet

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4857

172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up

Fisherrsquos Database - Background

Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems

Annals of Eugenics 7 179 ndash188 available at

httpdigitallibraryadelaideeduaucollspecialfisher138pdf

iris setosa iris versicolor iris virginica

Dataset contains flower dimension measurements on 50 samples of each species

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4957

172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up

Fisherrsquos Dataset- Background

Data mining terminology

bull The four iris dimensions are termed attributes or input attributes

bull The three iris species are termed classes or output attributes

bull Each example of an iris is termed a sample or instance

Anderson measured these dimensions

bull sepal length

bull sepal width

bull petal length

bull petal width

Measurements on these iris speciesbull setosa

bull versicolor

bull virginica

S t f Fi h rsquo I i D t t

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5057

172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up

Segment of Fisherrsquos Iris Dataset

Input Output

Attributes Attribute

Inst

Sepal

Length

Sepal

Width

Petal

Length

Petal

Width Species1 51 35 14 02 setosa

2 49 3 14 02 setosa

3 47 32 13 02 setosa

4 46 31 15 02 setosa5 5 36 14 02 setosa

Numerical Nominal

ClassSample

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5157

172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up

What Problem are We Trying to Solve

Iris setosa

Weka

decisiontree

Iris versicolor

Iris virginica

Our taskClassify unknown iris using

measurements on 150 iris

samples of known species

Instrumente pentru Data-Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5257

52

Instrumente pentru Data-Mining

Weka Documentation httpwwwcswaikatoacnzmlweka

Waikato Environment for Knowledge Analysis

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5357

53

Instrumente pentru Data-Mining

Principalii producători de soft pentruData-Mining

ndash IBM ndash Intelligent Miner extensie pentru DB2

ndash SAS ndash Enterprise Miner

ndash SPSS ndash Clementine

ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)

ndash hellipmulți alți producători mai mici

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5457

54

Instrumente pentru Data-Mining

SPSS - Clementine

ndash httpwwwspsscomclementine Oracle - Darwin

ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet

ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner

ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml

Standarde Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5557

55

Standarde Data Mining

PMML (Predictive Modelling Markup Language)

ndash Limbaj similar XML pentru salvare și partajare de

modele (cel mai acceptat standard)

CRISP

ndash Metodologie standardizată pentru construirea deaplicații Data Mining

OLE DB pentru Data Mining

ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)

IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5657

56

1 INTRODUCERE

2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE

3-7

CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale

Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici

8 CLUSTERIZARE (ANALIZA CLUSTERILOR)

9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA

ASOCIERILOR)

10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR

11 EVALUAREA MODELELOR

12 APLICAŢII ŞI TENDINŢE IN DATA MINING

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5757

Mulţumesc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3857

38

Tehnici şi acţiuni

Data mining exploatează colecţiile de date de care dispune o

organizaţie

La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei

icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc

Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod

intrinsec

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3957

39

Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de

icircnţeles o tendinţă relevată de un număr foarte mare de cazuri

practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii

Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se

reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor

raţionamentele bazate pe cazuri analiza legăturilor

La acestea se pot asocia şi tehnici statistice cum sunt spre

exemplu regresiile analiza factorială etc

M d l di ti

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4057

40 40

Modele predictivehellip

Arbori de decizie

Clasificări după cel mai apropiat vecin

Reţele neuronale

Reguli

Analiza grupurilor

A l d i i ă l ă l i i

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4157

41

Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea

predicţiagrupareaanaliza grupărilor

Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un

grup limitat de clase predefinite

Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut

mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4257

42

Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare

Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări

Predicţia urmăreşte să claseze icircnregistrările tratate icircn

funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un

model care să explice comportamentul observat

Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora

icircn viitor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4357

43

Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună

Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei

Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster

Spre deosebire de celelalte tipuri de acţiuni asemănătoare

aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4457

44

Etapele procesului de exploatare a datelor

Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare

Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date

colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4557

45

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4657

46

Evaluarea modelului

Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare

Integrarea modelului

Această etapă finalizează procesul prin includerea

modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4757

172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up

Overview of Fisherrsquos Iris Dataset

Fisherrsquos iris dataset is available for download from the tutorial website

httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls

Iris photos courtesy of SIGNA ndash wwwsignaorg

Fisherrsquos iris dataset is well-known in

data mining research

This dataset is commonly used to

illustrate data mining tools

Mark Polczynski PhD The Technology Forge mhptechforgegmailnet

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4857

172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up

Fisherrsquos Database - Background

Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems

Annals of Eugenics 7 179 ndash188 available at

httpdigitallibraryadelaideeduaucollspecialfisher138pdf

iris setosa iris versicolor iris virginica

Dataset contains flower dimension measurements on 50 samples of each species

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4957

172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up

Fisherrsquos Dataset- Background

Data mining terminology

bull The four iris dimensions are termed attributes or input attributes

bull The three iris species are termed classes or output attributes

bull Each example of an iris is termed a sample or instance

Anderson measured these dimensions

bull sepal length

bull sepal width

bull petal length

bull petal width

Measurements on these iris speciesbull setosa

bull versicolor

bull virginica

S t f Fi h rsquo I i D t t

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5057

172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up

Segment of Fisherrsquos Iris Dataset

Input Output

Attributes Attribute

Inst

Sepal

Length

Sepal

Width

Petal

Length

Petal

Width Species1 51 35 14 02 setosa

2 49 3 14 02 setosa

3 47 32 13 02 setosa

4 46 31 15 02 setosa5 5 36 14 02 setosa

Numerical Nominal

ClassSample

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5157

172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up

What Problem are We Trying to Solve

Iris setosa

Weka

decisiontree

Iris versicolor

Iris virginica

Our taskClassify unknown iris using

measurements on 150 iris

samples of known species

Instrumente pentru Data-Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5257

52

Instrumente pentru Data-Mining

Weka Documentation httpwwwcswaikatoacnzmlweka

Waikato Environment for Knowledge Analysis

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5357

53

Instrumente pentru Data-Mining

Principalii producători de soft pentruData-Mining

ndash IBM ndash Intelligent Miner extensie pentru DB2

ndash SAS ndash Enterprise Miner

ndash SPSS ndash Clementine

ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)

ndash hellipmulți alți producători mai mici

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5457

54

Instrumente pentru Data-Mining

SPSS - Clementine

ndash httpwwwspsscomclementine Oracle - Darwin

ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet

ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner

ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml

Standarde Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5557

55

Standarde Data Mining

PMML (Predictive Modelling Markup Language)

ndash Limbaj similar XML pentru salvare și partajare de

modele (cel mai acceptat standard)

CRISP

ndash Metodologie standardizată pentru construirea deaplicații Data Mining

OLE DB pentru Data Mining

ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)

IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5657

56

1 INTRODUCERE

2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE

3-7

CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale

Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici

8 CLUSTERIZARE (ANALIZA CLUSTERILOR)

9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA

ASOCIERILOR)

10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR

11 EVALUAREA MODELELOR

12 APLICAŢII ŞI TENDINŢE IN DATA MINING

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5757

Mulţumesc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 3957

39

Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de

icircnţeles o tendinţă relevată de un număr foarte mare de cazuri

practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii

Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se

reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor

raţionamentele bazate pe cazuri analiza legăturilor

La acestea se pot asocia şi tehnici statistice cum sunt spre

exemplu regresiile analiza factorială etc

M d l di ti

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4057

40 40

Modele predictivehellip

Arbori de decizie

Clasificări după cel mai apropiat vecin

Reţele neuronale

Reguli

Analiza grupurilor

A l d i i ă l ă l i i

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4157

41

Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea

predicţiagrupareaanaliza grupărilor

Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un

grup limitat de clase predefinite

Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut

mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4257

42

Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare

Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări

Predicţia urmăreşte să claseze icircnregistrările tratate icircn

funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un

model care să explice comportamentul observat

Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora

icircn viitor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4357

43

Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună

Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei

Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster

Spre deosebire de celelalte tipuri de acţiuni asemănătoare

aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4457

44

Etapele procesului de exploatare a datelor

Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare

Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date

colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4557

45

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4657

46

Evaluarea modelului

Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare

Integrarea modelului

Această etapă finalizează procesul prin includerea

modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4757

172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up

Overview of Fisherrsquos Iris Dataset

Fisherrsquos iris dataset is available for download from the tutorial website

httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls

Iris photos courtesy of SIGNA ndash wwwsignaorg

Fisherrsquos iris dataset is well-known in

data mining research

This dataset is commonly used to

illustrate data mining tools

Mark Polczynski PhD The Technology Forge mhptechforgegmailnet

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4857

172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up

Fisherrsquos Database - Background

Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems

Annals of Eugenics 7 179 ndash188 available at

httpdigitallibraryadelaideeduaucollspecialfisher138pdf

iris setosa iris versicolor iris virginica

Dataset contains flower dimension measurements on 50 samples of each species

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4957

172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up

Fisherrsquos Dataset- Background

Data mining terminology

bull The four iris dimensions are termed attributes or input attributes

bull The three iris species are termed classes or output attributes

bull Each example of an iris is termed a sample or instance

Anderson measured these dimensions

bull sepal length

bull sepal width

bull petal length

bull petal width

Measurements on these iris speciesbull setosa

bull versicolor

bull virginica

S t f Fi h rsquo I i D t t

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5057

172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up

Segment of Fisherrsquos Iris Dataset

Input Output

Attributes Attribute

Inst

Sepal

Length

Sepal

Width

Petal

Length

Petal

Width Species1 51 35 14 02 setosa

2 49 3 14 02 setosa

3 47 32 13 02 setosa

4 46 31 15 02 setosa5 5 36 14 02 setosa

Numerical Nominal

ClassSample

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5157

172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up

What Problem are We Trying to Solve

Iris setosa

Weka

decisiontree

Iris versicolor

Iris virginica

Our taskClassify unknown iris using

measurements on 150 iris

samples of known species

Instrumente pentru Data-Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5257

52

Instrumente pentru Data-Mining

Weka Documentation httpwwwcswaikatoacnzmlweka

Waikato Environment for Knowledge Analysis

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5357

53

Instrumente pentru Data-Mining

Principalii producători de soft pentruData-Mining

ndash IBM ndash Intelligent Miner extensie pentru DB2

ndash SAS ndash Enterprise Miner

ndash SPSS ndash Clementine

ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)

ndash hellipmulți alți producători mai mici

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5457

54

Instrumente pentru Data-Mining

SPSS - Clementine

ndash httpwwwspsscomclementine Oracle - Darwin

ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet

ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner

ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml

Standarde Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5557

55

Standarde Data Mining

PMML (Predictive Modelling Markup Language)

ndash Limbaj similar XML pentru salvare și partajare de

modele (cel mai acceptat standard)

CRISP

ndash Metodologie standardizată pentru construirea deaplicații Data Mining

OLE DB pentru Data Mining

ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)

IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5657

56

1 INTRODUCERE

2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE

3-7

CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale

Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici

8 CLUSTERIZARE (ANALIZA CLUSTERILOR)

9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA

ASOCIERILOR)

10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR

11 EVALUAREA MODELELOR

12 APLICAŢII ŞI TENDINŢE IN DATA MINING

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5757

Mulţumesc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4057

40 40

Modele predictivehellip

Arbori de decizie

Clasificări după cel mai apropiat vecin

Reţele neuronale

Reguli

Analiza grupurilor

A l d i i ă l ă l i i

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4157

41

Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea

predicţiagrupareaanaliza grupărilor

Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un

grup limitat de clase predefinite

Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut

mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4257

42

Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare

Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări

Predicţia urmăreşte să claseze icircnregistrările tratate icircn

funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un

model care să explice comportamentul observat

Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora

icircn viitor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4357

43

Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună

Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei

Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster

Spre deosebire de celelalte tipuri de acţiuni asemănătoare

aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4457

44

Etapele procesului de exploatare a datelor

Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare

Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date

colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4557

45

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4657

46

Evaluarea modelului

Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare

Integrarea modelului

Această etapă finalizează procesul prin includerea

modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4757

172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up

Overview of Fisherrsquos Iris Dataset

Fisherrsquos iris dataset is available for download from the tutorial website

httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls

Iris photos courtesy of SIGNA ndash wwwsignaorg

Fisherrsquos iris dataset is well-known in

data mining research

This dataset is commonly used to

illustrate data mining tools

Mark Polczynski PhD The Technology Forge mhptechforgegmailnet

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4857

172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up

Fisherrsquos Database - Background

Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems

Annals of Eugenics 7 179 ndash188 available at

httpdigitallibraryadelaideeduaucollspecialfisher138pdf

iris setosa iris versicolor iris virginica

Dataset contains flower dimension measurements on 50 samples of each species

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4957

172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up

Fisherrsquos Dataset- Background

Data mining terminology

bull The four iris dimensions are termed attributes or input attributes

bull The three iris species are termed classes or output attributes

bull Each example of an iris is termed a sample or instance

Anderson measured these dimensions

bull sepal length

bull sepal width

bull petal length

bull petal width

Measurements on these iris speciesbull setosa

bull versicolor

bull virginica

S t f Fi h rsquo I i D t t

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5057

172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up

Segment of Fisherrsquos Iris Dataset

Input Output

Attributes Attribute

Inst

Sepal

Length

Sepal

Width

Petal

Length

Petal

Width Species1 51 35 14 02 setosa

2 49 3 14 02 setosa

3 47 32 13 02 setosa

4 46 31 15 02 setosa5 5 36 14 02 setosa

Numerical Nominal

ClassSample

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5157

172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up

What Problem are We Trying to Solve

Iris setosa

Weka

decisiontree

Iris versicolor

Iris virginica

Our taskClassify unknown iris using

measurements on 150 iris

samples of known species

Instrumente pentru Data-Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5257

52

Instrumente pentru Data-Mining

Weka Documentation httpwwwcswaikatoacnzmlweka

Waikato Environment for Knowledge Analysis

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5357

53

Instrumente pentru Data-Mining

Principalii producători de soft pentruData-Mining

ndash IBM ndash Intelligent Miner extensie pentru DB2

ndash SAS ndash Enterprise Miner

ndash SPSS ndash Clementine

ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)

ndash hellipmulți alți producători mai mici

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5457

54

Instrumente pentru Data-Mining

SPSS - Clementine

ndash httpwwwspsscomclementine Oracle - Darwin

ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet

ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner

ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml

Standarde Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5557

55

Standarde Data Mining

PMML (Predictive Modelling Markup Language)

ndash Limbaj similar XML pentru salvare și partajare de

modele (cel mai acceptat standard)

CRISP

ndash Metodologie standardizată pentru construirea deaplicații Data Mining

OLE DB pentru Data Mining

ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)

IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5657

56

1 INTRODUCERE

2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE

3-7

CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale

Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici

8 CLUSTERIZARE (ANALIZA CLUSTERILOR)

9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA

ASOCIERILOR)

10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR

11 EVALUAREA MODELELOR

12 APLICAŢII ŞI TENDINŢE IN DATA MINING

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5757

Mulţumesc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4157

41

Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea

predicţiagrupareaanaliza grupărilor

Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un

grup limitat de clase predefinite

Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut

mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4257

42

Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare

Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări

Predicţia urmăreşte să claseze icircnregistrările tratate icircn

funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un

model care să explice comportamentul observat

Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora

icircn viitor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4357

43

Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună

Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei

Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster

Spre deosebire de celelalte tipuri de acţiuni asemănătoare

aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4457

44

Etapele procesului de exploatare a datelor

Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare

Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date

colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4557

45

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4657

46

Evaluarea modelului

Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare

Integrarea modelului

Această etapă finalizează procesul prin includerea

modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4757

172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up

Overview of Fisherrsquos Iris Dataset

Fisherrsquos iris dataset is available for download from the tutorial website

httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls

Iris photos courtesy of SIGNA ndash wwwsignaorg

Fisherrsquos iris dataset is well-known in

data mining research

This dataset is commonly used to

illustrate data mining tools

Mark Polczynski PhD The Technology Forge mhptechforgegmailnet

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4857

172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up

Fisherrsquos Database - Background

Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems

Annals of Eugenics 7 179 ndash188 available at

httpdigitallibraryadelaideeduaucollspecialfisher138pdf

iris setosa iris versicolor iris virginica

Dataset contains flower dimension measurements on 50 samples of each species

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4957

172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up

Fisherrsquos Dataset- Background

Data mining terminology

bull The four iris dimensions are termed attributes or input attributes

bull The three iris species are termed classes or output attributes

bull Each example of an iris is termed a sample or instance

Anderson measured these dimensions

bull sepal length

bull sepal width

bull petal length

bull petal width

Measurements on these iris speciesbull setosa

bull versicolor

bull virginica

S t f Fi h rsquo I i D t t

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5057

172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up

Segment of Fisherrsquos Iris Dataset

Input Output

Attributes Attribute

Inst

Sepal

Length

Sepal

Width

Petal

Length

Petal

Width Species1 51 35 14 02 setosa

2 49 3 14 02 setosa

3 47 32 13 02 setosa

4 46 31 15 02 setosa5 5 36 14 02 setosa

Numerical Nominal

ClassSample

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5157

172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up

What Problem are We Trying to Solve

Iris setosa

Weka

decisiontree

Iris versicolor

Iris virginica

Our taskClassify unknown iris using

measurements on 150 iris

samples of known species

Instrumente pentru Data-Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5257

52

Instrumente pentru Data-Mining

Weka Documentation httpwwwcswaikatoacnzmlweka

Waikato Environment for Knowledge Analysis

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5357

53

Instrumente pentru Data-Mining

Principalii producători de soft pentruData-Mining

ndash IBM ndash Intelligent Miner extensie pentru DB2

ndash SAS ndash Enterprise Miner

ndash SPSS ndash Clementine

ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)

ndash hellipmulți alți producători mai mici

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5457

54

Instrumente pentru Data-Mining

SPSS - Clementine

ndash httpwwwspsscomclementine Oracle - Darwin

ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet

ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner

ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml

Standarde Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5557

55

Standarde Data Mining

PMML (Predictive Modelling Markup Language)

ndash Limbaj similar XML pentru salvare și partajare de

modele (cel mai acceptat standard)

CRISP

ndash Metodologie standardizată pentru construirea deaplicații Data Mining

OLE DB pentru Data Mining

ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)

IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5657

56

1 INTRODUCERE

2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE

3-7

CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale

Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici

8 CLUSTERIZARE (ANALIZA CLUSTERILOR)

9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA

ASOCIERILOR)

10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR

11 EVALUAREA MODELELOR

12 APLICAŢII ŞI TENDINŢE IN DATA MINING

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5757

Mulţumesc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4257

42

Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare

Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări

Predicţia urmăreşte să claseze icircnregistrările tratate icircn

funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un

model care să explice comportamentul observat

Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora

icircn viitor

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4357

43

Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună

Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei

Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster

Spre deosebire de celelalte tipuri de acţiuni asemănătoare

aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4457

44

Etapele procesului de exploatare a datelor

Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare

Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date

colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4557

45

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4657

46

Evaluarea modelului

Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare

Integrarea modelului

Această etapă finalizează procesul prin includerea

modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4757

172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up

Overview of Fisherrsquos Iris Dataset

Fisherrsquos iris dataset is available for download from the tutorial website

httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls

Iris photos courtesy of SIGNA ndash wwwsignaorg

Fisherrsquos iris dataset is well-known in

data mining research

This dataset is commonly used to

illustrate data mining tools

Mark Polczynski PhD The Technology Forge mhptechforgegmailnet

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4857

172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up

Fisherrsquos Database - Background

Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems

Annals of Eugenics 7 179 ndash188 available at

httpdigitallibraryadelaideeduaucollspecialfisher138pdf

iris setosa iris versicolor iris virginica

Dataset contains flower dimension measurements on 50 samples of each species

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4957

172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up

Fisherrsquos Dataset- Background

Data mining terminology

bull The four iris dimensions are termed attributes or input attributes

bull The three iris species are termed classes or output attributes

bull Each example of an iris is termed a sample or instance

Anderson measured these dimensions

bull sepal length

bull sepal width

bull petal length

bull petal width

Measurements on these iris speciesbull setosa

bull versicolor

bull virginica

S t f Fi h rsquo I i D t t

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5057

172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up

Segment of Fisherrsquos Iris Dataset

Input Output

Attributes Attribute

Inst

Sepal

Length

Sepal

Width

Petal

Length

Petal

Width Species1 51 35 14 02 setosa

2 49 3 14 02 setosa

3 47 32 13 02 setosa

4 46 31 15 02 setosa5 5 36 14 02 setosa

Numerical Nominal

ClassSample

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5157

172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up

What Problem are We Trying to Solve

Iris setosa

Weka

decisiontree

Iris versicolor

Iris virginica

Our taskClassify unknown iris using

measurements on 150 iris

samples of known species

Instrumente pentru Data-Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5257

52

Instrumente pentru Data-Mining

Weka Documentation httpwwwcswaikatoacnzmlweka

Waikato Environment for Knowledge Analysis

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5357

53

Instrumente pentru Data-Mining

Principalii producători de soft pentruData-Mining

ndash IBM ndash Intelligent Miner extensie pentru DB2

ndash SAS ndash Enterprise Miner

ndash SPSS ndash Clementine

ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)

ndash hellipmulți alți producători mai mici

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5457

54

Instrumente pentru Data-Mining

SPSS - Clementine

ndash httpwwwspsscomclementine Oracle - Darwin

ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet

ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner

ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml

Standarde Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5557

55

Standarde Data Mining

PMML (Predictive Modelling Markup Language)

ndash Limbaj similar XML pentru salvare și partajare de

modele (cel mai acceptat standard)

CRISP

ndash Metodologie standardizată pentru construirea deaplicații Data Mining

OLE DB pentru Data Mining

ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)

IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5657

56

1 INTRODUCERE

2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE

3-7

CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale

Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici

8 CLUSTERIZARE (ANALIZA CLUSTERILOR)

9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA

ASOCIERILOR)

10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR

11 EVALUAREA MODELELOR

12 APLICAŢII ŞI TENDINŢE IN DATA MINING

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5757

Mulţumesc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4357

43

Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună

Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei

Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster

Spre deosebire de celelalte tipuri de acţiuni asemănătoare

aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4457

44

Etapele procesului de exploatare a datelor

Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare

Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date

colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4557

45

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4657

46

Evaluarea modelului

Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare

Integrarea modelului

Această etapă finalizează procesul prin includerea

modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4757

172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up

Overview of Fisherrsquos Iris Dataset

Fisherrsquos iris dataset is available for download from the tutorial website

httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls

Iris photos courtesy of SIGNA ndash wwwsignaorg

Fisherrsquos iris dataset is well-known in

data mining research

This dataset is commonly used to

illustrate data mining tools

Mark Polczynski PhD The Technology Forge mhptechforgegmailnet

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4857

172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up

Fisherrsquos Database - Background

Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems

Annals of Eugenics 7 179 ndash188 available at

httpdigitallibraryadelaideeduaucollspecialfisher138pdf

iris setosa iris versicolor iris virginica

Dataset contains flower dimension measurements on 50 samples of each species

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4957

172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up

Fisherrsquos Dataset- Background

Data mining terminology

bull The four iris dimensions are termed attributes or input attributes

bull The three iris species are termed classes or output attributes

bull Each example of an iris is termed a sample or instance

Anderson measured these dimensions

bull sepal length

bull sepal width

bull petal length

bull petal width

Measurements on these iris speciesbull setosa

bull versicolor

bull virginica

S t f Fi h rsquo I i D t t

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5057

172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up

Segment of Fisherrsquos Iris Dataset

Input Output

Attributes Attribute

Inst

Sepal

Length

Sepal

Width

Petal

Length

Petal

Width Species1 51 35 14 02 setosa

2 49 3 14 02 setosa

3 47 32 13 02 setosa

4 46 31 15 02 setosa5 5 36 14 02 setosa

Numerical Nominal

ClassSample

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5157

172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up

What Problem are We Trying to Solve

Iris setosa

Weka

decisiontree

Iris versicolor

Iris virginica

Our taskClassify unknown iris using

measurements on 150 iris

samples of known species

Instrumente pentru Data-Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5257

52

Instrumente pentru Data-Mining

Weka Documentation httpwwwcswaikatoacnzmlweka

Waikato Environment for Knowledge Analysis

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5357

53

Instrumente pentru Data-Mining

Principalii producători de soft pentruData-Mining

ndash IBM ndash Intelligent Miner extensie pentru DB2

ndash SAS ndash Enterprise Miner

ndash SPSS ndash Clementine

ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)

ndash hellipmulți alți producători mai mici

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5457

54

Instrumente pentru Data-Mining

SPSS - Clementine

ndash httpwwwspsscomclementine Oracle - Darwin

ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet

ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner

ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml

Standarde Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5557

55

Standarde Data Mining

PMML (Predictive Modelling Markup Language)

ndash Limbaj similar XML pentru salvare și partajare de

modele (cel mai acceptat standard)

CRISP

ndash Metodologie standardizată pentru construirea deaplicații Data Mining

OLE DB pentru Data Mining

ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)

IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5657

56

1 INTRODUCERE

2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE

3-7

CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale

Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici

8 CLUSTERIZARE (ANALIZA CLUSTERILOR)

9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA

ASOCIERILOR)

10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR

11 EVALUAREA MODELELOR

12 APLICAŢII ŞI TENDINŢE IN DATA MINING

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5757

Mulţumesc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4457

44

Etapele procesului de exploatare a datelor

Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare

Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date

colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4557

45

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4657

46

Evaluarea modelului

Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare

Integrarea modelului

Această etapă finalizează procesul prin includerea

modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4757

172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up

Overview of Fisherrsquos Iris Dataset

Fisherrsquos iris dataset is available for download from the tutorial website

httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls

Iris photos courtesy of SIGNA ndash wwwsignaorg

Fisherrsquos iris dataset is well-known in

data mining research

This dataset is commonly used to

illustrate data mining tools

Mark Polczynski PhD The Technology Forge mhptechforgegmailnet

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4857

172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up

Fisherrsquos Database - Background

Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems

Annals of Eugenics 7 179 ndash188 available at

httpdigitallibraryadelaideeduaucollspecialfisher138pdf

iris setosa iris versicolor iris virginica

Dataset contains flower dimension measurements on 50 samples of each species

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4957

172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up

Fisherrsquos Dataset- Background

Data mining terminology

bull The four iris dimensions are termed attributes or input attributes

bull The three iris species are termed classes or output attributes

bull Each example of an iris is termed a sample or instance

Anderson measured these dimensions

bull sepal length

bull sepal width

bull petal length

bull petal width

Measurements on these iris speciesbull setosa

bull versicolor

bull virginica

S t f Fi h rsquo I i D t t

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5057

172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up

Segment of Fisherrsquos Iris Dataset

Input Output

Attributes Attribute

Inst

Sepal

Length

Sepal

Width

Petal

Length

Petal

Width Species1 51 35 14 02 setosa

2 49 3 14 02 setosa

3 47 32 13 02 setosa

4 46 31 15 02 setosa5 5 36 14 02 setosa

Numerical Nominal

ClassSample

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5157

172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up

What Problem are We Trying to Solve

Iris setosa

Weka

decisiontree

Iris versicolor

Iris virginica

Our taskClassify unknown iris using

measurements on 150 iris

samples of known species

Instrumente pentru Data-Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5257

52

Instrumente pentru Data-Mining

Weka Documentation httpwwwcswaikatoacnzmlweka

Waikato Environment for Knowledge Analysis

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5357

53

Instrumente pentru Data-Mining

Principalii producători de soft pentruData-Mining

ndash IBM ndash Intelligent Miner extensie pentru DB2

ndash SAS ndash Enterprise Miner

ndash SPSS ndash Clementine

ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)

ndash hellipmulți alți producători mai mici

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5457

54

Instrumente pentru Data-Mining

SPSS - Clementine

ndash httpwwwspsscomclementine Oracle - Darwin

ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet

ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner

ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml

Standarde Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5557

55

Standarde Data Mining

PMML (Predictive Modelling Markup Language)

ndash Limbaj similar XML pentru salvare și partajare de

modele (cel mai acceptat standard)

CRISP

ndash Metodologie standardizată pentru construirea deaplicații Data Mining

OLE DB pentru Data Mining

ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)

IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5657

56

1 INTRODUCERE

2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE

3-7

CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale

Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici

8 CLUSTERIZARE (ANALIZA CLUSTERILOR)

9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA

ASOCIERILOR)

10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR

11 EVALUAREA MODELELOR

12 APLICAŢII ŞI TENDINŢE IN DATA MINING

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5757

Mulţumesc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4557

45

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4657

46

Evaluarea modelului

Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare

Integrarea modelului

Această etapă finalizează procesul prin includerea

modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4757

172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up

Overview of Fisherrsquos Iris Dataset

Fisherrsquos iris dataset is available for download from the tutorial website

httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls

Iris photos courtesy of SIGNA ndash wwwsignaorg

Fisherrsquos iris dataset is well-known in

data mining research

This dataset is commonly used to

illustrate data mining tools

Mark Polczynski PhD The Technology Forge mhptechforgegmailnet

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4857

172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up

Fisherrsquos Database - Background

Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems

Annals of Eugenics 7 179 ndash188 available at

httpdigitallibraryadelaideeduaucollspecialfisher138pdf

iris setosa iris versicolor iris virginica

Dataset contains flower dimension measurements on 50 samples of each species

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4957

172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up

Fisherrsquos Dataset- Background

Data mining terminology

bull The four iris dimensions are termed attributes or input attributes

bull The three iris species are termed classes or output attributes

bull Each example of an iris is termed a sample or instance

Anderson measured these dimensions

bull sepal length

bull sepal width

bull petal length

bull petal width

Measurements on these iris speciesbull setosa

bull versicolor

bull virginica

S t f Fi h rsquo I i D t t

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5057

172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up

Segment of Fisherrsquos Iris Dataset

Input Output

Attributes Attribute

Inst

Sepal

Length

Sepal

Width

Petal

Length

Petal

Width Species1 51 35 14 02 setosa

2 49 3 14 02 setosa

3 47 32 13 02 setosa

4 46 31 15 02 setosa5 5 36 14 02 setosa

Numerical Nominal

ClassSample

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5157

172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up

What Problem are We Trying to Solve

Iris setosa

Weka

decisiontree

Iris versicolor

Iris virginica

Our taskClassify unknown iris using

measurements on 150 iris

samples of known species

Instrumente pentru Data-Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5257

52

Instrumente pentru Data-Mining

Weka Documentation httpwwwcswaikatoacnzmlweka

Waikato Environment for Knowledge Analysis

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5357

53

Instrumente pentru Data-Mining

Principalii producători de soft pentruData-Mining

ndash IBM ndash Intelligent Miner extensie pentru DB2

ndash SAS ndash Enterprise Miner

ndash SPSS ndash Clementine

ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)

ndash hellipmulți alți producători mai mici

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5457

54

Instrumente pentru Data-Mining

SPSS - Clementine

ndash httpwwwspsscomclementine Oracle - Darwin

ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet

ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner

ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml

Standarde Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5557

55

Standarde Data Mining

PMML (Predictive Modelling Markup Language)

ndash Limbaj similar XML pentru salvare și partajare de

modele (cel mai acceptat standard)

CRISP

ndash Metodologie standardizată pentru construirea deaplicații Data Mining

OLE DB pentru Data Mining

ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)

IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5657

56

1 INTRODUCERE

2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE

3-7

CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale

Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici

8 CLUSTERIZARE (ANALIZA CLUSTERILOR)

9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA

ASOCIERILOR)

10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR

11 EVALUAREA MODELELOR

12 APLICAŢII ŞI TENDINŢE IN DATA MINING

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5757

Mulţumesc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4657

46

Evaluarea modelului

Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare

Integrarea modelului

Această etapă finalizează procesul prin includerea

modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4757

172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up

Overview of Fisherrsquos Iris Dataset

Fisherrsquos iris dataset is available for download from the tutorial website

httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls

Iris photos courtesy of SIGNA ndash wwwsignaorg

Fisherrsquos iris dataset is well-known in

data mining research

This dataset is commonly used to

illustrate data mining tools

Mark Polczynski PhD The Technology Forge mhptechforgegmailnet

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4857

172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up

Fisherrsquos Database - Background

Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems

Annals of Eugenics 7 179 ndash188 available at

httpdigitallibraryadelaideeduaucollspecialfisher138pdf

iris setosa iris versicolor iris virginica

Dataset contains flower dimension measurements on 50 samples of each species

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4957

172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up

Fisherrsquos Dataset- Background

Data mining terminology

bull The four iris dimensions are termed attributes or input attributes

bull The three iris species are termed classes or output attributes

bull Each example of an iris is termed a sample or instance

Anderson measured these dimensions

bull sepal length

bull sepal width

bull petal length

bull petal width

Measurements on these iris speciesbull setosa

bull versicolor

bull virginica

S t f Fi h rsquo I i D t t

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5057

172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up

Segment of Fisherrsquos Iris Dataset

Input Output

Attributes Attribute

Inst

Sepal

Length

Sepal

Width

Petal

Length

Petal

Width Species1 51 35 14 02 setosa

2 49 3 14 02 setosa

3 47 32 13 02 setosa

4 46 31 15 02 setosa5 5 36 14 02 setosa

Numerical Nominal

ClassSample

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5157

172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up

What Problem are We Trying to Solve

Iris setosa

Weka

decisiontree

Iris versicolor

Iris virginica

Our taskClassify unknown iris using

measurements on 150 iris

samples of known species

Instrumente pentru Data-Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5257

52

Instrumente pentru Data-Mining

Weka Documentation httpwwwcswaikatoacnzmlweka

Waikato Environment for Knowledge Analysis

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5357

53

Instrumente pentru Data-Mining

Principalii producători de soft pentruData-Mining

ndash IBM ndash Intelligent Miner extensie pentru DB2

ndash SAS ndash Enterprise Miner

ndash SPSS ndash Clementine

ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)

ndash hellipmulți alți producători mai mici

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5457

54

Instrumente pentru Data-Mining

SPSS - Clementine

ndash httpwwwspsscomclementine Oracle - Darwin

ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet

ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner

ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml

Standarde Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5557

55

Standarde Data Mining

PMML (Predictive Modelling Markup Language)

ndash Limbaj similar XML pentru salvare și partajare de

modele (cel mai acceptat standard)

CRISP

ndash Metodologie standardizată pentru construirea deaplicații Data Mining

OLE DB pentru Data Mining

ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)

IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5657

56

1 INTRODUCERE

2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE

3-7

CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale

Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici

8 CLUSTERIZARE (ANALIZA CLUSTERILOR)

9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA

ASOCIERILOR)

10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR

11 EVALUAREA MODELELOR

12 APLICAŢII ŞI TENDINŢE IN DATA MINING

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5757

Mulţumesc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4757

172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up

Overview of Fisherrsquos Iris Dataset

Fisherrsquos iris dataset is available for download from the tutorial website

httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls

Iris photos courtesy of SIGNA ndash wwwsignaorg

Fisherrsquos iris dataset is well-known in

data mining research

This dataset is commonly used to

illustrate data mining tools

Mark Polczynski PhD The Technology Forge mhptechforgegmailnet

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4857

172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up

Fisherrsquos Database - Background

Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems

Annals of Eugenics 7 179 ndash188 available at

httpdigitallibraryadelaideeduaucollspecialfisher138pdf

iris setosa iris versicolor iris virginica

Dataset contains flower dimension measurements on 50 samples of each species

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4957

172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up

Fisherrsquos Dataset- Background

Data mining terminology

bull The four iris dimensions are termed attributes or input attributes

bull The three iris species are termed classes or output attributes

bull Each example of an iris is termed a sample or instance

Anderson measured these dimensions

bull sepal length

bull sepal width

bull petal length

bull petal width

Measurements on these iris speciesbull setosa

bull versicolor

bull virginica

S t f Fi h rsquo I i D t t

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5057

172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up

Segment of Fisherrsquos Iris Dataset

Input Output

Attributes Attribute

Inst

Sepal

Length

Sepal

Width

Petal

Length

Petal

Width Species1 51 35 14 02 setosa

2 49 3 14 02 setosa

3 47 32 13 02 setosa

4 46 31 15 02 setosa5 5 36 14 02 setosa

Numerical Nominal

ClassSample

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5157

172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up

What Problem are We Trying to Solve

Iris setosa

Weka

decisiontree

Iris versicolor

Iris virginica

Our taskClassify unknown iris using

measurements on 150 iris

samples of known species

Instrumente pentru Data-Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5257

52

Instrumente pentru Data-Mining

Weka Documentation httpwwwcswaikatoacnzmlweka

Waikato Environment for Knowledge Analysis

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5357

53

Instrumente pentru Data-Mining

Principalii producători de soft pentruData-Mining

ndash IBM ndash Intelligent Miner extensie pentru DB2

ndash SAS ndash Enterprise Miner

ndash SPSS ndash Clementine

ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)

ndash hellipmulți alți producători mai mici

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5457

54

Instrumente pentru Data-Mining

SPSS - Clementine

ndash httpwwwspsscomclementine Oracle - Darwin

ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet

ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner

ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml

Standarde Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5557

55

Standarde Data Mining

PMML (Predictive Modelling Markup Language)

ndash Limbaj similar XML pentru salvare și partajare de

modele (cel mai acceptat standard)

CRISP

ndash Metodologie standardizată pentru construirea deaplicații Data Mining

OLE DB pentru Data Mining

ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)

IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5657

56

1 INTRODUCERE

2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE

3-7

CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale

Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici

8 CLUSTERIZARE (ANALIZA CLUSTERILOR)

9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA

ASOCIERILOR)

10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR

11 EVALUAREA MODELELOR

12 APLICAŢII ŞI TENDINŢE IN DATA MINING

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5757

Mulţumesc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4857

172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up

Fisherrsquos Database - Background

Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems

Annals of Eugenics 7 179 ndash188 available at

httpdigitallibraryadelaideeduaucollspecialfisher138pdf

iris setosa iris versicolor iris virginica

Dataset contains flower dimension measurements on 50 samples of each species

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4957

172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up

Fisherrsquos Dataset- Background

Data mining terminology

bull The four iris dimensions are termed attributes or input attributes

bull The three iris species are termed classes or output attributes

bull Each example of an iris is termed a sample or instance

Anderson measured these dimensions

bull sepal length

bull sepal width

bull petal length

bull petal width

Measurements on these iris speciesbull setosa

bull versicolor

bull virginica

S t f Fi h rsquo I i D t t

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5057

172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up

Segment of Fisherrsquos Iris Dataset

Input Output

Attributes Attribute

Inst

Sepal

Length

Sepal

Width

Petal

Length

Petal

Width Species1 51 35 14 02 setosa

2 49 3 14 02 setosa

3 47 32 13 02 setosa

4 46 31 15 02 setosa5 5 36 14 02 setosa

Numerical Nominal

ClassSample

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5157

172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up

What Problem are We Trying to Solve

Iris setosa

Weka

decisiontree

Iris versicolor

Iris virginica

Our taskClassify unknown iris using

measurements on 150 iris

samples of known species

Instrumente pentru Data-Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5257

52

Instrumente pentru Data-Mining

Weka Documentation httpwwwcswaikatoacnzmlweka

Waikato Environment for Knowledge Analysis

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5357

53

Instrumente pentru Data-Mining

Principalii producători de soft pentruData-Mining

ndash IBM ndash Intelligent Miner extensie pentru DB2

ndash SAS ndash Enterprise Miner

ndash SPSS ndash Clementine

ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)

ndash hellipmulți alți producători mai mici

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5457

54

Instrumente pentru Data-Mining

SPSS - Clementine

ndash httpwwwspsscomclementine Oracle - Darwin

ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet

ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner

ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml

Standarde Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5557

55

Standarde Data Mining

PMML (Predictive Modelling Markup Language)

ndash Limbaj similar XML pentru salvare și partajare de

modele (cel mai acceptat standard)

CRISP

ndash Metodologie standardizată pentru construirea deaplicații Data Mining

OLE DB pentru Data Mining

ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)

IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5657

56

1 INTRODUCERE

2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE

3-7

CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale

Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici

8 CLUSTERIZARE (ANALIZA CLUSTERILOR)

9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA

ASOCIERILOR)

10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR

11 EVALUAREA MODELELOR

12 APLICAŢII ŞI TENDINŢE IN DATA MINING

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5757

Mulţumesc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 4957

172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up

Fisherrsquos Dataset- Background

Data mining terminology

bull The four iris dimensions are termed attributes or input attributes

bull The three iris species are termed classes or output attributes

bull Each example of an iris is termed a sample or instance

Anderson measured these dimensions

bull sepal length

bull sepal width

bull petal length

bull petal width

Measurements on these iris speciesbull setosa

bull versicolor

bull virginica

S t f Fi h rsquo I i D t t

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5057

172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up

Segment of Fisherrsquos Iris Dataset

Input Output

Attributes Attribute

Inst

Sepal

Length

Sepal

Width

Petal

Length

Petal

Width Species1 51 35 14 02 setosa

2 49 3 14 02 setosa

3 47 32 13 02 setosa

4 46 31 15 02 setosa5 5 36 14 02 setosa

Numerical Nominal

ClassSample

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5157

172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up

What Problem are We Trying to Solve

Iris setosa

Weka

decisiontree

Iris versicolor

Iris virginica

Our taskClassify unknown iris using

measurements on 150 iris

samples of known species

Instrumente pentru Data-Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5257

52

Instrumente pentru Data-Mining

Weka Documentation httpwwwcswaikatoacnzmlweka

Waikato Environment for Knowledge Analysis

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5357

53

Instrumente pentru Data-Mining

Principalii producători de soft pentruData-Mining

ndash IBM ndash Intelligent Miner extensie pentru DB2

ndash SAS ndash Enterprise Miner

ndash SPSS ndash Clementine

ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)

ndash hellipmulți alți producători mai mici

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5457

54

Instrumente pentru Data-Mining

SPSS - Clementine

ndash httpwwwspsscomclementine Oracle - Darwin

ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet

ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner

ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml

Standarde Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5557

55

Standarde Data Mining

PMML (Predictive Modelling Markup Language)

ndash Limbaj similar XML pentru salvare și partajare de

modele (cel mai acceptat standard)

CRISP

ndash Metodologie standardizată pentru construirea deaplicații Data Mining

OLE DB pentru Data Mining

ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)

IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5657

56

1 INTRODUCERE

2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE

3-7

CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale

Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici

8 CLUSTERIZARE (ANALIZA CLUSTERILOR)

9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA

ASOCIERILOR)

10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR

11 EVALUAREA MODELELOR

12 APLICAŢII ŞI TENDINŢE IN DATA MINING

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5757

Mulţumesc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5057

172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up

Segment of Fisherrsquos Iris Dataset

Input Output

Attributes Attribute

Inst

Sepal

Length

Sepal

Width

Petal

Length

Petal

Width Species1 51 35 14 02 setosa

2 49 3 14 02 setosa

3 47 32 13 02 setosa

4 46 31 15 02 setosa5 5 36 14 02 setosa

Numerical Nominal

ClassSample

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5157

172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up

What Problem are We Trying to Solve

Iris setosa

Weka

decisiontree

Iris versicolor

Iris virginica

Our taskClassify unknown iris using

measurements on 150 iris

samples of known species

Instrumente pentru Data-Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5257

52

Instrumente pentru Data-Mining

Weka Documentation httpwwwcswaikatoacnzmlweka

Waikato Environment for Knowledge Analysis

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5357

53

Instrumente pentru Data-Mining

Principalii producători de soft pentruData-Mining

ndash IBM ndash Intelligent Miner extensie pentru DB2

ndash SAS ndash Enterprise Miner

ndash SPSS ndash Clementine

ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)

ndash hellipmulți alți producători mai mici

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5457

54

Instrumente pentru Data-Mining

SPSS - Clementine

ndash httpwwwspsscomclementine Oracle - Darwin

ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet

ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner

ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml

Standarde Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5557

55

Standarde Data Mining

PMML (Predictive Modelling Markup Language)

ndash Limbaj similar XML pentru salvare și partajare de

modele (cel mai acceptat standard)

CRISP

ndash Metodologie standardizată pentru construirea deaplicații Data Mining

OLE DB pentru Data Mining

ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)

IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5657

56

1 INTRODUCERE

2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE

3-7

CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale

Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici

8 CLUSTERIZARE (ANALIZA CLUSTERILOR)

9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA

ASOCIERILOR)

10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR

11 EVALUAREA MODELELOR

12 APLICAŢII ŞI TENDINŢE IN DATA MINING

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5757

Mulţumesc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5157

172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up

What Problem are We Trying to Solve

Iris setosa

Weka

decisiontree

Iris versicolor

Iris virginica

Our taskClassify unknown iris using

measurements on 150 iris

samples of known species

Instrumente pentru Data-Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5257

52

Instrumente pentru Data-Mining

Weka Documentation httpwwwcswaikatoacnzmlweka

Waikato Environment for Knowledge Analysis

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5357

53

Instrumente pentru Data-Mining

Principalii producători de soft pentruData-Mining

ndash IBM ndash Intelligent Miner extensie pentru DB2

ndash SAS ndash Enterprise Miner

ndash SPSS ndash Clementine

ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)

ndash hellipmulți alți producători mai mici

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5457

54

Instrumente pentru Data-Mining

SPSS - Clementine

ndash httpwwwspsscomclementine Oracle - Darwin

ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet

ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner

ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml

Standarde Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5557

55

Standarde Data Mining

PMML (Predictive Modelling Markup Language)

ndash Limbaj similar XML pentru salvare și partajare de

modele (cel mai acceptat standard)

CRISP

ndash Metodologie standardizată pentru construirea deaplicații Data Mining

OLE DB pentru Data Mining

ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)

IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5657

56

1 INTRODUCERE

2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE

3-7

CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale

Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici

8 CLUSTERIZARE (ANALIZA CLUSTERILOR)

9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA

ASOCIERILOR)

10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR

11 EVALUAREA MODELELOR

12 APLICAŢII ŞI TENDINŢE IN DATA MINING

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5757

Mulţumesc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5257

52

Instrumente pentru Data-Mining

Weka Documentation httpwwwcswaikatoacnzmlweka

Waikato Environment for Knowledge Analysis

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5357

53

Instrumente pentru Data-Mining

Principalii producători de soft pentruData-Mining

ndash IBM ndash Intelligent Miner extensie pentru DB2

ndash SAS ndash Enterprise Miner

ndash SPSS ndash Clementine

ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)

ndash hellipmulți alți producători mai mici

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5457

54

Instrumente pentru Data-Mining

SPSS - Clementine

ndash httpwwwspsscomclementine Oracle - Darwin

ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet

ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner

ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml

Standarde Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5557

55

Standarde Data Mining

PMML (Predictive Modelling Markup Language)

ndash Limbaj similar XML pentru salvare și partajare de

modele (cel mai acceptat standard)

CRISP

ndash Metodologie standardizată pentru construirea deaplicații Data Mining

OLE DB pentru Data Mining

ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)

IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5657

56

1 INTRODUCERE

2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE

3-7

CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale

Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici

8 CLUSTERIZARE (ANALIZA CLUSTERILOR)

9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA

ASOCIERILOR)

10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR

11 EVALUAREA MODELELOR

12 APLICAŢII ŞI TENDINŢE IN DATA MINING

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5757

Mulţumesc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5357

53

Instrumente pentru Data-Mining

Principalii producători de soft pentruData-Mining

ndash IBM ndash Intelligent Miner extensie pentru DB2

ndash SAS ndash Enterprise Miner

ndash SPSS ndash Clementine

ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)

ndash hellipmulți alți producători mai mici

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5457

54

Instrumente pentru Data-Mining

SPSS - Clementine

ndash httpwwwspsscomclementine Oracle - Darwin

ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet

ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner

ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml

Standarde Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5557

55

Standarde Data Mining

PMML (Predictive Modelling Markup Language)

ndash Limbaj similar XML pentru salvare și partajare de

modele (cel mai acceptat standard)

CRISP

ndash Metodologie standardizată pentru construirea deaplicații Data Mining

OLE DB pentru Data Mining

ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)

IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5657

56

1 INTRODUCERE

2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE

3-7

CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale

Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici

8 CLUSTERIZARE (ANALIZA CLUSTERILOR)

9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA

ASOCIERILOR)

10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR

11 EVALUAREA MODELELOR

12 APLICAŢII ŞI TENDINŢE IN DATA MINING

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5757

Mulţumesc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5457

54

Instrumente pentru Data-Mining

SPSS - Clementine

ndash httpwwwspsscomclementine Oracle - Darwin

ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet

ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner

ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml

Standarde Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5557

55

Standarde Data Mining

PMML (Predictive Modelling Markup Language)

ndash Limbaj similar XML pentru salvare și partajare de

modele (cel mai acceptat standard)

CRISP

ndash Metodologie standardizată pentru construirea deaplicații Data Mining

OLE DB pentru Data Mining

ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)

IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5657

56

1 INTRODUCERE

2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE

3-7

CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale

Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici

8 CLUSTERIZARE (ANALIZA CLUSTERILOR)

9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA

ASOCIERILOR)

10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR

11 EVALUAREA MODELELOR

12 APLICAŢII ŞI TENDINŢE IN DATA MINING

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5757

Mulţumesc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5557

55

Standarde Data Mining

PMML (Predictive Modelling Markup Language)

ndash Limbaj similar XML pentru salvare și partajare de

modele (cel mai acceptat standard)

CRISP

ndash Metodologie standardizată pentru construirea deaplicații Data Mining

OLE DB pentru Data Mining

ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)

IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5657

56

1 INTRODUCERE

2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE

3-7

CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale

Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici

8 CLUSTERIZARE (ANALIZA CLUSTERILOR)

9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA

ASOCIERILOR)

10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR

11 EVALUAREA MODELELOR

12 APLICAŢII ŞI TENDINŢE IN DATA MINING

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5757

Mulţumesc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5657

56

1 INTRODUCERE

2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE

3-7

CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale

Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici

8 CLUSTERIZARE (ANALIZA CLUSTERILOR)

9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA

ASOCIERILOR)

10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR

11 EVALUAREA MODELELOR

12 APLICAŢII ŞI TENDINŢE IN DATA MINING

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5757

Mulţumesc

5142018 C1_MPABD_11 - slidepdfcom

httpslidepdfcomreaderfullc1mpabd11 5757

Mulţumesc