C1_MPABD_11
-
Upload
buica-loredana -
Category
Documents
-
view
159 -
download
0
Transcript of C1_MPABD_11
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 157
1
DATA MINING
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 257
2
FIŞA DISCIPLINEI
Denumirea disciplinei Data mining
Titularul de disciplină Prof univdr Ioan Ileană
Cod MI104 Anul I Semestrul II Număr de credite 8
Facultatea Facultatea Ştiinţe
Ciclul de studii Master Durata 2 ani4 semestre
Domeniul Ştiinţe exacteInformatică
Date privindprogramulde studii
Specializarea Programare avansată şi baze de date
Categoria formativă (F ndash fundamentală S ndash de specialitate C ndash complementară) STipuldisciplinei Categoria de obligativitate (O ndash obligatorie Op ndash opţională F ndash facultativă)
Discipline anterioare obligatorii Cod
1 Baze de date -
2 Inteligenţa artificială -
Număr de oresăptămacircnă Activităţi de icircnvăţare
C S L P TotalNr desăpt
Total oresemestru
Activităţi didactice comune 2 - 2 - 4 14 56 Activităţi individuale de icircnvăţare icircn cursul semestrului 2 14 28
Activităţi de icircnvăţare icircn sesiunea de examene 5 4 20
Date privindparcursulde studiu aldisciplinei
Total - - 104
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 357
3
Obiective
Cursul introduce concepte metode şi tehnici data mining din perspectiva bazelor dedate Accentul este pus asupra diferitelor funcţionalităţi (task-uri) data mining şi asoluţiilor corespunzătoare
Studenţii vor deprinde diverse tehnici de analiza datelor şi vor aplica aceste tehnicipentru rezolvarea unor probleme data mining folosind sisteme software speciale Se vaforma o percepţie asupra data mining ca fiind un puternic domeniu aplicativ dar şi undomeniu de cercetare semnificativ icircn bazele de date
Competenţe
Competenţe cognitive
Capacitatea de a1) identifica tipul sistem adecvat unei situaţii concrete (clasificare prognoză regresieetc)2) stabili care sunt instrumentele de implementare a unui sistem de data mining3) compara şi evalua diferite soluţii de icircnvăţare pentru o situaţie concretă Competenţe tehniceprofesionale
Capacitatea de a
1) implementa folosind diverse medii tehnici de data mining2) realiza sisteme de data miningCompetenţe afective
Capacitatea de a cunoaşte şi icircnţelege 1) conceptele de bază ale procesului de data mining2) principalele tipuri şi tehnici de icircnvăţare automată 3) principalele abordări ale extragerii cunoştinţelor din baze de date mari
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 457
4
Capitolul I INTRODUCEREI1 Data mining ndash definirea domeniului specificarea factorilor care au favorizatdezvoltarea domeniului şi definirea procesului de extragere a cunoştinţelor din baze dedate (Knowledge Discovery in Databases)I3 Exemplu de model de Data mining
Capitolul II CULEGEREA DATELOR ŞI SISTEMATIZAREA ACESTORA IcircN BAZE DEDATE
II1 Operaţii de depozitare date (acumulare conversie curăţire integrare şitransformare reducere şi discretizare)II2 Reconstituirea datelor lipsă
Capitolul III CLASIFICARE ŞI PREDICŢIEIII1 Definirea problemei
III2 Arbori de clasificare decizieIII3 Clasificatori bazaţi pe reguli de decizie III4 Clasificatori BayesieniIII5 Reţele neuronale III6 Clasificatori de tip k-nearest neighbourIII7 Maşini cu suport vectorial III8 Algoritmi genetici
III9 Predicţie - regresie linearăCapitolul IV CLUSTERIZARE (ANALIZA CLUSTERILOR)
IV1 Definirea problemeiIV2 Tipuri de date icircn analiza clusterilorIV3 Clasificarea metodelor de clusterizareIV4 Clase de metode de clusterizare de partiţionare ierarhice bazate pe densitate
bazate pe griduri bazate pe modeleIV5 Detecţia excepţiilor (outliers)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 557
5
Capitolul V DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA ASOCIERILOR)V1 Definirea problemeiV2 Algoritmi pentru extragerea regulilor de asociere unidimensionale booleene din
baze de date de tranzacţii - V1 V3 Apriori FP-GrowthV4 Algoritmi pentru extragerea regulilor de asociere multinivel multidimensionale cuconstracircngeriV5 Analiza corelaţiilor
Capitolul VI IDENTIFICAREA ANOMALIILOR ŞI DEVIAŢIILOR VI1 Metode grafice (box-plot diagrame de dispersie acoperire convexă) VI2 Metode statistice (testul Grubbs testul verosimilităţii) VI3 Metode bazate pe măsurarea distanţei (metoda k-nearest neighbour metodaclustering-ului)VI4 Metode bazate pe modele (clasificarea maşini instruibile modele autoregresive)
Capitolul VII EVALUAREA MODELELORVII1 Curbe de icircnvăţare VII2 Costul şi acurateţea clasificării
VII3 Curbe ROC (Receiver Operating Characteristic)VII4 Comparaţia statistică a performanţelor clasificării
Capitolul VIII APLICAŢII ŞI TENDINŢE IN DATA MININGVIII1 Aplicaţii telecomunicaţii analiza datelor financiare analiza datelor biologice etcVIII2 Data mining icircn baze de date statistice audio video
VIII3 Data mining securitatea şi secretul (privacy) datelor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 657
6
Evaluare
Forma de evaluare finală (E ndash examen C ndash colocviu VP ndash verificare pe parcurs) C
- nota obţinută la forma de evaluare finală 50
- nota pentru activităţi aplicative atestate (proiecte referate lucrări practice) 25
- nota la forme de evaluare continuă (teste lucrări de control) 25
Stabilireanotei finale(ponderi icircnprocente)
- alte forme de evaluare -
Bibliografie minimală
[1] Fayyad UM Piatetsky-Shapiro G Smyth P Uthurasamy R Advanced in Knowledge
Discovery and Data Mining Menlo Park AAAI Press 1996
[2] Han J Kamber M Data Mining Concepts and Techniques Second Edition MorganKaufmann Press Elsevier Inc San Francisco 2006
[3] Bramer M Principles of Data Mining Springer-Verlag London 2007
[4] Witten I H Frank E Data Mining Practical Machine Learning Tools and Techniques
Second Edition Kaufmann Press Elsevier Inc San Francisco 2005
[5] Gorunescu F Data mining Concepte modele şi tehnici Ed Albastră Cluj-Napoca 2006
[6] Ileană I Rotar C Muntean M Inteligenţă artificială Ed Risoprint Alba Iulia 2009
[7] Dumitrescu D Algoritmi genetici şi strategii evolutive ndash aplicaţii icircn Inteligenţa Artificială
şi icircn domenii conexe Ed Albastră Cluj-Napoca 2006
[8] Weka system and documentation (httpwwwcswaikatoacnzmlweka) Weka is a suiteof machine learning data mining software It contains Java implementation for various
mining algorithms data preprocessing filters and experimentation capabilities Weka is free
open-source software under the GNU General Public License (GPL)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 757
7
Data Mining
Definiţie
Aplicaţii tipice
Metode amp algoritmi
Instrumente
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 857
8
Lots of data is being collectedand warehoused ndash Web data e-commerce ndash purchases at department
grocery stores ndash BankCredit Card
transactions
Computers have become cheaper and more powerful
Competitive Pressure is Strong ndash Provide better customized services for an edge (eg in
Customer Relationship Management)
Why Mine Data Commercial Viewpoint
TanSteinbach Kumar Introduction to Data Miningwwwuserscsumnedu~kumardmbookindexphp
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 957
9
Why Mine Data Scientific Viewpoint
Data collected and stored at
enormous speeds (GBhour) ndash remote sensors on a satellite
ndash telescopes scanning the skies
ndash microarrays generating geneexpression data
ndash scientific simulationsgenerating terabytes of data
Traditional techniques infeasible for raw data Data mining may help scientists
ndash in classifying and segmenting data
ndash in Hypothesis Formation
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1057
10
Motivare ldquoNecesitatea este mama
invenţieirdquo
Problema exploziei cantităţii de date ndash Colectarea automată a datelor şi tehnologiile mature
de baze de date au condus la cantităţi uriaşe de datestocate icircn baze de date depozite de date şi alte
acumulări de date
Ne icircnecăm icircn date dar suntem icircnsetaţi de cunoaştere Soluţia Data warehouse şi data mining
ndash Data warehousing şi procesare on-line (OLAP)
ndash Extragerea cunoaşterii de interes (r eguli regularităţişabloane constracircngeri) din datele aflate icircn baze mari
Jiawei Han and Micheline Kamber Data Mining Concepts and
Techniques httpwwwcssfuca
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1157
11
Mining Large Data Sets - Motivation
There is often information ―hidden in the data that isnot readily evident
Human analysts may take weeks to discover usefulinformation Much of the data is never analyzed at all
0
500000
1000000
1500000
2000000
2500000
3000000
3500000
4000000
1995 1996 1997 1998 1999
The Data Gap
Total new disk (TB) since 1995
Number of
analysts
From R Grossman C Kamath V Kumar ―Data Mining for Scientific and Engineering Applications
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1257
12
Ce este Data Mining
Data mining (descoperirea cunoaşterii icircn baze de date)
ndash Extragerea informaţiilor sau şabloanelor de interes(nebanale implicite anterior necunoscute şi potenţialutile) din datele aflate icircn mari baze de date
Nume alternative
ndash Descoperirea cunoaşterii icircn baze de date (Knowledgediscovery in databases KDD) extragereacunoaşterii analiza datelorşabloanelor arheologiadatelor business intelligence etc
Ce nu este data mining ndash Procesarea deductivă a interogărilor ndash Sisteme expert sau programe mici statistice sau de
tipul maşinilor instruibile
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1357
13
Data mining sau căutarea informaţiei ascunse
De mai multe decenii mijloace şi tehnici informatice tot mai
evoluate au contribuit la amplificarea capacităţii de memorare şistocare a datelor
Ultimii ani au marcat o reorientare semnificativă icircn utilizareavolumelor de date stocate de la un proces de explorare
retrospectivă spre unul cu caracter prospectiv Această schimbare a devenit posibilă ca urmare a maturizării
tehnologiilor legate de data mining
Denumirea provine de la analogia cu activitatea minieră tot
aşa cum este necesară dislocarea şi rafinarea a tone de minereupentru a obţine cacircteva grame de aur aici sunt examinate şianalizate sute de mii sau milioane de date pentru a extrage dinele informaţii şi semnificaţii noi
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1457
14
Piramida datelor
Date
Informaţie
Cunoaştere
Icircnţelepciune
Date + context
Informa ţii + reguli
Cunoaştere + experien ţă
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1557
15
Definiţiile pentru data mining converg spre următoarea ideeDM este un proces de extragere de informaţii noi din colecţiile
de date existente
Principiul de funcţionare icircn data mining se prelucrează
datele referitoare la perioadele trecute examinacircnd o varietate de situaţii care s- au produs pentru a evidenţia caracteristicile
acestora şi a permite elaborarea unui model
Odată construit modelul poate fi aplicat situaţiilor noi de
acelaşi tip
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1657
16
Date deantrenare(icircnvare)
SistemDataMining
Date
noi
Predicie
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1757
17
Fundamentele explorării datelor
Dezvoltarea tehnicilor de data mining se explică printrealtele prin faptul că firmele au acumulat volume foarte mari dedate stocate pe suporturi informatice privitoare la tranzacţii dediverse tipuri derulate de-a lungul mai multor ani
Multă vreme acestea s-au acumulat pur şi simplu icircn virtuteanevoii de arhivare
Datele sunt la dispoziţia organizaţiei respective datele suntcacirct se poate de precise şi analitice datele sunt icircn volum mare şiacoperă perioade de timp de ordinul anilor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1857
18
Alături de existenţa colecţiilor de date istorice memorate pesuporturi informatice icircncă doi factori explică emergenţa
cunoscută actualmente de data mining (vezi figura următoare)
maturizarea algoritmilor şi a produselor programdedicate
creşterea capacităţii de memorare şi prelucrare acalculatoarelor care permite tratarea icircn corelaţiea volumelor foarte mari de date
Unele dintre tehnicile de data mining datează de ceva mai mulţiani Algoritmii folosiţi au cunoscut icircnsă un proces de evoluţiecontinuă care a permis icircnlăturarea unora dintre limitele saudeficienţele iniţiale
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1957
19
Putere de
calcul mrit
Algoritmistatisticii de
icircnvare
Colecii de date icircmbuntiteManagement
icircmbuntit aldatelor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2057
20
Produsele program au evoluat şi ele spre o utilizare cacirct maifacilă
Au apărut firme care oferă spre vacircnzare colecţii de dateistorice de uz general - cum ar fi spre exemplu evoluţiaindicatorilor bursieri din ultimii 20 de ani - special constituitepentru asemenea utilizări
Depozitele de date şi tehnologiile OLAP vizează şi ele datelecolectate la nivelul organizaţiilor
Depozitele de date se pretează foarte bine ca surse pentrudata mining iar rezultatele furnizate de acesta pot completacacircmpurile icircnregistrărilor celor dintacirci şi pot fi valorificate apoi prinproiecţiile multidimensionale specifice OLAP
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2157
21
Aplicaţii potenţiale
Analiza bazelor de date şi suport pentru decizie
ndash Analiza şi managementul pieţei
ndash Analiza şi managementul riscurilor
ndash Detecţia fraudelor
Analiza textelor - Text Mining
Analiză Web - Web Mining Răspuns inteligent la interogări
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2257
22
Analiza şi managementul pieţei
Care sunt sursele datelor de analizat ndash Tranzacţiile cu cardurile de credit cardurile de
fidelitate cupoanele de discount reclamaţiile clienţilorstudiile publice de stil de viaţă
Ţinta de marketing ndash Trebuie găsite grupuri de clienţi ―model care au
aceleaşi caracteristici interese nivel de venit obiceiuride cumpărare etc
Determinarea profilului cumpărătorului icircn timp ndash Conversia unui cont bancar icircn mai multe conectate
căsătorie etc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2357
23
Analiza şi managementul riscurilor
Planificare financiară şi evaluarea capitalului
ndash Analiza şi prognoza fluxului de numerar (cash flow)
ndash Analiza seriilor temporale (analiza tendinţelor etc)
Planificarea resurselor
ndash sumarizarea şi compararea resurselor şi acheltuielilor
Competiţie ndash Monitorizarea competitorilor şi a direcţiilor pieţei
ndash Fundamentarea strategiei preţului icircntr -o piaţă foartecompetitivă
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2457
24
Detecţia fraudelor
Folosirea datelor istorice pentru a construi modele decomportament fraudulos şi utilizarea data mining pentruidentificarea exemplelor similare
Exemple de aplicaţii
ndash Asigurări auto detectarea unui grup de persoane care icircnscenează accidente pentru a icircncasa asigurarea
ndash Spălare de bani detectarea tranzacţiilor suspecte
ndash Detectarea fraudelor telefonice detectareacomportamentelor suspecte (modelul de apel -destinaţie timp durată)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2557
25
DeviationAnomaly Detection
Detect significant deviations from normal behavior
Applications ndash Credit Card Fraud Detection
ndash Network IntrusionDetection
Typical network traffic at
University level may reach over 100
million connections per day
TanSteinbach Kumar Introduction to Data Miningwwwuserscsumnedu~kumardmbookindexphp
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2657
26
Alte domenii de aplicaţie
Sport
ndash Analiza jocurilor icircn NBA (ex detectarea strategieiadversarului) Astronomie
ndash Descoperirea şi clasificarea unor noi obiecte
Internet ndash Analiza acceselor Web descoperirea unor şabloane
(patterns) comportamentale analiza eficienţeimarketingului Web icircmbunătăţirea organizării site-urilor
Web Text
ndash Analiza ştirilor analiza icircnregistrărilor medicale sortarea şifiltrarea automată a e-mail-urilor clasificarea automată a
documentelor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2757
27
Contribuţii
Data Mining
Inteligenţă Artificială
Calculatoare performanteStatistică
Sisteme de baze dedate
Cercetări operaţionale
GIS
Vizualizare
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2857
28
Data miningintersecţia unor discipline multiple
Sisteme de baze de date data warehouse şi OLAP
Statistică
Maşini instruibile (Machine learning)
Vizualizare Informatică
Calcul de icircnaltă performanţă
Alte discipline ndash Reţele neuronale modelare matematică regăsirea
informaţiilor recunoaşterea formelor (patternrecognition)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2957
29
Architectura unui sistem tipic de Data Mining
Data
Warehouse
Curăţarea şi integrarea datelor Filtrare
Baze de date
Server de baze de date
sau de Data Warehouse
Motor data mining
Evaluarea şabloanelor
Interfaţă grafică utilizator
Bază de
cunoştinţe
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3057
30
Evoluţia tehnologiei bazelor de date
Anii 1960
ndash Colecţii de date crearea bazelor de date baze de datereţea
Anii 1970
ndash Modelul relaţional implementarea SGBD relaţional Anii 1980
ndash SGBD relaţionale modele de date avansate (relaţionalextins OO deductive etc) şi SGBD-uri specifice
(domeniul spatial ştiinţific inginerie etc) Anii 1990mdash2000
ndash Data mining şi data warehouse baze de date multimediabaze de date Web
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3157
31
Proces
Data mining inima
procesului de
descoperire a
cunoaşterii
Curăţirea datelor
Baze dedate
Data Warehouse
Date relevante
Data Mining
Evaluarea configuraţiilor
C ţi icirc t d ti b ă d
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3257
32
Comparaţie icircntre procesarea de tip bază de
date şi cea de tip Data Mining
Interogare ndash Bine definită ndash SQL
Interogare ndash Slab definită ndash Nu există limbaj precis de
interogare
Date ndash Date operaţ ionale
Ieşirea ndash Precisă ndash Subset al bazei dedate
Date ndash Date neoperaţionale
Ieşirea ndash Vagă ndash Nu este un subset al bazeide date
E l d i t ă i
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3357
33
Exemple de interogări
Bază de date
Data Mining
ndash Găseşte toţi clienţii care au cumpărat lapte
ndash Găseşte toţi clienţii care au cumpărat frecvent
lapte (Reguli de asociere)
ndash Găseşte toţi titularii de credite cu numele Smith ndash Identifică toţi clienţii care au cumpărat de maimult de $10000 icircn ultima lună
ndash Găseşte toţi titularii de credite cu risc mic decreditare (Clasificare)
ndash Identifică clienţii cu obiceiuri similare decumpărare (Grupare)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3457
34
Modele şi tehnici Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3557
35
Verificarea ipotezelor şi căutarea cunoştinţelor
Aplicarea tehnicilor de data mining poate fi făcută dinperspectiva unui demers ascendent sau descendent
Icircn abordarea descendentă efortul este orientat spre
confirmarea sau infirmarea unor idei (ipoteze) formulate icircnprealabil prin alte mijloace
Abordarea ascendentă are o cu totul altă finalitate ea
urmăreşte extragerea de cunoştinţe sau informaţii noi din dateledisponibile
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3657
36
Căutarea poate fi dirijată sau nedirijată
Căutarea dirijată ia icircn considerare un atribut sau un cacircmpale cărui valori icircncearcă să le explice prin celelalte cacircmpuriEste cea mai folosită icircn practică
Căutarea nedirijată are ca scop identificarea relaţiilor saustructurilor existente icircn ansamblul datelor examinate fără aacorda prioritate unui cacircmp sau altul
Deşi mai spectaculoasă icircn practică se recurge mult maipuţin la ea decacirct la căutarea dirijată
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3757
37
Data mining
verificarea
ipotezelor
căutarea de
cunoştinţe
dirijată nedirijată
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3857
38
Tehnici şi acţiuni
Data mining exploatează colecţiile de date de care dispune o
organizaţie
La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei
icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc
Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod
intrinsec
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3957
39
Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de
icircnţeles o tendinţă relevată de un număr foarte mare de cazuri
practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii
Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se
reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor
raţionamentele bazate pe cazuri analiza legăturilor
La acestea se pot asocia şi tehnici statistice cum sunt spre
exemplu regresiile analiza factorială etc
M d l di ti
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4057
40 40
Modele predictivehellip
Arbori de decizie
Clasificări după cel mai apropiat vecin
Reţele neuronale
Reguli
Analiza grupurilor
A l d i i ă l ă l i i
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4157
41
Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea
predicţiagrupareaanaliza grupărilor
Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un
grup limitat de clase predefinite
Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut
mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4257
42
Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare
Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări
Predicţia urmăreşte să claseze icircnregistrările tratate icircn
funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un
model care să explice comportamentul observat
Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora
icircn viitor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4357
43
Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună
Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei
Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster
Spre deosebire de celelalte tipuri de acţiuni asemănătoare
aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4457
44
Etapele procesului de exploatare a datelor
Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare
Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date
colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4557
45
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4657
46
Evaluarea modelului
Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare
Integrarea modelului
Această etapă finalizează procesul prin includerea
modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4757
172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up
Overview of Fisherrsquos Iris Dataset
Fisherrsquos iris dataset is available for download from the tutorial website
httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls
Iris photos courtesy of SIGNA ndash wwwsignaorg
Fisherrsquos iris dataset is well-known in
data mining research
This dataset is commonly used to
illustrate data mining tools
Mark Polczynski PhD The Technology Forge mhptechforgegmailnet
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4857
172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up
Fisherrsquos Database - Background
Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems
Annals of Eugenics 7 179 ndash188 available at
httpdigitallibraryadelaideeduaucollspecialfisher138pdf
iris setosa iris versicolor iris virginica
Dataset contains flower dimension measurements on 50 samples of each species
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4957
172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up
Fisherrsquos Dataset- Background
Data mining terminology
bull The four iris dimensions are termed attributes or input attributes
bull The three iris species are termed classes or output attributes
bull Each example of an iris is termed a sample or instance
Anderson measured these dimensions
bull sepal length
bull sepal width
bull petal length
bull petal width
Measurements on these iris speciesbull setosa
bull versicolor
bull virginica
S t f Fi h rsquo I i D t t
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5057
172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up
Segment of Fisherrsquos Iris Dataset
Input Output
Attributes Attribute
Inst
Sepal
Length
Sepal
Width
Petal
Length
Petal
Width Species1 51 35 14 02 setosa
2 49 3 14 02 setosa
3 47 32 13 02 setosa
4 46 31 15 02 setosa5 5 36 14 02 setosa
Numerical Nominal
ClassSample
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5157
172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up
What Problem are We Trying to Solve
Iris setosa
Weka
decisiontree
Iris versicolor
Iris virginica
Our taskClassify unknown iris using
measurements on 150 iris
samples of known species
Instrumente pentru Data-Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5257
52
Instrumente pentru Data-Mining
Weka Documentation httpwwwcswaikatoacnzmlweka
Waikato Environment for Knowledge Analysis
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5357
53
Instrumente pentru Data-Mining
Principalii producători de soft pentruData-Mining
ndash IBM ndash Intelligent Miner extensie pentru DB2
ndash SAS ndash Enterprise Miner
ndash SPSS ndash Clementine
ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)
ndash hellipmulți alți producători mai mici
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5457
54
Instrumente pentru Data-Mining
SPSS - Clementine
ndash httpwwwspsscomclementine Oracle - Darwin
ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet
ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner
ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml
Standarde Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5557
55
Standarde Data Mining
PMML (Predictive Modelling Markup Language)
ndash Limbaj similar XML pentru salvare și partajare de
modele (cel mai acceptat standard)
CRISP
ndash Metodologie standardizată pentru construirea deaplicații Data Mining
OLE DB pentru Data Mining
ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)
IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5657
56
1 INTRODUCERE
2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE
3-7
CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale
Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici
8 CLUSTERIZARE (ANALIZA CLUSTERILOR)
9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA
ASOCIERILOR)
10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR
11 EVALUAREA MODELELOR
12 APLICAŢII ŞI TENDINŢE IN DATA MINING
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5757
Mulţumesc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 257
2
FIŞA DISCIPLINEI
Denumirea disciplinei Data mining
Titularul de disciplină Prof univdr Ioan Ileană
Cod MI104 Anul I Semestrul II Număr de credite 8
Facultatea Facultatea Ştiinţe
Ciclul de studii Master Durata 2 ani4 semestre
Domeniul Ştiinţe exacteInformatică
Date privindprogramulde studii
Specializarea Programare avansată şi baze de date
Categoria formativă (F ndash fundamentală S ndash de specialitate C ndash complementară) STipuldisciplinei Categoria de obligativitate (O ndash obligatorie Op ndash opţională F ndash facultativă)
Discipline anterioare obligatorii Cod
1 Baze de date -
2 Inteligenţa artificială -
Număr de oresăptămacircnă Activităţi de icircnvăţare
C S L P TotalNr desăpt
Total oresemestru
Activităţi didactice comune 2 - 2 - 4 14 56 Activităţi individuale de icircnvăţare icircn cursul semestrului 2 14 28
Activităţi de icircnvăţare icircn sesiunea de examene 5 4 20
Date privindparcursulde studiu aldisciplinei
Total - - 104
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 357
3
Obiective
Cursul introduce concepte metode şi tehnici data mining din perspectiva bazelor dedate Accentul este pus asupra diferitelor funcţionalităţi (task-uri) data mining şi asoluţiilor corespunzătoare
Studenţii vor deprinde diverse tehnici de analiza datelor şi vor aplica aceste tehnicipentru rezolvarea unor probleme data mining folosind sisteme software speciale Se vaforma o percepţie asupra data mining ca fiind un puternic domeniu aplicativ dar şi undomeniu de cercetare semnificativ icircn bazele de date
Competenţe
Competenţe cognitive
Capacitatea de a1) identifica tipul sistem adecvat unei situaţii concrete (clasificare prognoză regresieetc)2) stabili care sunt instrumentele de implementare a unui sistem de data mining3) compara şi evalua diferite soluţii de icircnvăţare pentru o situaţie concretă Competenţe tehniceprofesionale
Capacitatea de a
1) implementa folosind diverse medii tehnici de data mining2) realiza sisteme de data miningCompetenţe afective
Capacitatea de a cunoaşte şi icircnţelege 1) conceptele de bază ale procesului de data mining2) principalele tipuri şi tehnici de icircnvăţare automată 3) principalele abordări ale extragerii cunoştinţelor din baze de date mari
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 457
4
Capitolul I INTRODUCEREI1 Data mining ndash definirea domeniului specificarea factorilor care au favorizatdezvoltarea domeniului şi definirea procesului de extragere a cunoştinţelor din baze dedate (Knowledge Discovery in Databases)I3 Exemplu de model de Data mining
Capitolul II CULEGEREA DATELOR ŞI SISTEMATIZAREA ACESTORA IcircN BAZE DEDATE
II1 Operaţii de depozitare date (acumulare conversie curăţire integrare şitransformare reducere şi discretizare)II2 Reconstituirea datelor lipsă
Capitolul III CLASIFICARE ŞI PREDICŢIEIII1 Definirea problemei
III2 Arbori de clasificare decizieIII3 Clasificatori bazaţi pe reguli de decizie III4 Clasificatori BayesieniIII5 Reţele neuronale III6 Clasificatori de tip k-nearest neighbourIII7 Maşini cu suport vectorial III8 Algoritmi genetici
III9 Predicţie - regresie linearăCapitolul IV CLUSTERIZARE (ANALIZA CLUSTERILOR)
IV1 Definirea problemeiIV2 Tipuri de date icircn analiza clusterilorIV3 Clasificarea metodelor de clusterizareIV4 Clase de metode de clusterizare de partiţionare ierarhice bazate pe densitate
bazate pe griduri bazate pe modeleIV5 Detecţia excepţiilor (outliers)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 557
5
Capitolul V DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA ASOCIERILOR)V1 Definirea problemeiV2 Algoritmi pentru extragerea regulilor de asociere unidimensionale booleene din
baze de date de tranzacţii - V1 V3 Apriori FP-GrowthV4 Algoritmi pentru extragerea regulilor de asociere multinivel multidimensionale cuconstracircngeriV5 Analiza corelaţiilor
Capitolul VI IDENTIFICAREA ANOMALIILOR ŞI DEVIAŢIILOR VI1 Metode grafice (box-plot diagrame de dispersie acoperire convexă) VI2 Metode statistice (testul Grubbs testul verosimilităţii) VI3 Metode bazate pe măsurarea distanţei (metoda k-nearest neighbour metodaclustering-ului)VI4 Metode bazate pe modele (clasificarea maşini instruibile modele autoregresive)
Capitolul VII EVALUAREA MODELELORVII1 Curbe de icircnvăţare VII2 Costul şi acurateţea clasificării
VII3 Curbe ROC (Receiver Operating Characteristic)VII4 Comparaţia statistică a performanţelor clasificării
Capitolul VIII APLICAŢII ŞI TENDINŢE IN DATA MININGVIII1 Aplicaţii telecomunicaţii analiza datelor financiare analiza datelor biologice etcVIII2 Data mining icircn baze de date statistice audio video
VIII3 Data mining securitatea şi secretul (privacy) datelor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 657
6
Evaluare
Forma de evaluare finală (E ndash examen C ndash colocviu VP ndash verificare pe parcurs) C
- nota obţinută la forma de evaluare finală 50
- nota pentru activităţi aplicative atestate (proiecte referate lucrări practice) 25
- nota la forme de evaluare continuă (teste lucrări de control) 25
Stabilireanotei finale(ponderi icircnprocente)
- alte forme de evaluare -
Bibliografie minimală
[1] Fayyad UM Piatetsky-Shapiro G Smyth P Uthurasamy R Advanced in Knowledge
Discovery and Data Mining Menlo Park AAAI Press 1996
[2] Han J Kamber M Data Mining Concepts and Techniques Second Edition MorganKaufmann Press Elsevier Inc San Francisco 2006
[3] Bramer M Principles of Data Mining Springer-Verlag London 2007
[4] Witten I H Frank E Data Mining Practical Machine Learning Tools and Techniques
Second Edition Kaufmann Press Elsevier Inc San Francisco 2005
[5] Gorunescu F Data mining Concepte modele şi tehnici Ed Albastră Cluj-Napoca 2006
[6] Ileană I Rotar C Muntean M Inteligenţă artificială Ed Risoprint Alba Iulia 2009
[7] Dumitrescu D Algoritmi genetici şi strategii evolutive ndash aplicaţii icircn Inteligenţa Artificială
şi icircn domenii conexe Ed Albastră Cluj-Napoca 2006
[8] Weka system and documentation (httpwwwcswaikatoacnzmlweka) Weka is a suiteof machine learning data mining software It contains Java implementation for various
mining algorithms data preprocessing filters and experimentation capabilities Weka is free
open-source software under the GNU General Public License (GPL)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 757
7
Data Mining
Definiţie
Aplicaţii tipice
Metode amp algoritmi
Instrumente
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 857
8
Lots of data is being collectedand warehoused ndash Web data e-commerce ndash purchases at department
grocery stores ndash BankCredit Card
transactions
Computers have become cheaper and more powerful
Competitive Pressure is Strong ndash Provide better customized services for an edge (eg in
Customer Relationship Management)
Why Mine Data Commercial Viewpoint
TanSteinbach Kumar Introduction to Data Miningwwwuserscsumnedu~kumardmbookindexphp
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 957
9
Why Mine Data Scientific Viewpoint
Data collected and stored at
enormous speeds (GBhour) ndash remote sensors on a satellite
ndash telescopes scanning the skies
ndash microarrays generating geneexpression data
ndash scientific simulationsgenerating terabytes of data
Traditional techniques infeasible for raw data Data mining may help scientists
ndash in classifying and segmenting data
ndash in Hypothesis Formation
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1057
10
Motivare ldquoNecesitatea este mama
invenţieirdquo
Problema exploziei cantităţii de date ndash Colectarea automată a datelor şi tehnologiile mature
de baze de date au condus la cantităţi uriaşe de datestocate icircn baze de date depozite de date şi alte
acumulări de date
Ne icircnecăm icircn date dar suntem icircnsetaţi de cunoaştere Soluţia Data warehouse şi data mining
ndash Data warehousing şi procesare on-line (OLAP)
ndash Extragerea cunoaşterii de interes (r eguli regularităţişabloane constracircngeri) din datele aflate icircn baze mari
Jiawei Han and Micheline Kamber Data Mining Concepts and
Techniques httpwwwcssfuca
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1157
11
Mining Large Data Sets - Motivation
There is often information ―hidden in the data that isnot readily evident
Human analysts may take weeks to discover usefulinformation Much of the data is never analyzed at all
0
500000
1000000
1500000
2000000
2500000
3000000
3500000
4000000
1995 1996 1997 1998 1999
The Data Gap
Total new disk (TB) since 1995
Number of
analysts
From R Grossman C Kamath V Kumar ―Data Mining for Scientific and Engineering Applications
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1257
12
Ce este Data Mining
Data mining (descoperirea cunoaşterii icircn baze de date)
ndash Extragerea informaţiilor sau şabloanelor de interes(nebanale implicite anterior necunoscute şi potenţialutile) din datele aflate icircn mari baze de date
Nume alternative
ndash Descoperirea cunoaşterii icircn baze de date (Knowledgediscovery in databases KDD) extragereacunoaşterii analiza datelorşabloanelor arheologiadatelor business intelligence etc
Ce nu este data mining ndash Procesarea deductivă a interogărilor ndash Sisteme expert sau programe mici statistice sau de
tipul maşinilor instruibile
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1357
13
Data mining sau căutarea informaţiei ascunse
De mai multe decenii mijloace şi tehnici informatice tot mai
evoluate au contribuit la amplificarea capacităţii de memorare şistocare a datelor
Ultimii ani au marcat o reorientare semnificativă icircn utilizareavolumelor de date stocate de la un proces de explorare
retrospectivă spre unul cu caracter prospectiv Această schimbare a devenit posibilă ca urmare a maturizării
tehnologiilor legate de data mining
Denumirea provine de la analogia cu activitatea minieră tot
aşa cum este necesară dislocarea şi rafinarea a tone de minereupentru a obţine cacircteva grame de aur aici sunt examinate şianalizate sute de mii sau milioane de date pentru a extrage dinele informaţii şi semnificaţii noi
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1457
14
Piramida datelor
Date
Informaţie
Cunoaştere
Icircnţelepciune
Date + context
Informa ţii + reguli
Cunoaştere + experien ţă
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1557
15
Definiţiile pentru data mining converg spre următoarea ideeDM este un proces de extragere de informaţii noi din colecţiile
de date existente
Principiul de funcţionare icircn data mining se prelucrează
datele referitoare la perioadele trecute examinacircnd o varietate de situaţii care s- au produs pentru a evidenţia caracteristicile
acestora şi a permite elaborarea unui model
Odată construit modelul poate fi aplicat situaţiilor noi de
acelaşi tip
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1657
16
Date deantrenare(icircnvare)
SistemDataMining
Date
noi
Predicie
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1757
17
Fundamentele explorării datelor
Dezvoltarea tehnicilor de data mining se explică printrealtele prin faptul că firmele au acumulat volume foarte mari dedate stocate pe suporturi informatice privitoare la tranzacţii dediverse tipuri derulate de-a lungul mai multor ani
Multă vreme acestea s-au acumulat pur şi simplu icircn virtuteanevoii de arhivare
Datele sunt la dispoziţia organizaţiei respective datele suntcacirct se poate de precise şi analitice datele sunt icircn volum mare şiacoperă perioade de timp de ordinul anilor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1857
18
Alături de existenţa colecţiilor de date istorice memorate pesuporturi informatice icircncă doi factori explică emergenţa
cunoscută actualmente de data mining (vezi figura următoare)
maturizarea algoritmilor şi a produselor programdedicate
creşterea capacităţii de memorare şi prelucrare acalculatoarelor care permite tratarea icircn corelaţiea volumelor foarte mari de date
Unele dintre tehnicile de data mining datează de ceva mai mulţiani Algoritmii folosiţi au cunoscut icircnsă un proces de evoluţiecontinuă care a permis icircnlăturarea unora dintre limitele saudeficienţele iniţiale
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1957
19
Putere de
calcul mrit
Algoritmistatisticii de
icircnvare
Colecii de date icircmbuntiteManagement
icircmbuntit aldatelor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2057
20
Produsele program au evoluat şi ele spre o utilizare cacirct maifacilă
Au apărut firme care oferă spre vacircnzare colecţii de dateistorice de uz general - cum ar fi spre exemplu evoluţiaindicatorilor bursieri din ultimii 20 de ani - special constituitepentru asemenea utilizări
Depozitele de date şi tehnologiile OLAP vizează şi ele datelecolectate la nivelul organizaţiilor
Depozitele de date se pretează foarte bine ca surse pentrudata mining iar rezultatele furnizate de acesta pot completacacircmpurile icircnregistrărilor celor dintacirci şi pot fi valorificate apoi prinproiecţiile multidimensionale specifice OLAP
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2157
21
Aplicaţii potenţiale
Analiza bazelor de date şi suport pentru decizie
ndash Analiza şi managementul pieţei
ndash Analiza şi managementul riscurilor
ndash Detecţia fraudelor
Analiza textelor - Text Mining
Analiză Web - Web Mining Răspuns inteligent la interogări
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2257
22
Analiza şi managementul pieţei
Care sunt sursele datelor de analizat ndash Tranzacţiile cu cardurile de credit cardurile de
fidelitate cupoanele de discount reclamaţiile clienţilorstudiile publice de stil de viaţă
Ţinta de marketing ndash Trebuie găsite grupuri de clienţi ―model care au
aceleaşi caracteristici interese nivel de venit obiceiuride cumpărare etc
Determinarea profilului cumpărătorului icircn timp ndash Conversia unui cont bancar icircn mai multe conectate
căsătorie etc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2357
23
Analiza şi managementul riscurilor
Planificare financiară şi evaluarea capitalului
ndash Analiza şi prognoza fluxului de numerar (cash flow)
ndash Analiza seriilor temporale (analiza tendinţelor etc)
Planificarea resurselor
ndash sumarizarea şi compararea resurselor şi acheltuielilor
Competiţie ndash Monitorizarea competitorilor şi a direcţiilor pieţei
ndash Fundamentarea strategiei preţului icircntr -o piaţă foartecompetitivă
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2457
24
Detecţia fraudelor
Folosirea datelor istorice pentru a construi modele decomportament fraudulos şi utilizarea data mining pentruidentificarea exemplelor similare
Exemple de aplicaţii
ndash Asigurări auto detectarea unui grup de persoane care icircnscenează accidente pentru a icircncasa asigurarea
ndash Spălare de bani detectarea tranzacţiilor suspecte
ndash Detectarea fraudelor telefonice detectareacomportamentelor suspecte (modelul de apel -destinaţie timp durată)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2557
25
DeviationAnomaly Detection
Detect significant deviations from normal behavior
Applications ndash Credit Card Fraud Detection
ndash Network IntrusionDetection
Typical network traffic at
University level may reach over 100
million connections per day
TanSteinbach Kumar Introduction to Data Miningwwwuserscsumnedu~kumardmbookindexphp
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2657
26
Alte domenii de aplicaţie
Sport
ndash Analiza jocurilor icircn NBA (ex detectarea strategieiadversarului) Astronomie
ndash Descoperirea şi clasificarea unor noi obiecte
Internet ndash Analiza acceselor Web descoperirea unor şabloane
(patterns) comportamentale analiza eficienţeimarketingului Web icircmbunătăţirea organizării site-urilor
Web Text
ndash Analiza ştirilor analiza icircnregistrărilor medicale sortarea şifiltrarea automată a e-mail-urilor clasificarea automată a
documentelor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2757
27
Contribuţii
Data Mining
Inteligenţă Artificială
Calculatoare performanteStatistică
Sisteme de baze dedate
Cercetări operaţionale
GIS
Vizualizare
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2857
28
Data miningintersecţia unor discipline multiple
Sisteme de baze de date data warehouse şi OLAP
Statistică
Maşini instruibile (Machine learning)
Vizualizare Informatică
Calcul de icircnaltă performanţă
Alte discipline ndash Reţele neuronale modelare matematică regăsirea
informaţiilor recunoaşterea formelor (patternrecognition)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2957
29
Architectura unui sistem tipic de Data Mining
Data
Warehouse
Curăţarea şi integrarea datelor Filtrare
Baze de date
Server de baze de date
sau de Data Warehouse
Motor data mining
Evaluarea şabloanelor
Interfaţă grafică utilizator
Bază de
cunoştinţe
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3057
30
Evoluţia tehnologiei bazelor de date
Anii 1960
ndash Colecţii de date crearea bazelor de date baze de datereţea
Anii 1970
ndash Modelul relaţional implementarea SGBD relaţional Anii 1980
ndash SGBD relaţionale modele de date avansate (relaţionalextins OO deductive etc) şi SGBD-uri specifice
(domeniul spatial ştiinţific inginerie etc) Anii 1990mdash2000
ndash Data mining şi data warehouse baze de date multimediabaze de date Web
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3157
31
Proces
Data mining inima
procesului de
descoperire a
cunoaşterii
Curăţirea datelor
Baze dedate
Data Warehouse
Date relevante
Data Mining
Evaluarea configuraţiilor
C ţi icirc t d ti b ă d
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3257
32
Comparaţie icircntre procesarea de tip bază de
date şi cea de tip Data Mining
Interogare ndash Bine definită ndash SQL
Interogare ndash Slab definită ndash Nu există limbaj precis de
interogare
Date ndash Date operaţ ionale
Ieşirea ndash Precisă ndash Subset al bazei dedate
Date ndash Date neoperaţionale
Ieşirea ndash Vagă ndash Nu este un subset al bazeide date
E l d i t ă i
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3357
33
Exemple de interogări
Bază de date
Data Mining
ndash Găseşte toţi clienţii care au cumpărat lapte
ndash Găseşte toţi clienţii care au cumpărat frecvent
lapte (Reguli de asociere)
ndash Găseşte toţi titularii de credite cu numele Smith ndash Identifică toţi clienţii care au cumpărat de maimult de $10000 icircn ultima lună
ndash Găseşte toţi titularii de credite cu risc mic decreditare (Clasificare)
ndash Identifică clienţii cu obiceiuri similare decumpărare (Grupare)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3457
34
Modele şi tehnici Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3557
35
Verificarea ipotezelor şi căutarea cunoştinţelor
Aplicarea tehnicilor de data mining poate fi făcută dinperspectiva unui demers ascendent sau descendent
Icircn abordarea descendentă efortul este orientat spre
confirmarea sau infirmarea unor idei (ipoteze) formulate icircnprealabil prin alte mijloace
Abordarea ascendentă are o cu totul altă finalitate ea
urmăreşte extragerea de cunoştinţe sau informaţii noi din dateledisponibile
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3657
36
Căutarea poate fi dirijată sau nedirijată
Căutarea dirijată ia icircn considerare un atribut sau un cacircmpale cărui valori icircncearcă să le explice prin celelalte cacircmpuriEste cea mai folosită icircn practică
Căutarea nedirijată are ca scop identificarea relaţiilor saustructurilor existente icircn ansamblul datelor examinate fără aacorda prioritate unui cacircmp sau altul
Deşi mai spectaculoasă icircn practică se recurge mult maipuţin la ea decacirct la căutarea dirijată
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3757
37
Data mining
verificarea
ipotezelor
căutarea de
cunoştinţe
dirijată nedirijată
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3857
38
Tehnici şi acţiuni
Data mining exploatează colecţiile de date de care dispune o
organizaţie
La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei
icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc
Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod
intrinsec
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3957
39
Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de
icircnţeles o tendinţă relevată de un număr foarte mare de cazuri
practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii
Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se
reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor
raţionamentele bazate pe cazuri analiza legăturilor
La acestea se pot asocia şi tehnici statistice cum sunt spre
exemplu regresiile analiza factorială etc
M d l di ti
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4057
40 40
Modele predictivehellip
Arbori de decizie
Clasificări după cel mai apropiat vecin
Reţele neuronale
Reguli
Analiza grupurilor
A l d i i ă l ă l i i
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4157
41
Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea
predicţiagrupareaanaliza grupărilor
Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un
grup limitat de clase predefinite
Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut
mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4257
42
Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare
Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări
Predicţia urmăreşte să claseze icircnregistrările tratate icircn
funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un
model care să explice comportamentul observat
Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora
icircn viitor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4357
43
Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună
Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei
Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster
Spre deosebire de celelalte tipuri de acţiuni asemănătoare
aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4457
44
Etapele procesului de exploatare a datelor
Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare
Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date
colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4557
45
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4657
46
Evaluarea modelului
Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare
Integrarea modelului
Această etapă finalizează procesul prin includerea
modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4757
172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up
Overview of Fisherrsquos Iris Dataset
Fisherrsquos iris dataset is available for download from the tutorial website
httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls
Iris photos courtesy of SIGNA ndash wwwsignaorg
Fisherrsquos iris dataset is well-known in
data mining research
This dataset is commonly used to
illustrate data mining tools
Mark Polczynski PhD The Technology Forge mhptechforgegmailnet
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4857
172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up
Fisherrsquos Database - Background
Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems
Annals of Eugenics 7 179 ndash188 available at
httpdigitallibraryadelaideeduaucollspecialfisher138pdf
iris setosa iris versicolor iris virginica
Dataset contains flower dimension measurements on 50 samples of each species
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4957
172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up
Fisherrsquos Dataset- Background
Data mining terminology
bull The four iris dimensions are termed attributes or input attributes
bull The three iris species are termed classes or output attributes
bull Each example of an iris is termed a sample or instance
Anderson measured these dimensions
bull sepal length
bull sepal width
bull petal length
bull petal width
Measurements on these iris speciesbull setosa
bull versicolor
bull virginica
S t f Fi h rsquo I i D t t
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5057
172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up
Segment of Fisherrsquos Iris Dataset
Input Output
Attributes Attribute
Inst
Sepal
Length
Sepal
Width
Petal
Length
Petal
Width Species1 51 35 14 02 setosa
2 49 3 14 02 setosa
3 47 32 13 02 setosa
4 46 31 15 02 setosa5 5 36 14 02 setosa
Numerical Nominal
ClassSample
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5157
172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up
What Problem are We Trying to Solve
Iris setosa
Weka
decisiontree
Iris versicolor
Iris virginica
Our taskClassify unknown iris using
measurements on 150 iris
samples of known species
Instrumente pentru Data-Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5257
52
Instrumente pentru Data-Mining
Weka Documentation httpwwwcswaikatoacnzmlweka
Waikato Environment for Knowledge Analysis
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5357
53
Instrumente pentru Data-Mining
Principalii producători de soft pentruData-Mining
ndash IBM ndash Intelligent Miner extensie pentru DB2
ndash SAS ndash Enterprise Miner
ndash SPSS ndash Clementine
ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)
ndash hellipmulți alți producători mai mici
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5457
54
Instrumente pentru Data-Mining
SPSS - Clementine
ndash httpwwwspsscomclementine Oracle - Darwin
ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet
ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner
ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml
Standarde Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5557
55
Standarde Data Mining
PMML (Predictive Modelling Markup Language)
ndash Limbaj similar XML pentru salvare și partajare de
modele (cel mai acceptat standard)
CRISP
ndash Metodologie standardizată pentru construirea deaplicații Data Mining
OLE DB pentru Data Mining
ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)
IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5657
56
1 INTRODUCERE
2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE
3-7
CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale
Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici
8 CLUSTERIZARE (ANALIZA CLUSTERILOR)
9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA
ASOCIERILOR)
10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR
11 EVALUAREA MODELELOR
12 APLICAŢII ŞI TENDINŢE IN DATA MINING
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5757
Mulţumesc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 357
3
Obiective
Cursul introduce concepte metode şi tehnici data mining din perspectiva bazelor dedate Accentul este pus asupra diferitelor funcţionalităţi (task-uri) data mining şi asoluţiilor corespunzătoare
Studenţii vor deprinde diverse tehnici de analiza datelor şi vor aplica aceste tehnicipentru rezolvarea unor probleme data mining folosind sisteme software speciale Se vaforma o percepţie asupra data mining ca fiind un puternic domeniu aplicativ dar şi undomeniu de cercetare semnificativ icircn bazele de date
Competenţe
Competenţe cognitive
Capacitatea de a1) identifica tipul sistem adecvat unei situaţii concrete (clasificare prognoză regresieetc)2) stabili care sunt instrumentele de implementare a unui sistem de data mining3) compara şi evalua diferite soluţii de icircnvăţare pentru o situaţie concretă Competenţe tehniceprofesionale
Capacitatea de a
1) implementa folosind diverse medii tehnici de data mining2) realiza sisteme de data miningCompetenţe afective
Capacitatea de a cunoaşte şi icircnţelege 1) conceptele de bază ale procesului de data mining2) principalele tipuri şi tehnici de icircnvăţare automată 3) principalele abordări ale extragerii cunoştinţelor din baze de date mari
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 457
4
Capitolul I INTRODUCEREI1 Data mining ndash definirea domeniului specificarea factorilor care au favorizatdezvoltarea domeniului şi definirea procesului de extragere a cunoştinţelor din baze dedate (Knowledge Discovery in Databases)I3 Exemplu de model de Data mining
Capitolul II CULEGEREA DATELOR ŞI SISTEMATIZAREA ACESTORA IcircN BAZE DEDATE
II1 Operaţii de depozitare date (acumulare conversie curăţire integrare şitransformare reducere şi discretizare)II2 Reconstituirea datelor lipsă
Capitolul III CLASIFICARE ŞI PREDICŢIEIII1 Definirea problemei
III2 Arbori de clasificare decizieIII3 Clasificatori bazaţi pe reguli de decizie III4 Clasificatori BayesieniIII5 Reţele neuronale III6 Clasificatori de tip k-nearest neighbourIII7 Maşini cu suport vectorial III8 Algoritmi genetici
III9 Predicţie - regresie linearăCapitolul IV CLUSTERIZARE (ANALIZA CLUSTERILOR)
IV1 Definirea problemeiIV2 Tipuri de date icircn analiza clusterilorIV3 Clasificarea metodelor de clusterizareIV4 Clase de metode de clusterizare de partiţionare ierarhice bazate pe densitate
bazate pe griduri bazate pe modeleIV5 Detecţia excepţiilor (outliers)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 557
5
Capitolul V DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA ASOCIERILOR)V1 Definirea problemeiV2 Algoritmi pentru extragerea regulilor de asociere unidimensionale booleene din
baze de date de tranzacţii - V1 V3 Apriori FP-GrowthV4 Algoritmi pentru extragerea regulilor de asociere multinivel multidimensionale cuconstracircngeriV5 Analiza corelaţiilor
Capitolul VI IDENTIFICAREA ANOMALIILOR ŞI DEVIAŢIILOR VI1 Metode grafice (box-plot diagrame de dispersie acoperire convexă) VI2 Metode statistice (testul Grubbs testul verosimilităţii) VI3 Metode bazate pe măsurarea distanţei (metoda k-nearest neighbour metodaclustering-ului)VI4 Metode bazate pe modele (clasificarea maşini instruibile modele autoregresive)
Capitolul VII EVALUAREA MODELELORVII1 Curbe de icircnvăţare VII2 Costul şi acurateţea clasificării
VII3 Curbe ROC (Receiver Operating Characteristic)VII4 Comparaţia statistică a performanţelor clasificării
Capitolul VIII APLICAŢII ŞI TENDINŢE IN DATA MININGVIII1 Aplicaţii telecomunicaţii analiza datelor financiare analiza datelor biologice etcVIII2 Data mining icircn baze de date statistice audio video
VIII3 Data mining securitatea şi secretul (privacy) datelor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 657
6
Evaluare
Forma de evaluare finală (E ndash examen C ndash colocviu VP ndash verificare pe parcurs) C
- nota obţinută la forma de evaluare finală 50
- nota pentru activităţi aplicative atestate (proiecte referate lucrări practice) 25
- nota la forme de evaluare continuă (teste lucrări de control) 25
Stabilireanotei finale(ponderi icircnprocente)
- alte forme de evaluare -
Bibliografie minimală
[1] Fayyad UM Piatetsky-Shapiro G Smyth P Uthurasamy R Advanced in Knowledge
Discovery and Data Mining Menlo Park AAAI Press 1996
[2] Han J Kamber M Data Mining Concepts and Techniques Second Edition MorganKaufmann Press Elsevier Inc San Francisco 2006
[3] Bramer M Principles of Data Mining Springer-Verlag London 2007
[4] Witten I H Frank E Data Mining Practical Machine Learning Tools and Techniques
Second Edition Kaufmann Press Elsevier Inc San Francisco 2005
[5] Gorunescu F Data mining Concepte modele şi tehnici Ed Albastră Cluj-Napoca 2006
[6] Ileană I Rotar C Muntean M Inteligenţă artificială Ed Risoprint Alba Iulia 2009
[7] Dumitrescu D Algoritmi genetici şi strategii evolutive ndash aplicaţii icircn Inteligenţa Artificială
şi icircn domenii conexe Ed Albastră Cluj-Napoca 2006
[8] Weka system and documentation (httpwwwcswaikatoacnzmlweka) Weka is a suiteof machine learning data mining software It contains Java implementation for various
mining algorithms data preprocessing filters and experimentation capabilities Weka is free
open-source software under the GNU General Public License (GPL)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 757
7
Data Mining
Definiţie
Aplicaţii tipice
Metode amp algoritmi
Instrumente
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 857
8
Lots of data is being collectedand warehoused ndash Web data e-commerce ndash purchases at department
grocery stores ndash BankCredit Card
transactions
Computers have become cheaper and more powerful
Competitive Pressure is Strong ndash Provide better customized services for an edge (eg in
Customer Relationship Management)
Why Mine Data Commercial Viewpoint
TanSteinbach Kumar Introduction to Data Miningwwwuserscsumnedu~kumardmbookindexphp
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 957
9
Why Mine Data Scientific Viewpoint
Data collected and stored at
enormous speeds (GBhour) ndash remote sensors on a satellite
ndash telescopes scanning the skies
ndash microarrays generating geneexpression data
ndash scientific simulationsgenerating terabytes of data
Traditional techniques infeasible for raw data Data mining may help scientists
ndash in classifying and segmenting data
ndash in Hypothesis Formation
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1057
10
Motivare ldquoNecesitatea este mama
invenţieirdquo
Problema exploziei cantităţii de date ndash Colectarea automată a datelor şi tehnologiile mature
de baze de date au condus la cantităţi uriaşe de datestocate icircn baze de date depozite de date şi alte
acumulări de date
Ne icircnecăm icircn date dar suntem icircnsetaţi de cunoaştere Soluţia Data warehouse şi data mining
ndash Data warehousing şi procesare on-line (OLAP)
ndash Extragerea cunoaşterii de interes (r eguli regularităţişabloane constracircngeri) din datele aflate icircn baze mari
Jiawei Han and Micheline Kamber Data Mining Concepts and
Techniques httpwwwcssfuca
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1157
11
Mining Large Data Sets - Motivation
There is often information ―hidden in the data that isnot readily evident
Human analysts may take weeks to discover usefulinformation Much of the data is never analyzed at all
0
500000
1000000
1500000
2000000
2500000
3000000
3500000
4000000
1995 1996 1997 1998 1999
The Data Gap
Total new disk (TB) since 1995
Number of
analysts
From R Grossman C Kamath V Kumar ―Data Mining for Scientific and Engineering Applications
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1257
12
Ce este Data Mining
Data mining (descoperirea cunoaşterii icircn baze de date)
ndash Extragerea informaţiilor sau şabloanelor de interes(nebanale implicite anterior necunoscute şi potenţialutile) din datele aflate icircn mari baze de date
Nume alternative
ndash Descoperirea cunoaşterii icircn baze de date (Knowledgediscovery in databases KDD) extragereacunoaşterii analiza datelorşabloanelor arheologiadatelor business intelligence etc
Ce nu este data mining ndash Procesarea deductivă a interogărilor ndash Sisteme expert sau programe mici statistice sau de
tipul maşinilor instruibile
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1357
13
Data mining sau căutarea informaţiei ascunse
De mai multe decenii mijloace şi tehnici informatice tot mai
evoluate au contribuit la amplificarea capacităţii de memorare şistocare a datelor
Ultimii ani au marcat o reorientare semnificativă icircn utilizareavolumelor de date stocate de la un proces de explorare
retrospectivă spre unul cu caracter prospectiv Această schimbare a devenit posibilă ca urmare a maturizării
tehnologiilor legate de data mining
Denumirea provine de la analogia cu activitatea minieră tot
aşa cum este necesară dislocarea şi rafinarea a tone de minereupentru a obţine cacircteva grame de aur aici sunt examinate şianalizate sute de mii sau milioane de date pentru a extrage dinele informaţii şi semnificaţii noi
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1457
14
Piramida datelor
Date
Informaţie
Cunoaştere
Icircnţelepciune
Date + context
Informa ţii + reguli
Cunoaştere + experien ţă
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1557
15
Definiţiile pentru data mining converg spre următoarea ideeDM este un proces de extragere de informaţii noi din colecţiile
de date existente
Principiul de funcţionare icircn data mining se prelucrează
datele referitoare la perioadele trecute examinacircnd o varietate de situaţii care s- au produs pentru a evidenţia caracteristicile
acestora şi a permite elaborarea unui model
Odată construit modelul poate fi aplicat situaţiilor noi de
acelaşi tip
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1657
16
Date deantrenare(icircnvare)
SistemDataMining
Date
noi
Predicie
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1757
17
Fundamentele explorării datelor
Dezvoltarea tehnicilor de data mining se explică printrealtele prin faptul că firmele au acumulat volume foarte mari dedate stocate pe suporturi informatice privitoare la tranzacţii dediverse tipuri derulate de-a lungul mai multor ani
Multă vreme acestea s-au acumulat pur şi simplu icircn virtuteanevoii de arhivare
Datele sunt la dispoziţia organizaţiei respective datele suntcacirct se poate de precise şi analitice datele sunt icircn volum mare şiacoperă perioade de timp de ordinul anilor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1857
18
Alături de existenţa colecţiilor de date istorice memorate pesuporturi informatice icircncă doi factori explică emergenţa
cunoscută actualmente de data mining (vezi figura următoare)
maturizarea algoritmilor şi a produselor programdedicate
creşterea capacităţii de memorare şi prelucrare acalculatoarelor care permite tratarea icircn corelaţiea volumelor foarte mari de date
Unele dintre tehnicile de data mining datează de ceva mai mulţiani Algoritmii folosiţi au cunoscut icircnsă un proces de evoluţiecontinuă care a permis icircnlăturarea unora dintre limitele saudeficienţele iniţiale
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1957
19
Putere de
calcul mrit
Algoritmistatisticii de
icircnvare
Colecii de date icircmbuntiteManagement
icircmbuntit aldatelor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2057
20
Produsele program au evoluat şi ele spre o utilizare cacirct maifacilă
Au apărut firme care oferă spre vacircnzare colecţii de dateistorice de uz general - cum ar fi spre exemplu evoluţiaindicatorilor bursieri din ultimii 20 de ani - special constituitepentru asemenea utilizări
Depozitele de date şi tehnologiile OLAP vizează şi ele datelecolectate la nivelul organizaţiilor
Depozitele de date se pretează foarte bine ca surse pentrudata mining iar rezultatele furnizate de acesta pot completacacircmpurile icircnregistrărilor celor dintacirci şi pot fi valorificate apoi prinproiecţiile multidimensionale specifice OLAP
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2157
21
Aplicaţii potenţiale
Analiza bazelor de date şi suport pentru decizie
ndash Analiza şi managementul pieţei
ndash Analiza şi managementul riscurilor
ndash Detecţia fraudelor
Analiza textelor - Text Mining
Analiză Web - Web Mining Răspuns inteligent la interogări
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2257
22
Analiza şi managementul pieţei
Care sunt sursele datelor de analizat ndash Tranzacţiile cu cardurile de credit cardurile de
fidelitate cupoanele de discount reclamaţiile clienţilorstudiile publice de stil de viaţă
Ţinta de marketing ndash Trebuie găsite grupuri de clienţi ―model care au
aceleaşi caracteristici interese nivel de venit obiceiuride cumpărare etc
Determinarea profilului cumpărătorului icircn timp ndash Conversia unui cont bancar icircn mai multe conectate
căsătorie etc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2357
23
Analiza şi managementul riscurilor
Planificare financiară şi evaluarea capitalului
ndash Analiza şi prognoza fluxului de numerar (cash flow)
ndash Analiza seriilor temporale (analiza tendinţelor etc)
Planificarea resurselor
ndash sumarizarea şi compararea resurselor şi acheltuielilor
Competiţie ndash Monitorizarea competitorilor şi a direcţiilor pieţei
ndash Fundamentarea strategiei preţului icircntr -o piaţă foartecompetitivă
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2457
24
Detecţia fraudelor
Folosirea datelor istorice pentru a construi modele decomportament fraudulos şi utilizarea data mining pentruidentificarea exemplelor similare
Exemple de aplicaţii
ndash Asigurări auto detectarea unui grup de persoane care icircnscenează accidente pentru a icircncasa asigurarea
ndash Spălare de bani detectarea tranzacţiilor suspecte
ndash Detectarea fraudelor telefonice detectareacomportamentelor suspecte (modelul de apel -destinaţie timp durată)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2557
25
DeviationAnomaly Detection
Detect significant deviations from normal behavior
Applications ndash Credit Card Fraud Detection
ndash Network IntrusionDetection
Typical network traffic at
University level may reach over 100
million connections per day
TanSteinbach Kumar Introduction to Data Miningwwwuserscsumnedu~kumardmbookindexphp
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2657
26
Alte domenii de aplicaţie
Sport
ndash Analiza jocurilor icircn NBA (ex detectarea strategieiadversarului) Astronomie
ndash Descoperirea şi clasificarea unor noi obiecte
Internet ndash Analiza acceselor Web descoperirea unor şabloane
(patterns) comportamentale analiza eficienţeimarketingului Web icircmbunătăţirea organizării site-urilor
Web Text
ndash Analiza ştirilor analiza icircnregistrărilor medicale sortarea şifiltrarea automată a e-mail-urilor clasificarea automată a
documentelor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2757
27
Contribuţii
Data Mining
Inteligenţă Artificială
Calculatoare performanteStatistică
Sisteme de baze dedate
Cercetări operaţionale
GIS
Vizualizare
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2857
28
Data miningintersecţia unor discipline multiple
Sisteme de baze de date data warehouse şi OLAP
Statistică
Maşini instruibile (Machine learning)
Vizualizare Informatică
Calcul de icircnaltă performanţă
Alte discipline ndash Reţele neuronale modelare matematică regăsirea
informaţiilor recunoaşterea formelor (patternrecognition)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2957
29
Architectura unui sistem tipic de Data Mining
Data
Warehouse
Curăţarea şi integrarea datelor Filtrare
Baze de date
Server de baze de date
sau de Data Warehouse
Motor data mining
Evaluarea şabloanelor
Interfaţă grafică utilizator
Bază de
cunoştinţe
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3057
30
Evoluţia tehnologiei bazelor de date
Anii 1960
ndash Colecţii de date crearea bazelor de date baze de datereţea
Anii 1970
ndash Modelul relaţional implementarea SGBD relaţional Anii 1980
ndash SGBD relaţionale modele de date avansate (relaţionalextins OO deductive etc) şi SGBD-uri specifice
(domeniul spatial ştiinţific inginerie etc) Anii 1990mdash2000
ndash Data mining şi data warehouse baze de date multimediabaze de date Web
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3157
31
Proces
Data mining inima
procesului de
descoperire a
cunoaşterii
Curăţirea datelor
Baze dedate
Data Warehouse
Date relevante
Data Mining
Evaluarea configuraţiilor
C ţi icirc t d ti b ă d
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3257
32
Comparaţie icircntre procesarea de tip bază de
date şi cea de tip Data Mining
Interogare ndash Bine definită ndash SQL
Interogare ndash Slab definită ndash Nu există limbaj precis de
interogare
Date ndash Date operaţ ionale
Ieşirea ndash Precisă ndash Subset al bazei dedate
Date ndash Date neoperaţionale
Ieşirea ndash Vagă ndash Nu este un subset al bazeide date
E l d i t ă i
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3357
33
Exemple de interogări
Bază de date
Data Mining
ndash Găseşte toţi clienţii care au cumpărat lapte
ndash Găseşte toţi clienţii care au cumpărat frecvent
lapte (Reguli de asociere)
ndash Găseşte toţi titularii de credite cu numele Smith ndash Identifică toţi clienţii care au cumpărat de maimult de $10000 icircn ultima lună
ndash Găseşte toţi titularii de credite cu risc mic decreditare (Clasificare)
ndash Identifică clienţii cu obiceiuri similare decumpărare (Grupare)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3457
34
Modele şi tehnici Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3557
35
Verificarea ipotezelor şi căutarea cunoştinţelor
Aplicarea tehnicilor de data mining poate fi făcută dinperspectiva unui demers ascendent sau descendent
Icircn abordarea descendentă efortul este orientat spre
confirmarea sau infirmarea unor idei (ipoteze) formulate icircnprealabil prin alte mijloace
Abordarea ascendentă are o cu totul altă finalitate ea
urmăreşte extragerea de cunoştinţe sau informaţii noi din dateledisponibile
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3657
36
Căutarea poate fi dirijată sau nedirijată
Căutarea dirijată ia icircn considerare un atribut sau un cacircmpale cărui valori icircncearcă să le explice prin celelalte cacircmpuriEste cea mai folosită icircn practică
Căutarea nedirijată are ca scop identificarea relaţiilor saustructurilor existente icircn ansamblul datelor examinate fără aacorda prioritate unui cacircmp sau altul
Deşi mai spectaculoasă icircn practică se recurge mult maipuţin la ea decacirct la căutarea dirijată
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3757
37
Data mining
verificarea
ipotezelor
căutarea de
cunoştinţe
dirijată nedirijată
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3857
38
Tehnici şi acţiuni
Data mining exploatează colecţiile de date de care dispune o
organizaţie
La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei
icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc
Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod
intrinsec
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3957
39
Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de
icircnţeles o tendinţă relevată de un număr foarte mare de cazuri
practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii
Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se
reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor
raţionamentele bazate pe cazuri analiza legăturilor
La acestea se pot asocia şi tehnici statistice cum sunt spre
exemplu regresiile analiza factorială etc
M d l di ti
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4057
40 40
Modele predictivehellip
Arbori de decizie
Clasificări după cel mai apropiat vecin
Reţele neuronale
Reguli
Analiza grupurilor
A l d i i ă l ă l i i
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4157
41
Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea
predicţiagrupareaanaliza grupărilor
Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un
grup limitat de clase predefinite
Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut
mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4257
42
Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare
Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări
Predicţia urmăreşte să claseze icircnregistrările tratate icircn
funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un
model care să explice comportamentul observat
Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora
icircn viitor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4357
43
Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună
Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei
Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster
Spre deosebire de celelalte tipuri de acţiuni asemănătoare
aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4457
44
Etapele procesului de exploatare a datelor
Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare
Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date
colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4557
45
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4657
46
Evaluarea modelului
Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare
Integrarea modelului
Această etapă finalizează procesul prin includerea
modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4757
172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up
Overview of Fisherrsquos Iris Dataset
Fisherrsquos iris dataset is available for download from the tutorial website
httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls
Iris photos courtesy of SIGNA ndash wwwsignaorg
Fisherrsquos iris dataset is well-known in
data mining research
This dataset is commonly used to
illustrate data mining tools
Mark Polczynski PhD The Technology Forge mhptechforgegmailnet
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4857
172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up
Fisherrsquos Database - Background
Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems
Annals of Eugenics 7 179 ndash188 available at
httpdigitallibraryadelaideeduaucollspecialfisher138pdf
iris setosa iris versicolor iris virginica
Dataset contains flower dimension measurements on 50 samples of each species
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4957
172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up
Fisherrsquos Dataset- Background
Data mining terminology
bull The four iris dimensions are termed attributes or input attributes
bull The three iris species are termed classes or output attributes
bull Each example of an iris is termed a sample or instance
Anderson measured these dimensions
bull sepal length
bull sepal width
bull petal length
bull petal width
Measurements on these iris speciesbull setosa
bull versicolor
bull virginica
S t f Fi h rsquo I i D t t
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5057
172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up
Segment of Fisherrsquos Iris Dataset
Input Output
Attributes Attribute
Inst
Sepal
Length
Sepal
Width
Petal
Length
Petal
Width Species1 51 35 14 02 setosa
2 49 3 14 02 setosa
3 47 32 13 02 setosa
4 46 31 15 02 setosa5 5 36 14 02 setosa
Numerical Nominal
ClassSample
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5157
172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up
What Problem are We Trying to Solve
Iris setosa
Weka
decisiontree
Iris versicolor
Iris virginica
Our taskClassify unknown iris using
measurements on 150 iris
samples of known species
Instrumente pentru Data-Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5257
52
Instrumente pentru Data-Mining
Weka Documentation httpwwwcswaikatoacnzmlweka
Waikato Environment for Knowledge Analysis
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5357
53
Instrumente pentru Data-Mining
Principalii producători de soft pentruData-Mining
ndash IBM ndash Intelligent Miner extensie pentru DB2
ndash SAS ndash Enterprise Miner
ndash SPSS ndash Clementine
ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)
ndash hellipmulți alți producători mai mici
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5457
54
Instrumente pentru Data-Mining
SPSS - Clementine
ndash httpwwwspsscomclementine Oracle - Darwin
ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet
ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner
ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml
Standarde Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5557
55
Standarde Data Mining
PMML (Predictive Modelling Markup Language)
ndash Limbaj similar XML pentru salvare și partajare de
modele (cel mai acceptat standard)
CRISP
ndash Metodologie standardizată pentru construirea deaplicații Data Mining
OLE DB pentru Data Mining
ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)
IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5657
56
1 INTRODUCERE
2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE
3-7
CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale
Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici
8 CLUSTERIZARE (ANALIZA CLUSTERILOR)
9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA
ASOCIERILOR)
10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR
11 EVALUAREA MODELELOR
12 APLICAŢII ŞI TENDINŢE IN DATA MINING
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5757
Mulţumesc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 457
4
Capitolul I INTRODUCEREI1 Data mining ndash definirea domeniului specificarea factorilor care au favorizatdezvoltarea domeniului şi definirea procesului de extragere a cunoştinţelor din baze dedate (Knowledge Discovery in Databases)I3 Exemplu de model de Data mining
Capitolul II CULEGEREA DATELOR ŞI SISTEMATIZAREA ACESTORA IcircN BAZE DEDATE
II1 Operaţii de depozitare date (acumulare conversie curăţire integrare şitransformare reducere şi discretizare)II2 Reconstituirea datelor lipsă
Capitolul III CLASIFICARE ŞI PREDICŢIEIII1 Definirea problemei
III2 Arbori de clasificare decizieIII3 Clasificatori bazaţi pe reguli de decizie III4 Clasificatori BayesieniIII5 Reţele neuronale III6 Clasificatori de tip k-nearest neighbourIII7 Maşini cu suport vectorial III8 Algoritmi genetici
III9 Predicţie - regresie linearăCapitolul IV CLUSTERIZARE (ANALIZA CLUSTERILOR)
IV1 Definirea problemeiIV2 Tipuri de date icircn analiza clusterilorIV3 Clasificarea metodelor de clusterizareIV4 Clase de metode de clusterizare de partiţionare ierarhice bazate pe densitate
bazate pe griduri bazate pe modeleIV5 Detecţia excepţiilor (outliers)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 557
5
Capitolul V DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA ASOCIERILOR)V1 Definirea problemeiV2 Algoritmi pentru extragerea regulilor de asociere unidimensionale booleene din
baze de date de tranzacţii - V1 V3 Apriori FP-GrowthV4 Algoritmi pentru extragerea regulilor de asociere multinivel multidimensionale cuconstracircngeriV5 Analiza corelaţiilor
Capitolul VI IDENTIFICAREA ANOMALIILOR ŞI DEVIAŢIILOR VI1 Metode grafice (box-plot diagrame de dispersie acoperire convexă) VI2 Metode statistice (testul Grubbs testul verosimilităţii) VI3 Metode bazate pe măsurarea distanţei (metoda k-nearest neighbour metodaclustering-ului)VI4 Metode bazate pe modele (clasificarea maşini instruibile modele autoregresive)
Capitolul VII EVALUAREA MODELELORVII1 Curbe de icircnvăţare VII2 Costul şi acurateţea clasificării
VII3 Curbe ROC (Receiver Operating Characteristic)VII4 Comparaţia statistică a performanţelor clasificării
Capitolul VIII APLICAŢII ŞI TENDINŢE IN DATA MININGVIII1 Aplicaţii telecomunicaţii analiza datelor financiare analiza datelor biologice etcVIII2 Data mining icircn baze de date statistice audio video
VIII3 Data mining securitatea şi secretul (privacy) datelor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 657
6
Evaluare
Forma de evaluare finală (E ndash examen C ndash colocviu VP ndash verificare pe parcurs) C
- nota obţinută la forma de evaluare finală 50
- nota pentru activităţi aplicative atestate (proiecte referate lucrări practice) 25
- nota la forme de evaluare continuă (teste lucrări de control) 25
Stabilireanotei finale(ponderi icircnprocente)
- alte forme de evaluare -
Bibliografie minimală
[1] Fayyad UM Piatetsky-Shapiro G Smyth P Uthurasamy R Advanced in Knowledge
Discovery and Data Mining Menlo Park AAAI Press 1996
[2] Han J Kamber M Data Mining Concepts and Techniques Second Edition MorganKaufmann Press Elsevier Inc San Francisco 2006
[3] Bramer M Principles of Data Mining Springer-Verlag London 2007
[4] Witten I H Frank E Data Mining Practical Machine Learning Tools and Techniques
Second Edition Kaufmann Press Elsevier Inc San Francisco 2005
[5] Gorunescu F Data mining Concepte modele şi tehnici Ed Albastră Cluj-Napoca 2006
[6] Ileană I Rotar C Muntean M Inteligenţă artificială Ed Risoprint Alba Iulia 2009
[7] Dumitrescu D Algoritmi genetici şi strategii evolutive ndash aplicaţii icircn Inteligenţa Artificială
şi icircn domenii conexe Ed Albastră Cluj-Napoca 2006
[8] Weka system and documentation (httpwwwcswaikatoacnzmlweka) Weka is a suiteof machine learning data mining software It contains Java implementation for various
mining algorithms data preprocessing filters and experimentation capabilities Weka is free
open-source software under the GNU General Public License (GPL)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 757
7
Data Mining
Definiţie
Aplicaţii tipice
Metode amp algoritmi
Instrumente
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 857
8
Lots of data is being collectedand warehoused ndash Web data e-commerce ndash purchases at department
grocery stores ndash BankCredit Card
transactions
Computers have become cheaper and more powerful
Competitive Pressure is Strong ndash Provide better customized services for an edge (eg in
Customer Relationship Management)
Why Mine Data Commercial Viewpoint
TanSteinbach Kumar Introduction to Data Miningwwwuserscsumnedu~kumardmbookindexphp
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 957
9
Why Mine Data Scientific Viewpoint
Data collected and stored at
enormous speeds (GBhour) ndash remote sensors on a satellite
ndash telescopes scanning the skies
ndash microarrays generating geneexpression data
ndash scientific simulationsgenerating terabytes of data
Traditional techniques infeasible for raw data Data mining may help scientists
ndash in classifying and segmenting data
ndash in Hypothesis Formation
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1057
10
Motivare ldquoNecesitatea este mama
invenţieirdquo
Problema exploziei cantităţii de date ndash Colectarea automată a datelor şi tehnologiile mature
de baze de date au condus la cantităţi uriaşe de datestocate icircn baze de date depozite de date şi alte
acumulări de date
Ne icircnecăm icircn date dar suntem icircnsetaţi de cunoaştere Soluţia Data warehouse şi data mining
ndash Data warehousing şi procesare on-line (OLAP)
ndash Extragerea cunoaşterii de interes (r eguli regularităţişabloane constracircngeri) din datele aflate icircn baze mari
Jiawei Han and Micheline Kamber Data Mining Concepts and
Techniques httpwwwcssfuca
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1157
11
Mining Large Data Sets - Motivation
There is often information ―hidden in the data that isnot readily evident
Human analysts may take weeks to discover usefulinformation Much of the data is never analyzed at all
0
500000
1000000
1500000
2000000
2500000
3000000
3500000
4000000
1995 1996 1997 1998 1999
The Data Gap
Total new disk (TB) since 1995
Number of
analysts
From R Grossman C Kamath V Kumar ―Data Mining for Scientific and Engineering Applications
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1257
12
Ce este Data Mining
Data mining (descoperirea cunoaşterii icircn baze de date)
ndash Extragerea informaţiilor sau şabloanelor de interes(nebanale implicite anterior necunoscute şi potenţialutile) din datele aflate icircn mari baze de date
Nume alternative
ndash Descoperirea cunoaşterii icircn baze de date (Knowledgediscovery in databases KDD) extragereacunoaşterii analiza datelorşabloanelor arheologiadatelor business intelligence etc
Ce nu este data mining ndash Procesarea deductivă a interogărilor ndash Sisteme expert sau programe mici statistice sau de
tipul maşinilor instruibile
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1357
13
Data mining sau căutarea informaţiei ascunse
De mai multe decenii mijloace şi tehnici informatice tot mai
evoluate au contribuit la amplificarea capacităţii de memorare şistocare a datelor
Ultimii ani au marcat o reorientare semnificativă icircn utilizareavolumelor de date stocate de la un proces de explorare
retrospectivă spre unul cu caracter prospectiv Această schimbare a devenit posibilă ca urmare a maturizării
tehnologiilor legate de data mining
Denumirea provine de la analogia cu activitatea minieră tot
aşa cum este necesară dislocarea şi rafinarea a tone de minereupentru a obţine cacircteva grame de aur aici sunt examinate şianalizate sute de mii sau milioane de date pentru a extrage dinele informaţii şi semnificaţii noi
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1457
14
Piramida datelor
Date
Informaţie
Cunoaştere
Icircnţelepciune
Date + context
Informa ţii + reguli
Cunoaştere + experien ţă
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1557
15
Definiţiile pentru data mining converg spre următoarea ideeDM este un proces de extragere de informaţii noi din colecţiile
de date existente
Principiul de funcţionare icircn data mining se prelucrează
datele referitoare la perioadele trecute examinacircnd o varietate de situaţii care s- au produs pentru a evidenţia caracteristicile
acestora şi a permite elaborarea unui model
Odată construit modelul poate fi aplicat situaţiilor noi de
acelaşi tip
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1657
16
Date deantrenare(icircnvare)
SistemDataMining
Date
noi
Predicie
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1757
17
Fundamentele explorării datelor
Dezvoltarea tehnicilor de data mining se explică printrealtele prin faptul că firmele au acumulat volume foarte mari dedate stocate pe suporturi informatice privitoare la tranzacţii dediverse tipuri derulate de-a lungul mai multor ani
Multă vreme acestea s-au acumulat pur şi simplu icircn virtuteanevoii de arhivare
Datele sunt la dispoziţia organizaţiei respective datele suntcacirct se poate de precise şi analitice datele sunt icircn volum mare şiacoperă perioade de timp de ordinul anilor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1857
18
Alături de existenţa colecţiilor de date istorice memorate pesuporturi informatice icircncă doi factori explică emergenţa
cunoscută actualmente de data mining (vezi figura următoare)
maturizarea algoritmilor şi a produselor programdedicate
creşterea capacităţii de memorare şi prelucrare acalculatoarelor care permite tratarea icircn corelaţiea volumelor foarte mari de date
Unele dintre tehnicile de data mining datează de ceva mai mulţiani Algoritmii folosiţi au cunoscut icircnsă un proces de evoluţiecontinuă care a permis icircnlăturarea unora dintre limitele saudeficienţele iniţiale
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1957
19
Putere de
calcul mrit
Algoritmistatisticii de
icircnvare
Colecii de date icircmbuntiteManagement
icircmbuntit aldatelor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2057
20
Produsele program au evoluat şi ele spre o utilizare cacirct maifacilă
Au apărut firme care oferă spre vacircnzare colecţii de dateistorice de uz general - cum ar fi spre exemplu evoluţiaindicatorilor bursieri din ultimii 20 de ani - special constituitepentru asemenea utilizări
Depozitele de date şi tehnologiile OLAP vizează şi ele datelecolectate la nivelul organizaţiilor
Depozitele de date se pretează foarte bine ca surse pentrudata mining iar rezultatele furnizate de acesta pot completacacircmpurile icircnregistrărilor celor dintacirci şi pot fi valorificate apoi prinproiecţiile multidimensionale specifice OLAP
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2157
21
Aplicaţii potenţiale
Analiza bazelor de date şi suport pentru decizie
ndash Analiza şi managementul pieţei
ndash Analiza şi managementul riscurilor
ndash Detecţia fraudelor
Analiza textelor - Text Mining
Analiză Web - Web Mining Răspuns inteligent la interogări
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2257
22
Analiza şi managementul pieţei
Care sunt sursele datelor de analizat ndash Tranzacţiile cu cardurile de credit cardurile de
fidelitate cupoanele de discount reclamaţiile clienţilorstudiile publice de stil de viaţă
Ţinta de marketing ndash Trebuie găsite grupuri de clienţi ―model care au
aceleaşi caracteristici interese nivel de venit obiceiuride cumpărare etc
Determinarea profilului cumpărătorului icircn timp ndash Conversia unui cont bancar icircn mai multe conectate
căsătorie etc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2357
23
Analiza şi managementul riscurilor
Planificare financiară şi evaluarea capitalului
ndash Analiza şi prognoza fluxului de numerar (cash flow)
ndash Analiza seriilor temporale (analiza tendinţelor etc)
Planificarea resurselor
ndash sumarizarea şi compararea resurselor şi acheltuielilor
Competiţie ndash Monitorizarea competitorilor şi a direcţiilor pieţei
ndash Fundamentarea strategiei preţului icircntr -o piaţă foartecompetitivă
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2457
24
Detecţia fraudelor
Folosirea datelor istorice pentru a construi modele decomportament fraudulos şi utilizarea data mining pentruidentificarea exemplelor similare
Exemple de aplicaţii
ndash Asigurări auto detectarea unui grup de persoane care icircnscenează accidente pentru a icircncasa asigurarea
ndash Spălare de bani detectarea tranzacţiilor suspecte
ndash Detectarea fraudelor telefonice detectareacomportamentelor suspecte (modelul de apel -destinaţie timp durată)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2557
25
DeviationAnomaly Detection
Detect significant deviations from normal behavior
Applications ndash Credit Card Fraud Detection
ndash Network IntrusionDetection
Typical network traffic at
University level may reach over 100
million connections per day
TanSteinbach Kumar Introduction to Data Miningwwwuserscsumnedu~kumardmbookindexphp
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2657
26
Alte domenii de aplicaţie
Sport
ndash Analiza jocurilor icircn NBA (ex detectarea strategieiadversarului) Astronomie
ndash Descoperirea şi clasificarea unor noi obiecte
Internet ndash Analiza acceselor Web descoperirea unor şabloane
(patterns) comportamentale analiza eficienţeimarketingului Web icircmbunătăţirea organizării site-urilor
Web Text
ndash Analiza ştirilor analiza icircnregistrărilor medicale sortarea şifiltrarea automată a e-mail-urilor clasificarea automată a
documentelor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2757
27
Contribuţii
Data Mining
Inteligenţă Artificială
Calculatoare performanteStatistică
Sisteme de baze dedate
Cercetări operaţionale
GIS
Vizualizare
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2857
28
Data miningintersecţia unor discipline multiple
Sisteme de baze de date data warehouse şi OLAP
Statistică
Maşini instruibile (Machine learning)
Vizualizare Informatică
Calcul de icircnaltă performanţă
Alte discipline ndash Reţele neuronale modelare matematică regăsirea
informaţiilor recunoaşterea formelor (patternrecognition)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2957
29
Architectura unui sistem tipic de Data Mining
Data
Warehouse
Curăţarea şi integrarea datelor Filtrare
Baze de date
Server de baze de date
sau de Data Warehouse
Motor data mining
Evaluarea şabloanelor
Interfaţă grafică utilizator
Bază de
cunoştinţe
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3057
30
Evoluţia tehnologiei bazelor de date
Anii 1960
ndash Colecţii de date crearea bazelor de date baze de datereţea
Anii 1970
ndash Modelul relaţional implementarea SGBD relaţional Anii 1980
ndash SGBD relaţionale modele de date avansate (relaţionalextins OO deductive etc) şi SGBD-uri specifice
(domeniul spatial ştiinţific inginerie etc) Anii 1990mdash2000
ndash Data mining şi data warehouse baze de date multimediabaze de date Web
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3157
31
Proces
Data mining inima
procesului de
descoperire a
cunoaşterii
Curăţirea datelor
Baze dedate
Data Warehouse
Date relevante
Data Mining
Evaluarea configuraţiilor
C ţi icirc t d ti b ă d
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3257
32
Comparaţie icircntre procesarea de tip bază de
date şi cea de tip Data Mining
Interogare ndash Bine definită ndash SQL
Interogare ndash Slab definită ndash Nu există limbaj precis de
interogare
Date ndash Date operaţ ionale
Ieşirea ndash Precisă ndash Subset al bazei dedate
Date ndash Date neoperaţionale
Ieşirea ndash Vagă ndash Nu este un subset al bazeide date
E l d i t ă i
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3357
33
Exemple de interogări
Bază de date
Data Mining
ndash Găseşte toţi clienţii care au cumpărat lapte
ndash Găseşte toţi clienţii care au cumpărat frecvent
lapte (Reguli de asociere)
ndash Găseşte toţi titularii de credite cu numele Smith ndash Identifică toţi clienţii care au cumpărat de maimult de $10000 icircn ultima lună
ndash Găseşte toţi titularii de credite cu risc mic decreditare (Clasificare)
ndash Identifică clienţii cu obiceiuri similare decumpărare (Grupare)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3457
34
Modele şi tehnici Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3557
35
Verificarea ipotezelor şi căutarea cunoştinţelor
Aplicarea tehnicilor de data mining poate fi făcută dinperspectiva unui demers ascendent sau descendent
Icircn abordarea descendentă efortul este orientat spre
confirmarea sau infirmarea unor idei (ipoteze) formulate icircnprealabil prin alte mijloace
Abordarea ascendentă are o cu totul altă finalitate ea
urmăreşte extragerea de cunoştinţe sau informaţii noi din dateledisponibile
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3657
36
Căutarea poate fi dirijată sau nedirijată
Căutarea dirijată ia icircn considerare un atribut sau un cacircmpale cărui valori icircncearcă să le explice prin celelalte cacircmpuriEste cea mai folosită icircn practică
Căutarea nedirijată are ca scop identificarea relaţiilor saustructurilor existente icircn ansamblul datelor examinate fără aacorda prioritate unui cacircmp sau altul
Deşi mai spectaculoasă icircn practică se recurge mult maipuţin la ea decacirct la căutarea dirijată
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3757
37
Data mining
verificarea
ipotezelor
căutarea de
cunoştinţe
dirijată nedirijată
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3857
38
Tehnici şi acţiuni
Data mining exploatează colecţiile de date de care dispune o
organizaţie
La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei
icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc
Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod
intrinsec
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3957
39
Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de
icircnţeles o tendinţă relevată de un număr foarte mare de cazuri
practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii
Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se
reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor
raţionamentele bazate pe cazuri analiza legăturilor
La acestea se pot asocia şi tehnici statistice cum sunt spre
exemplu regresiile analiza factorială etc
M d l di ti
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4057
40 40
Modele predictivehellip
Arbori de decizie
Clasificări după cel mai apropiat vecin
Reţele neuronale
Reguli
Analiza grupurilor
A l d i i ă l ă l i i
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4157
41
Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea
predicţiagrupareaanaliza grupărilor
Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un
grup limitat de clase predefinite
Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut
mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4257
42
Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare
Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări
Predicţia urmăreşte să claseze icircnregistrările tratate icircn
funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un
model care să explice comportamentul observat
Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora
icircn viitor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4357
43
Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună
Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei
Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster
Spre deosebire de celelalte tipuri de acţiuni asemănătoare
aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4457
44
Etapele procesului de exploatare a datelor
Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare
Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date
colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4557
45
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4657
46
Evaluarea modelului
Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare
Integrarea modelului
Această etapă finalizează procesul prin includerea
modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4757
172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up
Overview of Fisherrsquos Iris Dataset
Fisherrsquos iris dataset is available for download from the tutorial website
httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls
Iris photos courtesy of SIGNA ndash wwwsignaorg
Fisherrsquos iris dataset is well-known in
data mining research
This dataset is commonly used to
illustrate data mining tools
Mark Polczynski PhD The Technology Forge mhptechforgegmailnet
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4857
172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up
Fisherrsquos Database - Background
Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems
Annals of Eugenics 7 179 ndash188 available at
httpdigitallibraryadelaideeduaucollspecialfisher138pdf
iris setosa iris versicolor iris virginica
Dataset contains flower dimension measurements on 50 samples of each species
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4957
172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up
Fisherrsquos Dataset- Background
Data mining terminology
bull The four iris dimensions are termed attributes or input attributes
bull The three iris species are termed classes or output attributes
bull Each example of an iris is termed a sample or instance
Anderson measured these dimensions
bull sepal length
bull sepal width
bull petal length
bull petal width
Measurements on these iris speciesbull setosa
bull versicolor
bull virginica
S t f Fi h rsquo I i D t t
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5057
172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up
Segment of Fisherrsquos Iris Dataset
Input Output
Attributes Attribute
Inst
Sepal
Length
Sepal
Width
Petal
Length
Petal
Width Species1 51 35 14 02 setosa
2 49 3 14 02 setosa
3 47 32 13 02 setosa
4 46 31 15 02 setosa5 5 36 14 02 setosa
Numerical Nominal
ClassSample
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5157
172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up
What Problem are We Trying to Solve
Iris setosa
Weka
decisiontree
Iris versicolor
Iris virginica
Our taskClassify unknown iris using
measurements on 150 iris
samples of known species
Instrumente pentru Data-Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5257
52
Instrumente pentru Data-Mining
Weka Documentation httpwwwcswaikatoacnzmlweka
Waikato Environment for Knowledge Analysis
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5357
53
Instrumente pentru Data-Mining
Principalii producători de soft pentruData-Mining
ndash IBM ndash Intelligent Miner extensie pentru DB2
ndash SAS ndash Enterprise Miner
ndash SPSS ndash Clementine
ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)
ndash hellipmulți alți producători mai mici
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5457
54
Instrumente pentru Data-Mining
SPSS - Clementine
ndash httpwwwspsscomclementine Oracle - Darwin
ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet
ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner
ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml
Standarde Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5557
55
Standarde Data Mining
PMML (Predictive Modelling Markup Language)
ndash Limbaj similar XML pentru salvare și partajare de
modele (cel mai acceptat standard)
CRISP
ndash Metodologie standardizată pentru construirea deaplicații Data Mining
OLE DB pentru Data Mining
ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)
IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5657
56
1 INTRODUCERE
2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE
3-7
CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale
Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici
8 CLUSTERIZARE (ANALIZA CLUSTERILOR)
9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA
ASOCIERILOR)
10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR
11 EVALUAREA MODELELOR
12 APLICAŢII ŞI TENDINŢE IN DATA MINING
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5757
Mulţumesc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 557
5
Capitolul V DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA ASOCIERILOR)V1 Definirea problemeiV2 Algoritmi pentru extragerea regulilor de asociere unidimensionale booleene din
baze de date de tranzacţii - V1 V3 Apriori FP-GrowthV4 Algoritmi pentru extragerea regulilor de asociere multinivel multidimensionale cuconstracircngeriV5 Analiza corelaţiilor
Capitolul VI IDENTIFICAREA ANOMALIILOR ŞI DEVIAŢIILOR VI1 Metode grafice (box-plot diagrame de dispersie acoperire convexă) VI2 Metode statistice (testul Grubbs testul verosimilităţii) VI3 Metode bazate pe măsurarea distanţei (metoda k-nearest neighbour metodaclustering-ului)VI4 Metode bazate pe modele (clasificarea maşini instruibile modele autoregresive)
Capitolul VII EVALUAREA MODELELORVII1 Curbe de icircnvăţare VII2 Costul şi acurateţea clasificării
VII3 Curbe ROC (Receiver Operating Characteristic)VII4 Comparaţia statistică a performanţelor clasificării
Capitolul VIII APLICAŢII ŞI TENDINŢE IN DATA MININGVIII1 Aplicaţii telecomunicaţii analiza datelor financiare analiza datelor biologice etcVIII2 Data mining icircn baze de date statistice audio video
VIII3 Data mining securitatea şi secretul (privacy) datelor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 657
6
Evaluare
Forma de evaluare finală (E ndash examen C ndash colocviu VP ndash verificare pe parcurs) C
- nota obţinută la forma de evaluare finală 50
- nota pentru activităţi aplicative atestate (proiecte referate lucrări practice) 25
- nota la forme de evaluare continuă (teste lucrări de control) 25
Stabilireanotei finale(ponderi icircnprocente)
- alte forme de evaluare -
Bibliografie minimală
[1] Fayyad UM Piatetsky-Shapiro G Smyth P Uthurasamy R Advanced in Knowledge
Discovery and Data Mining Menlo Park AAAI Press 1996
[2] Han J Kamber M Data Mining Concepts and Techniques Second Edition MorganKaufmann Press Elsevier Inc San Francisco 2006
[3] Bramer M Principles of Data Mining Springer-Verlag London 2007
[4] Witten I H Frank E Data Mining Practical Machine Learning Tools and Techniques
Second Edition Kaufmann Press Elsevier Inc San Francisco 2005
[5] Gorunescu F Data mining Concepte modele şi tehnici Ed Albastră Cluj-Napoca 2006
[6] Ileană I Rotar C Muntean M Inteligenţă artificială Ed Risoprint Alba Iulia 2009
[7] Dumitrescu D Algoritmi genetici şi strategii evolutive ndash aplicaţii icircn Inteligenţa Artificială
şi icircn domenii conexe Ed Albastră Cluj-Napoca 2006
[8] Weka system and documentation (httpwwwcswaikatoacnzmlweka) Weka is a suiteof machine learning data mining software It contains Java implementation for various
mining algorithms data preprocessing filters and experimentation capabilities Weka is free
open-source software under the GNU General Public License (GPL)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 757
7
Data Mining
Definiţie
Aplicaţii tipice
Metode amp algoritmi
Instrumente
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 857
8
Lots of data is being collectedand warehoused ndash Web data e-commerce ndash purchases at department
grocery stores ndash BankCredit Card
transactions
Computers have become cheaper and more powerful
Competitive Pressure is Strong ndash Provide better customized services for an edge (eg in
Customer Relationship Management)
Why Mine Data Commercial Viewpoint
TanSteinbach Kumar Introduction to Data Miningwwwuserscsumnedu~kumardmbookindexphp
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 957
9
Why Mine Data Scientific Viewpoint
Data collected and stored at
enormous speeds (GBhour) ndash remote sensors on a satellite
ndash telescopes scanning the skies
ndash microarrays generating geneexpression data
ndash scientific simulationsgenerating terabytes of data
Traditional techniques infeasible for raw data Data mining may help scientists
ndash in classifying and segmenting data
ndash in Hypothesis Formation
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1057
10
Motivare ldquoNecesitatea este mama
invenţieirdquo
Problema exploziei cantităţii de date ndash Colectarea automată a datelor şi tehnologiile mature
de baze de date au condus la cantităţi uriaşe de datestocate icircn baze de date depozite de date şi alte
acumulări de date
Ne icircnecăm icircn date dar suntem icircnsetaţi de cunoaştere Soluţia Data warehouse şi data mining
ndash Data warehousing şi procesare on-line (OLAP)
ndash Extragerea cunoaşterii de interes (r eguli regularităţişabloane constracircngeri) din datele aflate icircn baze mari
Jiawei Han and Micheline Kamber Data Mining Concepts and
Techniques httpwwwcssfuca
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1157
11
Mining Large Data Sets - Motivation
There is often information ―hidden in the data that isnot readily evident
Human analysts may take weeks to discover usefulinformation Much of the data is never analyzed at all
0
500000
1000000
1500000
2000000
2500000
3000000
3500000
4000000
1995 1996 1997 1998 1999
The Data Gap
Total new disk (TB) since 1995
Number of
analysts
From R Grossman C Kamath V Kumar ―Data Mining for Scientific and Engineering Applications
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1257
12
Ce este Data Mining
Data mining (descoperirea cunoaşterii icircn baze de date)
ndash Extragerea informaţiilor sau şabloanelor de interes(nebanale implicite anterior necunoscute şi potenţialutile) din datele aflate icircn mari baze de date
Nume alternative
ndash Descoperirea cunoaşterii icircn baze de date (Knowledgediscovery in databases KDD) extragereacunoaşterii analiza datelorşabloanelor arheologiadatelor business intelligence etc
Ce nu este data mining ndash Procesarea deductivă a interogărilor ndash Sisteme expert sau programe mici statistice sau de
tipul maşinilor instruibile
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1357
13
Data mining sau căutarea informaţiei ascunse
De mai multe decenii mijloace şi tehnici informatice tot mai
evoluate au contribuit la amplificarea capacităţii de memorare şistocare a datelor
Ultimii ani au marcat o reorientare semnificativă icircn utilizareavolumelor de date stocate de la un proces de explorare
retrospectivă spre unul cu caracter prospectiv Această schimbare a devenit posibilă ca urmare a maturizării
tehnologiilor legate de data mining
Denumirea provine de la analogia cu activitatea minieră tot
aşa cum este necesară dislocarea şi rafinarea a tone de minereupentru a obţine cacircteva grame de aur aici sunt examinate şianalizate sute de mii sau milioane de date pentru a extrage dinele informaţii şi semnificaţii noi
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1457
14
Piramida datelor
Date
Informaţie
Cunoaştere
Icircnţelepciune
Date + context
Informa ţii + reguli
Cunoaştere + experien ţă
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1557
15
Definiţiile pentru data mining converg spre următoarea ideeDM este un proces de extragere de informaţii noi din colecţiile
de date existente
Principiul de funcţionare icircn data mining se prelucrează
datele referitoare la perioadele trecute examinacircnd o varietate de situaţii care s- au produs pentru a evidenţia caracteristicile
acestora şi a permite elaborarea unui model
Odată construit modelul poate fi aplicat situaţiilor noi de
acelaşi tip
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1657
16
Date deantrenare(icircnvare)
SistemDataMining
Date
noi
Predicie
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1757
17
Fundamentele explorării datelor
Dezvoltarea tehnicilor de data mining se explică printrealtele prin faptul că firmele au acumulat volume foarte mari dedate stocate pe suporturi informatice privitoare la tranzacţii dediverse tipuri derulate de-a lungul mai multor ani
Multă vreme acestea s-au acumulat pur şi simplu icircn virtuteanevoii de arhivare
Datele sunt la dispoziţia organizaţiei respective datele suntcacirct se poate de precise şi analitice datele sunt icircn volum mare şiacoperă perioade de timp de ordinul anilor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1857
18
Alături de existenţa colecţiilor de date istorice memorate pesuporturi informatice icircncă doi factori explică emergenţa
cunoscută actualmente de data mining (vezi figura următoare)
maturizarea algoritmilor şi a produselor programdedicate
creşterea capacităţii de memorare şi prelucrare acalculatoarelor care permite tratarea icircn corelaţiea volumelor foarte mari de date
Unele dintre tehnicile de data mining datează de ceva mai mulţiani Algoritmii folosiţi au cunoscut icircnsă un proces de evoluţiecontinuă care a permis icircnlăturarea unora dintre limitele saudeficienţele iniţiale
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1957
19
Putere de
calcul mrit
Algoritmistatisticii de
icircnvare
Colecii de date icircmbuntiteManagement
icircmbuntit aldatelor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2057
20
Produsele program au evoluat şi ele spre o utilizare cacirct maifacilă
Au apărut firme care oferă spre vacircnzare colecţii de dateistorice de uz general - cum ar fi spre exemplu evoluţiaindicatorilor bursieri din ultimii 20 de ani - special constituitepentru asemenea utilizări
Depozitele de date şi tehnologiile OLAP vizează şi ele datelecolectate la nivelul organizaţiilor
Depozitele de date se pretează foarte bine ca surse pentrudata mining iar rezultatele furnizate de acesta pot completacacircmpurile icircnregistrărilor celor dintacirci şi pot fi valorificate apoi prinproiecţiile multidimensionale specifice OLAP
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2157
21
Aplicaţii potenţiale
Analiza bazelor de date şi suport pentru decizie
ndash Analiza şi managementul pieţei
ndash Analiza şi managementul riscurilor
ndash Detecţia fraudelor
Analiza textelor - Text Mining
Analiză Web - Web Mining Răspuns inteligent la interogări
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2257
22
Analiza şi managementul pieţei
Care sunt sursele datelor de analizat ndash Tranzacţiile cu cardurile de credit cardurile de
fidelitate cupoanele de discount reclamaţiile clienţilorstudiile publice de stil de viaţă
Ţinta de marketing ndash Trebuie găsite grupuri de clienţi ―model care au
aceleaşi caracteristici interese nivel de venit obiceiuride cumpărare etc
Determinarea profilului cumpărătorului icircn timp ndash Conversia unui cont bancar icircn mai multe conectate
căsătorie etc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2357
23
Analiza şi managementul riscurilor
Planificare financiară şi evaluarea capitalului
ndash Analiza şi prognoza fluxului de numerar (cash flow)
ndash Analiza seriilor temporale (analiza tendinţelor etc)
Planificarea resurselor
ndash sumarizarea şi compararea resurselor şi acheltuielilor
Competiţie ndash Monitorizarea competitorilor şi a direcţiilor pieţei
ndash Fundamentarea strategiei preţului icircntr -o piaţă foartecompetitivă
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2457
24
Detecţia fraudelor
Folosirea datelor istorice pentru a construi modele decomportament fraudulos şi utilizarea data mining pentruidentificarea exemplelor similare
Exemple de aplicaţii
ndash Asigurări auto detectarea unui grup de persoane care icircnscenează accidente pentru a icircncasa asigurarea
ndash Spălare de bani detectarea tranzacţiilor suspecte
ndash Detectarea fraudelor telefonice detectareacomportamentelor suspecte (modelul de apel -destinaţie timp durată)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2557
25
DeviationAnomaly Detection
Detect significant deviations from normal behavior
Applications ndash Credit Card Fraud Detection
ndash Network IntrusionDetection
Typical network traffic at
University level may reach over 100
million connections per day
TanSteinbach Kumar Introduction to Data Miningwwwuserscsumnedu~kumardmbookindexphp
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2657
26
Alte domenii de aplicaţie
Sport
ndash Analiza jocurilor icircn NBA (ex detectarea strategieiadversarului) Astronomie
ndash Descoperirea şi clasificarea unor noi obiecte
Internet ndash Analiza acceselor Web descoperirea unor şabloane
(patterns) comportamentale analiza eficienţeimarketingului Web icircmbunătăţirea organizării site-urilor
Web Text
ndash Analiza ştirilor analiza icircnregistrărilor medicale sortarea şifiltrarea automată a e-mail-urilor clasificarea automată a
documentelor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2757
27
Contribuţii
Data Mining
Inteligenţă Artificială
Calculatoare performanteStatistică
Sisteme de baze dedate
Cercetări operaţionale
GIS
Vizualizare
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2857
28
Data miningintersecţia unor discipline multiple
Sisteme de baze de date data warehouse şi OLAP
Statistică
Maşini instruibile (Machine learning)
Vizualizare Informatică
Calcul de icircnaltă performanţă
Alte discipline ndash Reţele neuronale modelare matematică regăsirea
informaţiilor recunoaşterea formelor (patternrecognition)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2957
29
Architectura unui sistem tipic de Data Mining
Data
Warehouse
Curăţarea şi integrarea datelor Filtrare
Baze de date
Server de baze de date
sau de Data Warehouse
Motor data mining
Evaluarea şabloanelor
Interfaţă grafică utilizator
Bază de
cunoştinţe
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3057
30
Evoluţia tehnologiei bazelor de date
Anii 1960
ndash Colecţii de date crearea bazelor de date baze de datereţea
Anii 1970
ndash Modelul relaţional implementarea SGBD relaţional Anii 1980
ndash SGBD relaţionale modele de date avansate (relaţionalextins OO deductive etc) şi SGBD-uri specifice
(domeniul spatial ştiinţific inginerie etc) Anii 1990mdash2000
ndash Data mining şi data warehouse baze de date multimediabaze de date Web
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3157
31
Proces
Data mining inima
procesului de
descoperire a
cunoaşterii
Curăţirea datelor
Baze dedate
Data Warehouse
Date relevante
Data Mining
Evaluarea configuraţiilor
C ţi icirc t d ti b ă d
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3257
32
Comparaţie icircntre procesarea de tip bază de
date şi cea de tip Data Mining
Interogare ndash Bine definită ndash SQL
Interogare ndash Slab definită ndash Nu există limbaj precis de
interogare
Date ndash Date operaţ ionale
Ieşirea ndash Precisă ndash Subset al bazei dedate
Date ndash Date neoperaţionale
Ieşirea ndash Vagă ndash Nu este un subset al bazeide date
E l d i t ă i
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3357
33
Exemple de interogări
Bază de date
Data Mining
ndash Găseşte toţi clienţii care au cumpărat lapte
ndash Găseşte toţi clienţii care au cumpărat frecvent
lapte (Reguli de asociere)
ndash Găseşte toţi titularii de credite cu numele Smith ndash Identifică toţi clienţii care au cumpărat de maimult de $10000 icircn ultima lună
ndash Găseşte toţi titularii de credite cu risc mic decreditare (Clasificare)
ndash Identifică clienţii cu obiceiuri similare decumpărare (Grupare)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3457
34
Modele şi tehnici Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3557
35
Verificarea ipotezelor şi căutarea cunoştinţelor
Aplicarea tehnicilor de data mining poate fi făcută dinperspectiva unui demers ascendent sau descendent
Icircn abordarea descendentă efortul este orientat spre
confirmarea sau infirmarea unor idei (ipoteze) formulate icircnprealabil prin alte mijloace
Abordarea ascendentă are o cu totul altă finalitate ea
urmăreşte extragerea de cunoştinţe sau informaţii noi din dateledisponibile
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3657
36
Căutarea poate fi dirijată sau nedirijată
Căutarea dirijată ia icircn considerare un atribut sau un cacircmpale cărui valori icircncearcă să le explice prin celelalte cacircmpuriEste cea mai folosită icircn practică
Căutarea nedirijată are ca scop identificarea relaţiilor saustructurilor existente icircn ansamblul datelor examinate fără aacorda prioritate unui cacircmp sau altul
Deşi mai spectaculoasă icircn practică se recurge mult maipuţin la ea decacirct la căutarea dirijată
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3757
37
Data mining
verificarea
ipotezelor
căutarea de
cunoştinţe
dirijată nedirijată
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3857
38
Tehnici şi acţiuni
Data mining exploatează colecţiile de date de care dispune o
organizaţie
La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei
icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc
Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod
intrinsec
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3957
39
Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de
icircnţeles o tendinţă relevată de un număr foarte mare de cazuri
practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii
Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se
reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor
raţionamentele bazate pe cazuri analiza legăturilor
La acestea se pot asocia şi tehnici statistice cum sunt spre
exemplu regresiile analiza factorială etc
M d l di ti
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4057
40 40
Modele predictivehellip
Arbori de decizie
Clasificări după cel mai apropiat vecin
Reţele neuronale
Reguli
Analiza grupurilor
A l d i i ă l ă l i i
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4157
41
Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea
predicţiagrupareaanaliza grupărilor
Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un
grup limitat de clase predefinite
Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut
mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4257
42
Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare
Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări
Predicţia urmăreşte să claseze icircnregistrările tratate icircn
funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un
model care să explice comportamentul observat
Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora
icircn viitor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4357
43
Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună
Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei
Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster
Spre deosebire de celelalte tipuri de acţiuni asemănătoare
aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4457
44
Etapele procesului de exploatare a datelor
Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare
Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date
colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4557
45
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4657
46
Evaluarea modelului
Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare
Integrarea modelului
Această etapă finalizează procesul prin includerea
modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4757
172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up
Overview of Fisherrsquos Iris Dataset
Fisherrsquos iris dataset is available for download from the tutorial website
httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls
Iris photos courtesy of SIGNA ndash wwwsignaorg
Fisherrsquos iris dataset is well-known in
data mining research
This dataset is commonly used to
illustrate data mining tools
Mark Polczynski PhD The Technology Forge mhptechforgegmailnet
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4857
172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up
Fisherrsquos Database - Background
Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems
Annals of Eugenics 7 179 ndash188 available at
httpdigitallibraryadelaideeduaucollspecialfisher138pdf
iris setosa iris versicolor iris virginica
Dataset contains flower dimension measurements on 50 samples of each species
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4957
172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up
Fisherrsquos Dataset- Background
Data mining terminology
bull The four iris dimensions are termed attributes or input attributes
bull The three iris species are termed classes or output attributes
bull Each example of an iris is termed a sample or instance
Anderson measured these dimensions
bull sepal length
bull sepal width
bull petal length
bull petal width
Measurements on these iris speciesbull setosa
bull versicolor
bull virginica
S t f Fi h rsquo I i D t t
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5057
172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up
Segment of Fisherrsquos Iris Dataset
Input Output
Attributes Attribute
Inst
Sepal
Length
Sepal
Width
Petal
Length
Petal
Width Species1 51 35 14 02 setosa
2 49 3 14 02 setosa
3 47 32 13 02 setosa
4 46 31 15 02 setosa5 5 36 14 02 setosa
Numerical Nominal
ClassSample
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5157
172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up
What Problem are We Trying to Solve
Iris setosa
Weka
decisiontree
Iris versicolor
Iris virginica
Our taskClassify unknown iris using
measurements on 150 iris
samples of known species
Instrumente pentru Data-Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5257
52
Instrumente pentru Data-Mining
Weka Documentation httpwwwcswaikatoacnzmlweka
Waikato Environment for Knowledge Analysis
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5357
53
Instrumente pentru Data-Mining
Principalii producători de soft pentruData-Mining
ndash IBM ndash Intelligent Miner extensie pentru DB2
ndash SAS ndash Enterprise Miner
ndash SPSS ndash Clementine
ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)
ndash hellipmulți alți producători mai mici
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5457
54
Instrumente pentru Data-Mining
SPSS - Clementine
ndash httpwwwspsscomclementine Oracle - Darwin
ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet
ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner
ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml
Standarde Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5557
55
Standarde Data Mining
PMML (Predictive Modelling Markup Language)
ndash Limbaj similar XML pentru salvare și partajare de
modele (cel mai acceptat standard)
CRISP
ndash Metodologie standardizată pentru construirea deaplicații Data Mining
OLE DB pentru Data Mining
ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)
IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5657
56
1 INTRODUCERE
2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE
3-7
CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale
Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici
8 CLUSTERIZARE (ANALIZA CLUSTERILOR)
9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA
ASOCIERILOR)
10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR
11 EVALUAREA MODELELOR
12 APLICAŢII ŞI TENDINŢE IN DATA MINING
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5757
Mulţumesc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 657
6
Evaluare
Forma de evaluare finală (E ndash examen C ndash colocviu VP ndash verificare pe parcurs) C
- nota obţinută la forma de evaluare finală 50
- nota pentru activităţi aplicative atestate (proiecte referate lucrări practice) 25
- nota la forme de evaluare continuă (teste lucrări de control) 25
Stabilireanotei finale(ponderi icircnprocente)
- alte forme de evaluare -
Bibliografie minimală
[1] Fayyad UM Piatetsky-Shapiro G Smyth P Uthurasamy R Advanced in Knowledge
Discovery and Data Mining Menlo Park AAAI Press 1996
[2] Han J Kamber M Data Mining Concepts and Techniques Second Edition MorganKaufmann Press Elsevier Inc San Francisco 2006
[3] Bramer M Principles of Data Mining Springer-Verlag London 2007
[4] Witten I H Frank E Data Mining Practical Machine Learning Tools and Techniques
Second Edition Kaufmann Press Elsevier Inc San Francisco 2005
[5] Gorunescu F Data mining Concepte modele şi tehnici Ed Albastră Cluj-Napoca 2006
[6] Ileană I Rotar C Muntean M Inteligenţă artificială Ed Risoprint Alba Iulia 2009
[7] Dumitrescu D Algoritmi genetici şi strategii evolutive ndash aplicaţii icircn Inteligenţa Artificială
şi icircn domenii conexe Ed Albastră Cluj-Napoca 2006
[8] Weka system and documentation (httpwwwcswaikatoacnzmlweka) Weka is a suiteof machine learning data mining software It contains Java implementation for various
mining algorithms data preprocessing filters and experimentation capabilities Weka is free
open-source software under the GNU General Public License (GPL)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 757
7
Data Mining
Definiţie
Aplicaţii tipice
Metode amp algoritmi
Instrumente
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 857
8
Lots of data is being collectedand warehoused ndash Web data e-commerce ndash purchases at department
grocery stores ndash BankCredit Card
transactions
Computers have become cheaper and more powerful
Competitive Pressure is Strong ndash Provide better customized services for an edge (eg in
Customer Relationship Management)
Why Mine Data Commercial Viewpoint
TanSteinbach Kumar Introduction to Data Miningwwwuserscsumnedu~kumardmbookindexphp
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 957
9
Why Mine Data Scientific Viewpoint
Data collected and stored at
enormous speeds (GBhour) ndash remote sensors on a satellite
ndash telescopes scanning the skies
ndash microarrays generating geneexpression data
ndash scientific simulationsgenerating terabytes of data
Traditional techniques infeasible for raw data Data mining may help scientists
ndash in classifying and segmenting data
ndash in Hypothesis Formation
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1057
10
Motivare ldquoNecesitatea este mama
invenţieirdquo
Problema exploziei cantităţii de date ndash Colectarea automată a datelor şi tehnologiile mature
de baze de date au condus la cantităţi uriaşe de datestocate icircn baze de date depozite de date şi alte
acumulări de date
Ne icircnecăm icircn date dar suntem icircnsetaţi de cunoaştere Soluţia Data warehouse şi data mining
ndash Data warehousing şi procesare on-line (OLAP)
ndash Extragerea cunoaşterii de interes (r eguli regularităţişabloane constracircngeri) din datele aflate icircn baze mari
Jiawei Han and Micheline Kamber Data Mining Concepts and
Techniques httpwwwcssfuca
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1157
11
Mining Large Data Sets - Motivation
There is often information ―hidden in the data that isnot readily evident
Human analysts may take weeks to discover usefulinformation Much of the data is never analyzed at all
0
500000
1000000
1500000
2000000
2500000
3000000
3500000
4000000
1995 1996 1997 1998 1999
The Data Gap
Total new disk (TB) since 1995
Number of
analysts
From R Grossman C Kamath V Kumar ―Data Mining for Scientific and Engineering Applications
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1257
12
Ce este Data Mining
Data mining (descoperirea cunoaşterii icircn baze de date)
ndash Extragerea informaţiilor sau şabloanelor de interes(nebanale implicite anterior necunoscute şi potenţialutile) din datele aflate icircn mari baze de date
Nume alternative
ndash Descoperirea cunoaşterii icircn baze de date (Knowledgediscovery in databases KDD) extragereacunoaşterii analiza datelorşabloanelor arheologiadatelor business intelligence etc
Ce nu este data mining ndash Procesarea deductivă a interogărilor ndash Sisteme expert sau programe mici statistice sau de
tipul maşinilor instruibile
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1357
13
Data mining sau căutarea informaţiei ascunse
De mai multe decenii mijloace şi tehnici informatice tot mai
evoluate au contribuit la amplificarea capacităţii de memorare şistocare a datelor
Ultimii ani au marcat o reorientare semnificativă icircn utilizareavolumelor de date stocate de la un proces de explorare
retrospectivă spre unul cu caracter prospectiv Această schimbare a devenit posibilă ca urmare a maturizării
tehnologiilor legate de data mining
Denumirea provine de la analogia cu activitatea minieră tot
aşa cum este necesară dislocarea şi rafinarea a tone de minereupentru a obţine cacircteva grame de aur aici sunt examinate şianalizate sute de mii sau milioane de date pentru a extrage dinele informaţii şi semnificaţii noi
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1457
14
Piramida datelor
Date
Informaţie
Cunoaştere
Icircnţelepciune
Date + context
Informa ţii + reguli
Cunoaştere + experien ţă
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1557
15
Definiţiile pentru data mining converg spre următoarea ideeDM este un proces de extragere de informaţii noi din colecţiile
de date existente
Principiul de funcţionare icircn data mining se prelucrează
datele referitoare la perioadele trecute examinacircnd o varietate de situaţii care s- au produs pentru a evidenţia caracteristicile
acestora şi a permite elaborarea unui model
Odată construit modelul poate fi aplicat situaţiilor noi de
acelaşi tip
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1657
16
Date deantrenare(icircnvare)
SistemDataMining
Date
noi
Predicie
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1757
17
Fundamentele explorării datelor
Dezvoltarea tehnicilor de data mining se explică printrealtele prin faptul că firmele au acumulat volume foarte mari dedate stocate pe suporturi informatice privitoare la tranzacţii dediverse tipuri derulate de-a lungul mai multor ani
Multă vreme acestea s-au acumulat pur şi simplu icircn virtuteanevoii de arhivare
Datele sunt la dispoziţia organizaţiei respective datele suntcacirct se poate de precise şi analitice datele sunt icircn volum mare şiacoperă perioade de timp de ordinul anilor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1857
18
Alături de existenţa colecţiilor de date istorice memorate pesuporturi informatice icircncă doi factori explică emergenţa
cunoscută actualmente de data mining (vezi figura următoare)
maturizarea algoritmilor şi a produselor programdedicate
creşterea capacităţii de memorare şi prelucrare acalculatoarelor care permite tratarea icircn corelaţiea volumelor foarte mari de date
Unele dintre tehnicile de data mining datează de ceva mai mulţiani Algoritmii folosiţi au cunoscut icircnsă un proces de evoluţiecontinuă care a permis icircnlăturarea unora dintre limitele saudeficienţele iniţiale
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1957
19
Putere de
calcul mrit
Algoritmistatisticii de
icircnvare
Colecii de date icircmbuntiteManagement
icircmbuntit aldatelor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2057
20
Produsele program au evoluat şi ele spre o utilizare cacirct maifacilă
Au apărut firme care oferă spre vacircnzare colecţii de dateistorice de uz general - cum ar fi spre exemplu evoluţiaindicatorilor bursieri din ultimii 20 de ani - special constituitepentru asemenea utilizări
Depozitele de date şi tehnologiile OLAP vizează şi ele datelecolectate la nivelul organizaţiilor
Depozitele de date se pretează foarte bine ca surse pentrudata mining iar rezultatele furnizate de acesta pot completacacircmpurile icircnregistrărilor celor dintacirci şi pot fi valorificate apoi prinproiecţiile multidimensionale specifice OLAP
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2157
21
Aplicaţii potenţiale
Analiza bazelor de date şi suport pentru decizie
ndash Analiza şi managementul pieţei
ndash Analiza şi managementul riscurilor
ndash Detecţia fraudelor
Analiza textelor - Text Mining
Analiză Web - Web Mining Răspuns inteligent la interogări
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2257
22
Analiza şi managementul pieţei
Care sunt sursele datelor de analizat ndash Tranzacţiile cu cardurile de credit cardurile de
fidelitate cupoanele de discount reclamaţiile clienţilorstudiile publice de stil de viaţă
Ţinta de marketing ndash Trebuie găsite grupuri de clienţi ―model care au
aceleaşi caracteristici interese nivel de venit obiceiuride cumpărare etc
Determinarea profilului cumpărătorului icircn timp ndash Conversia unui cont bancar icircn mai multe conectate
căsătorie etc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2357
23
Analiza şi managementul riscurilor
Planificare financiară şi evaluarea capitalului
ndash Analiza şi prognoza fluxului de numerar (cash flow)
ndash Analiza seriilor temporale (analiza tendinţelor etc)
Planificarea resurselor
ndash sumarizarea şi compararea resurselor şi acheltuielilor
Competiţie ndash Monitorizarea competitorilor şi a direcţiilor pieţei
ndash Fundamentarea strategiei preţului icircntr -o piaţă foartecompetitivă
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2457
24
Detecţia fraudelor
Folosirea datelor istorice pentru a construi modele decomportament fraudulos şi utilizarea data mining pentruidentificarea exemplelor similare
Exemple de aplicaţii
ndash Asigurări auto detectarea unui grup de persoane care icircnscenează accidente pentru a icircncasa asigurarea
ndash Spălare de bani detectarea tranzacţiilor suspecte
ndash Detectarea fraudelor telefonice detectareacomportamentelor suspecte (modelul de apel -destinaţie timp durată)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2557
25
DeviationAnomaly Detection
Detect significant deviations from normal behavior
Applications ndash Credit Card Fraud Detection
ndash Network IntrusionDetection
Typical network traffic at
University level may reach over 100
million connections per day
TanSteinbach Kumar Introduction to Data Miningwwwuserscsumnedu~kumardmbookindexphp
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2657
26
Alte domenii de aplicaţie
Sport
ndash Analiza jocurilor icircn NBA (ex detectarea strategieiadversarului) Astronomie
ndash Descoperirea şi clasificarea unor noi obiecte
Internet ndash Analiza acceselor Web descoperirea unor şabloane
(patterns) comportamentale analiza eficienţeimarketingului Web icircmbunătăţirea organizării site-urilor
Web Text
ndash Analiza ştirilor analiza icircnregistrărilor medicale sortarea şifiltrarea automată a e-mail-urilor clasificarea automată a
documentelor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2757
27
Contribuţii
Data Mining
Inteligenţă Artificială
Calculatoare performanteStatistică
Sisteme de baze dedate
Cercetări operaţionale
GIS
Vizualizare
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2857
28
Data miningintersecţia unor discipline multiple
Sisteme de baze de date data warehouse şi OLAP
Statistică
Maşini instruibile (Machine learning)
Vizualizare Informatică
Calcul de icircnaltă performanţă
Alte discipline ndash Reţele neuronale modelare matematică regăsirea
informaţiilor recunoaşterea formelor (patternrecognition)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2957
29
Architectura unui sistem tipic de Data Mining
Data
Warehouse
Curăţarea şi integrarea datelor Filtrare
Baze de date
Server de baze de date
sau de Data Warehouse
Motor data mining
Evaluarea şabloanelor
Interfaţă grafică utilizator
Bază de
cunoştinţe
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3057
30
Evoluţia tehnologiei bazelor de date
Anii 1960
ndash Colecţii de date crearea bazelor de date baze de datereţea
Anii 1970
ndash Modelul relaţional implementarea SGBD relaţional Anii 1980
ndash SGBD relaţionale modele de date avansate (relaţionalextins OO deductive etc) şi SGBD-uri specifice
(domeniul spatial ştiinţific inginerie etc) Anii 1990mdash2000
ndash Data mining şi data warehouse baze de date multimediabaze de date Web
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3157
31
Proces
Data mining inima
procesului de
descoperire a
cunoaşterii
Curăţirea datelor
Baze dedate
Data Warehouse
Date relevante
Data Mining
Evaluarea configuraţiilor
C ţi icirc t d ti b ă d
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3257
32
Comparaţie icircntre procesarea de tip bază de
date şi cea de tip Data Mining
Interogare ndash Bine definită ndash SQL
Interogare ndash Slab definită ndash Nu există limbaj precis de
interogare
Date ndash Date operaţ ionale
Ieşirea ndash Precisă ndash Subset al bazei dedate
Date ndash Date neoperaţionale
Ieşirea ndash Vagă ndash Nu este un subset al bazeide date
E l d i t ă i
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3357
33
Exemple de interogări
Bază de date
Data Mining
ndash Găseşte toţi clienţii care au cumpărat lapte
ndash Găseşte toţi clienţii care au cumpărat frecvent
lapte (Reguli de asociere)
ndash Găseşte toţi titularii de credite cu numele Smith ndash Identifică toţi clienţii care au cumpărat de maimult de $10000 icircn ultima lună
ndash Găseşte toţi titularii de credite cu risc mic decreditare (Clasificare)
ndash Identifică clienţii cu obiceiuri similare decumpărare (Grupare)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3457
34
Modele şi tehnici Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3557
35
Verificarea ipotezelor şi căutarea cunoştinţelor
Aplicarea tehnicilor de data mining poate fi făcută dinperspectiva unui demers ascendent sau descendent
Icircn abordarea descendentă efortul este orientat spre
confirmarea sau infirmarea unor idei (ipoteze) formulate icircnprealabil prin alte mijloace
Abordarea ascendentă are o cu totul altă finalitate ea
urmăreşte extragerea de cunoştinţe sau informaţii noi din dateledisponibile
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3657
36
Căutarea poate fi dirijată sau nedirijată
Căutarea dirijată ia icircn considerare un atribut sau un cacircmpale cărui valori icircncearcă să le explice prin celelalte cacircmpuriEste cea mai folosită icircn practică
Căutarea nedirijată are ca scop identificarea relaţiilor saustructurilor existente icircn ansamblul datelor examinate fără aacorda prioritate unui cacircmp sau altul
Deşi mai spectaculoasă icircn practică se recurge mult maipuţin la ea decacirct la căutarea dirijată
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3757
37
Data mining
verificarea
ipotezelor
căutarea de
cunoştinţe
dirijată nedirijată
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3857
38
Tehnici şi acţiuni
Data mining exploatează colecţiile de date de care dispune o
organizaţie
La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei
icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc
Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod
intrinsec
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3957
39
Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de
icircnţeles o tendinţă relevată de un număr foarte mare de cazuri
practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii
Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se
reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor
raţionamentele bazate pe cazuri analiza legăturilor
La acestea se pot asocia şi tehnici statistice cum sunt spre
exemplu regresiile analiza factorială etc
M d l di ti
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4057
40 40
Modele predictivehellip
Arbori de decizie
Clasificări după cel mai apropiat vecin
Reţele neuronale
Reguli
Analiza grupurilor
A l d i i ă l ă l i i
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4157
41
Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea
predicţiagrupareaanaliza grupărilor
Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un
grup limitat de clase predefinite
Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut
mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4257
42
Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare
Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări
Predicţia urmăreşte să claseze icircnregistrările tratate icircn
funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un
model care să explice comportamentul observat
Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora
icircn viitor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4357
43
Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună
Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei
Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster
Spre deosebire de celelalte tipuri de acţiuni asemănătoare
aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4457
44
Etapele procesului de exploatare a datelor
Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare
Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date
colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4557
45
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4657
46
Evaluarea modelului
Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare
Integrarea modelului
Această etapă finalizează procesul prin includerea
modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4757
172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up
Overview of Fisherrsquos Iris Dataset
Fisherrsquos iris dataset is available for download from the tutorial website
httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls
Iris photos courtesy of SIGNA ndash wwwsignaorg
Fisherrsquos iris dataset is well-known in
data mining research
This dataset is commonly used to
illustrate data mining tools
Mark Polczynski PhD The Technology Forge mhptechforgegmailnet
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4857
172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up
Fisherrsquos Database - Background
Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems
Annals of Eugenics 7 179 ndash188 available at
httpdigitallibraryadelaideeduaucollspecialfisher138pdf
iris setosa iris versicolor iris virginica
Dataset contains flower dimension measurements on 50 samples of each species
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4957
172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up
Fisherrsquos Dataset- Background
Data mining terminology
bull The four iris dimensions are termed attributes or input attributes
bull The three iris species are termed classes or output attributes
bull Each example of an iris is termed a sample or instance
Anderson measured these dimensions
bull sepal length
bull sepal width
bull petal length
bull petal width
Measurements on these iris speciesbull setosa
bull versicolor
bull virginica
S t f Fi h rsquo I i D t t
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5057
172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up
Segment of Fisherrsquos Iris Dataset
Input Output
Attributes Attribute
Inst
Sepal
Length
Sepal
Width
Petal
Length
Petal
Width Species1 51 35 14 02 setosa
2 49 3 14 02 setosa
3 47 32 13 02 setosa
4 46 31 15 02 setosa5 5 36 14 02 setosa
Numerical Nominal
ClassSample
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5157
172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up
What Problem are We Trying to Solve
Iris setosa
Weka
decisiontree
Iris versicolor
Iris virginica
Our taskClassify unknown iris using
measurements on 150 iris
samples of known species
Instrumente pentru Data-Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5257
52
Instrumente pentru Data-Mining
Weka Documentation httpwwwcswaikatoacnzmlweka
Waikato Environment for Knowledge Analysis
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5357
53
Instrumente pentru Data-Mining
Principalii producători de soft pentruData-Mining
ndash IBM ndash Intelligent Miner extensie pentru DB2
ndash SAS ndash Enterprise Miner
ndash SPSS ndash Clementine
ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)
ndash hellipmulți alți producători mai mici
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5457
54
Instrumente pentru Data-Mining
SPSS - Clementine
ndash httpwwwspsscomclementine Oracle - Darwin
ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet
ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner
ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml
Standarde Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5557
55
Standarde Data Mining
PMML (Predictive Modelling Markup Language)
ndash Limbaj similar XML pentru salvare și partajare de
modele (cel mai acceptat standard)
CRISP
ndash Metodologie standardizată pentru construirea deaplicații Data Mining
OLE DB pentru Data Mining
ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)
IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5657
56
1 INTRODUCERE
2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE
3-7
CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale
Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici
8 CLUSTERIZARE (ANALIZA CLUSTERILOR)
9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA
ASOCIERILOR)
10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR
11 EVALUAREA MODELELOR
12 APLICAŢII ŞI TENDINŢE IN DATA MINING
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5757
Mulţumesc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 757
7
Data Mining
Definiţie
Aplicaţii tipice
Metode amp algoritmi
Instrumente
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 857
8
Lots of data is being collectedand warehoused ndash Web data e-commerce ndash purchases at department
grocery stores ndash BankCredit Card
transactions
Computers have become cheaper and more powerful
Competitive Pressure is Strong ndash Provide better customized services for an edge (eg in
Customer Relationship Management)
Why Mine Data Commercial Viewpoint
TanSteinbach Kumar Introduction to Data Miningwwwuserscsumnedu~kumardmbookindexphp
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 957
9
Why Mine Data Scientific Viewpoint
Data collected and stored at
enormous speeds (GBhour) ndash remote sensors on a satellite
ndash telescopes scanning the skies
ndash microarrays generating geneexpression data
ndash scientific simulationsgenerating terabytes of data
Traditional techniques infeasible for raw data Data mining may help scientists
ndash in classifying and segmenting data
ndash in Hypothesis Formation
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1057
10
Motivare ldquoNecesitatea este mama
invenţieirdquo
Problema exploziei cantităţii de date ndash Colectarea automată a datelor şi tehnologiile mature
de baze de date au condus la cantităţi uriaşe de datestocate icircn baze de date depozite de date şi alte
acumulări de date
Ne icircnecăm icircn date dar suntem icircnsetaţi de cunoaştere Soluţia Data warehouse şi data mining
ndash Data warehousing şi procesare on-line (OLAP)
ndash Extragerea cunoaşterii de interes (r eguli regularităţişabloane constracircngeri) din datele aflate icircn baze mari
Jiawei Han and Micheline Kamber Data Mining Concepts and
Techniques httpwwwcssfuca
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1157
11
Mining Large Data Sets - Motivation
There is often information ―hidden in the data that isnot readily evident
Human analysts may take weeks to discover usefulinformation Much of the data is never analyzed at all
0
500000
1000000
1500000
2000000
2500000
3000000
3500000
4000000
1995 1996 1997 1998 1999
The Data Gap
Total new disk (TB) since 1995
Number of
analysts
From R Grossman C Kamath V Kumar ―Data Mining for Scientific and Engineering Applications
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1257
12
Ce este Data Mining
Data mining (descoperirea cunoaşterii icircn baze de date)
ndash Extragerea informaţiilor sau şabloanelor de interes(nebanale implicite anterior necunoscute şi potenţialutile) din datele aflate icircn mari baze de date
Nume alternative
ndash Descoperirea cunoaşterii icircn baze de date (Knowledgediscovery in databases KDD) extragereacunoaşterii analiza datelorşabloanelor arheologiadatelor business intelligence etc
Ce nu este data mining ndash Procesarea deductivă a interogărilor ndash Sisteme expert sau programe mici statistice sau de
tipul maşinilor instruibile
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1357
13
Data mining sau căutarea informaţiei ascunse
De mai multe decenii mijloace şi tehnici informatice tot mai
evoluate au contribuit la amplificarea capacităţii de memorare şistocare a datelor
Ultimii ani au marcat o reorientare semnificativă icircn utilizareavolumelor de date stocate de la un proces de explorare
retrospectivă spre unul cu caracter prospectiv Această schimbare a devenit posibilă ca urmare a maturizării
tehnologiilor legate de data mining
Denumirea provine de la analogia cu activitatea minieră tot
aşa cum este necesară dislocarea şi rafinarea a tone de minereupentru a obţine cacircteva grame de aur aici sunt examinate şianalizate sute de mii sau milioane de date pentru a extrage dinele informaţii şi semnificaţii noi
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1457
14
Piramida datelor
Date
Informaţie
Cunoaştere
Icircnţelepciune
Date + context
Informa ţii + reguli
Cunoaştere + experien ţă
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1557
15
Definiţiile pentru data mining converg spre următoarea ideeDM este un proces de extragere de informaţii noi din colecţiile
de date existente
Principiul de funcţionare icircn data mining se prelucrează
datele referitoare la perioadele trecute examinacircnd o varietate de situaţii care s- au produs pentru a evidenţia caracteristicile
acestora şi a permite elaborarea unui model
Odată construit modelul poate fi aplicat situaţiilor noi de
acelaşi tip
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1657
16
Date deantrenare(icircnvare)
SistemDataMining
Date
noi
Predicie
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1757
17
Fundamentele explorării datelor
Dezvoltarea tehnicilor de data mining se explică printrealtele prin faptul că firmele au acumulat volume foarte mari dedate stocate pe suporturi informatice privitoare la tranzacţii dediverse tipuri derulate de-a lungul mai multor ani
Multă vreme acestea s-au acumulat pur şi simplu icircn virtuteanevoii de arhivare
Datele sunt la dispoziţia organizaţiei respective datele suntcacirct se poate de precise şi analitice datele sunt icircn volum mare şiacoperă perioade de timp de ordinul anilor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1857
18
Alături de existenţa colecţiilor de date istorice memorate pesuporturi informatice icircncă doi factori explică emergenţa
cunoscută actualmente de data mining (vezi figura următoare)
maturizarea algoritmilor şi a produselor programdedicate
creşterea capacităţii de memorare şi prelucrare acalculatoarelor care permite tratarea icircn corelaţiea volumelor foarte mari de date
Unele dintre tehnicile de data mining datează de ceva mai mulţiani Algoritmii folosiţi au cunoscut icircnsă un proces de evoluţiecontinuă care a permis icircnlăturarea unora dintre limitele saudeficienţele iniţiale
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1957
19
Putere de
calcul mrit
Algoritmistatisticii de
icircnvare
Colecii de date icircmbuntiteManagement
icircmbuntit aldatelor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2057
20
Produsele program au evoluat şi ele spre o utilizare cacirct maifacilă
Au apărut firme care oferă spre vacircnzare colecţii de dateistorice de uz general - cum ar fi spre exemplu evoluţiaindicatorilor bursieri din ultimii 20 de ani - special constituitepentru asemenea utilizări
Depozitele de date şi tehnologiile OLAP vizează şi ele datelecolectate la nivelul organizaţiilor
Depozitele de date se pretează foarte bine ca surse pentrudata mining iar rezultatele furnizate de acesta pot completacacircmpurile icircnregistrărilor celor dintacirci şi pot fi valorificate apoi prinproiecţiile multidimensionale specifice OLAP
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2157
21
Aplicaţii potenţiale
Analiza bazelor de date şi suport pentru decizie
ndash Analiza şi managementul pieţei
ndash Analiza şi managementul riscurilor
ndash Detecţia fraudelor
Analiza textelor - Text Mining
Analiză Web - Web Mining Răspuns inteligent la interogări
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2257
22
Analiza şi managementul pieţei
Care sunt sursele datelor de analizat ndash Tranzacţiile cu cardurile de credit cardurile de
fidelitate cupoanele de discount reclamaţiile clienţilorstudiile publice de stil de viaţă
Ţinta de marketing ndash Trebuie găsite grupuri de clienţi ―model care au
aceleaşi caracteristici interese nivel de venit obiceiuride cumpărare etc
Determinarea profilului cumpărătorului icircn timp ndash Conversia unui cont bancar icircn mai multe conectate
căsătorie etc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2357
23
Analiza şi managementul riscurilor
Planificare financiară şi evaluarea capitalului
ndash Analiza şi prognoza fluxului de numerar (cash flow)
ndash Analiza seriilor temporale (analiza tendinţelor etc)
Planificarea resurselor
ndash sumarizarea şi compararea resurselor şi acheltuielilor
Competiţie ndash Monitorizarea competitorilor şi a direcţiilor pieţei
ndash Fundamentarea strategiei preţului icircntr -o piaţă foartecompetitivă
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2457
24
Detecţia fraudelor
Folosirea datelor istorice pentru a construi modele decomportament fraudulos şi utilizarea data mining pentruidentificarea exemplelor similare
Exemple de aplicaţii
ndash Asigurări auto detectarea unui grup de persoane care icircnscenează accidente pentru a icircncasa asigurarea
ndash Spălare de bani detectarea tranzacţiilor suspecte
ndash Detectarea fraudelor telefonice detectareacomportamentelor suspecte (modelul de apel -destinaţie timp durată)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2557
25
DeviationAnomaly Detection
Detect significant deviations from normal behavior
Applications ndash Credit Card Fraud Detection
ndash Network IntrusionDetection
Typical network traffic at
University level may reach over 100
million connections per day
TanSteinbach Kumar Introduction to Data Miningwwwuserscsumnedu~kumardmbookindexphp
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2657
26
Alte domenii de aplicaţie
Sport
ndash Analiza jocurilor icircn NBA (ex detectarea strategieiadversarului) Astronomie
ndash Descoperirea şi clasificarea unor noi obiecte
Internet ndash Analiza acceselor Web descoperirea unor şabloane
(patterns) comportamentale analiza eficienţeimarketingului Web icircmbunătăţirea organizării site-urilor
Web Text
ndash Analiza ştirilor analiza icircnregistrărilor medicale sortarea şifiltrarea automată a e-mail-urilor clasificarea automată a
documentelor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2757
27
Contribuţii
Data Mining
Inteligenţă Artificială
Calculatoare performanteStatistică
Sisteme de baze dedate
Cercetări operaţionale
GIS
Vizualizare
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2857
28
Data miningintersecţia unor discipline multiple
Sisteme de baze de date data warehouse şi OLAP
Statistică
Maşini instruibile (Machine learning)
Vizualizare Informatică
Calcul de icircnaltă performanţă
Alte discipline ndash Reţele neuronale modelare matematică regăsirea
informaţiilor recunoaşterea formelor (patternrecognition)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2957
29
Architectura unui sistem tipic de Data Mining
Data
Warehouse
Curăţarea şi integrarea datelor Filtrare
Baze de date
Server de baze de date
sau de Data Warehouse
Motor data mining
Evaluarea şabloanelor
Interfaţă grafică utilizator
Bază de
cunoştinţe
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3057
30
Evoluţia tehnologiei bazelor de date
Anii 1960
ndash Colecţii de date crearea bazelor de date baze de datereţea
Anii 1970
ndash Modelul relaţional implementarea SGBD relaţional Anii 1980
ndash SGBD relaţionale modele de date avansate (relaţionalextins OO deductive etc) şi SGBD-uri specifice
(domeniul spatial ştiinţific inginerie etc) Anii 1990mdash2000
ndash Data mining şi data warehouse baze de date multimediabaze de date Web
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3157
31
Proces
Data mining inima
procesului de
descoperire a
cunoaşterii
Curăţirea datelor
Baze dedate
Data Warehouse
Date relevante
Data Mining
Evaluarea configuraţiilor
C ţi icirc t d ti b ă d
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3257
32
Comparaţie icircntre procesarea de tip bază de
date şi cea de tip Data Mining
Interogare ndash Bine definită ndash SQL
Interogare ndash Slab definită ndash Nu există limbaj precis de
interogare
Date ndash Date operaţ ionale
Ieşirea ndash Precisă ndash Subset al bazei dedate
Date ndash Date neoperaţionale
Ieşirea ndash Vagă ndash Nu este un subset al bazeide date
E l d i t ă i
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3357
33
Exemple de interogări
Bază de date
Data Mining
ndash Găseşte toţi clienţii care au cumpărat lapte
ndash Găseşte toţi clienţii care au cumpărat frecvent
lapte (Reguli de asociere)
ndash Găseşte toţi titularii de credite cu numele Smith ndash Identifică toţi clienţii care au cumpărat de maimult de $10000 icircn ultima lună
ndash Găseşte toţi titularii de credite cu risc mic decreditare (Clasificare)
ndash Identifică clienţii cu obiceiuri similare decumpărare (Grupare)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3457
34
Modele şi tehnici Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3557
35
Verificarea ipotezelor şi căutarea cunoştinţelor
Aplicarea tehnicilor de data mining poate fi făcută dinperspectiva unui demers ascendent sau descendent
Icircn abordarea descendentă efortul este orientat spre
confirmarea sau infirmarea unor idei (ipoteze) formulate icircnprealabil prin alte mijloace
Abordarea ascendentă are o cu totul altă finalitate ea
urmăreşte extragerea de cunoştinţe sau informaţii noi din dateledisponibile
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3657
36
Căutarea poate fi dirijată sau nedirijată
Căutarea dirijată ia icircn considerare un atribut sau un cacircmpale cărui valori icircncearcă să le explice prin celelalte cacircmpuriEste cea mai folosită icircn practică
Căutarea nedirijată are ca scop identificarea relaţiilor saustructurilor existente icircn ansamblul datelor examinate fără aacorda prioritate unui cacircmp sau altul
Deşi mai spectaculoasă icircn practică se recurge mult maipuţin la ea decacirct la căutarea dirijată
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3757
37
Data mining
verificarea
ipotezelor
căutarea de
cunoştinţe
dirijată nedirijată
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3857
38
Tehnici şi acţiuni
Data mining exploatează colecţiile de date de care dispune o
organizaţie
La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei
icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc
Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod
intrinsec
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3957
39
Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de
icircnţeles o tendinţă relevată de un număr foarte mare de cazuri
practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii
Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se
reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor
raţionamentele bazate pe cazuri analiza legăturilor
La acestea se pot asocia şi tehnici statistice cum sunt spre
exemplu regresiile analiza factorială etc
M d l di ti
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4057
40 40
Modele predictivehellip
Arbori de decizie
Clasificări după cel mai apropiat vecin
Reţele neuronale
Reguli
Analiza grupurilor
A l d i i ă l ă l i i
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4157
41
Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea
predicţiagrupareaanaliza grupărilor
Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un
grup limitat de clase predefinite
Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut
mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4257
42
Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare
Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări
Predicţia urmăreşte să claseze icircnregistrările tratate icircn
funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un
model care să explice comportamentul observat
Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora
icircn viitor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4357
43
Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună
Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei
Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster
Spre deosebire de celelalte tipuri de acţiuni asemănătoare
aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4457
44
Etapele procesului de exploatare a datelor
Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare
Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date
colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4557
45
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4657
46
Evaluarea modelului
Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare
Integrarea modelului
Această etapă finalizează procesul prin includerea
modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4757
172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up
Overview of Fisherrsquos Iris Dataset
Fisherrsquos iris dataset is available for download from the tutorial website
httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls
Iris photos courtesy of SIGNA ndash wwwsignaorg
Fisherrsquos iris dataset is well-known in
data mining research
This dataset is commonly used to
illustrate data mining tools
Mark Polczynski PhD The Technology Forge mhptechforgegmailnet
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4857
172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up
Fisherrsquos Database - Background
Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems
Annals of Eugenics 7 179 ndash188 available at
httpdigitallibraryadelaideeduaucollspecialfisher138pdf
iris setosa iris versicolor iris virginica
Dataset contains flower dimension measurements on 50 samples of each species
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4957
172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up
Fisherrsquos Dataset- Background
Data mining terminology
bull The four iris dimensions are termed attributes or input attributes
bull The three iris species are termed classes or output attributes
bull Each example of an iris is termed a sample or instance
Anderson measured these dimensions
bull sepal length
bull sepal width
bull petal length
bull petal width
Measurements on these iris speciesbull setosa
bull versicolor
bull virginica
S t f Fi h rsquo I i D t t
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5057
172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up
Segment of Fisherrsquos Iris Dataset
Input Output
Attributes Attribute
Inst
Sepal
Length
Sepal
Width
Petal
Length
Petal
Width Species1 51 35 14 02 setosa
2 49 3 14 02 setosa
3 47 32 13 02 setosa
4 46 31 15 02 setosa5 5 36 14 02 setosa
Numerical Nominal
ClassSample
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5157
172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up
What Problem are We Trying to Solve
Iris setosa
Weka
decisiontree
Iris versicolor
Iris virginica
Our taskClassify unknown iris using
measurements on 150 iris
samples of known species
Instrumente pentru Data-Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5257
52
Instrumente pentru Data-Mining
Weka Documentation httpwwwcswaikatoacnzmlweka
Waikato Environment for Knowledge Analysis
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5357
53
Instrumente pentru Data-Mining
Principalii producători de soft pentruData-Mining
ndash IBM ndash Intelligent Miner extensie pentru DB2
ndash SAS ndash Enterprise Miner
ndash SPSS ndash Clementine
ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)
ndash hellipmulți alți producători mai mici
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5457
54
Instrumente pentru Data-Mining
SPSS - Clementine
ndash httpwwwspsscomclementine Oracle - Darwin
ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet
ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner
ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml
Standarde Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5557
55
Standarde Data Mining
PMML (Predictive Modelling Markup Language)
ndash Limbaj similar XML pentru salvare și partajare de
modele (cel mai acceptat standard)
CRISP
ndash Metodologie standardizată pentru construirea deaplicații Data Mining
OLE DB pentru Data Mining
ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)
IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5657
56
1 INTRODUCERE
2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE
3-7
CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale
Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici
8 CLUSTERIZARE (ANALIZA CLUSTERILOR)
9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA
ASOCIERILOR)
10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR
11 EVALUAREA MODELELOR
12 APLICAŢII ŞI TENDINŢE IN DATA MINING
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5757
Mulţumesc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 857
8
Lots of data is being collectedand warehoused ndash Web data e-commerce ndash purchases at department
grocery stores ndash BankCredit Card
transactions
Computers have become cheaper and more powerful
Competitive Pressure is Strong ndash Provide better customized services for an edge (eg in
Customer Relationship Management)
Why Mine Data Commercial Viewpoint
TanSteinbach Kumar Introduction to Data Miningwwwuserscsumnedu~kumardmbookindexphp
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 957
9
Why Mine Data Scientific Viewpoint
Data collected and stored at
enormous speeds (GBhour) ndash remote sensors on a satellite
ndash telescopes scanning the skies
ndash microarrays generating geneexpression data
ndash scientific simulationsgenerating terabytes of data
Traditional techniques infeasible for raw data Data mining may help scientists
ndash in classifying and segmenting data
ndash in Hypothesis Formation
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1057
10
Motivare ldquoNecesitatea este mama
invenţieirdquo
Problema exploziei cantităţii de date ndash Colectarea automată a datelor şi tehnologiile mature
de baze de date au condus la cantităţi uriaşe de datestocate icircn baze de date depozite de date şi alte
acumulări de date
Ne icircnecăm icircn date dar suntem icircnsetaţi de cunoaştere Soluţia Data warehouse şi data mining
ndash Data warehousing şi procesare on-line (OLAP)
ndash Extragerea cunoaşterii de interes (r eguli regularităţişabloane constracircngeri) din datele aflate icircn baze mari
Jiawei Han and Micheline Kamber Data Mining Concepts and
Techniques httpwwwcssfuca
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1157
11
Mining Large Data Sets - Motivation
There is often information ―hidden in the data that isnot readily evident
Human analysts may take weeks to discover usefulinformation Much of the data is never analyzed at all
0
500000
1000000
1500000
2000000
2500000
3000000
3500000
4000000
1995 1996 1997 1998 1999
The Data Gap
Total new disk (TB) since 1995
Number of
analysts
From R Grossman C Kamath V Kumar ―Data Mining for Scientific and Engineering Applications
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1257
12
Ce este Data Mining
Data mining (descoperirea cunoaşterii icircn baze de date)
ndash Extragerea informaţiilor sau şabloanelor de interes(nebanale implicite anterior necunoscute şi potenţialutile) din datele aflate icircn mari baze de date
Nume alternative
ndash Descoperirea cunoaşterii icircn baze de date (Knowledgediscovery in databases KDD) extragereacunoaşterii analiza datelorşabloanelor arheologiadatelor business intelligence etc
Ce nu este data mining ndash Procesarea deductivă a interogărilor ndash Sisteme expert sau programe mici statistice sau de
tipul maşinilor instruibile
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1357
13
Data mining sau căutarea informaţiei ascunse
De mai multe decenii mijloace şi tehnici informatice tot mai
evoluate au contribuit la amplificarea capacităţii de memorare şistocare a datelor
Ultimii ani au marcat o reorientare semnificativă icircn utilizareavolumelor de date stocate de la un proces de explorare
retrospectivă spre unul cu caracter prospectiv Această schimbare a devenit posibilă ca urmare a maturizării
tehnologiilor legate de data mining
Denumirea provine de la analogia cu activitatea minieră tot
aşa cum este necesară dislocarea şi rafinarea a tone de minereupentru a obţine cacircteva grame de aur aici sunt examinate şianalizate sute de mii sau milioane de date pentru a extrage dinele informaţii şi semnificaţii noi
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1457
14
Piramida datelor
Date
Informaţie
Cunoaştere
Icircnţelepciune
Date + context
Informa ţii + reguli
Cunoaştere + experien ţă
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1557
15
Definiţiile pentru data mining converg spre următoarea ideeDM este un proces de extragere de informaţii noi din colecţiile
de date existente
Principiul de funcţionare icircn data mining se prelucrează
datele referitoare la perioadele trecute examinacircnd o varietate de situaţii care s- au produs pentru a evidenţia caracteristicile
acestora şi a permite elaborarea unui model
Odată construit modelul poate fi aplicat situaţiilor noi de
acelaşi tip
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1657
16
Date deantrenare(icircnvare)
SistemDataMining
Date
noi
Predicie
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1757
17
Fundamentele explorării datelor
Dezvoltarea tehnicilor de data mining se explică printrealtele prin faptul că firmele au acumulat volume foarte mari dedate stocate pe suporturi informatice privitoare la tranzacţii dediverse tipuri derulate de-a lungul mai multor ani
Multă vreme acestea s-au acumulat pur şi simplu icircn virtuteanevoii de arhivare
Datele sunt la dispoziţia organizaţiei respective datele suntcacirct se poate de precise şi analitice datele sunt icircn volum mare şiacoperă perioade de timp de ordinul anilor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1857
18
Alături de existenţa colecţiilor de date istorice memorate pesuporturi informatice icircncă doi factori explică emergenţa
cunoscută actualmente de data mining (vezi figura următoare)
maturizarea algoritmilor şi a produselor programdedicate
creşterea capacităţii de memorare şi prelucrare acalculatoarelor care permite tratarea icircn corelaţiea volumelor foarte mari de date
Unele dintre tehnicile de data mining datează de ceva mai mulţiani Algoritmii folosiţi au cunoscut icircnsă un proces de evoluţiecontinuă care a permis icircnlăturarea unora dintre limitele saudeficienţele iniţiale
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1957
19
Putere de
calcul mrit
Algoritmistatisticii de
icircnvare
Colecii de date icircmbuntiteManagement
icircmbuntit aldatelor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2057
20
Produsele program au evoluat şi ele spre o utilizare cacirct maifacilă
Au apărut firme care oferă spre vacircnzare colecţii de dateistorice de uz general - cum ar fi spre exemplu evoluţiaindicatorilor bursieri din ultimii 20 de ani - special constituitepentru asemenea utilizări
Depozitele de date şi tehnologiile OLAP vizează şi ele datelecolectate la nivelul organizaţiilor
Depozitele de date se pretează foarte bine ca surse pentrudata mining iar rezultatele furnizate de acesta pot completacacircmpurile icircnregistrărilor celor dintacirci şi pot fi valorificate apoi prinproiecţiile multidimensionale specifice OLAP
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2157
21
Aplicaţii potenţiale
Analiza bazelor de date şi suport pentru decizie
ndash Analiza şi managementul pieţei
ndash Analiza şi managementul riscurilor
ndash Detecţia fraudelor
Analiza textelor - Text Mining
Analiză Web - Web Mining Răspuns inteligent la interogări
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2257
22
Analiza şi managementul pieţei
Care sunt sursele datelor de analizat ndash Tranzacţiile cu cardurile de credit cardurile de
fidelitate cupoanele de discount reclamaţiile clienţilorstudiile publice de stil de viaţă
Ţinta de marketing ndash Trebuie găsite grupuri de clienţi ―model care au
aceleaşi caracteristici interese nivel de venit obiceiuride cumpărare etc
Determinarea profilului cumpărătorului icircn timp ndash Conversia unui cont bancar icircn mai multe conectate
căsătorie etc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2357
23
Analiza şi managementul riscurilor
Planificare financiară şi evaluarea capitalului
ndash Analiza şi prognoza fluxului de numerar (cash flow)
ndash Analiza seriilor temporale (analiza tendinţelor etc)
Planificarea resurselor
ndash sumarizarea şi compararea resurselor şi acheltuielilor
Competiţie ndash Monitorizarea competitorilor şi a direcţiilor pieţei
ndash Fundamentarea strategiei preţului icircntr -o piaţă foartecompetitivă
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2457
24
Detecţia fraudelor
Folosirea datelor istorice pentru a construi modele decomportament fraudulos şi utilizarea data mining pentruidentificarea exemplelor similare
Exemple de aplicaţii
ndash Asigurări auto detectarea unui grup de persoane care icircnscenează accidente pentru a icircncasa asigurarea
ndash Spălare de bani detectarea tranzacţiilor suspecte
ndash Detectarea fraudelor telefonice detectareacomportamentelor suspecte (modelul de apel -destinaţie timp durată)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2557
25
DeviationAnomaly Detection
Detect significant deviations from normal behavior
Applications ndash Credit Card Fraud Detection
ndash Network IntrusionDetection
Typical network traffic at
University level may reach over 100
million connections per day
TanSteinbach Kumar Introduction to Data Miningwwwuserscsumnedu~kumardmbookindexphp
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2657
26
Alte domenii de aplicaţie
Sport
ndash Analiza jocurilor icircn NBA (ex detectarea strategieiadversarului) Astronomie
ndash Descoperirea şi clasificarea unor noi obiecte
Internet ndash Analiza acceselor Web descoperirea unor şabloane
(patterns) comportamentale analiza eficienţeimarketingului Web icircmbunătăţirea organizării site-urilor
Web Text
ndash Analiza ştirilor analiza icircnregistrărilor medicale sortarea şifiltrarea automată a e-mail-urilor clasificarea automată a
documentelor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2757
27
Contribuţii
Data Mining
Inteligenţă Artificială
Calculatoare performanteStatistică
Sisteme de baze dedate
Cercetări operaţionale
GIS
Vizualizare
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2857
28
Data miningintersecţia unor discipline multiple
Sisteme de baze de date data warehouse şi OLAP
Statistică
Maşini instruibile (Machine learning)
Vizualizare Informatică
Calcul de icircnaltă performanţă
Alte discipline ndash Reţele neuronale modelare matematică regăsirea
informaţiilor recunoaşterea formelor (patternrecognition)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2957
29
Architectura unui sistem tipic de Data Mining
Data
Warehouse
Curăţarea şi integrarea datelor Filtrare
Baze de date
Server de baze de date
sau de Data Warehouse
Motor data mining
Evaluarea şabloanelor
Interfaţă grafică utilizator
Bază de
cunoştinţe
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3057
30
Evoluţia tehnologiei bazelor de date
Anii 1960
ndash Colecţii de date crearea bazelor de date baze de datereţea
Anii 1970
ndash Modelul relaţional implementarea SGBD relaţional Anii 1980
ndash SGBD relaţionale modele de date avansate (relaţionalextins OO deductive etc) şi SGBD-uri specifice
(domeniul spatial ştiinţific inginerie etc) Anii 1990mdash2000
ndash Data mining şi data warehouse baze de date multimediabaze de date Web
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3157
31
Proces
Data mining inima
procesului de
descoperire a
cunoaşterii
Curăţirea datelor
Baze dedate
Data Warehouse
Date relevante
Data Mining
Evaluarea configuraţiilor
C ţi icirc t d ti b ă d
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3257
32
Comparaţie icircntre procesarea de tip bază de
date şi cea de tip Data Mining
Interogare ndash Bine definită ndash SQL
Interogare ndash Slab definită ndash Nu există limbaj precis de
interogare
Date ndash Date operaţ ionale
Ieşirea ndash Precisă ndash Subset al bazei dedate
Date ndash Date neoperaţionale
Ieşirea ndash Vagă ndash Nu este un subset al bazeide date
E l d i t ă i
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3357
33
Exemple de interogări
Bază de date
Data Mining
ndash Găseşte toţi clienţii care au cumpărat lapte
ndash Găseşte toţi clienţii care au cumpărat frecvent
lapte (Reguli de asociere)
ndash Găseşte toţi titularii de credite cu numele Smith ndash Identifică toţi clienţii care au cumpărat de maimult de $10000 icircn ultima lună
ndash Găseşte toţi titularii de credite cu risc mic decreditare (Clasificare)
ndash Identifică clienţii cu obiceiuri similare decumpărare (Grupare)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3457
34
Modele şi tehnici Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3557
35
Verificarea ipotezelor şi căutarea cunoştinţelor
Aplicarea tehnicilor de data mining poate fi făcută dinperspectiva unui demers ascendent sau descendent
Icircn abordarea descendentă efortul este orientat spre
confirmarea sau infirmarea unor idei (ipoteze) formulate icircnprealabil prin alte mijloace
Abordarea ascendentă are o cu totul altă finalitate ea
urmăreşte extragerea de cunoştinţe sau informaţii noi din dateledisponibile
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3657
36
Căutarea poate fi dirijată sau nedirijată
Căutarea dirijată ia icircn considerare un atribut sau un cacircmpale cărui valori icircncearcă să le explice prin celelalte cacircmpuriEste cea mai folosită icircn practică
Căutarea nedirijată are ca scop identificarea relaţiilor saustructurilor existente icircn ansamblul datelor examinate fără aacorda prioritate unui cacircmp sau altul
Deşi mai spectaculoasă icircn practică se recurge mult maipuţin la ea decacirct la căutarea dirijată
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3757
37
Data mining
verificarea
ipotezelor
căutarea de
cunoştinţe
dirijată nedirijată
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3857
38
Tehnici şi acţiuni
Data mining exploatează colecţiile de date de care dispune o
organizaţie
La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei
icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc
Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod
intrinsec
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3957
39
Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de
icircnţeles o tendinţă relevată de un număr foarte mare de cazuri
practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii
Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se
reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor
raţionamentele bazate pe cazuri analiza legăturilor
La acestea se pot asocia şi tehnici statistice cum sunt spre
exemplu regresiile analiza factorială etc
M d l di ti
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4057
40 40
Modele predictivehellip
Arbori de decizie
Clasificări după cel mai apropiat vecin
Reţele neuronale
Reguli
Analiza grupurilor
A l d i i ă l ă l i i
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4157
41
Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea
predicţiagrupareaanaliza grupărilor
Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un
grup limitat de clase predefinite
Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut
mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4257
42
Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare
Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări
Predicţia urmăreşte să claseze icircnregistrările tratate icircn
funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un
model care să explice comportamentul observat
Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora
icircn viitor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4357
43
Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună
Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei
Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster
Spre deosebire de celelalte tipuri de acţiuni asemănătoare
aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4457
44
Etapele procesului de exploatare a datelor
Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare
Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date
colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4557
45
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4657
46
Evaluarea modelului
Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare
Integrarea modelului
Această etapă finalizează procesul prin includerea
modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4757
172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up
Overview of Fisherrsquos Iris Dataset
Fisherrsquos iris dataset is available for download from the tutorial website
httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls
Iris photos courtesy of SIGNA ndash wwwsignaorg
Fisherrsquos iris dataset is well-known in
data mining research
This dataset is commonly used to
illustrate data mining tools
Mark Polczynski PhD The Technology Forge mhptechforgegmailnet
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4857
172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up
Fisherrsquos Database - Background
Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems
Annals of Eugenics 7 179 ndash188 available at
httpdigitallibraryadelaideeduaucollspecialfisher138pdf
iris setosa iris versicolor iris virginica
Dataset contains flower dimension measurements on 50 samples of each species
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4957
172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up
Fisherrsquos Dataset- Background
Data mining terminology
bull The four iris dimensions are termed attributes or input attributes
bull The three iris species are termed classes or output attributes
bull Each example of an iris is termed a sample or instance
Anderson measured these dimensions
bull sepal length
bull sepal width
bull petal length
bull petal width
Measurements on these iris speciesbull setosa
bull versicolor
bull virginica
S t f Fi h rsquo I i D t t
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5057
172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up
Segment of Fisherrsquos Iris Dataset
Input Output
Attributes Attribute
Inst
Sepal
Length
Sepal
Width
Petal
Length
Petal
Width Species1 51 35 14 02 setosa
2 49 3 14 02 setosa
3 47 32 13 02 setosa
4 46 31 15 02 setosa5 5 36 14 02 setosa
Numerical Nominal
ClassSample
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5157
172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up
What Problem are We Trying to Solve
Iris setosa
Weka
decisiontree
Iris versicolor
Iris virginica
Our taskClassify unknown iris using
measurements on 150 iris
samples of known species
Instrumente pentru Data-Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5257
52
Instrumente pentru Data-Mining
Weka Documentation httpwwwcswaikatoacnzmlweka
Waikato Environment for Knowledge Analysis
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5357
53
Instrumente pentru Data-Mining
Principalii producători de soft pentruData-Mining
ndash IBM ndash Intelligent Miner extensie pentru DB2
ndash SAS ndash Enterprise Miner
ndash SPSS ndash Clementine
ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)
ndash hellipmulți alți producători mai mici
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5457
54
Instrumente pentru Data-Mining
SPSS - Clementine
ndash httpwwwspsscomclementine Oracle - Darwin
ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet
ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner
ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml
Standarde Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5557
55
Standarde Data Mining
PMML (Predictive Modelling Markup Language)
ndash Limbaj similar XML pentru salvare și partajare de
modele (cel mai acceptat standard)
CRISP
ndash Metodologie standardizată pentru construirea deaplicații Data Mining
OLE DB pentru Data Mining
ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)
IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5657
56
1 INTRODUCERE
2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE
3-7
CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale
Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici
8 CLUSTERIZARE (ANALIZA CLUSTERILOR)
9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA
ASOCIERILOR)
10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR
11 EVALUAREA MODELELOR
12 APLICAŢII ŞI TENDINŢE IN DATA MINING
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5757
Mulţumesc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 957
9
Why Mine Data Scientific Viewpoint
Data collected and stored at
enormous speeds (GBhour) ndash remote sensors on a satellite
ndash telescopes scanning the skies
ndash microarrays generating geneexpression data
ndash scientific simulationsgenerating terabytes of data
Traditional techniques infeasible for raw data Data mining may help scientists
ndash in classifying and segmenting data
ndash in Hypothesis Formation
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1057
10
Motivare ldquoNecesitatea este mama
invenţieirdquo
Problema exploziei cantităţii de date ndash Colectarea automată a datelor şi tehnologiile mature
de baze de date au condus la cantităţi uriaşe de datestocate icircn baze de date depozite de date şi alte
acumulări de date
Ne icircnecăm icircn date dar suntem icircnsetaţi de cunoaştere Soluţia Data warehouse şi data mining
ndash Data warehousing şi procesare on-line (OLAP)
ndash Extragerea cunoaşterii de interes (r eguli regularităţişabloane constracircngeri) din datele aflate icircn baze mari
Jiawei Han and Micheline Kamber Data Mining Concepts and
Techniques httpwwwcssfuca
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1157
11
Mining Large Data Sets - Motivation
There is often information ―hidden in the data that isnot readily evident
Human analysts may take weeks to discover usefulinformation Much of the data is never analyzed at all
0
500000
1000000
1500000
2000000
2500000
3000000
3500000
4000000
1995 1996 1997 1998 1999
The Data Gap
Total new disk (TB) since 1995
Number of
analysts
From R Grossman C Kamath V Kumar ―Data Mining for Scientific and Engineering Applications
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1257
12
Ce este Data Mining
Data mining (descoperirea cunoaşterii icircn baze de date)
ndash Extragerea informaţiilor sau şabloanelor de interes(nebanale implicite anterior necunoscute şi potenţialutile) din datele aflate icircn mari baze de date
Nume alternative
ndash Descoperirea cunoaşterii icircn baze de date (Knowledgediscovery in databases KDD) extragereacunoaşterii analiza datelorşabloanelor arheologiadatelor business intelligence etc
Ce nu este data mining ndash Procesarea deductivă a interogărilor ndash Sisteme expert sau programe mici statistice sau de
tipul maşinilor instruibile
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1357
13
Data mining sau căutarea informaţiei ascunse
De mai multe decenii mijloace şi tehnici informatice tot mai
evoluate au contribuit la amplificarea capacităţii de memorare şistocare a datelor
Ultimii ani au marcat o reorientare semnificativă icircn utilizareavolumelor de date stocate de la un proces de explorare
retrospectivă spre unul cu caracter prospectiv Această schimbare a devenit posibilă ca urmare a maturizării
tehnologiilor legate de data mining
Denumirea provine de la analogia cu activitatea minieră tot
aşa cum este necesară dislocarea şi rafinarea a tone de minereupentru a obţine cacircteva grame de aur aici sunt examinate şianalizate sute de mii sau milioane de date pentru a extrage dinele informaţii şi semnificaţii noi
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1457
14
Piramida datelor
Date
Informaţie
Cunoaştere
Icircnţelepciune
Date + context
Informa ţii + reguli
Cunoaştere + experien ţă
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1557
15
Definiţiile pentru data mining converg spre următoarea ideeDM este un proces de extragere de informaţii noi din colecţiile
de date existente
Principiul de funcţionare icircn data mining se prelucrează
datele referitoare la perioadele trecute examinacircnd o varietate de situaţii care s- au produs pentru a evidenţia caracteristicile
acestora şi a permite elaborarea unui model
Odată construit modelul poate fi aplicat situaţiilor noi de
acelaşi tip
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1657
16
Date deantrenare(icircnvare)
SistemDataMining
Date
noi
Predicie
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1757
17
Fundamentele explorării datelor
Dezvoltarea tehnicilor de data mining se explică printrealtele prin faptul că firmele au acumulat volume foarte mari dedate stocate pe suporturi informatice privitoare la tranzacţii dediverse tipuri derulate de-a lungul mai multor ani
Multă vreme acestea s-au acumulat pur şi simplu icircn virtuteanevoii de arhivare
Datele sunt la dispoziţia organizaţiei respective datele suntcacirct se poate de precise şi analitice datele sunt icircn volum mare şiacoperă perioade de timp de ordinul anilor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1857
18
Alături de existenţa colecţiilor de date istorice memorate pesuporturi informatice icircncă doi factori explică emergenţa
cunoscută actualmente de data mining (vezi figura următoare)
maturizarea algoritmilor şi a produselor programdedicate
creşterea capacităţii de memorare şi prelucrare acalculatoarelor care permite tratarea icircn corelaţiea volumelor foarte mari de date
Unele dintre tehnicile de data mining datează de ceva mai mulţiani Algoritmii folosiţi au cunoscut icircnsă un proces de evoluţiecontinuă care a permis icircnlăturarea unora dintre limitele saudeficienţele iniţiale
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1957
19
Putere de
calcul mrit
Algoritmistatisticii de
icircnvare
Colecii de date icircmbuntiteManagement
icircmbuntit aldatelor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2057
20
Produsele program au evoluat şi ele spre o utilizare cacirct maifacilă
Au apărut firme care oferă spre vacircnzare colecţii de dateistorice de uz general - cum ar fi spre exemplu evoluţiaindicatorilor bursieri din ultimii 20 de ani - special constituitepentru asemenea utilizări
Depozitele de date şi tehnologiile OLAP vizează şi ele datelecolectate la nivelul organizaţiilor
Depozitele de date se pretează foarte bine ca surse pentrudata mining iar rezultatele furnizate de acesta pot completacacircmpurile icircnregistrărilor celor dintacirci şi pot fi valorificate apoi prinproiecţiile multidimensionale specifice OLAP
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2157
21
Aplicaţii potenţiale
Analiza bazelor de date şi suport pentru decizie
ndash Analiza şi managementul pieţei
ndash Analiza şi managementul riscurilor
ndash Detecţia fraudelor
Analiza textelor - Text Mining
Analiză Web - Web Mining Răspuns inteligent la interogări
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2257
22
Analiza şi managementul pieţei
Care sunt sursele datelor de analizat ndash Tranzacţiile cu cardurile de credit cardurile de
fidelitate cupoanele de discount reclamaţiile clienţilorstudiile publice de stil de viaţă
Ţinta de marketing ndash Trebuie găsite grupuri de clienţi ―model care au
aceleaşi caracteristici interese nivel de venit obiceiuride cumpărare etc
Determinarea profilului cumpărătorului icircn timp ndash Conversia unui cont bancar icircn mai multe conectate
căsătorie etc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2357
23
Analiza şi managementul riscurilor
Planificare financiară şi evaluarea capitalului
ndash Analiza şi prognoza fluxului de numerar (cash flow)
ndash Analiza seriilor temporale (analiza tendinţelor etc)
Planificarea resurselor
ndash sumarizarea şi compararea resurselor şi acheltuielilor
Competiţie ndash Monitorizarea competitorilor şi a direcţiilor pieţei
ndash Fundamentarea strategiei preţului icircntr -o piaţă foartecompetitivă
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2457
24
Detecţia fraudelor
Folosirea datelor istorice pentru a construi modele decomportament fraudulos şi utilizarea data mining pentruidentificarea exemplelor similare
Exemple de aplicaţii
ndash Asigurări auto detectarea unui grup de persoane care icircnscenează accidente pentru a icircncasa asigurarea
ndash Spălare de bani detectarea tranzacţiilor suspecte
ndash Detectarea fraudelor telefonice detectareacomportamentelor suspecte (modelul de apel -destinaţie timp durată)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2557
25
DeviationAnomaly Detection
Detect significant deviations from normal behavior
Applications ndash Credit Card Fraud Detection
ndash Network IntrusionDetection
Typical network traffic at
University level may reach over 100
million connections per day
TanSteinbach Kumar Introduction to Data Miningwwwuserscsumnedu~kumardmbookindexphp
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2657
26
Alte domenii de aplicaţie
Sport
ndash Analiza jocurilor icircn NBA (ex detectarea strategieiadversarului) Astronomie
ndash Descoperirea şi clasificarea unor noi obiecte
Internet ndash Analiza acceselor Web descoperirea unor şabloane
(patterns) comportamentale analiza eficienţeimarketingului Web icircmbunătăţirea organizării site-urilor
Web Text
ndash Analiza ştirilor analiza icircnregistrărilor medicale sortarea şifiltrarea automată a e-mail-urilor clasificarea automată a
documentelor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2757
27
Contribuţii
Data Mining
Inteligenţă Artificială
Calculatoare performanteStatistică
Sisteme de baze dedate
Cercetări operaţionale
GIS
Vizualizare
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2857
28
Data miningintersecţia unor discipline multiple
Sisteme de baze de date data warehouse şi OLAP
Statistică
Maşini instruibile (Machine learning)
Vizualizare Informatică
Calcul de icircnaltă performanţă
Alte discipline ndash Reţele neuronale modelare matematică regăsirea
informaţiilor recunoaşterea formelor (patternrecognition)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2957
29
Architectura unui sistem tipic de Data Mining
Data
Warehouse
Curăţarea şi integrarea datelor Filtrare
Baze de date
Server de baze de date
sau de Data Warehouse
Motor data mining
Evaluarea şabloanelor
Interfaţă grafică utilizator
Bază de
cunoştinţe
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3057
30
Evoluţia tehnologiei bazelor de date
Anii 1960
ndash Colecţii de date crearea bazelor de date baze de datereţea
Anii 1970
ndash Modelul relaţional implementarea SGBD relaţional Anii 1980
ndash SGBD relaţionale modele de date avansate (relaţionalextins OO deductive etc) şi SGBD-uri specifice
(domeniul spatial ştiinţific inginerie etc) Anii 1990mdash2000
ndash Data mining şi data warehouse baze de date multimediabaze de date Web
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3157
31
Proces
Data mining inima
procesului de
descoperire a
cunoaşterii
Curăţirea datelor
Baze dedate
Data Warehouse
Date relevante
Data Mining
Evaluarea configuraţiilor
C ţi icirc t d ti b ă d
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3257
32
Comparaţie icircntre procesarea de tip bază de
date şi cea de tip Data Mining
Interogare ndash Bine definită ndash SQL
Interogare ndash Slab definită ndash Nu există limbaj precis de
interogare
Date ndash Date operaţ ionale
Ieşirea ndash Precisă ndash Subset al bazei dedate
Date ndash Date neoperaţionale
Ieşirea ndash Vagă ndash Nu este un subset al bazeide date
E l d i t ă i
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3357
33
Exemple de interogări
Bază de date
Data Mining
ndash Găseşte toţi clienţii care au cumpărat lapte
ndash Găseşte toţi clienţii care au cumpărat frecvent
lapte (Reguli de asociere)
ndash Găseşte toţi titularii de credite cu numele Smith ndash Identifică toţi clienţii care au cumpărat de maimult de $10000 icircn ultima lună
ndash Găseşte toţi titularii de credite cu risc mic decreditare (Clasificare)
ndash Identifică clienţii cu obiceiuri similare decumpărare (Grupare)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3457
34
Modele şi tehnici Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3557
35
Verificarea ipotezelor şi căutarea cunoştinţelor
Aplicarea tehnicilor de data mining poate fi făcută dinperspectiva unui demers ascendent sau descendent
Icircn abordarea descendentă efortul este orientat spre
confirmarea sau infirmarea unor idei (ipoteze) formulate icircnprealabil prin alte mijloace
Abordarea ascendentă are o cu totul altă finalitate ea
urmăreşte extragerea de cunoştinţe sau informaţii noi din dateledisponibile
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3657
36
Căutarea poate fi dirijată sau nedirijată
Căutarea dirijată ia icircn considerare un atribut sau un cacircmpale cărui valori icircncearcă să le explice prin celelalte cacircmpuriEste cea mai folosită icircn practică
Căutarea nedirijată are ca scop identificarea relaţiilor saustructurilor existente icircn ansamblul datelor examinate fără aacorda prioritate unui cacircmp sau altul
Deşi mai spectaculoasă icircn practică se recurge mult maipuţin la ea decacirct la căutarea dirijată
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3757
37
Data mining
verificarea
ipotezelor
căutarea de
cunoştinţe
dirijată nedirijată
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3857
38
Tehnici şi acţiuni
Data mining exploatează colecţiile de date de care dispune o
organizaţie
La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei
icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc
Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod
intrinsec
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3957
39
Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de
icircnţeles o tendinţă relevată de un număr foarte mare de cazuri
practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii
Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se
reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor
raţionamentele bazate pe cazuri analiza legăturilor
La acestea se pot asocia şi tehnici statistice cum sunt spre
exemplu regresiile analiza factorială etc
M d l di ti
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4057
40 40
Modele predictivehellip
Arbori de decizie
Clasificări după cel mai apropiat vecin
Reţele neuronale
Reguli
Analiza grupurilor
A l d i i ă l ă l i i
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4157
41
Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea
predicţiagrupareaanaliza grupărilor
Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un
grup limitat de clase predefinite
Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut
mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4257
42
Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare
Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări
Predicţia urmăreşte să claseze icircnregistrările tratate icircn
funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un
model care să explice comportamentul observat
Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora
icircn viitor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4357
43
Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună
Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei
Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster
Spre deosebire de celelalte tipuri de acţiuni asemănătoare
aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4457
44
Etapele procesului de exploatare a datelor
Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare
Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date
colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4557
45
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4657
46
Evaluarea modelului
Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare
Integrarea modelului
Această etapă finalizează procesul prin includerea
modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4757
172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up
Overview of Fisherrsquos Iris Dataset
Fisherrsquos iris dataset is available for download from the tutorial website
httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls
Iris photos courtesy of SIGNA ndash wwwsignaorg
Fisherrsquos iris dataset is well-known in
data mining research
This dataset is commonly used to
illustrate data mining tools
Mark Polczynski PhD The Technology Forge mhptechforgegmailnet
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4857
172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up
Fisherrsquos Database - Background
Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems
Annals of Eugenics 7 179 ndash188 available at
httpdigitallibraryadelaideeduaucollspecialfisher138pdf
iris setosa iris versicolor iris virginica
Dataset contains flower dimension measurements on 50 samples of each species
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4957
172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up
Fisherrsquos Dataset- Background
Data mining terminology
bull The four iris dimensions are termed attributes or input attributes
bull The three iris species are termed classes or output attributes
bull Each example of an iris is termed a sample or instance
Anderson measured these dimensions
bull sepal length
bull sepal width
bull petal length
bull petal width
Measurements on these iris speciesbull setosa
bull versicolor
bull virginica
S t f Fi h rsquo I i D t t
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5057
172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up
Segment of Fisherrsquos Iris Dataset
Input Output
Attributes Attribute
Inst
Sepal
Length
Sepal
Width
Petal
Length
Petal
Width Species1 51 35 14 02 setosa
2 49 3 14 02 setosa
3 47 32 13 02 setosa
4 46 31 15 02 setosa5 5 36 14 02 setosa
Numerical Nominal
ClassSample
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5157
172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up
What Problem are We Trying to Solve
Iris setosa
Weka
decisiontree
Iris versicolor
Iris virginica
Our taskClassify unknown iris using
measurements on 150 iris
samples of known species
Instrumente pentru Data-Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5257
52
Instrumente pentru Data-Mining
Weka Documentation httpwwwcswaikatoacnzmlweka
Waikato Environment for Knowledge Analysis
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5357
53
Instrumente pentru Data-Mining
Principalii producători de soft pentruData-Mining
ndash IBM ndash Intelligent Miner extensie pentru DB2
ndash SAS ndash Enterprise Miner
ndash SPSS ndash Clementine
ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)
ndash hellipmulți alți producători mai mici
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5457
54
Instrumente pentru Data-Mining
SPSS - Clementine
ndash httpwwwspsscomclementine Oracle - Darwin
ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet
ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner
ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml
Standarde Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5557
55
Standarde Data Mining
PMML (Predictive Modelling Markup Language)
ndash Limbaj similar XML pentru salvare și partajare de
modele (cel mai acceptat standard)
CRISP
ndash Metodologie standardizată pentru construirea deaplicații Data Mining
OLE DB pentru Data Mining
ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)
IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5657
56
1 INTRODUCERE
2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE
3-7
CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale
Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici
8 CLUSTERIZARE (ANALIZA CLUSTERILOR)
9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA
ASOCIERILOR)
10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR
11 EVALUAREA MODELELOR
12 APLICAŢII ŞI TENDINŢE IN DATA MINING
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5757
Mulţumesc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1057
10
Motivare ldquoNecesitatea este mama
invenţieirdquo
Problema exploziei cantităţii de date ndash Colectarea automată a datelor şi tehnologiile mature
de baze de date au condus la cantităţi uriaşe de datestocate icircn baze de date depozite de date şi alte
acumulări de date
Ne icircnecăm icircn date dar suntem icircnsetaţi de cunoaştere Soluţia Data warehouse şi data mining
ndash Data warehousing şi procesare on-line (OLAP)
ndash Extragerea cunoaşterii de interes (r eguli regularităţişabloane constracircngeri) din datele aflate icircn baze mari
Jiawei Han and Micheline Kamber Data Mining Concepts and
Techniques httpwwwcssfuca
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1157
11
Mining Large Data Sets - Motivation
There is often information ―hidden in the data that isnot readily evident
Human analysts may take weeks to discover usefulinformation Much of the data is never analyzed at all
0
500000
1000000
1500000
2000000
2500000
3000000
3500000
4000000
1995 1996 1997 1998 1999
The Data Gap
Total new disk (TB) since 1995
Number of
analysts
From R Grossman C Kamath V Kumar ―Data Mining for Scientific and Engineering Applications
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1257
12
Ce este Data Mining
Data mining (descoperirea cunoaşterii icircn baze de date)
ndash Extragerea informaţiilor sau şabloanelor de interes(nebanale implicite anterior necunoscute şi potenţialutile) din datele aflate icircn mari baze de date
Nume alternative
ndash Descoperirea cunoaşterii icircn baze de date (Knowledgediscovery in databases KDD) extragereacunoaşterii analiza datelorşabloanelor arheologiadatelor business intelligence etc
Ce nu este data mining ndash Procesarea deductivă a interogărilor ndash Sisteme expert sau programe mici statistice sau de
tipul maşinilor instruibile
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1357
13
Data mining sau căutarea informaţiei ascunse
De mai multe decenii mijloace şi tehnici informatice tot mai
evoluate au contribuit la amplificarea capacităţii de memorare şistocare a datelor
Ultimii ani au marcat o reorientare semnificativă icircn utilizareavolumelor de date stocate de la un proces de explorare
retrospectivă spre unul cu caracter prospectiv Această schimbare a devenit posibilă ca urmare a maturizării
tehnologiilor legate de data mining
Denumirea provine de la analogia cu activitatea minieră tot
aşa cum este necesară dislocarea şi rafinarea a tone de minereupentru a obţine cacircteva grame de aur aici sunt examinate şianalizate sute de mii sau milioane de date pentru a extrage dinele informaţii şi semnificaţii noi
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1457
14
Piramida datelor
Date
Informaţie
Cunoaştere
Icircnţelepciune
Date + context
Informa ţii + reguli
Cunoaştere + experien ţă
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1557
15
Definiţiile pentru data mining converg spre următoarea ideeDM este un proces de extragere de informaţii noi din colecţiile
de date existente
Principiul de funcţionare icircn data mining se prelucrează
datele referitoare la perioadele trecute examinacircnd o varietate de situaţii care s- au produs pentru a evidenţia caracteristicile
acestora şi a permite elaborarea unui model
Odată construit modelul poate fi aplicat situaţiilor noi de
acelaşi tip
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1657
16
Date deantrenare(icircnvare)
SistemDataMining
Date
noi
Predicie
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1757
17
Fundamentele explorării datelor
Dezvoltarea tehnicilor de data mining se explică printrealtele prin faptul că firmele au acumulat volume foarte mari dedate stocate pe suporturi informatice privitoare la tranzacţii dediverse tipuri derulate de-a lungul mai multor ani
Multă vreme acestea s-au acumulat pur şi simplu icircn virtuteanevoii de arhivare
Datele sunt la dispoziţia organizaţiei respective datele suntcacirct se poate de precise şi analitice datele sunt icircn volum mare şiacoperă perioade de timp de ordinul anilor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1857
18
Alături de existenţa colecţiilor de date istorice memorate pesuporturi informatice icircncă doi factori explică emergenţa
cunoscută actualmente de data mining (vezi figura următoare)
maturizarea algoritmilor şi a produselor programdedicate
creşterea capacităţii de memorare şi prelucrare acalculatoarelor care permite tratarea icircn corelaţiea volumelor foarte mari de date
Unele dintre tehnicile de data mining datează de ceva mai mulţiani Algoritmii folosiţi au cunoscut icircnsă un proces de evoluţiecontinuă care a permis icircnlăturarea unora dintre limitele saudeficienţele iniţiale
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1957
19
Putere de
calcul mrit
Algoritmistatisticii de
icircnvare
Colecii de date icircmbuntiteManagement
icircmbuntit aldatelor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2057
20
Produsele program au evoluat şi ele spre o utilizare cacirct maifacilă
Au apărut firme care oferă spre vacircnzare colecţii de dateistorice de uz general - cum ar fi spre exemplu evoluţiaindicatorilor bursieri din ultimii 20 de ani - special constituitepentru asemenea utilizări
Depozitele de date şi tehnologiile OLAP vizează şi ele datelecolectate la nivelul organizaţiilor
Depozitele de date se pretează foarte bine ca surse pentrudata mining iar rezultatele furnizate de acesta pot completacacircmpurile icircnregistrărilor celor dintacirci şi pot fi valorificate apoi prinproiecţiile multidimensionale specifice OLAP
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2157
21
Aplicaţii potenţiale
Analiza bazelor de date şi suport pentru decizie
ndash Analiza şi managementul pieţei
ndash Analiza şi managementul riscurilor
ndash Detecţia fraudelor
Analiza textelor - Text Mining
Analiză Web - Web Mining Răspuns inteligent la interogări
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2257
22
Analiza şi managementul pieţei
Care sunt sursele datelor de analizat ndash Tranzacţiile cu cardurile de credit cardurile de
fidelitate cupoanele de discount reclamaţiile clienţilorstudiile publice de stil de viaţă
Ţinta de marketing ndash Trebuie găsite grupuri de clienţi ―model care au
aceleaşi caracteristici interese nivel de venit obiceiuride cumpărare etc
Determinarea profilului cumpărătorului icircn timp ndash Conversia unui cont bancar icircn mai multe conectate
căsătorie etc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2357
23
Analiza şi managementul riscurilor
Planificare financiară şi evaluarea capitalului
ndash Analiza şi prognoza fluxului de numerar (cash flow)
ndash Analiza seriilor temporale (analiza tendinţelor etc)
Planificarea resurselor
ndash sumarizarea şi compararea resurselor şi acheltuielilor
Competiţie ndash Monitorizarea competitorilor şi a direcţiilor pieţei
ndash Fundamentarea strategiei preţului icircntr -o piaţă foartecompetitivă
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2457
24
Detecţia fraudelor
Folosirea datelor istorice pentru a construi modele decomportament fraudulos şi utilizarea data mining pentruidentificarea exemplelor similare
Exemple de aplicaţii
ndash Asigurări auto detectarea unui grup de persoane care icircnscenează accidente pentru a icircncasa asigurarea
ndash Spălare de bani detectarea tranzacţiilor suspecte
ndash Detectarea fraudelor telefonice detectareacomportamentelor suspecte (modelul de apel -destinaţie timp durată)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2557
25
DeviationAnomaly Detection
Detect significant deviations from normal behavior
Applications ndash Credit Card Fraud Detection
ndash Network IntrusionDetection
Typical network traffic at
University level may reach over 100
million connections per day
TanSteinbach Kumar Introduction to Data Miningwwwuserscsumnedu~kumardmbookindexphp
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2657
26
Alte domenii de aplicaţie
Sport
ndash Analiza jocurilor icircn NBA (ex detectarea strategieiadversarului) Astronomie
ndash Descoperirea şi clasificarea unor noi obiecte
Internet ndash Analiza acceselor Web descoperirea unor şabloane
(patterns) comportamentale analiza eficienţeimarketingului Web icircmbunătăţirea organizării site-urilor
Web Text
ndash Analiza ştirilor analiza icircnregistrărilor medicale sortarea şifiltrarea automată a e-mail-urilor clasificarea automată a
documentelor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2757
27
Contribuţii
Data Mining
Inteligenţă Artificială
Calculatoare performanteStatistică
Sisteme de baze dedate
Cercetări operaţionale
GIS
Vizualizare
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2857
28
Data miningintersecţia unor discipline multiple
Sisteme de baze de date data warehouse şi OLAP
Statistică
Maşini instruibile (Machine learning)
Vizualizare Informatică
Calcul de icircnaltă performanţă
Alte discipline ndash Reţele neuronale modelare matematică regăsirea
informaţiilor recunoaşterea formelor (patternrecognition)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2957
29
Architectura unui sistem tipic de Data Mining
Data
Warehouse
Curăţarea şi integrarea datelor Filtrare
Baze de date
Server de baze de date
sau de Data Warehouse
Motor data mining
Evaluarea şabloanelor
Interfaţă grafică utilizator
Bază de
cunoştinţe
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3057
30
Evoluţia tehnologiei bazelor de date
Anii 1960
ndash Colecţii de date crearea bazelor de date baze de datereţea
Anii 1970
ndash Modelul relaţional implementarea SGBD relaţional Anii 1980
ndash SGBD relaţionale modele de date avansate (relaţionalextins OO deductive etc) şi SGBD-uri specifice
(domeniul spatial ştiinţific inginerie etc) Anii 1990mdash2000
ndash Data mining şi data warehouse baze de date multimediabaze de date Web
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3157
31
Proces
Data mining inima
procesului de
descoperire a
cunoaşterii
Curăţirea datelor
Baze dedate
Data Warehouse
Date relevante
Data Mining
Evaluarea configuraţiilor
C ţi icirc t d ti b ă d
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3257
32
Comparaţie icircntre procesarea de tip bază de
date şi cea de tip Data Mining
Interogare ndash Bine definită ndash SQL
Interogare ndash Slab definită ndash Nu există limbaj precis de
interogare
Date ndash Date operaţ ionale
Ieşirea ndash Precisă ndash Subset al bazei dedate
Date ndash Date neoperaţionale
Ieşirea ndash Vagă ndash Nu este un subset al bazeide date
E l d i t ă i
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3357
33
Exemple de interogări
Bază de date
Data Mining
ndash Găseşte toţi clienţii care au cumpărat lapte
ndash Găseşte toţi clienţii care au cumpărat frecvent
lapte (Reguli de asociere)
ndash Găseşte toţi titularii de credite cu numele Smith ndash Identifică toţi clienţii care au cumpărat de maimult de $10000 icircn ultima lună
ndash Găseşte toţi titularii de credite cu risc mic decreditare (Clasificare)
ndash Identifică clienţii cu obiceiuri similare decumpărare (Grupare)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3457
34
Modele şi tehnici Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3557
35
Verificarea ipotezelor şi căutarea cunoştinţelor
Aplicarea tehnicilor de data mining poate fi făcută dinperspectiva unui demers ascendent sau descendent
Icircn abordarea descendentă efortul este orientat spre
confirmarea sau infirmarea unor idei (ipoteze) formulate icircnprealabil prin alte mijloace
Abordarea ascendentă are o cu totul altă finalitate ea
urmăreşte extragerea de cunoştinţe sau informaţii noi din dateledisponibile
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3657
36
Căutarea poate fi dirijată sau nedirijată
Căutarea dirijată ia icircn considerare un atribut sau un cacircmpale cărui valori icircncearcă să le explice prin celelalte cacircmpuriEste cea mai folosită icircn practică
Căutarea nedirijată are ca scop identificarea relaţiilor saustructurilor existente icircn ansamblul datelor examinate fără aacorda prioritate unui cacircmp sau altul
Deşi mai spectaculoasă icircn practică se recurge mult maipuţin la ea decacirct la căutarea dirijată
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3757
37
Data mining
verificarea
ipotezelor
căutarea de
cunoştinţe
dirijată nedirijată
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3857
38
Tehnici şi acţiuni
Data mining exploatează colecţiile de date de care dispune o
organizaţie
La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei
icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc
Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod
intrinsec
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3957
39
Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de
icircnţeles o tendinţă relevată de un număr foarte mare de cazuri
practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii
Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se
reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor
raţionamentele bazate pe cazuri analiza legăturilor
La acestea se pot asocia şi tehnici statistice cum sunt spre
exemplu regresiile analiza factorială etc
M d l di ti
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4057
40 40
Modele predictivehellip
Arbori de decizie
Clasificări după cel mai apropiat vecin
Reţele neuronale
Reguli
Analiza grupurilor
A l d i i ă l ă l i i
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4157
41
Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea
predicţiagrupareaanaliza grupărilor
Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un
grup limitat de clase predefinite
Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut
mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4257
42
Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare
Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări
Predicţia urmăreşte să claseze icircnregistrările tratate icircn
funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un
model care să explice comportamentul observat
Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora
icircn viitor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4357
43
Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună
Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei
Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster
Spre deosebire de celelalte tipuri de acţiuni asemănătoare
aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4457
44
Etapele procesului de exploatare a datelor
Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare
Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date
colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4557
45
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4657
46
Evaluarea modelului
Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare
Integrarea modelului
Această etapă finalizează procesul prin includerea
modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4757
172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up
Overview of Fisherrsquos Iris Dataset
Fisherrsquos iris dataset is available for download from the tutorial website
httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls
Iris photos courtesy of SIGNA ndash wwwsignaorg
Fisherrsquos iris dataset is well-known in
data mining research
This dataset is commonly used to
illustrate data mining tools
Mark Polczynski PhD The Technology Forge mhptechforgegmailnet
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4857
172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up
Fisherrsquos Database - Background
Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems
Annals of Eugenics 7 179 ndash188 available at
httpdigitallibraryadelaideeduaucollspecialfisher138pdf
iris setosa iris versicolor iris virginica
Dataset contains flower dimension measurements on 50 samples of each species
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4957
172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up
Fisherrsquos Dataset- Background
Data mining terminology
bull The four iris dimensions are termed attributes or input attributes
bull The three iris species are termed classes or output attributes
bull Each example of an iris is termed a sample or instance
Anderson measured these dimensions
bull sepal length
bull sepal width
bull petal length
bull petal width
Measurements on these iris speciesbull setosa
bull versicolor
bull virginica
S t f Fi h rsquo I i D t t
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5057
172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up
Segment of Fisherrsquos Iris Dataset
Input Output
Attributes Attribute
Inst
Sepal
Length
Sepal
Width
Petal
Length
Petal
Width Species1 51 35 14 02 setosa
2 49 3 14 02 setosa
3 47 32 13 02 setosa
4 46 31 15 02 setosa5 5 36 14 02 setosa
Numerical Nominal
ClassSample
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5157
172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up
What Problem are We Trying to Solve
Iris setosa
Weka
decisiontree
Iris versicolor
Iris virginica
Our taskClassify unknown iris using
measurements on 150 iris
samples of known species
Instrumente pentru Data-Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5257
52
Instrumente pentru Data-Mining
Weka Documentation httpwwwcswaikatoacnzmlweka
Waikato Environment for Knowledge Analysis
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5357
53
Instrumente pentru Data-Mining
Principalii producători de soft pentruData-Mining
ndash IBM ndash Intelligent Miner extensie pentru DB2
ndash SAS ndash Enterprise Miner
ndash SPSS ndash Clementine
ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)
ndash hellipmulți alți producători mai mici
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5457
54
Instrumente pentru Data-Mining
SPSS - Clementine
ndash httpwwwspsscomclementine Oracle - Darwin
ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet
ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner
ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml
Standarde Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5557
55
Standarde Data Mining
PMML (Predictive Modelling Markup Language)
ndash Limbaj similar XML pentru salvare și partajare de
modele (cel mai acceptat standard)
CRISP
ndash Metodologie standardizată pentru construirea deaplicații Data Mining
OLE DB pentru Data Mining
ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)
IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5657
56
1 INTRODUCERE
2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE
3-7
CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale
Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici
8 CLUSTERIZARE (ANALIZA CLUSTERILOR)
9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA
ASOCIERILOR)
10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR
11 EVALUAREA MODELELOR
12 APLICAŢII ŞI TENDINŢE IN DATA MINING
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5757
Mulţumesc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1157
11
Mining Large Data Sets - Motivation
There is often information ―hidden in the data that isnot readily evident
Human analysts may take weeks to discover usefulinformation Much of the data is never analyzed at all
0
500000
1000000
1500000
2000000
2500000
3000000
3500000
4000000
1995 1996 1997 1998 1999
The Data Gap
Total new disk (TB) since 1995
Number of
analysts
From R Grossman C Kamath V Kumar ―Data Mining for Scientific and Engineering Applications
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1257
12
Ce este Data Mining
Data mining (descoperirea cunoaşterii icircn baze de date)
ndash Extragerea informaţiilor sau şabloanelor de interes(nebanale implicite anterior necunoscute şi potenţialutile) din datele aflate icircn mari baze de date
Nume alternative
ndash Descoperirea cunoaşterii icircn baze de date (Knowledgediscovery in databases KDD) extragereacunoaşterii analiza datelorşabloanelor arheologiadatelor business intelligence etc
Ce nu este data mining ndash Procesarea deductivă a interogărilor ndash Sisteme expert sau programe mici statistice sau de
tipul maşinilor instruibile
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1357
13
Data mining sau căutarea informaţiei ascunse
De mai multe decenii mijloace şi tehnici informatice tot mai
evoluate au contribuit la amplificarea capacităţii de memorare şistocare a datelor
Ultimii ani au marcat o reorientare semnificativă icircn utilizareavolumelor de date stocate de la un proces de explorare
retrospectivă spre unul cu caracter prospectiv Această schimbare a devenit posibilă ca urmare a maturizării
tehnologiilor legate de data mining
Denumirea provine de la analogia cu activitatea minieră tot
aşa cum este necesară dislocarea şi rafinarea a tone de minereupentru a obţine cacircteva grame de aur aici sunt examinate şianalizate sute de mii sau milioane de date pentru a extrage dinele informaţii şi semnificaţii noi
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1457
14
Piramida datelor
Date
Informaţie
Cunoaştere
Icircnţelepciune
Date + context
Informa ţii + reguli
Cunoaştere + experien ţă
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1557
15
Definiţiile pentru data mining converg spre următoarea ideeDM este un proces de extragere de informaţii noi din colecţiile
de date existente
Principiul de funcţionare icircn data mining se prelucrează
datele referitoare la perioadele trecute examinacircnd o varietate de situaţii care s- au produs pentru a evidenţia caracteristicile
acestora şi a permite elaborarea unui model
Odată construit modelul poate fi aplicat situaţiilor noi de
acelaşi tip
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1657
16
Date deantrenare(icircnvare)
SistemDataMining
Date
noi
Predicie
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1757
17
Fundamentele explorării datelor
Dezvoltarea tehnicilor de data mining se explică printrealtele prin faptul că firmele au acumulat volume foarte mari dedate stocate pe suporturi informatice privitoare la tranzacţii dediverse tipuri derulate de-a lungul mai multor ani
Multă vreme acestea s-au acumulat pur şi simplu icircn virtuteanevoii de arhivare
Datele sunt la dispoziţia organizaţiei respective datele suntcacirct se poate de precise şi analitice datele sunt icircn volum mare şiacoperă perioade de timp de ordinul anilor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1857
18
Alături de existenţa colecţiilor de date istorice memorate pesuporturi informatice icircncă doi factori explică emergenţa
cunoscută actualmente de data mining (vezi figura următoare)
maturizarea algoritmilor şi a produselor programdedicate
creşterea capacităţii de memorare şi prelucrare acalculatoarelor care permite tratarea icircn corelaţiea volumelor foarte mari de date
Unele dintre tehnicile de data mining datează de ceva mai mulţiani Algoritmii folosiţi au cunoscut icircnsă un proces de evoluţiecontinuă care a permis icircnlăturarea unora dintre limitele saudeficienţele iniţiale
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1957
19
Putere de
calcul mrit
Algoritmistatisticii de
icircnvare
Colecii de date icircmbuntiteManagement
icircmbuntit aldatelor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2057
20
Produsele program au evoluat şi ele spre o utilizare cacirct maifacilă
Au apărut firme care oferă spre vacircnzare colecţii de dateistorice de uz general - cum ar fi spre exemplu evoluţiaindicatorilor bursieri din ultimii 20 de ani - special constituitepentru asemenea utilizări
Depozitele de date şi tehnologiile OLAP vizează şi ele datelecolectate la nivelul organizaţiilor
Depozitele de date se pretează foarte bine ca surse pentrudata mining iar rezultatele furnizate de acesta pot completacacircmpurile icircnregistrărilor celor dintacirci şi pot fi valorificate apoi prinproiecţiile multidimensionale specifice OLAP
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2157
21
Aplicaţii potenţiale
Analiza bazelor de date şi suport pentru decizie
ndash Analiza şi managementul pieţei
ndash Analiza şi managementul riscurilor
ndash Detecţia fraudelor
Analiza textelor - Text Mining
Analiză Web - Web Mining Răspuns inteligent la interogări
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2257
22
Analiza şi managementul pieţei
Care sunt sursele datelor de analizat ndash Tranzacţiile cu cardurile de credit cardurile de
fidelitate cupoanele de discount reclamaţiile clienţilorstudiile publice de stil de viaţă
Ţinta de marketing ndash Trebuie găsite grupuri de clienţi ―model care au
aceleaşi caracteristici interese nivel de venit obiceiuride cumpărare etc
Determinarea profilului cumpărătorului icircn timp ndash Conversia unui cont bancar icircn mai multe conectate
căsătorie etc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2357
23
Analiza şi managementul riscurilor
Planificare financiară şi evaluarea capitalului
ndash Analiza şi prognoza fluxului de numerar (cash flow)
ndash Analiza seriilor temporale (analiza tendinţelor etc)
Planificarea resurselor
ndash sumarizarea şi compararea resurselor şi acheltuielilor
Competiţie ndash Monitorizarea competitorilor şi a direcţiilor pieţei
ndash Fundamentarea strategiei preţului icircntr -o piaţă foartecompetitivă
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2457
24
Detecţia fraudelor
Folosirea datelor istorice pentru a construi modele decomportament fraudulos şi utilizarea data mining pentruidentificarea exemplelor similare
Exemple de aplicaţii
ndash Asigurări auto detectarea unui grup de persoane care icircnscenează accidente pentru a icircncasa asigurarea
ndash Spălare de bani detectarea tranzacţiilor suspecte
ndash Detectarea fraudelor telefonice detectareacomportamentelor suspecte (modelul de apel -destinaţie timp durată)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2557
25
DeviationAnomaly Detection
Detect significant deviations from normal behavior
Applications ndash Credit Card Fraud Detection
ndash Network IntrusionDetection
Typical network traffic at
University level may reach over 100
million connections per day
TanSteinbach Kumar Introduction to Data Miningwwwuserscsumnedu~kumardmbookindexphp
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2657
26
Alte domenii de aplicaţie
Sport
ndash Analiza jocurilor icircn NBA (ex detectarea strategieiadversarului) Astronomie
ndash Descoperirea şi clasificarea unor noi obiecte
Internet ndash Analiza acceselor Web descoperirea unor şabloane
(patterns) comportamentale analiza eficienţeimarketingului Web icircmbunătăţirea organizării site-urilor
Web Text
ndash Analiza ştirilor analiza icircnregistrărilor medicale sortarea şifiltrarea automată a e-mail-urilor clasificarea automată a
documentelor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2757
27
Contribuţii
Data Mining
Inteligenţă Artificială
Calculatoare performanteStatistică
Sisteme de baze dedate
Cercetări operaţionale
GIS
Vizualizare
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2857
28
Data miningintersecţia unor discipline multiple
Sisteme de baze de date data warehouse şi OLAP
Statistică
Maşini instruibile (Machine learning)
Vizualizare Informatică
Calcul de icircnaltă performanţă
Alte discipline ndash Reţele neuronale modelare matematică regăsirea
informaţiilor recunoaşterea formelor (patternrecognition)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2957
29
Architectura unui sistem tipic de Data Mining
Data
Warehouse
Curăţarea şi integrarea datelor Filtrare
Baze de date
Server de baze de date
sau de Data Warehouse
Motor data mining
Evaluarea şabloanelor
Interfaţă grafică utilizator
Bază de
cunoştinţe
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3057
30
Evoluţia tehnologiei bazelor de date
Anii 1960
ndash Colecţii de date crearea bazelor de date baze de datereţea
Anii 1970
ndash Modelul relaţional implementarea SGBD relaţional Anii 1980
ndash SGBD relaţionale modele de date avansate (relaţionalextins OO deductive etc) şi SGBD-uri specifice
(domeniul spatial ştiinţific inginerie etc) Anii 1990mdash2000
ndash Data mining şi data warehouse baze de date multimediabaze de date Web
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3157
31
Proces
Data mining inima
procesului de
descoperire a
cunoaşterii
Curăţirea datelor
Baze dedate
Data Warehouse
Date relevante
Data Mining
Evaluarea configuraţiilor
C ţi icirc t d ti b ă d
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3257
32
Comparaţie icircntre procesarea de tip bază de
date şi cea de tip Data Mining
Interogare ndash Bine definită ndash SQL
Interogare ndash Slab definită ndash Nu există limbaj precis de
interogare
Date ndash Date operaţ ionale
Ieşirea ndash Precisă ndash Subset al bazei dedate
Date ndash Date neoperaţionale
Ieşirea ndash Vagă ndash Nu este un subset al bazeide date
E l d i t ă i
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3357
33
Exemple de interogări
Bază de date
Data Mining
ndash Găseşte toţi clienţii care au cumpărat lapte
ndash Găseşte toţi clienţii care au cumpărat frecvent
lapte (Reguli de asociere)
ndash Găseşte toţi titularii de credite cu numele Smith ndash Identifică toţi clienţii care au cumpărat de maimult de $10000 icircn ultima lună
ndash Găseşte toţi titularii de credite cu risc mic decreditare (Clasificare)
ndash Identifică clienţii cu obiceiuri similare decumpărare (Grupare)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3457
34
Modele şi tehnici Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3557
35
Verificarea ipotezelor şi căutarea cunoştinţelor
Aplicarea tehnicilor de data mining poate fi făcută dinperspectiva unui demers ascendent sau descendent
Icircn abordarea descendentă efortul este orientat spre
confirmarea sau infirmarea unor idei (ipoteze) formulate icircnprealabil prin alte mijloace
Abordarea ascendentă are o cu totul altă finalitate ea
urmăreşte extragerea de cunoştinţe sau informaţii noi din dateledisponibile
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3657
36
Căutarea poate fi dirijată sau nedirijată
Căutarea dirijată ia icircn considerare un atribut sau un cacircmpale cărui valori icircncearcă să le explice prin celelalte cacircmpuriEste cea mai folosită icircn practică
Căutarea nedirijată are ca scop identificarea relaţiilor saustructurilor existente icircn ansamblul datelor examinate fără aacorda prioritate unui cacircmp sau altul
Deşi mai spectaculoasă icircn practică se recurge mult maipuţin la ea decacirct la căutarea dirijată
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3757
37
Data mining
verificarea
ipotezelor
căutarea de
cunoştinţe
dirijată nedirijată
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3857
38
Tehnici şi acţiuni
Data mining exploatează colecţiile de date de care dispune o
organizaţie
La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei
icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc
Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod
intrinsec
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3957
39
Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de
icircnţeles o tendinţă relevată de un număr foarte mare de cazuri
practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii
Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se
reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor
raţionamentele bazate pe cazuri analiza legăturilor
La acestea se pot asocia şi tehnici statistice cum sunt spre
exemplu regresiile analiza factorială etc
M d l di ti
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4057
40 40
Modele predictivehellip
Arbori de decizie
Clasificări după cel mai apropiat vecin
Reţele neuronale
Reguli
Analiza grupurilor
A l d i i ă l ă l i i
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4157
41
Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea
predicţiagrupareaanaliza grupărilor
Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un
grup limitat de clase predefinite
Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut
mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4257
42
Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare
Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări
Predicţia urmăreşte să claseze icircnregistrările tratate icircn
funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un
model care să explice comportamentul observat
Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora
icircn viitor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4357
43
Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună
Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei
Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster
Spre deosebire de celelalte tipuri de acţiuni asemănătoare
aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4457
44
Etapele procesului de exploatare a datelor
Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare
Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date
colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4557
45
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4657
46
Evaluarea modelului
Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare
Integrarea modelului
Această etapă finalizează procesul prin includerea
modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4757
172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up
Overview of Fisherrsquos Iris Dataset
Fisherrsquos iris dataset is available for download from the tutorial website
httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls
Iris photos courtesy of SIGNA ndash wwwsignaorg
Fisherrsquos iris dataset is well-known in
data mining research
This dataset is commonly used to
illustrate data mining tools
Mark Polczynski PhD The Technology Forge mhptechforgegmailnet
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4857
172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up
Fisherrsquos Database - Background
Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems
Annals of Eugenics 7 179 ndash188 available at
httpdigitallibraryadelaideeduaucollspecialfisher138pdf
iris setosa iris versicolor iris virginica
Dataset contains flower dimension measurements on 50 samples of each species
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4957
172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up
Fisherrsquos Dataset- Background
Data mining terminology
bull The four iris dimensions are termed attributes or input attributes
bull The three iris species are termed classes or output attributes
bull Each example of an iris is termed a sample or instance
Anderson measured these dimensions
bull sepal length
bull sepal width
bull petal length
bull petal width
Measurements on these iris speciesbull setosa
bull versicolor
bull virginica
S t f Fi h rsquo I i D t t
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5057
172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up
Segment of Fisherrsquos Iris Dataset
Input Output
Attributes Attribute
Inst
Sepal
Length
Sepal
Width
Petal
Length
Petal
Width Species1 51 35 14 02 setosa
2 49 3 14 02 setosa
3 47 32 13 02 setosa
4 46 31 15 02 setosa5 5 36 14 02 setosa
Numerical Nominal
ClassSample
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5157
172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up
What Problem are We Trying to Solve
Iris setosa
Weka
decisiontree
Iris versicolor
Iris virginica
Our taskClassify unknown iris using
measurements on 150 iris
samples of known species
Instrumente pentru Data-Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5257
52
Instrumente pentru Data-Mining
Weka Documentation httpwwwcswaikatoacnzmlweka
Waikato Environment for Knowledge Analysis
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5357
53
Instrumente pentru Data-Mining
Principalii producători de soft pentruData-Mining
ndash IBM ndash Intelligent Miner extensie pentru DB2
ndash SAS ndash Enterprise Miner
ndash SPSS ndash Clementine
ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)
ndash hellipmulți alți producători mai mici
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5457
54
Instrumente pentru Data-Mining
SPSS - Clementine
ndash httpwwwspsscomclementine Oracle - Darwin
ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet
ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner
ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml
Standarde Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5557
55
Standarde Data Mining
PMML (Predictive Modelling Markup Language)
ndash Limbaj similar XML pentru salvare și partajare de
modele (cel mai acceptat standard)
CRISP
ndash Metodologie standardizată pentru construirea deaplicații Data Mining
OLE DB pentru Data Mining
ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)
IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5657
56
1 INTRODUCERE
2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE
3-7
CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale
Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici
8 CLUSTERIZARE (ANALIZA CLUSTERILOR)
9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA
ASOCIERILOR)
10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR
11 EVALUAREA MODELELOR
12 APLICAŢII ŞI TENDINŢE IN DATA MINING
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5757
Mulţumesc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1257
12
Ce este Data Mining
Data mining (descoperirea cunoaşterii icircn baze de date)
ndash Extragerea informaţiilor sau şabloanelor de interes(nebanale implicite anterior necunoscute şi potenţialutile) din datele aflate icircn mari baze de date
Nume alternative
ndash Descoperirea cunoaşterii icircn baze de date (Knowledgediscovery in databases KDD) extragereacunoaşterii analiza datelorşabloanelor arheologiadatelor business intelligence etc
Ce nu este data mining ndash Procesarea deductivă a interogărilor ndash Sisteme expert sau programe mici statistice sau de
tipul maşinilor instruibile
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1357
13
Data mining sau căutarea informaţiei ascunse
De mai multe decenii mijloace şi tehnici informatice tot mai
evoluate au contribuit la amplificarea capacităţii de memorare şistocare a datelor
Ultimii ani au marcat o reorientare semnificativă icircn utilizareavolumelor de date stocate de la un proces de explorare
retrospectivă spre unul cu caracter prospectiv Această schimbare a devenit posibilă ca urmare a maturizării
tehnologiilor legate de data mining
Denumirea provine de la analogia cu activitatea minieră tot
aşa cum este necesară dislocarea şi rafinarea a tone de minereupentru a obţine cacircteva grame de aur aici sunt examinate şianalizate sute de mii sau milioane de date pentru a extrage dinele informaţii şi semnificaţii noi
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1457
14
Piramida datelor
Date
Informaţie
Cunoaştere
Icircnţelepciune
Date + context
Informa ţii + reguli
Cunoaştere + experien ţă
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1557
15
Definiţiile pentru data mining converg spre următoarea ideeDM este un proces de extragere de informaţii noi din colecţiile
de date existente
Principiul de funcţionare icircn data mining se prelucrează
datele referitoare la perioadele trecute examinacircnd o varietate de situaţii care s- au produs pentru a evidenţia caracteristicile
acestora şi a permite elaborarea unui model
Odată construit modelul poate fi aplicat situaţiilor noi de
acelaşi tip
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1657
16
Date deantrenare(icircnvare)
SistemDataMining
Date
noi
Predicie
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1757
17
Fundamentele explorării datelor
Dezvoltarea tehnicilor de data mining se explică printrealtele prin faptul că firmele au acumulat volume foarte mari dedate stocate pe suporturi informatice privitoare la tranzacţii dediverse tipuri derulate de-a lungul mai multor ani
Multă vreme acestea s-au acumulat pur şi simplu icircn virtuteanevoii de arhivare
Datele sunt la dispoziţia organizaţiei respective datele suntcacirct se poate de precise şi analitice datele sunt icircn volum mare şiacoperă perioade de timp de ordinul anilor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1857
18
Alături de existenţa colecţiilor de date istorice memorate pesuporturi informatice icircncă doi factori explică emergenţa
cunoscută actualmente de data mining (vezi figura următoare)
maturizarea algoritmilor şi a produselor programdedicate
creşterea capacităţii de memorare şi prelucrare acalculatoarelor care permite tratarea icircn corelaţiea volumelor foarte mari de date
Unele dintre tehnicile de data mining datează de ceva mai mulţiani Algoritmii folosiţi au cunoscut icircnsă un proces de evoluţiecontinuă care a permis icircnlăturarea unora dintre limitele saudeficienţele iniţiale
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1957
19
Putere de
calcul mrit
Algoritmistatisticii de
icircnvare
Colecii de date icircmbuntiteManagement
icircmbuntit aldatelor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2057
20
Produsele program au evoluat şi ele spre o utilizare cacirct maifacilă
Au apărut firme care oferă spre vacircnzare colecţii de dateistorice de uz general - cum ar fi spre exemplu evoluţiaindicatorilor bursieri din ultimii 20 de ani - special constituitepentru asemenea utilizări
Depozitele de date şi tehnologiile OLAP vizează şi ele datelecolectate la nivelul organizaţiilor
Depozitele de date se pretează foarte bine ca surse pentrudata mining iar rezultatele furnizate de acesta pot completacacircmpurile icircnregistrărilor celor dintacirci şi pot fi valorificate apoi prinproiecţiile multidimensionale specifice OLAP
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2157
21
Aplicaţii potenţiale
Analiza bazelor de date şi suport pentru decizie
ndash Analiza şi managementul pieţei
ndash Analiza şi managementul riscurilor
ndash Detecţia fraudelor
Analiza textelor - Text Mining
Analiză Web - Web Mining Răspuns inteligent la interogări
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2257
22
Analiza şi managementul pieţei
Care sunt sursele datelor de analizat ndash Tranzacţiile cu cardurile de credit cardurile de
fidelitate cupoanele de discount reclamaţiile clienţilorstudiile publice de stil de viaţă
Ţinta de marketing ndash Trebuie găsite grupuri de clienţi ―model care au
aceleaşi caracteristici interese nivel de venit obiceiuride cumpărare etc
Determinarea profilului cumpărătorului icircn timp ndash Conversia unui cont bancar icircn mai multe conectate
căsătorie etc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2357
23
Analiza şi managementul riscurilor
Planificare financiară şi evaluarea capitalului
ndash Analiza şi prognoza fluxului de numerar (cash flow)
ndash Analiza seriilor temporale (analiza tendinţelor etc)
Planificarea resurselor
ndash sumarizarea şi compararea resurselor şi acheltuielilor
Competiţie ndash Monitorizarea competitorilor şi a direcţiilor pieţei
ndash Fundamentarea strategiei preţului icircntr -o piaţă foartecompetitivă
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2457
24
Detecţia fraudelor
Folosirea datelor istorice pentru a construi modele decomportament fraudulos şi utilizarea data mining pentruidentificarea exemplelor similare
Exemple de aplicaţii
ndash Asigurări auto detectarea unui grup de persoane care icircnscenează accidente pentru a icircncasa asigurarea
ndash Spălare de bani detectarea tranzacţiilor suspecte
ndash Detectarea fraudelor telefonice detectareacomportamentelor suspecte (modelul de apel -destinaţie timp durată)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2557
25
DeviationAnomaly Detection
Detect significant deviations from normal behavior
Applications ndash Credit Card Fraud Detection
ndash Network IntrusionDetection
Typical network traffic at
University level may reach over 100
million connections per day
TanSteinbach Kumar Introduction to Data Miningwwwuserscsumnedu~kumardmbookindexphp
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2657
26
Alte domenii de aplicaţie
Sport
ndash Analiza jocurilor icircn NBA (ex detectarea strategieiadversarului) Astronomie
ndash Descoperirea şi clasificarea unor noi obiecte
Internet ndash Analiza acceselor Web descoperirea unor şabloane
(patterns) comportamentale analiza eficienţeimarketingului Web icircmbunătăţirea organizării site-urilor
Web Text
ndash Analiza ştirilor analiza icircnregistrărilor medicale sortarea şifiltrarea automată a e-mail-urilor clasificarea automată a
documentelor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2757
27
Contribuţii
Data Mining
Inteligenţă Artificială
Calculatoare performanteStatistică
Sisteme de baze dedate
Cercetări operaţionale
GIS
Vizualizare
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2857
28
Data miningintersecţia unor discipline multiple
Sisteme de baze de date data warehouse şi OLAP
Statistică
Maşini instruibile (Machine learning)
Vizualizare Informatică
Calcul de icircnaltă performanţă
Alte discipline ndash Reţele neuronale modelare matematică regăsirea
informaţiilor recunoaşterea formelor (patternrecognition)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2957
29
Architectura unui sistem tipic de Data Mining
Data
Warehouse
Curăţarea şi integrarea datelor Filtrare
Baze de date
Server de baze de date
sau de Data Warehouse
Motor data mining
Evaluarea şabloanelor
Interfaţă grafică utilizator
Bază de
cunoştinţe
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3057
30
Evoluţia tehnologiei bazelor de date
Anii 1960
ndash Colecţii de date crearea bazelor de date baze de datereţea
Anii 1970
ndash Modelul relaţional implementarea SGBD relaţional Anii 1980
ndash SGBD relaţionale modele de date avansate (relaţionalextins OO deductive etc) şi SGBD-uri specifice
(domeniul spatial ştiinţific inginerie etc) Anii 1990mdash2000
ndash Data mining şi data warehouse baze de date multimediabaze de date Web
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3157
31
Proces
Data mining inima
procesului de
descoperire a
cunoaşterii
Curăţirea datelor
Baze dedate
Data Warehouse
Date relevante
Data Mining
Evaluarea configuraţiilor
C ţi icirc t d ti b ă d
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3257
32
Comparaţie icircntre procesarea de tip bază de
date şi cea de tip Data Mining
Interogare ndash Bine definită ndash SQL
Interogare ndash Slab definită ndash Nu există limbaj precis de
interogare
Date ndash Date operaţ ionale
Ieşirea ndash Precisă ndash Subset al bazei dedate
Date ndash Date neoperaţionale
Ieşirea ndash Vagă ndash Nu este un subset al bazeide date
E l d i t ă i
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3357
33
Exemple de interogări
Bază de date
Data Mining
ndash Găseşte toţi clienţii care au cumpărat lapte
ndash Găseşte toţi clienţii care au cumpărat frecvent
lapte (Reguli de asociere)
ndash Găseşte toţi titularii de credite cu numele Smith ndash Identifică toţi clienţii care au cumpărat de maimult de $10000 icircn ultima lună
ndash Găseşte toţi titularii de credite cu risc mic decreditare (Clasificare)
ndash Identifică clienţii cu obiceiuri similare decumpărare (Grupare)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3457
34
Modele şi tehnici Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3557
35
Verificarea ipotezelor şi căutarea cunoştinţelor
Aplicarea tehnicilor de data mining poate fi făcută dinperspectiva unui demers ascendent sau descendent
Icircn abordarea descendentă efortul este orientat spre
confirmarea sau infirmarea unor idei (ipoteze) formulate icircnprealabil prin alte mijloace
Abordarea ascendentă are o cu totul altă finalitate ea
urmăreşte extragerea de cunoştinţe sau informaţii noi din dateledisponibile
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3657
36
Căutarea poate fi dirijată sau nedirijată
Căutarea dirijată ia icircn considerare un atribut sau un cacircmpale cărui valori icircncearcă să le explice prin celelalte cacircmpuriEste cea mai folosită icircn practică
Căutarea nedirijată are ca scop identificarea relaţiilor saustructurilor existente icircn ansamblul datelor examinate fără aacorda prioritate unui cacircmp sau altul
Deşi mai spectaculoasă icircn practică se recurge mult maipuţin la ea decacirct la căutarea dirijată
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3757
37
Data mining
verificarea
ipotezelor
căutarea de
cunoştinţe
dirijată nedirijată
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3857
38
Tehnici şi acţiuni
Data mining exploatează colecţiile de date de care dispune o
organizaţie
La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei
icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc
Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod
intrinsec
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3957
39
Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de
icircnţeles o tendinţă relevată de un număr foarte mare de cazuri
practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii
Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se
reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor
raţionamentele bazate pe cazuri analiza legăturilor
La acestea se pot asocia şi tehnici statistice cum sunt spre
exemplu regresiile analiza factorială etc
M d l di ti
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4057
40 40
Modele predictivehellip
Arbori de decizie
Clasificări după cel mai apropiat vecin
Reţele neuronale
Reguli
Analiza grupurilor
A l d i i ă l ă l i i
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4157
41
Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea
predicţiagrupareaanaliza grupărilor
Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un
grup limitat de clase predefinite
Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut
mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4257
42
Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare
Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări
Predicţia urmăreşte să claseze icircnregistrările tratate icircn
funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un
model care să explice comportamentul observat
Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora
icircn viitor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4357
43
Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună
Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei
Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster
Spre deosebire de celelalte tipuri de acţiuni asemănătoare
aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4457
44
Etapele procesului de exploatare a datelor
Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare
Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date
colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4557
45
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4657
46
Evaluarea modelului
Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare
Integrarea modelului
Această etapă finalizează procesul prin includerea
modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4757
172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up
Overview of Fisherrsquos Iris Dataset
Fisherrsquos iris dataset is available for download from the tutorial website
httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls
Iris photos courtesy of SIGNA ndash wwwsignaorg
Fisherrsquos iris dataset is well-known in
data mining research
This dataset is commonly used to
illustrate data mining tools
Mark Polczynski PhD The Technology Forge mhptechforgegmailnet
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4857
172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up
Fisherrsquos Database - Background
Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems
Annals of Eugenics 7 179 ndash188 available at
httpdigitallibraryadelaideeduaucollspecialfisher138pdf
iris setosa iris versicolor iris virginica
Dataset contains flower dimension measurements on 50 samples of each species
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4957
172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up
Fisherrsquos Dataset- Background
Data mining terminology
bull The four iris dimensions are termed attributes or input attributes
bull The three iris species are termed classes or output attributes
bull Each example of an iris is termed a sample or instance
Anderson measured these dimensions
bull sepal length
bull sepal width
bull petal length
bull petal width
Measurements on these iris speciesbull setosa
bull versicolor
bull virginica
S t f Fi h rsquo I i D t t
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5057
172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up
Segment of Fisherrsquos Iris Dataset
Input Output
Attributes Attribute
Inst
Sepal
Length
Sepal
Width
Petal
Length
Petal
Width Species1 51 35 14 02 setosa
2 49 3 14 02 setosa
3 47 32 13 02 setosa
4 46 31 15 02 setosa5 5 36 14 02 setosa
Numerical Nominal
ClassSample
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5157
172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up
What Problem are We Trying to Solve
Iris setosa
Weka
decisiontree
Iris versicolor
Iris virginica
Our taskClassify unknown iris using
measurements on 150 iris
samples of known species
Instrumente pentru Data-Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5257
52
Instrumente pentru Data-Mining
Weka Documentation httpwwwcswaikatoacnzmlweka
Waikato Environment for Knowledge Analysis
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5357
53
Instrumente pentru Data-Mining
Principalii producători de soft pentruData-Mining
ndash IBM ndash Intelligent Miner extensie pentru DB2
ndash SAS ndash Enterprise Miner
ndash SPSS ndash Clementine
ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)
ndash hellipmulți alți producători mai mici
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5457
54
Instrumente pentru Data-Mining
SPSS - Clementine
ndash httpwwwspsscomclementine Oracle - Darwin
ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet
ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner
ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml
Standarde Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5557
55
Standarde Data Mining
PMML (Predictive Modelling Markup Language)
ndash Limbaj similar XML pentru salvare și partajare de
modele (cel mai acceptat standard)
CRISP
ndash Metodologie standardizată pentru construirea deaplicații Data Mining
OLE DB pentru Data Mining
ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)
IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5657
56
1 INTRODUCERE
2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE
3-7
CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale
Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici
8 CLUSTERIZARE (ANALIZA CLUSTERILOR)
9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA
ASOCIERILOR)
10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR
11 EVALUAREA MODELELOR
12 APLICAŢII ŞI TENDINŢE IN DATA MINING
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5757
Mulţumesc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1357
13
Data mining sau căutarea informaţiei ascunse
De mai multe decenii mijloace şi tehnici informatice tot mai
evoluate au contribuit la amplificarea capacităţii de memorare şistocare a datelor
Ultimii ani au marcat o reorientare semnificativă icircn utilizareavolumelor de date stocate de la un proces de explorare
retrospectivă spre unul cu caracter prospectiv Această schimbare a devenit posibilă ca urmare a maturizării
tehnologiilor legate de data mining
Denumirea provine de la analogia cu activitatea minieră tot
aşa cum este necesară dislocarea şi rafinarea a tone de minereupentru a obţine cacircteva grame de aur aici sunt examinate şianalizate sute de mii sau milioane de date pentru a extrage dinele informaţii şi semnificaţii noi
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1457
14
Piramida datelor
Date
Informaţie
Cunoaştere
Icircnţelepciune
Date + context
Informa ţii + reguli
Cunoaştere + experien ţă
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1557
15
Definiţiile pentru data mining converg spre următoarea ideeDM este un proces de extragere de informaţii noi din colecţiile
de date existente
Principiul de funcţionare icircn data mining se prelucrează
datele referitoare la perioadele trecute examinacircnd o varietate de situaţii care s- au produs pentru a evidenţia caracteristicile
acestora şi a permite elaborarea unui model
Odată construit modelul poate fi aplicat situaţiilor noi de
acelaşi tip
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1657
16
Date deantrenare(icircnvare)
SistemDataMining
Date
noi
Predicie
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1757
17
Fundamentele explorării datelor
Dezvoltarea tehnicilor de data mining se explică printrealtele prin faptul că firmele au acumulat volume foarte mari dedate stocate pe suporturi informatice privitoare la tranzacţii dediverse tipuri derulate de-a lungul mai multor ani
Multă vreme acestea s-au acumulat pur şi simplu icircn virtuteanevoii de arhivare
Datele sunt la dispoziţia organizaţiei respective datele suntcacirct se poate de precise şi analitice datele sunt icircn volum mare şiacoperă perioade de timp de ordinul anilor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1857
18
Alături de existenţa colecţiilor de date istorice memorate pesuporturi informatice icircncă doi factori explică emergenţa
cunoscută actualmente de data mining (vezi figura următoare)
maturizarea algoritmilor şi a produselor programdedicate
creşterea capacităţii de memorare şi prelucrare acalculatoarelor care permite tratarea icircn corelaţiea volumelor foarte mari de date
Unele dintre tehnicile de data mining datează de ceva mai mulţiani Algoritmii folosiţi au cunoscut icircnsă un proces de evoluţiecontinuă care a permis icircnlăturarea unora dintre limitele saudeficienţele iniţiale
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1957
19
Putere de
calcul mrit
Algoritmistatisticii de
icircnvare
Colecii de date icircmbuntiteManagement
icircmbuntit aldatelor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2057
20
Produsele program au evoluat şi ele spre o utilizare cacirct maifacilă
Au apărut firme care oferă spre vacircnzare colecţii de dateistorice de uz general - cum ar fi spre exemplu evoluţiaindicatorilor bursieri din ultimii 20 de ani - special constituitepentru asemenea utilizări
Depozitele de date şi tehnologiile OLAP vizează şi ele datelecolectate la nivelul organizaţiilor
Depozitele de date se pretează foarte bine ca surse pentrudata mining iar rezultatele furnizate de acesta pot completacacircmpurile icircnregistrărilor celor dintacirci şi pot fi valorificate apoi prinproiecţiile multidimensionale specifice OLAP
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2157
21
Aplicaţii potenţiale
Analiza bazelor de date şi suport pentru decizie
ndash Analiza şi managementul pieţei
ndash Analiza şi managementul riscurilor
ndash Detecţia fraudelor
Analiza textelor - Text Mining
Analiză Web - Web Mining Răspuns inteligent la interogări
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2257
22
Analiza şi managementul pieţei
Care sunt sursele datelor de analizat ndash Tranzacţiile cu cardurile de credit cardurile de
fidelitate cupoanele de discount reclamaţiile clienţilorstudiile publice de stil de viaţă
Ţinta de marketing ndash Trebuie găsite grupuri de clienţi ―model care au
aceleaşi caracteristici interese nivel de venit obiceiuride cumpărare etc
Determinarea profilului cumpărătorului icircn timp ndash Conversia unui cont bancar icircn mai multe conectate
căsătorie etc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2357
23
Analiza şi managementul riscurilor
Planificare financiară şi evaluarea capitalului
ndash Analiza şi prognoza fluxului de numerar (cash flow)
ndash Analiza seriilor temporale (analiza tendinţelor etc)
Planificarea resurselor
ndash sumarizarea şi compararea resurselor şi acheltuielilor
Competiţie ndash Monitorizarea competitorilor şi a direcţiilor pieţei
ndash Fundamentarea strategiei preţului icircntr -o piaţă foartecompetitivă
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2457
24
Detecţia fraudelor
Folosirea datelor istorice pentru a construi modele decomportament fraudulos şi utilizarea data mining pentruidentificarea exemplelor similare
Exemple de aplicaţii
ndash Asigurări auto detectarea unui grup de persoane care icircnscenează accidente pentru a icircncasa asigurarea
ndash Spălare de bani detectarea tranzacţiilor suspecte
ndash Detectarea fraudelor telefonice detectareacomportamentelor suspecte (modelul de apel -destinaţie timp durată)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2557
25
DeviationAnomaly Detection
Detect significant deviations from normal behavior
Applications ndash Credit Card Fraud Detection
ndash Network IntrusionDetection
Typical network traffic at
University level may reach over 100
million connections per day
TanSteinbach Kumar Introduction to Data Miningwwwuserscsumnedu~kumardmbookindexphp
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2657
26
Alte domenii de aplicaţie
Sport
ndash Analiza jocurilor icircn NBA (ex detectarea strategieiadversarului) Astronomie
ndash Descoperirea şi clasificarea unor noi obiecte
Internet ndash Analiza acceselor Web descoperirea unor şabloane
(patterns) comportamentale analiza eficienţeimarketingului Web icircmbunătăţirea organizării site-urilor
Web Text
ndash Analiza ştirilor analiza icircnregistrărilor medicale sortarea şifiltrarea automată a e-mail-urilor clasificarea automată a
documentelor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2757
27
Contribuţii
Data Mining
Inteligenţă Artificială
Calculatoare performanteStatistică
Sisteme de baze dedate
Cercetări operaţionale
GIS
Vizualizare
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2857
28
Data miningintersecţia unor discipline multiple
Sisteme de baze de date data warehouse şi OLAP
Statistică
Maşini instruibile (Machine learning)
Vizualizare Informatică
Calcul de icircnaltă performanţă
Alte discipline ndash Reţele neuronale modelare matematică regăsirea
informaţiilor recunoaşterea formelor (patternrecognition)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2957
29
Architectura unui sistem tipic de Data Mining
Data
Warehouse
Curăţarea şi integrarea datelor Filtrare
Baze de date
Server de baze de date
sau de Data Warehouse
Motor data mining
Evaluarea şabloanelor
Interfaţă grafică utilizator
Bază de
cunoştinţe
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3057
30
Evoluţia tehnologiei bazelor de date
Anii 1960
ndash Colecţii de date crearea bazelor de date baze de datereţea
Anii 1970
ndash Modelul relaţional implementarea SGBD relaţional Anii 1980
ndash SGBD relaţionale modele de date avansate (relaţionalextins OO deductive etc) şi SGBD-uri specifice
(domeniul spatial ştiinţific inginerie etc) Anii 1990mdash2000
ndash Data mining şi data warehouse baze de date multimediabaze de date Web
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3157
31
Proces
Data mining inima
procesului de
descoperire a
cunoaşterii
Curăţirea datelor
Baze dedate
Data Warehouse
Date relevante
Data Mining
Evaluarea configuraţiilor
C ţi icirc t d ti b ă d
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3257
32
Comparaţie icircntre procesarea de tip bază de
date şi cea de tip Data Mining
Interogare ndash Bine definită ndash SQL
Interogare ndash Slab definită ndash Nu există limbaj precis de
interogare
Date ndash Date operaţ ionale
Ieşirea ndash Precisă ndash Subset al bazei dedate
Date ndash Date neoperaţionale
Ieşirea ndash Vagă ndash Nu este un subset al bazeide date
E l d i t ă i
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3357
33
Exemple de interogări
Bază de date
Data Mining
ndash Găseşte toţi clienţii care au cumpărat lapte
ndash Găseşte toţi clienţii care au cumpărat frecvent
lapte (Reguli de asociere)
ndash Găseşte toţi titularii de credite cu numele Smith ndash Identifică toţi clienţii care au cumpărat de maimult de $10000 icircn ultima lună
ndash Găseşte toţi titularii de credite cu risc mic decreditare (Clasificare)
ndash Identifică clienţii cu obiceiuri similare decumpărare (Grupare)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3457
34
Modele şi tehnici Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3557
35
Verificarea ipotezelor şi căutarea cunoştinţelor
Aplicarea tehnicilor de data mining poate fi făcută dinperspectiva unui demers ascendent sau descendent
Icircn abordarea descendentă efortul este orientat spre
confirmarea sau infirmarea unor idei (ipoteze) formulate icircnprealabil prin alte mijloace
Abordarea ascendentă are o cu totul altă finalitate ea
urmăreşte extragerea de cunoştinţe sau informaţii noi din dateledisponibile
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3657
36
Căutarea poate fi dirijată sau nedirijată
Căutarea dirijată ia icircn considerare un atribut sau un cacircmpale cărui valori icircncearcă să le explice prin celelalte cacircmpuriEste cea mai folosită icircn practică
Căutarea nedirijată are ca scop identificarea relaţiilor saustructurilor existente icircn ansamblul datelor examinate fără aacorda prioritate unui cacircmp sau altul
Deşi mai spectaculoasă icircn practică se recurge mult maipuţin la ea decacirct la căutarea dirijată
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3757
37
Data mining
verificarea
ipotezelor
căutarea de
cunoştinţe
dirijată nedirijată
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3857
38
Tehnici şi acţiuni
Data mining exploatează colecţiile de date de care dispune o
organizaţie
La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei
icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc
Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod
intrinsec
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3957
39
Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de
icircnţeles o tendinţă relevată de un număr foarte mare de cazuri
practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii
Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se
reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor
raţionamentele bazate pe cazuri analiza legăturilor
La acestea se pot asocia şi tehnici statistice cum sunt spre
exemplu regresiile analiza factorială etc
M d l di ti
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4057
40 40
Modele predictivehellip
Arbori de decizie
Clasificări după cel mai apropiat vecin
Reţele neuronale
Reguli
Analiza grupurilor
A l d i i ă l ă l i i
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4157
41
Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea
predicţiagrupareaanaliza grupărilor
Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un
grup limitat de clase predefinite
Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut
mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4257
42
Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare
Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări
Predicţia urmăreşte să claseze icircnregistrările tratate icircn
funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un
model care să explice comportamentul observat
Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora
icircn viitor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4357
43
Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună
Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei
Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster
Spre deosebire de celelalte tipuri de acţiuni asemănătoare
aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4457
44
Etapele procesului de exploatare a datelor
Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare
Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date
colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4557
45
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4657
46
Evaluarea modelului
Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare
Integrarea modelului
Această etapă finalizează procesul prin includerea
modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4757
172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up
Overview of Fisherrsquos Iris Dataset
Fisherrsquos iris dataset is available for download from the tutorial website
httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls
Iris photos courtesy of SIGNA ndash wwwsignaorg
Fisherrsquos iris dataset is well-known in
data mining research
This dataset is commonly used to
illustrate data mining tools
Mark Polczynski PhD The Technology Forge mhptechforgegmailnet
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4857
172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up
Fisherrsquos Database - Background
Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems
Annals of Eugenics 7 179 ndash188 available at
httpdigitallibraryadelaideeduaucollspecialfisher138pdf
iris setosa iris versicolor iris virginica
Dataset contains flower dimension measurements on 50 samples of each species
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4957
172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up
Fisherrsquos Dataset- Background
Data mining terminology
bull The four iris dimensions are termed attributes or input attributes
bull The three iris species are termed classes or output attributes
bull Each example of an iris is termed a sample or instance
Anderson measured these dimensions
bull sepal length
bull sepal width
bull petal length
bull petal width
Measurements on these iris speciesbull setosa
bull versicolor
bull virginica
S t f Fi h rsquo I i D t t
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5057
172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up
Segment of Fisherrsquos Iris Dataset
Input Output
Attributes Attribute
Inst
Sepal
Length
Sepal
Width
Petal
Length
Petal
Width Species1 51 35 14 02 setosa
2 49 3 14 02 setosa
3 47 32 13 02 setosa
4 46 31 15 02 setosa5 5 36 14 02 setosa
Numerical Nominal
ClassSample
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5157
172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up
What Problem are We Trying to Solve
Iris setosa
Weka
decisiontree
Iris versicolor
Iris virginica
Our taskClassify unknown iris using
measurements on 150 iris
samples of known species
Instrumente pentru Data-Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5257
52
Instrumente pentru Data-Mining
Weka Documentation httpwwwcswaikatoacnzmlweka
Waikato Environment for Knowledge Analysis
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5357
53
Instrumente pentru Data-Mining
Principalii producători de soft pentruData-Mining
ndash IBM ndash Intelligent Miner extensie pentru DB2
ndash SAS ndash Enterprise Miner
ndash SPSS ndash Clementine
ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)
ndash hellipmulți alți producători mai mici
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5457
54
Instrumente pentru Data-Mining
SPSS - Clementine
ndash httpwwwspsscomclementine Oracle - Darwin
ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet
ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner
ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml
Standarde Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5557
55
Standarde Data Mining
PMML (Predictive Modelling Markup Language)
ndash Limbaj similar XML pentru salvare și partajare de
modele (cel mai acceptat standard)
CRISP
ndash Metodologie standardizată pentru construirea deaplicații Data Mining
OLE DB pentru Data Mining
ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)
IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5657
56
1 INTRODUCERE
2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE
3-7
CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale
Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici
8 CLUSTERIZARE (ANALIZA CLUSTERILOR)
9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA
ASOCIERILOR)
10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR
11 EVALUAREA MODELELOR
12 APLICAŢII ŞI TENDINŢE IN DATA MINING
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5757
Mulţumesc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1457
14
Piramida datelor
Date
Informaţie
Cunoaştere
Icircnţelepciune
Date + context
Informa ţii + reguli
Cunoaştere + experien ţă
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1557
15
Definiţiile pentru data mining converg spre următoarea ideeDM este un proces de extragere de informaţii noi din colecţiile
de date existente
Principiul de funcţionare icircn data mining se prelucrează
datele referitoare la perioadele trecute examinacircnd o varietate de situaţii care s- au produs pentru a evidenţia caracteristicile
acestora şi a permite elaborarea unui model
Odată construit modelul poate fi aplicat situaţiilor noi de
acelaşi tip
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1657
16
Date deantrenare(icircnvare)
SistemDataMining
Date
noi
Predicie
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1757
17
Fundamentele explorării datelor
Dezvoltarea tehnicilor de data mining se explică printrealtele prin faptul că firmele au acumulat volume foarte mari dedate stocate pe suporturi informatice privitoare la tranzacţii dediverse tipuri derulate de-a lungul mai multor ani
Multă vreme acestea s-au acumulat pur şi simplu icircn virtuteanevoii de arhivare
Datele sunt la dispoziţia organizaţiei respective datele suntcacirct se poate de precise şi analitice datele sunt icircn volum mare şiacoperă perioade de timp de ordinul anilor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1857
18
Alături de existenţa colecţiilor de date istorice memorate pesuporturi informatice icircncă doi factori explică emergenţa
cunoscută actualmente de data mining (vezi figura următoare)
maturizarea algoritmilor şi a produselor programdedicate
creşterea capacităţii de memorare şi prelucrare acalculatoarelor care permite tratarea icircn corelaţiea volumelor foarte mari de date
Unele dintre tehnicile de data mining datează de ceva mai mulţiani Algoritmii folosiţi au cunoscut icircnsă un proces de evoluţiecontinuă care a permis icircnlăturarea unora dintre limitele saudeficienţele iniţiale
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1957
19
Putere de
calcul mrit
Algoritmistatisticii de
icircnvare
Colecii de date icircmbuntiteManagement
icircmbuntit aldatelor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2057
20
Produsele program au evoluat şi ele spre o utilizare cacirct maifacilă
Au apărut firme care oferă spre vacircnzare colecţii de dateistorice de uz general - cum ar fi spre exemplu evoluţiaindicatorilor bursieri din ultimii 20 de ani - special constituitepentru asemenea utilizări
Depozitele de date şi tehnologiile OLAP vizează şi ele datelecolectate la nivelul organizaţiilor
Depozitele de date se pretează foarte bine ca surse pentrudata mining iar rezultatele furnizate de acesta pot completacacircmpurile icircnregistrărilor celor dintacirci şi pot fi valorificate apoi prinproiecţiile multidimensionale specifice OLAP
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2157
21
Aplicaţii potenţiale
Analiza bazelor de date şi suport pentru decizie
ndash Analiza şi managementul pieţei
ndash Analiza şi managementul riscurilor
ndash Detecţia fraudelor
Analiza textelor - Text Mining
Analiză Web - Web Mining Răspuns inteligent la interogări
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2257
22
Analiza şi managementul pieţei
Care sunt sursele datelor de analizat ndash Tranzacţiile cu cardurile de credit cardurile de
fidelitate cupoanele de discount reclamaţiile clienţilorstudiile publice de stil de viaţă
Ţinta de marketing ndash Trebuie găsite grupuri de clienţi ―model care au
aceleaşi caracteristici interese nivel de venit obiceiuride cumpărare etc
Determinarea profilului cumpărătorului icircn timp ndash Conversia unui cont bancar icircn mai multe conectate
căsătorie etc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2357
23
Analiza şi managementul riscurilor
Planificare financiară şi evaluarea capitalului
ndash Analiza şi prognoza fluxului de numerar (cash flow)
ndash Analiza seriilor temporale (analiza tendinţelor etc)
Planificarea resurselor
ndash sumarizarea şi compararea resurselor şi acheltuielilor
Competiţie ndash Monitorizarea competitorilor şi a direcţiilor pieţei
ndash Fundamentarea strategiei preţului icircntr -o piaţă foartecompetitivă
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2457
24
Detecţia fraudelor
Folosirea datelor istorice pentru a construi modele decomportament fraudulos şi utilizarea data mining pentruidentificarea exemplelor similare
Exemple de aplicaţii
ndash Asigurări auto detectarea unui grup de persoane care icircnscenează accidente pentru a icircncasa asigurarea
ndash Spălare de bani detectarea tranzacţiilor suspecte
ndash Detectarea fraudelor telefonice detectareacomportamentelor suspecte (modelul de apel -destinaţie timp durată)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2557
25
DeviationAnomaly Detection
Detect significant deviations from normal behavior
Applications ndash Credit Card Fraud Detection
ndash Network IntrusionDetection
Typical network traffic at
University level may reach over 100
million connections per day
TanSteinbach Kumar Introduction to Data Miningwwwuserscsumnedu~kumardmbookindexphp
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2657
26
Alte domenii de aplicaţie
Sport
ndash Analiza jocurilor icircn NBA (ex detectarea strategieiadversarului) Astronomie
ndash Descoperirea şi clasificarea unor noi obiecte
Internet ndash Analiza acceselor Web descoperirea unor şabloane
(patterns) comportamentale analiza eficienţeimarketingului Web icircmbunătăţirea organizării site-urilor
Web Text
ndash Analiza ştirilor analiza icircnregistrărilor medicale sortarea şifiltrarea automată a e-mail-urilor clasificarea automată a
documentelor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2757
27
Contribuţii
Data Mining
Inteligenţă Artificială
Calculatoare performanteStatistică
Sisteme de baze dedate
Cercetări operaţionale
GIS
Vizualizare
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2857
28
Data miningintersecţia unor discipline multiple
Sisteme de baze de date data warehouse şi OLAP
Statistică
Maşini instruibile (Machine learning)
Vizualizare Informatică
Calcul de icircnaltă performanţă
Alte discipline ndash Reţele neuronale modelare matematică regăsirea
informaţiilor recunoaşterea formelor (patternrecognition)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2957
29
Architectura unui sistem tipic de Data Mining
Data
Warehouse
Curăţarea şi integrarea datelor Filtrare
Baze de date
Server de baze de date
sau de Data Warehouse
Motor data mining
Evaluarea şabloanelor
Interfaţă grafică utilizator
Bază de
cunoştinţe
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3057
30
Evoluţia tehnologiei bazelor de date
Anii 1960
ndash Colecţii de date crearea bazelor de date baze de datereţea
Anii 1970
ndash Modelul relaţional implementarea SGBD relaţional Anii 1980
ndash SGBD relaţionale modele de date avansate (relaţionalextins OO deductive etc) şi SGBD-uri specifice
(domeniul spatial ştiinţific inginerie etc) Anii 1990mdash2000
ndash Data mining şi data warehouse baze de date multimediabaze de date Web
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3157
31
Proces
Data mining inima
procesului de
descoperire a
cunoaşterii
Curăţirea datelor
Baze dedate
Data Warehouse
Date relevante
Data Mining
Evaluarea configuraţiilor
C ţi icirc t d ti b ă d
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3257
32
Comparaţie icircntre procesarea de tip bază de
date şi cea de tip Data Mining
Interogare ndash Bine definită ndash SQL
Interogare ndash Slab definită ndash Nu există limbaj precis de
interogare
Date ndash Date operaţ ionale
Ieşirea ndash Precisă ndash Subset al bazei dedate
Date ndash Date neoperaţionale
Ieşirea ndash Vagă ndash Nu este un subset al bazeide date
E l d i t ă i
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3357
33
Exemple de interogări
Bază de date
Data Mining
ndash Găseşte toţi clienţii care au cumpărat lapte
ndash Găseşte toţi clienţii care au cumpărat frecvent
lapte (Reguli de asociere)
ndash Găseşte toţi titularii de credite cu numele Smith ndash Identifică toţi clienţii care au cumpărat de maimult de $10000 icircn ultima lună
ndash Găseşte toţi titularii de credite cu risc mic decreditare (Clasificare)
ndash Identifică clienţii cu obiceiuri similare decumpărare (Grupare)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3457
34
Modele şi tehnici Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3557
35
Verificarea ipotezelor şi căutarea cunoştinţelor
Aplicarea tehnicilor de data mining poate fi făcută dinperspectiva unui demers ascendent sau descendent
Icircn abordarea descendentă efortul este orientat spre
confirmarea sau infirmarea unor idei (ipoteze) formulate icircnprealabil prin alte mijloace
Abordarea ascendentă are o cu totul altă finalitate ea
urmăreşte extragerea de cunoştinţe sau informaţii noi din dateledisponibile
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3657
36
Căutarea poate fi dirijată sau nedirijată
Căutarea dirijată ia icircn considerare un atribut sau un cacircmpale cărui valori icircncearcă să le explice prin celelalte cacircmpuriEste cea mai folosită icircn practică
Căutarea nedirijată are ca scop identificarea relaţiilor saustructurilor existente icircn ansamblul datelor examinate fără aacorda prioritate unui cacircmp sau altul
Deşi mai spectaculoasă icircn practică se recurge mult maipuţin la ea decacirct la căutarea dirijată
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3757
37
Data mining
verificarea
ipotezelor
căutarea de
cunoştinţe
dirijată nedirijată
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3857
38
Tehnici şi acţiuni
Data mining exploatează colecţiile de date de care dispune o
organizaţie
La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei
icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc
Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod
intrinsec
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3957
39
Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de
icircnţeles o tendinţă relevată de un număr foarte mare de cazuri
practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii
Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se
reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor
raţionamentele bazate pe cazuri analiza legăturilor
La acestea se pot asocia şi tehnici statistice cum sunt spre
exemplu regresiile analiza factorială etc
M d l di ti
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4057
40 40
Modele predictivehellip
Arbori de decizie
Clasificări după cel mai apropiat vecin
Reţele neuronale
Reguli
Analiza grupurilor
A l d i i ă l ă l i i
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4157
41
Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea
predicţiagrupareaanaliza grupărilor
Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un
grup limitat de clase predefinite
Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut
mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4257
42
Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare
Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări
Predicţia urmăreşte să claseze icircnregistrările tratate icircn
funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un
model care să explice comportamentul observat
Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora
icircn viitor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4357
43
Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună
Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei
Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster
Spre deosebire de celelalte tipuri de acţiuni asemănătoare
aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4457
44
Etapele procesului de exploatare a datelor
Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare
Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date
colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4557
45
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4657
46
Evaluarea modelului
Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare
Integrarea modelului
Această etapă finalizează procesul prin includerea
modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4757
172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up
Overview of Fisherrsquos Iris Dataset
Fisherrsquos iris dataset is available for download from the tutorial website
httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls
Iris photos courtesy of SIGNA ndash wwwsignaorg
Fisherrsquos iris dataset is well-known in
data mining research
This dataset is commonly used to
illustrate data mining tools
Mark Polczynski PhD The Technology Forge mhptechforgegmailnet
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4857
172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up
Fisherrsquos Database - Background
Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems
Annals of Eugenics 7 179 ndash188 available at
httpdigitallibraryadelaideeduaucollspecialfisher138pdf
iris setosa iris versicolor iris virginica
Dataset contains flower dimension measurements on 50 samples of each species
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4957
172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up
Fisherrsquos Dataset- Background
Data mining terminology
bull The four iris dimensions are termed attributes or input attributes
bull The three iris species are termed classes or output attributes
bull Each example of an iris is termed a sample or instance
Anderson measured these dimensions
bull sepal length
bull sepal width
bull petal length
bull petal width
Measurements on these iris speciesbull setosa
bull versicolor
bull virginica
S t f Fi h rsquo I i D t t
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5057
172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up
Segment of Fisherrsquos Iris Dataset
Input Output
Attributes Attribute
Inst
Sepal
Length
Sepal
Width
Petal
Length
Petal
Width Species1 51 35 14 02 setosa
2 49 3 14 02 setosa
3 47 32 13 02 setosa
4 46 31 15 02 setosa5 5 36 14 02 setosa
Numerical Nominal
ClassSample
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5157
172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up
What Problem are We Trying to Solve
Iris setosa
Weka
decisiontree
Iris versicolor
Iris virginica
Our taskClassify unknown iris using
measurements on 150 iris
samples of known species
Instrumente pentru Data-Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5257
52
Instrumente pentru Data-Mining
Weka Documentation httpwwwcswaikatoacnzmlweka
Waikato Environment for Knowledge Analysis
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5357
53
Instrumente pentru Data-Mining
Principalii producători de soft pentruData-Mining
ndash IBM ndash Intelligent Miner extensie pentru DB2
ndash SAS ndash Enterprise Miner
ndash SPSS ndash Clementine
ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)
ndash hellipmulți alți producători mai mici
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5457
54
Instrumente pentru Data-Mining
SPSS - Clementine
ndash httpwwwspsscomclementine Oracle - Darwin
ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet
ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner
ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml
Standarde Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5557
55
Standarde Data Mining
PMML (Predictive Modelling Markup Language)
ndash Limbaj similar XML pentru salvare și partajare de
modele (cel mai acceptat standard)
CRISP
ndash Metodologie standardizată pentru construirea deaplicații Data Mining
OLE DB pentru Data Mining
ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)
IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5657
56
1 INTRODUCERE
2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE
3-7
CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale
Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici
8 CLUSTERIZARE (ANALIZA CLUSTERILOR)
9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA
ASOCIERILOR)
10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR
11 EVALUAREA MODELELOR
12 APLICAŢII ŞI TENDINŢE IN DATA MINING
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5757
Mulţumesc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1557
15
Definiţiile pentru data mining converg spre următoarea ideeDM este un proces de extragere de informaţii noi din colecţiile
de date existente
Principiul de funcţionare icircn data mining se prelucrează
datele referitoare la perioadele trecute examinacircnd o varietate de situaţii care s- au produs pentru a evidenţia caracteristicile
acestora şi a permite elaborarea unui model
Odată construit modelul poate fi aplicat situaţiilor noi de
acelaşi tip
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1657
16
Date deantrenare(icircnvare)
SistemDataMining
Date
noi
Predicie
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1757
17
Fundamentele explorării datelor
Dezvoltarea tehnicilor de data mining se explică printrealtele prin faptul că firmele au acumulat volume foarte mari dedate stocate pe suporturi informatice privitoare la tranzacţii dediverse tipuri derulate de-a lungul mai multor ani
Multă vreme acestea s-au acumulat pur şi simplu icircn virtuteanevoii de arhivare
Datele sunt la dispoziţia organizaţiei respective datele suntcacirct se poate de precise şi analitice datele sunt icircn volum mare şiacoperă perioade de timp de ordinul anilor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1857
18
Alături de existenţa colecţiilor de date istorice memorate pesuporturi informatice icircncă doi factori explică emergenţa
cunoscută actualmente de data mining (vezi figura următoare)
maturizarea algoritmilor şi a produselor programdedicate
creşterea capacităţii de memorare şi prelucrare acalculatoarelor care permite tratarea icircn corelaţiea volumelor foarte mari de date
Unele dintre tehnicile de data mining datează de ceva mai mulţiani Algoritmii folosiţi au cunoscut icircnsă un proces de evoluţiecontinuă care a permis icircnlăturarea unora dintre limitele saudeficienţele iniţiale
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1957
19
Putere de
calcul mrit
Algoritmistatisticii de
icircnvare
Colecii de date icircmbuntiteManagement
icircmbuntit aldatelor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2057
20
Produsele program au evoluat şi ele spre o utilizare cacirct maifacilă
Au apărut firme care oferă spre vacircnzare colecţii de dateistorice de uz general - cum ar fi spre exemplu evoluţiaindicatorilor bursieri din ultimii 20 de ani - special constituitepentru asemenea utilizări
Depozitele de date şi tehnologiile OLAP vizează şi ele datelecolectate la nivelul organizaţiilor
Depozitele de date se pretează foarte bine ca surse pentrudata mining iar rezultatele furnizate de acesta pot completacacircmpurile icircnregistrărilor celor dintacirci şi pot fi valorificate apoi prinproiecţiile multidimensionale specifice OLAP
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2157
21
Aplicaţii potenţiale
Analiza bazelor de date şi suport pentru decizie
ndash Analiza şi managementul pieţei
ndash Analiza şi managementul riscurilor
ndash Detecţia fraudelor
Analiza textelor - Text Mining
Analiză Web - Web Mining Răspuns inteligent la interogări
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2257
22
Analiza şi managementul pieţei
Care sunt sursele datelor de analizat ndash Tranzacţiile cu cardurile de credit cardurile de
fidelitate cupoanele de discount reclamaţiile clienţilorstudiile publice de stil de viaţă
Ţinta de marketing ndash Trebuie găsite grupuri de clienţi ―model care au
aceleaşi caracteristici interese nivel de venit obiceiuride cumpărare etc
Determinarea profilului cumpărătorului icircn timp ndash Conversia unui cont bancar icircn mai multe conectate
căsătorie etc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2357
23
Analiza şi managementul riscurilor
Planificare financiară şi evaluarea capitalului
ndash Analiza şi prognoza fluxului de numerar (cash flow)
ndash Analiza seriilor temporale (analiza tendinţelor etc)
Planificarea resurselor
ndash sumarizarea şi compararea resurselor şi acheltuielilor
Competiţie ndash Monitorizarea competitorilor şi a direcţiilor pieţei
ndash Fundamentarea strategiei preţului icircntr -o piaţă foartecompetitivă
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2457
24
Detecţia fraudelor
Folosirea datelor istorice pentru a construi modele decomportament fraudulos şi utilizarea data mining pentruidentificarea exemplelor similare
Exemple de aplicaţii
ndash Asigurări auto detectarea unui grup de persoane care icircnscenează accidente pentru a icircncasa asigurarea
ndash Spălare de bani detectarea tranzacţiilor suspecte
ndash Detectarea fraudelor telefonice detectareacomportamentelor suspecte (modelul de apel -destinaţie timp durată)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2557
25
DeviationAnomaly Detection
Detect significant deviations from normal behavior
Applications ndash Credit Card Fraud Detection
ndash Network IntrusionDetection
Typical network traffic at
University level may reach over 100
million connections per day
TanSteinbach Kumar Introduction to Data Miningwwwuserscsumnedu~kumardmbookindexphp
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2657
26
Alte domenii de aplicaţie
Sport
ndash Analiza jocurilor icircn NBA (ex detectarea strategieiadversarului) Astronomie
ndash Descoperirea şi clasificarea unor noi obiecte
Internet ndash Analiza acceselor Web descoperirea unor şabloane
(patterns) comportamentale analiza eficienţeimarketingului Web icircmbunătăţirea organizării site-urilor
Web Text
ndash Analiza ştirilor analiza icircnregistrărilor medicale sortarea şifiltrarea automată a e-mail-urilor clasificarea automată a
documentelor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2757
27
Contribuţii
Data Mining
Inteligenţă Artificială
Calculatoare performanteStatistică
Sisteme de baze dedate
Cercetări operaţionale
GIS
Vizualizare
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2857
28
Data miningintersecţia unor discipline multiple
Sisteme de baze de date data warehouse şi OLAP
Statistică
Maşini instruibile (Machine learning)
Vizualizare Informatică
Calcul de icircnaltă performanţă
Alte discipline ndash Reţele neuronale modelare matematică regăsirea
informaţiilor recunoaşterea formelor (patternrecognition)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2957
29
Architectura unui sistem tipic de Data Mining
Data
Warehouse
Curăţarea şi integrarea datelor Filtrare
Baze de date
Server de baze de date
sau de Data Warehouse
Motor data mining
Evaluarea şabloanelor
Interfaţă grafică utilizator
Bază de
cunoştinţe
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3057
30
Evoluţia tehnologiei bazelor de date
Anii 1960
ndash Colecţii de date crearea bazelor de date baze de datereţea
Anii 1970
ndash Modelul relaţional implementarea SGBD relaţional Anii 1980
ndash SGBD relaţionale modele de date avansate (relaţionalextins OO deductive etc) şi SGBD-uri specifice
(domeniul spatial ştiinţific inginerie etc) Anii 1990mdash2000
ndash Data mining şi data warehouse baze de date multimediabaze de date Web
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3157
31
Proces
Data mining inima
procesului de
descoperire a
cunoaşterii
Curăţirea datelor
Baze dedate
Data Warehouse
Date relevante
Data Mining
Evaluarea configuraţiilor
C ţi icirc t d ti b ă d
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3257
32
Comparaţie icircntre procesarea de tip bază de
date şi cea de tip Data Mining
Interogare ndash Bine definită ndash SQL
Interogare ndash Slab definită ndash Nu există limbaj precis de
interogare
Date ndash Date operaţ ionale
Ieşirea ndash Precisă ndash Subset al bazei dedate
Date ndash Date neoperaţionale
Ieşirea ndash Vagă ndash Nu este un subset al bazeide date
E l d i t ă i
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3357
33
Exemple de interogări
Bază de date
Data Mining
ndash Găseşte toţi clienţii care au cumpărat lapte
ndash Găseşte toţi clienţii care au cumpărat frecvent
lapte (Reguli de asociere)
ndash Găseşte toţi titularii de credite cu numele Smith ndash Identifică toţi clienţii care au cumpărat de maimult de $10000 icircn ultima lună
ndash Găseşte toţi titularii de credite cu risc mic decreditare (Clasificare)
ndash Identifică clienţii cu obiceiuri similare decumpărare (Grupare)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3457
34
Modele şi tehnici Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3557
35
Verificarea ipotezelor şi căutarea cunoştinţelor
Aplicarea tehnicilor de data mining poate fi făcută dinperspectiva unui demers ascendent sau descendent
Icircn abordarea descendentă efortul este orientat spre
confirmarea sau infirmarea unor idei (ipoteze) formulate icircnprealabil prin alte mijloace
Abordarea ascendentă are o cu totul altă finalitate ea
urmăreşte extragerea de cunoştinţe sau informaţii noi din dateledisponibile
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3657
36
Căutarea poate fi dirijată sau nedirijată
Căutarea dirijată ia icircn considerare un atribut sau un cacircmpale cărui valori icircncearcă să le explice prin celelalte cacircmpuriEste cea mai folosită icircn practică
Căutarea nedirijată are ca scop identificarea relaţiilor saustructurilor existente icircn ansamblul datelor examinate fără aacorda prioritate unui cacircmp sau altul
Deşi mai spectaculoasă icircn practică se recurge mult maipuţin la ea decacirct la căutarea dirijată
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3757
37
Data mining
verificarea
ipotezelor
căutarea de
cunoştinţe
dirijată nedirijată
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3857
38
Tehnici şi acţiuni
Data mining exploatează colecţiile de date de care dispune o
organizaţie
La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei
icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc
Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod
intrinsec
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3957
39
Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de
icircnţeles o tendinţă relevată de un număr foarte mare de cazuri
practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii
Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se
reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor
raţionamentele bazate pe cazuri analiza legăturilor
La acestea se pot asocia şi tehnici statistice cum sunt spre
exemplu regresiile analiza factorială etc
M d l di ti
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4057
40 40
Modele predictivehellip
Arbori de decizie
Clasificări după cel mai apropiat vecin
Reţele neuronale
Reguli
Analiza grupurilor
A l d i i ă l ă l i i
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4157
41
Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea
predicţiagrupareaanaliza grupărilor
Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un
grup limitat de clase predefinite
Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut
mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4257
42
Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare
Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări
Predicţia urmăreşte să claseze icircnregistrările tratate icircn
funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un
model care să explice comportamentul observat
Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora
icircn viitor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4357
43
Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună
Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei
Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster
Spre deosebire de celelalte tipuri de acţiuni asemănătoare
aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4457
44
Etapele procesului de exploatare a datelor
Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare
Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date
colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4557
45
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4657
46
Evaluarea modelului
Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare
Integrarea modelului
Această etapă finalizează procesul prin includerea
modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4757
172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up
Overview of Fisherrsquos Iris Dataset
Fisherrsquos iris dataset is available for download from the tutorial website
httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls
Iris photos courtesy of SIGNA ndash wwwsignaorg
Fisherrsquos iris dataset is well-known in
data mining research
This dataset is commonly used to
illustrate data mining tools
Mark Polczynski PhD The Technology Forge mhptechforgegmailnet
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4857
172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up
Fisherrsquos Database - Background
Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems
Annals of Eugenics 7 179 ndash188 available at
httpdigitallibraryadelaideeduaucollspecialfisher138pdf
iris setosa iris versicolor iris virginica
Dataset contains flower dimension measurements on 50 samples of each species
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4957
172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up
Fisherrsquos Dataset- Background
Data mining terminology
bull The four iris dimensions are termed attributes or input attributes
bull The three iris species are termed classes or output attributes
bull Each example of an iris is termed a sample or instance
Anderson measured these dimensions
bull sepal length
bull sepal width
bull petal length
bull petal width
Measurements on these iris speciesbull setosa
bull versicolor
bull virginica
S t f Fi h rsquo I i D t t
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5057
172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up
Segment of Fisherrsquos Iris Dataset
Input Output
Attributes Attribute
Inst
Sepal
Length
Sepal
Width
Petal
Length
Petal
Width Species1 51 35 14 02 setosa
2 49 3 14 02 setosa
3 47 32 13 02 setosa
4 46 31 15 02 setosa5 5 36 14 02 setosa
Numerical Nominal
ClassSample
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5157
172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up
What Problem are We Trying to Solve
Iris setosa
Weka
decisiontree
Iris versicolor
Iris virginica
Our taskClassify unknown iris using
measurements on 150 iris
samples of known species
Instrumente pentru Data-Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5257
52
Instrumente pentru Data-Mining
Weka Documentation httpwwwcswaikatoacnzmlweka
Waikato Environment for Knowledge Analysis
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5357
53
Instrumente pentru Data-Mining
Principalii producători de soft pentruData-Mining
ndash IBM ndash Intelligent Miner extensie pentru DB2
ndash SAS ndash Enterprise Miner
ndash SPSS ndash Clementine
ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)
ndash hellipmulți alți producători mai mici
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5457
54
Instrumente pentru Data-Mining
SPSS - Clementine
ndash httpwwwspsscomclementine Oracle - Darwin
ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet
ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner
ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml
Standarde Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5557
55
Standarde Data Mining
PMML (Predictive Modelling Markup Language)
ndash Limbaj similar XML pentru salvare și partajare de
modele (cel mai acceptat standard)
CRISP
ndash Metodologie standardizată pentru construirea deaplicații Data Mining
OLE DB pentru Data Mining
ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)
IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5657
56
1 INTRODUCERE
2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE
3-7
CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale
Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici
8 CLUSTERIZARE (ANALIZA CLUSTERILOR)
9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA
ASOCIERILOR)
10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR
11 EVALUAREA MODELELOR
12 APLICAŢII ŞI TENDINŢE IN DATA MINING
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5757
Mulţumesc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1657
16
Date deantrenare(icircnvare)
SistemDataMining
Date
noi
Predicie
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1757
17
Fundamentele explorării datelor
Dezvoltarea tehnicilor de data mining se explică printrealtele prin faptul că firmele au acumulat volume foarte mari dedate stocate pe suporturi informatice privitoare la tranzacţii dediverse tipuri derulate de-a lungul mai multor ani
Multă vreme acestea s-au acumulat pur şi simplu icircn virtuteanevoii de arhivare
Datele sunt la dispoziţia organizaţiei respective datele suntcacirct se poate de precise şi analitice datele sunt icircn volum mare şiacoperă perioade de timp de ordinul anilor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1857
18
Alături de existenţa colecţiilor de date istorice memorate pesuporturi informatice icircncă doi factori explică emergenţa
cunoscută actualmente de data mining (vezi figura următoare)
maturizarea algoritmilor şi a produselor programdedicate
creşterea capacităţii de memorare şi prelucrare acalculatoarelor care permite tratarea icircn corelaţiea volumelor foarte mari de date
Unele dintre tehnicile de data mining datează de ceva mai mulţiani Algoritmii folosiţi au cunoscut icircnsă un proces de evoluţiecontinuă care a permis icircnlăturarea unora dintre limitele saudeficienţele iniţiale
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1957
19
Putere de
calcul mrit
Algoritmistatisticii de
icircnvare
Colecii de date icircmbuntiteManagement
icircmbuntit aldatelor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2057
20
Produsele program au evoluat şi ele spre o utilizare cacirct maifacilă
Au apărut firme care oferă spre vacircnzare colecţii de dateistorice de uz general - cum ar fi spre exemplu evoluţiaindicatorilor bursieri din ultimii 20 de ani - special constituitepentru asemenea utilizări
Depozitele de date şi tehnologiile OLAP vizează şi ele datelecolectate la nivelul organizaţiilor
Depozitele de date se pretează foarte bine ca surse pentrudata mining iar rezultatele furnizate de acesta pot completacacircmpurile icircnregistrărilor celor dintacirci şi pot fi valorificate apoi prinproiecţiile multidimensionale specifice OLAP
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2157
21
Aplicaţii potenţiale
Analiza bazelor de date şi suport pentru decizie
ndash Analiza şi managementul pieţei
ndash Analiza şi managementul riscurilor
ndash Detecţia fraudelor
Analiza textelor - Text Mining
Analiză Web - Web Mining Răspuns inteligent la interogări
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2257
22
Analiza şi managementul pieţei
Care sunt sursele datelor de analizat ndash Tranzacţiile cu cardurile de credit cardurile de
fidelitate cupoanele de discount reclamaţiile clienţilorstudiile publice de stil de viaţă
Ţinta de marketing ndash Trebuie găsite grupuri de clienţi ―model care au
aceleaşi caracteristici interese nivel de venit obiceiuride cumpărare etc
Determinarea profilului cumpărătorului icircn timp ndash Conversia unui cont bancar icircn mai multe conectate
căsătorie etc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2357
23
Analiza şi managementul riscurilor
Planificare financiară şi evaluarea capitalului
ndash Analiza şi prognoza fluxului de numerar (cash flow)
ndash Analiza seriilor temporale (analiza tendinţelor etc)
Planificarea resurselor
ndash sumarizarea şi compararea resurselor şi acheltuielilor
Competiţie ndash Monitorizarea competitorilor şi a direcţiilor pieţei
ndash Fundamentarea strategiei preţului icircntr -o piaţă foartecompetitivă
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2457
24
Detecţia fraudelor
Folosirea datelor istorice pentru a construi modele decomportament fraudulos şi utilizarea data mining pentruidentificarea exemplelor similare
Exemple de aplicaţii
ndash Asigurări auto detectarea unui grup de persoane care icircnscenează accidente pentru a icircncasa asigurarea
ndash Spălare de bani detectarea tranzacţiilor suspecte
ndash Detectarea fraudelor telefonice detectareacomportamentelor suspecte (modelul de apel -destinaţie timp durată)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2557
25
DeviationAnomaly Detection
Detect significant deviations from normal behavior
Applications ndash Credit Card Fraud Detection
ndash Network IntrusionDetection
Typical network traffic at
University level may reach over 100
million connections per day
TanSteinbach Kumar Introduction to Data Miningwwwuserscsumnedu~kumardmbookindexphp
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2657
26
Alte domenii de aplicaţie
Sport
ndash Analiza jocurilor icircn NBA (ex detectarea strategieiadversarului) Astronomie
ndash Descoperirea şi clasificarea unor noi obiecte
Internet ndash Analiza acceselor Web descoperirea unor şabloane
(patterns) comportamentale analiza eficienţeimarketingului Web icircmbunătăţirea organizării site-urilor
Web Text
ndash Analiza ştirilor analiza icircnregistrărilor medicale sortarea şifiltrarea automată a e-mail-urilor clasificarea automată a
documentelor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2757
27
Contribuţii
Data Mining
Inteligenţă Artificială
Calculatoare performanteStatistică
Sisteme de baze dedate
Cercetări operaţionale
GIS
Vizualizare
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2857
28
Data miningintersecţia unor discipline multiple
Sisteme de baze de date data warehouse şi OLAP
Statistică
Maşini instruibile (Machine learning)
Vizualizare Informatică
Calcul de icircnaltă performanţă
Alte discipline ndash Reţele neuronale modelare matematică regăsirea
informaţiilor recunoaşterea formelor (patternrecognition)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2957
29
Architectura unui sistem tipic de Data Mining
Data
Warehouse
Curăţarea şi integrarea datelor Filtrare
Baze de date
Server de baze de date
sau de Data Warehouse
Motor data mining
Evaluarea şabloanelor
Interfaţă grafică utilizator
Bază de
cunoştinţe
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3057
30
Evoluţia tehnologiei bazelor de date
Anii 1960
ndash Colecţii de date crearea bazelor de date baze de datereţea
Anii 1970
ndash Modelul relaţional implementarea SGBD relaţional Anii 1980
ndash SGBD relaţionale modele de date avansate (relaţionalextins OO deductive etc) şi SGBD-uri specifice
(domeniul spatial ştiinţific inginerie etc) Anii 1990mdash2000
ndash Data mining şi data warehouse baze de date multimediabaze de date Web
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3157
31
Proces
Data mining inima
procesului de
descoperire a
cunoaşterii
Curăţirea datelor
Baze dedate
Data Warehouse
Date relevante
Data Mining
Evaluarea configuraţiilor
C ţi icirc t d ti b ă d
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3257
32
Comparaţie icircntre procesarea de tip bază de
date şi cea de tip Data Mining
Interogare ndash Bine definită ndash SQL
Interogare ndash Slab definită ndash Nu există limbaj precis de
interogare
Date ndash Date operaţ ionale
Ieşirea ndash Precisă ndash Subset al bazei dedate
Date ndash Date neoperaţionale
Ieşirea ndash Vagă ndash Nu este un subset al bazeide date
E l d i t ă i
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3357
33
Exemple de interogări
Bază de date
Data Mining
ndash Găseşte toţi clienţii care au cumpărat lapte
ndash Găseşte toţi clienţii care au cumpărat frecvent
lapte (Reguli de asociere)
ndash Găseşte toţi titularii de credite cu numele Smith ndash Identifică toţi clienţii care au cumpărat de maimult de $10000 icircn ultima lună
ndash Găseşte toţi titularii de credite cu risc mic decreditare (Clasificare)
ndash Identifică clienţii cu obiceiuri similare decumpărare (Grupare)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3457
34
Modele şi tehnici Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3557
35
Verificarea ipotezelor şi căutarea cunoştinţelor
Aplicarea tehnicilor de data mining poate fi făcută dinperspectiva unui demers ascendent sau descendent
Icircn abordarea descendentă efortul este orientat spre
confirmarea sau infirmarea unor idei (ipoteze) formulate icircnprealabil prin alte mijloace
Abordarea ascendentă are o cu totul altă finalitate ea
urmăreşte extragerea de cunoştinţe sau informaţii noi din dateledisponibile
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3657
36
Căutarea poate fi dirijată sau nedirijată
Căutarea dirijată ia icircn considerare un atribut sau un cacircmpale cărui valori icircncearcă să le explice prin celelalte cacircmpuriEste cea mai folosită icircn practică
Căutarea nedirijată are ca scop identificarea relaţiilor saustructurilor existente icircn ansamblul datelor examinate fără aacorda prioritate unui cacircmp sau altul
Deşi mai spectaculoasă icircn practică se recurge mult maipuţin la ea decacirct la căutarea dirijată
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3757
37
Data mining
verificarea
ipotezelor
căutarea de
cunoştinţe
dirijată nedirijată
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3857
38
Tehnici şi acţiuni
Data mining exploatează colecţiile de date de care dispune o
organizaţie
La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei
icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc
Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod
intrinsec
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3957
39
Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de
icircnţeles o tendinţă relevată de un număr foarte mare de cazuri
practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii
Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se
reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor
raţionamentele bazate pe cazuri analiza legăturilor
La acestea se pot asocia şi tehnici statistice cum sunt spre
exemplu regresiile analiza factorială etc
M d l di ti
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4057
40 40
Modele predictivehellip
Arbori de decizie
Clasificări după cel mai apropiat vecin
Reţele neuronale
Reguli
Analiza grupurilor
A l d i i ă l ă l i i
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4157
41
Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea
predicţiagrupareaanaliza grupărilor
Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un
grup limitat de clase predefinite
Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut
mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4257
42
Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare
Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări
Predicţia urmăreşte să claseze icircnregistrările tratate icircn
funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un
model care să explice comportamentul observat
Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora
icircn viitor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4357
43
Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună
Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei
Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster
Spre deosebire de celelalte tipuri de acţiuni asemănătoare
aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4457
44
Etapele procesului de exploatare a datelor
Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare
Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date
colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4557
45
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4657
46
Evaluarea modelului
Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare
Integrarea modelului
Această etapă finalizează procesul prin includerea
modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4757
172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up
Overview of Fisherrsquos Iris Dataset
Fisherrsquos iris dataset is available for download from the tutorial website
httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls
Iris photos courtesy of SIGNA ndash wwwsignaorg
Fisherrsquos iris dataset is well-known in
data mining research
This dataset is commonly used to
illustrate data mining tools
Mark Polczynski PhD The Technology Forge mhptechforgegmailnet
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4857
172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up
Fisherrsquos Database - Background
Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems
Annals of Eugenics 7 179 ndash188 available at
httpdigitallibraryadelaideeduaucollspecialfisher138pdf
iris setosa iris versicolor iris virginica
Dataset contains flower dimension measurements on 50 samples of each species
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4957
172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up
Fisherrsquos Dataset- Background
Data mining terminology
bull The four iris dimensions are termed attributes or input attributes
bull The three iris species are termed classes or output attributes
bull Each example of an iris is termed a sample or instance
Anderson measured these dimensions
bull sepal length
bull sepal width
bull petal length
bull petal width
Measurements on these iris speciesbull setosa
bull versicolor
bull virginica
S t f Fi h rsquo I i D t t
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5057
172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up
Segment of Fisherrsquos Iris Dataset
Input Output
Attributes Attribute
Inst
Sepal
Length
Sepal
Width
Petal
Length
Petal
Width Species1 51 35 14 02 setosa
2 49 3 14 02 setosa
3 47 32 13 02 setosa
4 46 31 15 02 setosa5 5 36 14 02 setosa
Numerical Nominal
ClassSample
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5157
172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up
What Problem are We Trying to Solve
Iris setosa
Weka
decisiontree
Iris versicolor
Iris virginica
Our taskClassify unknown iris using
measurements on 150 iris
samples of known species
Instrumente pentru Data-Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5257
52
Instrumente pentru Data-Mining
Weka Documentation httpwwwcswaikatoacnzmlweka
Waikato Environment for Knowledge Analysis
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5357
53
Instrumente pentru Data-Mining
Principalii producători de soft pentruData-Mining
ndash IBM ndash Intelligent Miner extensie pentru DB2
ndash SAS ndash Enterprise Miner
ndash SPSS ndash Clementine
ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)
ndash hellipmulți alți producători mai mici
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5457
54
Instrumente pentru Data-Mining
SPSS - Clementine
ndash httpwwwspsscomclementine Oracle - Darwin
ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet
ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner
ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml
Standarde Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5557
55
Standarde Data Mining
PMML (Predictive Modelling Markup Language)
ndash Limbaj similar XML pentru salvare și partajare de
modele (cel mai acceptat standard)
CRISP
ndash Metodologie standardizată pentru construirea deaplicații Data Mining
OLE DB pentru Data Mining
ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)
IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5657
56
1 INTRODUCERE
2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE
3-7
CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale
Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici
8 CLUSTERIZARE (ANALIZA CLUSTERILOR)
9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA
ASOCIERILOR)
10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR
11 EVALUAREA MODELELOR
12 APLICAŢII ŞI TENDINŢE IN DATA MINING
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5757
Mulţumesc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1757
17
Fundamentele explorării datelor
Dezvoltarea tehnicilor de data mining se explică printrealtele prin faptul că firmele au acumulat volume foarte mari dedate stocate pe suporturi informatice privitoare la tranzacţii dediverse tipuri derulate de-a lungul mai multor ani
Multă vreme acestea s-au acumulat pur şi simplu icircn virtuteanevoii de arhivare
Datele sunt la dispoziţia organizaţiei respective datele suntcacirct se poate de precise şi analitice datele sunt icircn volum mare şiacoperă perioade de timp de ordinul anilor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1857
18
Alături de existenţa colecţiilor de date istorice memorate pesuporturi informatice icircncă doi factori explică emergenţa
cunoscută actualmente de data mining (vezi figura următoare)
maturizarea algoritmilor şi a produselor programdedicate
creşterea capacităţii de memorare şi prelucrare acalculatoarelor care permite tratarea icircn corelaţiea volumelor foarte mari de date
Unele dintre tehnicile de data mining datează de ceva mai mulţiani Algoritmii folosiţi au cunoscut icircnsă un proces de evoluţiecontinuă care a permis icircnlăturarea unora dintre limitele saudeficienţele iniţiale
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1957
19
Putere de
calcul mrit
Algoritmistatisticii de
icircnvare
Colecii de date icircmbuntiteManagement
icircmbuntit aldatelor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2057
20
Produsele program au evoluat şi ele spre o utilizare cacirct maifacilă
Au apărut firme care oferă spre vacircnzare colecţii de dateistorice de uz general - cum ar fi spre exemplu evoluţiaindicatorilor bursieri din ultimii 20 de ani - special constituitepentru asemenea utilizări
Depozitele de date şi tehnologiile OLAP vizează şi ele datelecolectate la nivelul organizaţiilor
Depozitele de date se pretează foarte bine ca surse pentrudata mining iar rezultatele furnizate de acesta pot completacacircmpurile icircnregistrărilor celor dintacirci şi pot fi valorificate apoi prinproiecţiile multidimensionale specifice OLAP
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2157
21
Aplicaţii potenţiale
Analiza bazelor de date şi suport pentru decizie
ndash Analiza şi managementul pieţei
ndash Analiza şi managementul riscurilor
ndash Detecţia fraudelor
Analiza textelor - Text Mining
Analiză Web - Web Mining Răspuns inteligent la interogări
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2257
22
Analiza şi managementul pieţei
Care sunt sursele datelor de analizat ndash Tranzacţiile cu cardurile de credit cardurile de
fidelitate cupoanele de discount reclamaţiile clienţilorstudiile publice de stil de viaţă
Ţinta de marketing ndash Trebuie găsite grupuri de clienţi ―model care au
aceleaşi caracteristici interese nivel de venit obiceiuride cumpărare etc
Determinarea profilului cumpărătorului icircn timp ndash Conversia unui cont bancar icircn mai multe conectate
căsătorie etc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2357
23
Analiza şi managementul riscurilor
Planificare financiară şi evaluarea capitalului
ndash Analiza şi prognoza fluxului de numerar (cash flow)
ndash Analiza seriilor temporale (analiza tendinţelor etc)
Planificarea resurselor
ndash sumarizarea şi compararea resurselor şi acheltuielilor
Competiţie ndash Monitorizarea competitorilor şi a direcţiilor pieţei
ndash Fundamentarea strategiei preţului icircntr -o piaţă foartecompetitivă
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2457
24
Detecţia fraudelor
Folosirea datelor istorice pentru a construi modele decomportament fraudulos şi utilizarea data mining pentruidentificarea exemplelor similare
Exemple de aplicaţii
ndash Asigurări auto detectarea unui grup de persoane care icircnscenează accidente pentru a icircncasa asigurarea
ndash Spălare de bani detectarea tranzacţiilor suspecte
ndash Detectarea fraudelor telefonice detectareacomportamentelor suspecte (modelul de apel -destinaţie timp durată)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2557
25
DeviationAnomaly Detection
Detect significant deviations from normal behavior
Applications ndash Credit Card Fraud Detection
ndash Network IntrusionDetection
Typical network traffic at
University level may reach over 100
million connections per day
TanSteinbach Kumar Introduction to Data Miningwwwuserscsumnedu~kumardmbookindexphp
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2657
26
Alte domenii de aplicaţie
Sport
ndash Analiza jocurilor icircn NBA (ex detectarea strategieiadversarului) Astronomie
ndash Descoperirea şi clasificarea unor noi obiecte
Internet ndash Analiza acceselor Web descoperirea unor şabloane
(patterns) comportamentale analiza eficienţeimarketingului Web icircmbunătăţirea organizării site-urilor
Web Text
ndash Analiza ştirilor analiza icircnregistrărilor medicale sortarea şifiltrarea automată a e-mail-urilor clasificarea automată a
documentelor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2757
27
Contribuţii
Data Mining
Inteligenţă Artificială
Calculatoare performanteStatistică
Sisteme de baze dedate
Cercetări operaţionale
GIS
Vizualizare
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2857
28
Data miningintersecţia unor discipline multiple
Sisteme de baze de date data warehouse şi OLAP
Statistică
Maşini instruibile (Machine learning)
Vizualizare Informatică
Calcul de icircnaltă performanţă
Alte discipline ndash Reţele neuronale modelare matematică regăsirea
informaţiilor recunoaşterea formelor (patternrecognition)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2957
29
Architectura unui sistem tipic de Data Mining
Data
Warehouse
Curăţarea şi integrarea datelor Filtrare
Baze de date
Server de baze de date
sau de Data Warehouse
Motor data mining
Evaluarea şabloanelor
Interfaţă grafică utilizator
Bază de
cunoştinţe
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3057
30
Evoluţia tehnologiei bazelor de date
Anii 1960
ndash Colecţii de date crearea bazelor de date baze de datereţea
Anii 1970
ndash Modelul relaţional implementarea SGBD relaţional Anii 1980
ndash SGBD relaţionale modele de date avansate (relaţionalextins OO deductive etc) şi SGBD-uri specifice
(domeniul spatial ştiinţific inginerie etc) Anii 1990mdash2000
ndash Data mining şi data warehouse baze de date multimediabaze de date Web
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3157
31
Proces
Data mining inima
procesului de
descoperire a
cunoaşterii
Curăţirea datelor
Baze dedate
Data Warehouse
Date relevante
Data Mining
Evaluarea configuraţiilor
C ţi icirc t d ti b ă d
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3257
32
Comparaţie icircntre procesarea de tip bază de
date şi cea de tip Data Mining
Interogare ndash Bine definită ndash SQL
Interogare ndash Slab definită ndash Nu există limbaj precis de
interogare
Date ndash Date operaţ ionale
Ieşirea ndash Precisă ndash Subset al bazei dedate
Date ndash Date neoperaţionale
Ieşirea ndash Vagă ndash Nu este un subset al bazeide date
E l d i t ă i
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3357
33
Exemple de interogări
Bază de date
Data Mining
ndash Găseşte toţi clienţii care au cumpărat lapte
ndash Găseşte toţi clienţii care au cumpărat frecvent
lapte (Reguli de asociere)
ndash Găseşte toţi titularii de credite cu numele Smith ndash Identifică toţi clienţii care au cumpărat de maimult de $10000 icircn ultima lună
ndash Găseşte toţi titularii de credite cu risc mic decreditare (Clasificare)
ndash Identifică clienţii cu obiceiuri similare decumpărare (Grupare)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3457
34
Modele şi tehnici Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3557
35
Verificarea ipotezelor şi căutarea cunoştinţelor
Aplicarea tehnicilor de data mining poate fi făcută dinperspectiva unui demers ascendent sau descendent
Icircn abordarea descendentă efortul este orientat spre
confirmarea sau infirmarea unor idei (ipoteze) formulate icircnprealabil prin alte mijloace
Abordarea ascendentă are o cu totul altă finalitate ea
urmăreşte extragerea de cunoştinţe sau informaţii noi din dateledisponibile
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3657
36
Căutarea poate fi dirijată sau nedirijată
Căutarea dirijată ia icircn considerare un atribut sau un cacircmpale cărui valori icircncearcă să le explice prin celelalte cacircmpuriEste cea mai folosită icircn practică
Căutarea nedirijată are ca scop identificarea relaţiilor saustructurilor existente icircn ansamblul datelor examinate fără aacorda prioritate unui cacircmp sau altul
Deşi mai spectaculoasă icircn practică se recurge mult maipuţin la ea decacirct la căutarea dirijată
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3757
37
Data mining
verificarea
ipotezelor
căutarea de
cunoştinţe
dirijată nedirijată
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3857
38
Tehnici şi acţiuni
Data mining exploatează colecţiile de date de care dispune o
organizaţie
La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei
icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc
Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod
intrinsec
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3957
39
Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de
icircnţeles o tendinţă relevată de un număr foarte mare de cazuri
practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii
Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se
reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor
raţionamentele bazate pe cazuri analiza legăturilor
La acestea se pot asocia şi tehnici statistice cum sunt spre
exemplu regresiile analiza factorială etc
M d l di ti
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4057
40 40
Modele predictivehellip
Arbori de decizie
Clasificări după cel mai apropiat vecin
Reţele neuronale
Reguli
Analiza grupurilor
A l d i i ă l ă l i i
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4157
41
Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea
predicţiagrupareaanaliza grupărilor
Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un
grup limitat de clase predefinite
Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut
mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4257
42
Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare
Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări
Predicţia urmăreşte să claseze icircnregistrările tratate icircn
funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un
model care să explice comportamentul observat
Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora
icircn viitor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4357
43
Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună
Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei
Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster
Spre deosebire de celelalte tipuri de acţiuni asemănătoare
aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4457
44
Etapele procesului de exploatare a datelor
Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare
Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date
colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4557
45
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4657
46
Evaluarea modelului
Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare
Integrarea modelului
Această etapă finalizează procesul prin includerea
modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4757
172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up
Overview of Fisherrsquos Iris Dataset
Fisherrsquos iris dataset is available for download from the tutorial website
httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls
Iris photos courtesy of SIGNA ndash wwwsignaorg
Fisherrsquos iris dataset is well-known in
data mining research
This dataset is commonly used to
illustrate data mining tools
Mark Polczynski PhD The Technology Forge mhptechforgegmailnet
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4857
172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up
Fisherrsquos Database - Background
Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems
Annals of Eugenics 7 179 ndash188 available at
httpdigitallibraryadelaideeduaucollspecialfisher138pdf
iris setosa iris versicolor iris virginica
Dataset contains flower dimension measurements on 50 samples of each species
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4957
172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up
Fisherrsquos Dataset- Background
Data mining terminology
bull The four iris dimensions are termed attributes or input attributes
bull The three iris species are termed classes or output attributes
bull Each example of an iris is termed a sample or instance
Anderson measured these dimensions
bull sepal length
bull sepal width
bull petal length
bull petal width
Measurements on these iris speciesbull setosa
bull versicolor
bull virginica
S t f Fi h rsquo I i D t t
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5057
172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up
Segment of Fisherrsquos Iris Dataset
Input Output
Attributes Attribute
Inst
Sepal
Length
Sepal
Width
Petal
Length
Petal
Width Species1 51 35 14 02 setosa
2 49 3 14 02 setosa
3 47 32 13 02 setosa
4 46 31 15 02 setosa5 5 36 14 02 setosa
Numerical Nominal
ClassSample
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5157
172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up
What Problem are We Trying to Solve
Iris setosa
Weka
decisiontree
Iris versicolor
Iris virginica
Our taskClassify unknown iris using
measurements on 150 iris
samples of known species
Instrumente pentru Data-Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5257
52
Instrumente pentru Data-Mining
Weka Documentation httpwwwcswaikatoacnzmlweka
Waikato Environment for Knowledge Analysis
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5357
53
Instrumente pentru Data-Mining
Principalii producători de soft pentruData-Mining
ndash IBM ndash Intelligent Miner extensie pentru DB2
ndash SAS ndash Enterprise Miner
ndash SPSS ndash Clementine
ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)
ndash hellipmulți alți producători mai mici
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5457
54
Instrumente pentru Data-Mining
SPSS - Clementine
ndash httpwwwspsscomclementine Oracle - Darwin
ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet
ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner
ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml
Standarde Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5557
55
Standarde Data Mining
PMML (Predictive Modelling Markup Language)
ndash Limbaj similar XML pentru salvare și partajare de
modele (cel mai acceptat standard)
CRISP
ndash Metodologie standardizată pentru construirea deaplicații Data Mining
OLE DB pentru Data Mining
ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)
IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5657
56
1 INTRODUCERE
2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE
3-7
CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale
Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici
8 CLUSTERIZARE (ANALIZA CLUSTERILOR)
9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA
ASOCIERILOR)
10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR
11 EVALUAREA MODELELOR
12 APLICAŢII ŞI TENDINŢE IN DATA MINING
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5757
Mulţumesc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1857
18
Alături de existenţa colecţiilor de date istorice memorate pesuporturi informatice icircncă doi factori explică emergenţa
cunoscută actualmente de data mining (vezi figura următoare)
maturizarea algoritmilor şi a produselor programdedicate
creşterea capacităţii de memorare şi prelucrare acalculatoarelor care permite tratarea icircn corelaţiea volumelor foarte mari de date
Unele dintre tehnicile de data mining datează de ceva mai mulţiani Algoritmii folosiţi au cunoscut icircnsă un proces de evoluţiecontinuă care a permis icircnlăturarea unora dintre limitele saudeficienţele iniţiale
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1957
19
Putere de
calcul mrit
Algoritmistatisticii de
icircnvare
Colecii de date icircmbuntiteManagement
icircmbuntit aldatelor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2057
20
Produsele program au evoluat şi ele spre o utilizare cacirct maifacilă
Au apărut firme care oferă spre vacircnzare colecţii de dateistorice de uz general - cum ar fi spre exemplu evoluţiaindicatorilor bursieri din ultimii 20 de ani - special constituitepentru asemenea utilizări
Depozitele de date şi tehnologiile OLAP vizează şi ele datelecolectate la nivelul organizaţiilor
Depozitele de date se pretează foarte bine ca surse pentrudata mining iar rezultatele furnizate de acesta pot completacacircmpurile icircnregistrărilor celor dintacirci şi pot fi valorificate apoi prinproiecţiile multidimensionale specifice OLAP
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2157
21
Aplicaţii potenţiale
Analiza bazelor de date şi suport pentru decizie
ndash Analiza şi managementul pieţei
ndash Analiza şi managementul riscurilor
ndash Detecţia fraudelor
Analiza textelor - Text Mining
Analiză Web - Web Mining Răspuns inteligent la interogări
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2257
22
Analiza şi managementul pieţei
Care sunt sursele datelor de analizat ndash Tranzacţiile cu cardurile de credit cardurile de
fidelitate cupoanele de discount reclamaţiile clienţilorstudiile publice de stil de viaţă
Ţinta de marketing ndash Trebuie găsite grupuri de clienţi ―model care au
aceleaşi caracteristici interese nivel de venit obiceiuride cumpărare etc
Determinarea profilului cumpărătorului icircn timp ndash Conversia unui cont bancar icircn mai multe conectate
căsătorie etc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2357
23
Analiza şi managementul riscurilor
Planificare financiară şi evaluarea capitalului
ndash Analiza şi prognoza fluxului de numerar (cash flow)
ndash Analiza seriilor temporale (analiza tendinţelor etc)
Planificarea resurselor
ndash sumarizarea şi compararea resurselor şi acheltuielilor
Competiţie ndash Monitorizarea competitorilor şi a direcţiilor pieţei
ndash Fundamentarea strategiei preţului icircntr -o piaţă foartecompetitivă
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2457
24
Detecţia fraudelor
Folosirea datelor istorice pentru a construi modele decomportament fraudulos şi utilizarea data mining pentruidentificarea exemplelor similare
Exemple de aplicaţii
ndash Asigurări auto detectarea unui grup de persoane care icircnscenează accidente pentru a icircncasa asigurarea
ndash Spălare de bani detectarea tranzacţiilor suspecte
ndash Detectarea fraudelor telefonice detectareacomportamentelor suspecte (modelul de apel -destinaţie timp durată)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2557
25
DeviationAnomaly Detection
Detect significant deviations from normal behavior
Applications ndash Credit Card Fraud Detection
ndash Network IntrusionDetection
Typical network traffic at
University level may reach over 100
million connections per day
TanSteinbach Kumar Introduction to Data Miningwwwuserscsumnedu~kumardmbookindexphp
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2657
26
Alte domenii de aplicaţie
Sport
ndash Analiza jocurilor icircn NBA (ex detectarea strategieiadversarului) Astronomie
ndash Descoperirea şi clasificarea unor noi obiecte
Internet ndash Analiza acceselor Web descoperirea unor şabloane
(patterns) comportamentale analiza eficienţeimarketingului Web icircmbunătăţirea organizării site-urilor
Web Text
ndash Analiza ştirilor analiza icircnregistrărilor medicale sortarea şifiltrarea automată a e-mail-urilor clasificarea automată a
documentelor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2757
27
Contribuţii
Data Mining
Inteligenţă Artificială
Calculatoare performanteStatistică
Sisteme de baze dedate
Cercetări operaţionale
GIS
Vizualizare
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2857
28
Data miningintersecţia unor discipline multiple
Sisteme de baze de date data warehouse şi OLAP
Statistică
Maşini instruibile (Machine learning)
Vizualizare Informatică
Calcul de icircnaltă performanţă
Alte discipline ndash Reţele neuronale modelare matematică regăsirea
informaţiilor recunoaşterea formelor (patternrecognition)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2957
29
Architectura unui sistem tipic de Data Mining
Data
Warehouse
Curăţarea şi integrarea datelor Filtrare
Baze de date
Server de baze de date
sau de Data Warehouse
Motor data mining
Evaluarea şabloanelor
Interfaţă grafică utilizator
Bază de
cunoştinţe
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3057
30
Evoluţia tehnologiei bazelor de date
Anii 1960
ndash Colecţii de date crearea bazelor de date baze de datereţea
Anii 1970
ndash Modelul relaţional implementarea SGBD relaţional Anii 1980
ndash SGBD relaţionale modele de date avansate (relaţionalextins OO deductive etc) şi SGBD-uri specifice
(domeniul spatial ştiinţific inginerie etc) Anii 1990mdash2000
ndash Data mining şi data warehouse baze de date multimediabaze de date Web
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3157
31
Proces
Data mining inima
procesului de
descoperire a
cunoaşterii
Curăţirea datelor
Baze dedate
Data Warehouse
Date relevante
Data Mining
Evaluarea configuraţiilor
C ţi icirc t d ti b ă d
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3257
32
Comparaţie icircntre procesarea de tip bază de
date şi cea de tip Data Mining
Interogare ndash Bine definită ndash SQL
Interogare ndash Slab definită ndash Nu există limbaj precis de
interogare
Date ndash Date operaţ ionale
Ieşirea ndash Precisă ndash Subset al bazei dedate
Date ndash Date neoperaţionale
Ieşirea ndash Vagă ndash Nu este un subset al bazeide date
E l d i t ă i
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3357
33
Exemple de interogări
Bază de date
Data Mining
ndash Găseşte toţi clienţii care au cumpărat lapte
ndash Găseşte toţi clienţii care au cumpărat frecvent
lapte (Reguli de asociere)
ndash Găseşte toţi titularii de credite cu numele Smith ndash Identifică toţi clienţii care au cumpărat de maimult de $10000 icircn ultima lună
ndash Găseşte toţi titularii de credite cu risc mic decreditare (Clasificare)
ndash Identifică clienţii cu obiceiuri similare decumpărare (Grupare)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3457
34
Modele şi tehnici Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3557
35
Verificarea ipotezelor şi căutarea cunoştinţelor
Aplicarea tehnicilor de data mining poate fi făcută dinperspectiva unui demers ascendent sau descendent
Icircn abordarea descendentă efortul este orientat spre
confirmarea sau infirmarea unor idei (ipoteze) formulate icircnprealabil prin alte mijloace
Abordarea ascendentă are o cu totul altă finalitate ea
urmăreşte extragerea de cunoştinţe sau informaţii noi din dateledisponibile
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3657
36
Căutarea poate fi dirijată sau nedirijată
Căutarea dirijată ia icircn considerare un atribut sau un cacircmpale cărui valori icircncearcă să le explice prin celelalte cacircmpuriEste cea mai folosită icircn practică
Căutarea nedirijată are ca scop identificarea relaţiilor saustructurilor existente icircn ansamblul datelor examinate fără aacorda prioritate unui cacircmp sau altul
Deşi mai spectaculoasă icircn practică se recurge mult maipuţin la ea decacirct la căutarea dirijată
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3757
37
Data mining
verificarea
ipotezelor
căutarea de
cunoştinţe
dirijată nedirijată
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3857
38
Tehnici şi acţiuni
Data mining exploatează colecţiile de date de care dispune o
organizaţie
La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei
icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc
Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod
intrinsec
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3957
39
Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de
icircnţeles o tendinţă relevată de un număr foarte mare de cazuri
practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii
Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se
reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor
raţionamentele bazate pe cazuri analiza legăturilor
La acestea se pot asocia şi tehnici statistice cum sunt spre
exemplu regresiile analiza factorială etc
M d l di ti
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4057
40 40
Modele predictivehellip
Arbori de decizie
Clasificări după cel mai apropiat vecin
Reţele neuronale
Reguli
Analiza grupurilor
A l d i i ă l ă l i i
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4157
41
Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea
predicţiagrupareaanaliza grupărilor
Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un
grup limitat de clase predefinite
Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut
mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4257
42
Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare
Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări
Predicţia urmăreşte să claseze icircnregistrările tratate icircn
funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un
model care să explice comportamentul observat
Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora
icircn viitor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4357
43
Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună
Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei
Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster
Spre deosebire de celelalte tipuri de acţiuni asemănătoare
aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4457
44
Etapele procesului de exploatare a datelor
Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare
Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date
colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4557
45
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4657
46
Evaluarea modelului
Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare
Integrarea modelului
Această etapă finalizează procesul prin includerea
modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4757
172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up
Overview of Fisherrsquos Iris Dataset
Fisherrsquos iris dataset is available for download from the tutorial website
httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls
Iris photos courtesy of SIGNA ndash wwwsignaorg
Fisherrsquos iris dataset is well-known in
data mining research
This dataset is commonly used to
illustrate data mining tools
Mark Polczynski PhD The Technology Forge mhptechforgegmailnet
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4857
172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up
Fisherrsquos Database - Background
Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems
Annals of Eugenics 7 179 ndash188 available at
httpdigitallibraryadelaideeduaucollspecialfisher138pdf
iris setosa iris versicolor iris virginica
Dataset contains flower dimension measurements on 50 samples of each species
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4957
172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up
Fisherrsquos Dataset- Background
Data mining terminology
bull The four iris dimensions are termed attributes or input attributes
bull The three iris species are termed classes or output attributes
bull Each example of an iris is termed a sample or instance
Anderson measured these dimensions
bull sepal length
bull sepal width
bull petal length
bull petal width
Measurements on these iris speciesbull setosa
bull versicolor
bull virginica
S t f Fi h rsquo I i D t t
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5057
172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up
Segment of Fisherrsquos Iris Dataset
Input Output
Attributes Attribute
Inst
Sepal
Length
Sepal
Width
Petal
Length
Petal
Width Species1 51 35 14 02 setosa
2 49 3 14 02 setosa
3 47 32 13 02 setosa
4 46 31 15 02 setosa5 5 36 14 02 setosa
Numerical Nominal
ClassSample
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5157
172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up
What Problem are We Trying to Solve
Iris setosa
Weka
decisiontree
Iris versicolor
Iris virginica
Our taskClassify unknown iris using
measurements on 150 iris
samples of known species
Instrumente pentru Data-Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5257
52
Instrumente pentru Data-Mining
Weka Documentation httpwwwcswaikatoacnzmlweka
Waikato Environment for Knowledge Analysis
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5357
53
Instrumente pentru Data-Mining
Principalii producători de soft pentruData-Mining
ndash IBM ndash Intelligent Miner extensie pentru DB2
ndash SAS ndash Enterprise Miner
ndash SPSS ndash Clementine
ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)
ndash hellipmulți alți producători mai mici
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5457
54
Instrumente pentru Data-Mining
SPSS - Clementine
ndash httpwwwspsscomclementine Oracle - Darwin
ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet
ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner
ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml
Standarde Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5557
55
Standarde Data Mining
PMML (Predictive Modelling Markup Language)
ndash Limbaj similar XML pentru salvare și partajare de
modele (cel mai acceptat standard)
CRISP
ndash Metodologie standardizată pentru construirea deaplicații Data Mining
OLE DB pentru Data Mining
ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)
IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5657
56
1 INTRODUCERE
2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE
3-7
CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale
Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici
8 CLUSTERIZARE (ANALIZA CLUSTERILOR)
9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA
ASOCIERILOR)
10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR
11 EVALUAREA MODELELOR
12 APLICAŢII ŞI TENDINŢE IN DATA MINING
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5757
Mulţumesc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 1957
19
Putere de
calcul mrit
Algoritmistatisticii de
icircnvare
Colecii de date icircmbuntiteManagement
icircmbuntit aldatelor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2057
20
Produsele program au evoluat şi ele spre o utilizare cacirct maifacilă
Au apărut firme care oferă spre vacircnzare colecţii de dateistorice de uz general - cum ar fi spre exemplu evoluţiaindicatorilor bursieri din ultimii 20 de ani - special constituitepentru asemenea utilizări
Depozitele de date şi tehnologiile OLAP vizează şi ele datelecolectate la nivelul organizaţiilor
Depozitele de date se pretează foarte bine ca surse pentrudata mining iar rezultatele furnizate de acesta pot completacacircmpurile icircnregistrărilor celor dintacirci şi pot fi valorificate apoi prinproiecţiile multidimensionale specifice OLAP
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2157
21
Aplicaţii potenţiale
Analiza bazelor de date şi suport pentru decizie
ndash Analiza şi managementul pieţei
ndash Analiza şi managementul riscurilor
ndash Detecţia fraudelor
Analiza textelor - Text Mining
Analiză Web - Web Mining Răspuns inteligent la interogări
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2257
22
Analiza şi managementul pieţei
Care sunt sursele datelor de analizat ndash Tranzacţiile cu cardurile de credit cardurile de
fidelitate cupoanele de discount reclamaţiile clienţilorstudiile publice de stil de viaţă
Ţinta de marketing ndash Trebuie găsite grupuri de clienţi ―model care au
aceleaşi caracteristici interese nivel de venit obiceiuride cumpărare etc
Determinarea profilului cumpărătorului icircn timp ndash Conversia unui cont bancar icircn mai multe conectate
căsătorie etc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2357
23
Analiza şi managementul riscurilor
Planificare financiară şi evaluarea capitalului
ndash Analiza şi prognoza fluxului de numerar (cash flow)
ndash Analiza seriilor temporale (analiza tendinţelor etc)
Planificarea resurselor
ndash sumarizarea şi compararea resurselor şi acheltuielilor
Competiţie ndash Monitorizarea competitorilor şi a direcţiilor pieţei
ndash Fundamentarea strategiei preţului icircntr -o piaţă foartecompetitivă
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2457
24
Detecţia fraudelor
Folosirea datelor istorice pentru a construi modele decomportament fraudulos şi utilizarea data mining pentruidentificarea exemplelor similare
Exemple de aplicaţii
ndash Asigurări auto detectarea unui grup de persoane care icircnscenează accidente pentru a icircncasa asigurarea
ndash Spălare de bani detectarea tranzacţiilor suspecte
ndash Detectarea fraudelor telefonice detectareacomportamentelor suspecte (modelul de apel -destinaţie timp durată)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2557
25
DeviationAnomaly Detection
Detect significant deviations from normal behavior
Applications ndash Credit Card Fraud Detection
ndash Network IntrusionDetection
Typical network traffic at
University level may reach over 100
million connections per day
TanSteinbach Kumar Introduction to Data Miningwwwuserscsumnedu~kumardmbookindexphp
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2657
26
Alte domenii de aplicaţie
Sport
ndash Analiza jocurilor icircn NBA (ex detectarea strategieiadversarului) Astronomie
ndash Descoperirea şi clasificarea unor noi obiecte
Internet ndash Analiza acceselor Web descoperirea unor şabloane
(patterns) comportamentale analiza eficienţeimarketingului Web icircmbunătăţirea organizării site-urilor
Web Text
ndash Analiza ştirilor analiza icircnregistrărilor medicale sortarea şifiltrarea automată a e-mail-urilor clasificarea automată a
documentelor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2757
27
Contribuţii
Data Mining
Inteligenţă Artificială
Calculatoare performanteStatistică
Sisteme de baze dedate
Cercetări operaţionale
GIS
Vizualizare
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2857
28
Data miningintersecţia unor discipline multiple
Sisteme de baze de date data warehouse şi OLAP
Statistică
Maşini instruibile (Machine learning)
Vizualizare Informatică
Calcul de icircnaltă performanţă
Alte discipline ndash Reţele neuronale modelare matematică regăsirea
informaţiilor recunoaşterea formelor (patternrecognition)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2957
29
Architectura unui sistem tipic de Data Mining
Data
Warehouse
Curăţarea şi integrarea datelor Filtrare
Baze de date
Server de baze de date
sau de Data Warehouse
Motor data mining
Evaluarea şabloanelor
Interfaţă grafică utilizator
Bază de
cunoştinţe
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3057
30
Evoluţia tehnologiei bazelor de date
Anii 1960
ndash Colecţii de date crearea bazelor de date baze de datereţea
Anii 1970
ndash Modelul relaţional implementarea SGBD relaţional Anii 1980
ndash SGBD relaţionale modele de date avansate (relaţionalextins OO deductive etc) şi SGBD-uri specifice
(domeniul spatial ştiinţific inginerie etc) Anii 1990mdash2000
ndash Data mining şi data warehouse baze de date multimediabaze de date Web
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3157
31
Proces
Data mining inima
procesului de
descoperire a
cunoaşterii
Curăţirea datelor
Baze dedate
Data Warehouse
Date relevante
Data Mining
Evaluarea configuraţiilor
C ţi icirc t d ti b ă d
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3257
32
Comparaţie icircntre procesarea de tip bază de
date şi cea de tip Data Mining
Interogare ndash Bine definită ndash SQL
Interogare ndash Slab definită ndash Nu există limbaj precis de
interogare
Date ndash Date operaţ ionale
Ieşirea ndash Precisă ndash Subset al bazei dedate
Date ndash Date neoperaţionale
Ieşirea ndash Vagă ndash Nu este un subset al bazeide date
E l d i t ă i
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3357
33
Exemple de interogări
Bază de date
Data Mining
ndash Găseşte toţi clienţii care au cumpărat lapte
ndash Găseşte toţi clienţii care au cumpărat frecvent
lapte (Reguli de asociere)
ndash Găseşte toţi titularii de credite cu numele Smith ndash Identifică toţi clienţii care au cumpărat de maimult de $10000 icircn ultima lună
ndash Găseşte toţi titularii de credite cu risc mic decreditare (Clasificare)
ndash Identifică clienţii cu obiceiuri similare decumpărare (Grupare)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3457
34
Modele şi tehnici Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3557
35
Verificarea ipotezelor şi căutarea cunoştinţelor
Aplicarea tehnicilor de data mining poate fi făcută dinperspectiva unui demers ascendent sau descendent
Icircn abordarea descendentă efortul este orientat spre
confirmarea sau infirmarea unor idei (ipoteze) formulate icircnprealabil prin alte mijloace
Abordarea ascendentă are o cu totul altă finalitate ea
urmăreşte extragerea de cunoştinţe sau informaţii noi din dateledisponibile
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3657
36
Căutarea poate fi dirijată sau nedirijată
Căutarea dirijată ia icircn considerare un atribut sau un cacircmpale cărui valori icircncearcă să le explice prin celelalte cacircmpuriEste cea mai folosită icircn practică
Căutarea nedirijată are ca scop identificarea relaţiilor saustructurilor existente icircn ansamblul datelor examinate fără aacorda prioritate unui cacircmp sau altul
Deşi mai spectaculoasă icircn practică se recurge mult maipuţin la ea decacirct la căutarea dirijată
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3757
37
Data mining
verificarea
ipotezelor
căutarea de
cunoştinţe
dirijată nedirijată
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3857
38
Tehnici şi acţiuni
Data mining exploatează colecţiile de date de care dispune o
organizaţie
La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei
icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc
Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod
intrinsec
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3957
39
Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de
icircnţeles o tendinţă relevată de un număr foarte mare de cazuri
practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii
Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se
reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor
raţionamentele bazate pe cazuri analiza legăturilor
La acestea se pot asocia şi tehnici statistice cum sunt spre
exemplu regresiile analiza factorială etc
M d l di ti
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4057
40 40
Modele predictivehellip
Arbori de decizie
Clasificări după cel mai apropiat vecin
Reţele neuronale
Reguli
Analiza grupurilor
A l d i i ă l ă l i i
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4157
41
Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea
predicţiagrupareaanaliza grupărilor
Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un
grup limitat de clase predefinite
Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut
mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4257
42
Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare
Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări
Predicţia urmăreşte să claseze icircnregistrările tratate icircn
funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un
model care să explice comportamentul observat
Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora
icircn viitor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4357
43
Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună
Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei
Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster
Spre deosebire de celelalte tipuri de acţiuni asemănătoare
aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4457
44
Etapele procesului de exploatare a datelor
Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare
Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date
colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4557
45
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4657
46
Evaluarea modelului
Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare
Integrarea modelului
Această etapă finalizează procesul prin includerea
modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4757
172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up
Overview of Fisherrsquos Iris Dataset
Fisherrsquos iris dataset is available for download from the tutorial website
httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls
Iris photos courtesy of SIGNA ndash wwwsignaorg
Fisherrsquos iris dataset is well-known in
data mining research
This dataset is commonly used to
illustrate data mining tools
Mark Polczynski PhD The Technology Forge mhptechforgegmailnet
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4857
172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up
Fisherrsquos Database - Background
Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems
Annals of Eugenics 7 179 ndash188 available at
httpdigitallibraryadelaideeduaucollspecialfisher138pdf
iris setosa iris versicolor iris virginica
Dataset contains flower dimension measurements on 50 samples of each species
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4957
172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up
Fisherrsquos Dataset- Background
Data mining terminology
bull The four iris dimensions are termed attributes or input attributes
bull The three iris species are termed classes or output attributes
bull Each example of an iris is termed a sample or instance
Anderson measured these dimensions
bull sepal length
bull sepal width
bull petal length
bull petal width
Measurements on these iris speciesbull setosa
bull versicolor
bull virginica
S t f Fi h rsquo I i D t t
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5057
172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up
Segment of Fisherrsquos Iris Dataset
Input Output
Attributes Attribute
Inst
Sepal
Length
Sepal
Width
Petal
Length
Petal
Width Species1 51 35 14 02 setosa
2 49 3 14 02 setosa
3 47 32 13 02 setosa
4 46 31 15 02 setosa5 5 36 14 02 setosa
Numerical Nominal
ClassSample
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5157
172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up
What Problem are We Trying to Solve
Iris setosa
Weka
decisiontree
Iris versicolor
Iris virginica
Our taskClassify unknown iris using
measurements on 150 iris
samples of known species
Instrumente pentru Data-Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5257
52
Instrumente pentru Data-Mining
Weka Documentation httpwwwcswaikatoacnzmlweka
Waikato Environment for Knowledge Analysis
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5357
53
Instrumente pentru Data-Mining
Principalii producători de soft pentruData-Mining
ndash IBM ndash Intelligent Miner extensie pentru DB2
ndash SAS ndash Enterprise Miner
ndash SPSS ndash Clementine
ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)
ndash hellipmulți alți producători mai mici
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5457
54
Instrumente pentru Data-Mining
SPSS - Clementine
ndash httpwwwspsscomclementine Oracle - Darwin
ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet
ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner
ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml
Standarde Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5557
55
Standarde Data Mining
PMML (Predictive Modelling Markup Language)
ndash Limbaj similar XML pentru salvare și partajare de
modele (cel mai acceptat standard)
CRISP
ndash Metodologie standardizată pentru construirea deaplicații Data Mining
OLE DB pentru Data Mining
ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)
IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5657
56
1 INTRODUCERE
2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE
3-7
CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale
Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici
8 CLUSTERIZARE (ANALIZA CLUSTERILOR)
9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA
ASOCIERILOR)
10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR
11 EVALUAREA MODELELOR
12 APLICAŢII ŞI TENDINŢE IN DATA MINING
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5757
Mulţumesc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2057
20
Produsele program au evoluat şi ele spre o utilizare cacirct maifacilă
Au apărut firme care oferă spre vacircnzare colecţii de dateistorice de uz general - cum ar fi spre exemplu evoluţiaindicatorilor bursieri din ultimii 20 de ani - special constituitepentru asemenea utilizări
Depozitele de date şi tehnologiile OLAP vizează şi ele datelecolectate la nivelul organizaţiilor
Depozitele de date se pretează foarte bine ca surse pentrudata mining iar rezultatele furnizate de acesta pot completacacircmpurile icircnregistrărilor celor dintacirci şi pot fi valorificate apoi prinproiecţiile multidimensionale specifice OLAP
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2157
21
Aplicaţii potenţiale
Analiza bazelor de date şi suport pentru decizie
ndash Analiza şi managementul pieţei
ndash Analiza şi managementul riscurilor
ndash Detecţia fraudelor
Analiza textelor - Text Mining
Analiză Web - Web Mining Răspuns inteligent la interogări
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2257
22
Analiza şi managementul pieţei
Care sunt sursele datelor de analizat ndash Tranzacţiile cu cardurile de credit cardurile de
fidelitate cupoanele de discount reclamaţiile clienţilorstudiile publice de stil de viaţă
Ţinta de marketing ndash Trebuie găsite grupuri de clienţi ―model care au
aceleaşi caracteristici interese nivel de venit obiceiuride cumpărare etc
Determinarea profilului cumpărătorului icircn timp ndash Conversia unui cont bancar icircn mai multe conectate
căsătorie etc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2357
23
Analiza şi managementul riscurilor
Planificare financiară şi evaluarea capitalului
ndash Analiza şi prognoza fluxului de numerar (cash flow)
ndash Analiza seriilor temporale (analiza tendinţelor etc)
Planificarea resurselor
ndash sumarizarea şi compararea resurselor şi acheltuielilor
Competiţie ndash Monitorizarea competitorilor şi a direcţiilor pieţei
ndash Fundamentarea strategiei preţului icircntr -o piaţă foartecompetitivă
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2457
24
Detecţia fraudelor
Folosirea datelor istorice pentru a construi modele decomportament fraudulos şi utilizarea data mining pentruidentificarea exemplelor similare
Exemple de aplicaţii
ndash Asigurări auto detectarea unui grup de persoane care icircnscenează accidente pentru a icircncasa asigurarea
ndash Spălare de bani detectarea tranzacţiilor suspecte
ndash Detectarea fraudelor telefonice detectareacomportamentelor suspecte (modelul de apel -destinaţie timp durată)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2557
25
DeviationAnomaly Detection
Detect significant deviations from normal behavior
Applications ndash Credit Card Fraud Detection
ndash Network IntrusionDetection
Typical network traffic at
University level may reach over 100
million connections per day
TanSteinbach Kumar Introduction to Data Miningwwwuserscsumnedu~kumardmbookindexphp
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2657
26
Alte domenii de aplicaţie
Sport
ndash Analiza jocurilor icircn NBA (ex detectarea strategieiadversarului) Astronomie
ndash Descoperirea şi clasificarea unor noi obiecte
Internet ndash Analiza acceselor Web descoperirea unor şabloane
(patterns) comportamentale analiza eficienţeimarketingului Web icircmbunătăţirea organizării site-urilor
Web Text
ndash Analiza ştirilor analiza icircnregistrărilor medicale sortarea şifiltrarea automată a e-mail-urilor clasificarea automată a
documentelor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2757
27
Contribuţii
Data Mining
Inteligenţă Artificială
Calculatoare performanteStatistică
Sisteme de baze dedate
Cercetări operaţionale
GIS
Vizualizare
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2857
28
Data miningintersecţia unor discipline multiple
Sisteme de baze de date data warehouse şi OLAP
Statistică
Maşini instruibile (Machine learning)
Vizualizare Informatică
Calcul de icircnaltă performanţă
Alte discipline ndash Reţele neuronale modelare matematică regăsirea
informaţiilor recunoaşterea formelor (patternrecognition)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2957
29
Architectura unui sistem tipic de Data Mining
Data
Warehouse
Curăţarea şi integrarea datelor Filtrare
Baze de date
Server de baze de date
sau de Data Warehouse
Motor data mining
Evaluarea şabloanelor
Interfaţă grafică utilizator
Bază de
cunoştinţe
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3057
30
Evoluţia tehnologiei bazelor de date
Anii 1960
ndash Colecţii de date crearea bazelor de date baze de datereţea
Anii 1970
ndash Modelul relaţional implementarea SGBD relaţional Anii 1980
ndash SGBD relaţionale modele de date avansate (relaţionalextins OO deductive etc) şi SGBD-uri specifice
(domeniul spatial ştiinţific inginerie etc) Anii 1990mdash2000
ndash Data mining şi data warehouse baze de date multimediabaze de date Web
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3157
31
Proces
Data mining inima
procesului de
descoperire a
cunoaşterii
Curăţirea datelor
Baze dedate
Data Warehouse
Date relevante
Data Mining
Evaluarea configuraţiilor
C ţi icirc t d ti b ă d
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3257
32
Comparaţie icircntre procesarea de tip bază de
date şi cea de tip Data Mining
Interogare ndash Bine definită ndash SQL
Interogare ndash Slab definită ndash Nu există limbaj precis de
interogare
Date ndash Date operaţ ionale
Ieşirea ndash Precisă ndash Subset al bazei dedate
Date ndash Date neoperaţionale
Ieşirea ndash Vagă ndash Nu este un subset al bazeide date
E l d i t ă i
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3357
33
Exemple de interogări
Bază de date
Data Mining
ndash Găseşte toţi clienţii care au cumpărat lapte
ndash Găseşte toţi clienţii care au cumpărat frecvent
lapte (Reguli de asociere)
ndash Găseşte toţi titularii de credite cu numele Smith ndash Identifică toţi clienţii care au cumpărat de maimult de $10000 icircn ultima lună
ndash Găseşte toţi titularii de credite cu risc mic decreditare (Clasificare)
ndash Identifică clienţii cu obiceiuri similare decumpărare (Grupare)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3457
34
Modele şi tehnici Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3557
35
Verificarea ipotezelor şi căutarea cunoştinţelor
Aplicarea tehnicilor de data mining poate fi făcută dinperspectiva unui demers ascendent sau descendent
Icircn abordarea descendentă efortul este orientat spre
confirmarea sau infirmarea unor idei (ipoteze) formulate icircnprealabil prin alte mijloace
Abordarea ascendentă are o cu totul altă finalitate ea
urmăreşte extragerea de cunoştinţe sau informaţii noi din dateledisponibile
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3657
36
Căutarea poate fi dirijată sau nedirijată
Căutarea dirijată ia icircn considerare un atribut sau un cacircmpale cărui valori icircncearcă să le explice prin celelalte cacircmpuriEste cea mai folosită icircn practică
Căutarea nedirijată are ca scop identificarea relaţiilor saustructurilor existente icircn ansamblul datelor examinate fără aacorda prioritate unui cacircmp sau altul
Deşi mai spectaculoasă icircn practică se recurge mult maipuţin la ea decacirct la căutarea dirijată
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3757
37
Data mining
verificarea
ipotezelor
căutarea de
cunoştinţe
dirijată nedirijată
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3857
38
Tehnici şi acţiuni
Data mining exploatează colecţiile de date de care dispune o
organizaţie
La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei
icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc
Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod
intrinsec
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3957
39
Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de
icircnţeles o tendinţă relevată de un număr foarte mare de cazuri
practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii
Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se
reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor
raţionamentele bazate pe cazuri analiza legăturilor
La acestea se pot asocia şi tehnici statistice cum sunt spre
exemplu regresiile analiza factorială etc
M d l di ti
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4057
40 40
Modele predictivehellip
Arbori de decizie
Clasificări după cel mai apropiat vecin
Reţele neuronale
Reguli
Analiza grupurilor
A l d i i ă l ă l i i
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4157
41
Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea
predicţiagrupareaanaliza grupărilor
Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un
grup limitat de clase predefinite
Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut
mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4257
42
Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare
Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări
Predicţia urmăreşte să claseze icircnregistrările tratate icircn
funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un
model care să explice comportamentul observat
Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora
icircn viitor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4357
43
Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună
Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei
Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster
Spre deosebire de celelalte tipuri de acţiuni asemănătoare
aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4457
44
Etapele procesului de exploatare a datelor
Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare
Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date
colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4557
45
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4657
46
Evaluarea modelului
Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare
Integrarea modelului
Această etapă finalizează procesul prin includerea
modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4757
172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up
Overview of Fisherrsquos Iris Dataset
Fisherrsquos iris dataset is available for download from the tutorial website
httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls
Iris photos courtesy of SIGNA ndash wwwsignaorg
Fisherrsquos iris dataset is well-known in
data mining research
This dataset is commonly used to
illustrate data mining tools
Mark Polczynski PhD The Technology Forge mhptechforgegmailnet
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4857
172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up
Fisherrsquos Database - Background
Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems
Annals of Eugenics 7 179 ndash188 available at
httpdigitallibraryadelaideeduaucollspecialfisher138pdf
iris setosa iris versicolor iris virginica
Dataset contains flower dimension measurements on 50 samples of each species
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4957
172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up
Fisherrsquos Dataset- Background
Data mining terminology
bull The four iris dimensions are termed attributes or input attributes
bull The three iris species are termed classes or output attributes
bull Each example of an iris is termed a sample or instance
Anderson measured these dimensions
bull sepal length
bull sepal width
bull petal length
bull petal width
Measurements on these iris speciesbull setosa
bull versicolor
bull virginica
S t f Fi h rsquo I i D t t
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5057
172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up
Segment of Fisherrsquos Iris Dataset
Input Output
Attributes Attribute
Inst
Sepal
Length
Sepal
Width
Petal
Length
Petal
Width Species1 51 35 14 02 setosa
2 49 3 14 02 setosa
3 47 32 13 02 setosa
4 46 31 15 02 setosa5 5 36 14 02 setosa
Numerical Nominal
ClassSample
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5157
172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up
What Problem are We Trying to Solve
Iris setosa
Weka
decisiontree
Iris versicolor
Iris virginica
Our taskClassify unknown iris using
measurements on 150 iris
samples of known species
Instrumente pentru Data-Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5257
52
Instrumente pentru Data-Mining
Weka Documentation httpwwwcswaikatoacnzmlweka
Waikato Environment for Knowledge Analysis
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5357
53
Instrumente pentru Data-Mining
Principalii producători de soft pentruData-Mining
ndash IBM ndash Intelligent Miner extensie pentru DB2
ndash SAS ndash Enterprise Miner
ndash SPSS ndash Clementine
ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)
ndash hellipmulți alți producători mai mici
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5457
54
Instrumente pentru Data-Mining
SPSS - Clementine
ndash httpwwwspsscomclementine Oracle - Darwin
ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet
ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner
ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml
Standarde Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5557
55
Standarde Data Mining
PMML (Predictive Modelling Markup Language)
ndash Limbaj similar XML pentru salvare și partajare de
modele (cel mai acceptat standard)
CRISP
ndash Metodologie standardizată pentru construirea deaplicații Data Mining
OLE DB pentru Data Mining
ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)
IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5657
56
1 INTRODUCERE
2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE
3-7
CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale
Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici
8 CLUSTERIZARE (ANALIZA CLUSTERILOR)
9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA
ASOCIERILOR)
10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR
11 EVALUAREA MODELELOR
12 APLICAŢII ŞI TENDINŢE IN DATA MINING
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5757
Mulţumesc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2157
21
Aplicaţii potenţiale
Analiza bazelor de date şi suport pentru decizie
ndash Analiza şi managementul pieţei
ndash Analiza şi managementul riscurilor
ndash Detecţia fraudelor
Analiza textelor - Text Mining
Analiză Web - Web Mining Răspuns inteligent la interogări
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2257
22
Analiza şi managementul pieţei
Care sunt sursele datelor de analizat ndash Tranzacţiile cu cardurile de credit cardurile de
fidelitate cupoanele de discount reclamaţiile clienţilorstudiile publice de stil de viaţă
Ţinta de marketing ndash Trebuie găsite grupuri de clienţi ―model care au
aceleaşi caracteristici interese nivel de venit obiceiuride cumpărare etc
Determinarea profilului cumpărătorului icircn timp ndash Conversia unui cont bancar icircn mai multe conectate
căsătorie etc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2357
23
Analiza şi managementul riscurilor
Planificare financiară şi evaluarea capitalului
ndash Analiza şi prognoza fluxului de numerar (cash flow)
ndash Analiza seriilor temporale (analiza tendinţelor etc)
Planificarea resurselor
ndash sumarizarea şi compararea resurselor şi acheltuielilor
Competiţie ndash Monitorizarea competitorilor şi a direcţiilor pieţei
ndash Fundamentarea strategiei preţului icircntr -o piaţă foartecompetitivă
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2457
24
Detecţia fraudelor
Folosirea datelor istorice pentru a construi modele decomportament fraudulos şi utilizarea data mining pentruidentificarea exemplelor similare
Exemple de aplicaţii
ndash Asigurări auto detectarea unui grup de persoane care icircnscenează accidente pentru a icircncasa asigurarea
ndash Spălare de bani detectarea tranzacţiilor suspecte
ndash Detectarea fraudelor telefonice detectareacomportamentelor suspecte (modelul de apel -destinaţie timp durată)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2557
25
DeviationAnomaly Detection
Detect significant deviations from normal behavior
Applications ndash Credit Card Fraud Detection
ndash Network IntrusionDetection
Typical network traffic at
University level may reach over 100
million connections per day
TanSteinbach Kumar Introduction to Data Miningwwwuserscsumnedu~kumardmbookindexphp
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2657
26
Alte domenii de aplicaţie
Sport
ndash Analiza jocurilor icircn NBA (ex detectarea strategieiadversarului) Astronomie
ndash Descoperirea şi clasificarea unor noi obiecte
Internet ndash Analiza acceselor Web descoperirea unor şabloane
(patterns) comportamentale analiza eficienţeimarketingului Web icircmbunătăţirea organizării site-urilor
Web Text
ndash Analiza ştirilor analiza icircnregistrărilor medicale sortarea şifiltrarea automată a e-mail-urilor clasificarea automată a
documentelor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2757
27
Contribuţii
Data Mining
Inteligenţă Artificială
Calculatoare performanteStatistică
Sisteme de baze dedate
Cercetări operaţionale
GIS
Vizualizare
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2857
28
Data miningintersecţia unor discipline multiple
Sisteme de baze de date data warehouse şi OLAP
Statistică
Maşini instruibile (Machine learning)
Vizualizare Informatică
Calcul de icircnaltă performanţă
Alte discipline ndash Reţele neuronale modelare matematică regăsirea
informaţiilor recunoaşterea formelor (patternrecognition)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2957
29
Architectura unui sistem tipic de Data Mining
Data
Warehouse
Curăţarea şi integrarea datelor Filtrare
Baze de date
Server de baze de date
sau de Data Warehouse
Motor data mining
Evaluarea şabloanelor
Interfaţă grafică utilizator
Bază de
cunoştinţe
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3057
30
Evoluţia tehnologiei bazelor de date
Anii 1960
ndash Colecţii de date crearea bazelor de date baze de datereţea
Anii 1970
ndash Modelul relaţional implementarea SGBD relaţional Anii 1980
ndash SGBD relaţionale modele de date avansate (relaţionalextins OO deductive etc) şi SGBD-uri specifice
(domeniul spatial ştiinţific inginerie etc) Anii 1990mdash2000
ndash Data mining şi data warehouse baze de date multimediabaze de date Web
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3157
31
Proces
Data mining inima
procesului de
descoperire a
cunoaşterii
Curăţirea datelor
Baze dedate
Data Warehouse
Date relevante
Data Mining
Evaluarea configuraţiilor
C ţi icirc t d ti b ă d
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3257
32
Comparaţie icircntre procesarea de tip bază de
date şi cea de tip Data Mining
Interogare ndash Bine definită ndash SQL
Interogare ndash Slab definită ndash Nu există limbaj precis de
interogare
Date ndash Date operaţ ionale
Ieşirea ndash Precisă ndash Subset al bazei dedate
Date ndash Date neoperaţionale
Ieşirea ndash Vagă ndash Nu este un subset al bazeide date
E l d i t ă i
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3357
33
Exemple de interogări
Bază de date
Data Mining
ndash Găseşte toţi clienţii care au cumpărat lapte
ndash Găseşte toţi clienţii care au cumpărat frecvent
lapte (Reguli de asociere)
ndash Găseşte toţi titularii de credite cu numele Smith ndash Identifică toţi clienţii care au cumpărat de maimult de $10000 icircn ultima lună
ndash Găseşte toţi titularii de credite cu risc mic decreditare (Clasificare)
ndash Identifică clienţii cu obiceiuri similare decumpărare (Grupare)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3457
34
Modele şi tehnici Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3557
35
Verificarea ipotezelor şi căutarea cunoştinţelor
Aplicarea tehnicilor de data mining poate fi făcută dinperspectiva unui demers ascendent sau descendent
Icircn abordarea descendentă efortul este orientat spre
confirmarea sau infirmarea unor idei (ipoteze) formulate icircnprealabil prin alte mijloace
Abordarea ascendentă are o cu totul altă finalitate ea
urmăreşte extragerea de cunoştinţe sau informaţii noi din dateledisponibile
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3657
36
Căutarea poate fi dirijată sau nedirijată
Căutarea dirijată ia icircn considerare un atribut sau un cacircmpale cărui valori icircncearcă să le explice prin celelalte cacircmpuriEste cea mai folosită icircn practică
Căutarea nedirijată are ca scop identificarea relaţiilor saustructurilor existente icircn ansamblul datelor examinate fără aacorda prioritate unui cacircmp sau altul
Deşi mai spectaculoasă icircn practică se recurge mult maipuţin la ea decacirct la căutarea dirijată
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3757
37
Data mining
verificarea
ipotezelor
căutarea de
cunoştinţe
dirijată nedirijată
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3857
38
Tehnici şi acţiuni
Data mining exploatează colecţiile de date de care dispune o
organizaţie
La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei
icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc
Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod
intrinsec
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3957
39
Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de
icircnţeles o tendinţă relevată de un număr foarte mare de cazuri
practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii
Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se
reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor
raţionamentele bazate pe cazuri analiza legăturilor
La acestea se pot asocia şi tehnici statistice cum sunt spre
exemplu regresiile analiza factorială etc
M d l di ti
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4057
40 40
Modele predictivehellip
Arbori de decizie
Clasificări după cel mai apropiat vecin
Reţele neuronale
Reguli
Analiza grupurilor
A l d i i ă l ă l i i
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4157
41
Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea
predicţiagrupareaanaliza grupărilor
Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un
grup limitat de clase predefinite
Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut
mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4257
42
Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare
Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări
Predicţia urmăreşte să claseze icircnregistrările tratate icircn
funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un
model care să explice comportamentul observat
Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora
icircn viitor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4357
43
Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună
Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei
Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster
Spre deosebire de celelalte tipuri de acţiuni asemănătoare
aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4457
44
Etapele procesului de exploatare a datelor
Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare
Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date
colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4557
45
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4657
46
Evaluarea modelului
Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare
Integrarea modelului
Această etapă finalizează procesul prin includerea
modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4757
172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up
Overview of Fisherrsquos Iris Dataset
Fisherrsquos iris dataset is available for download from the tutorial website
httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls
Iris photos courtesy of SIGNA ndash wwwsignaorg
Fisherrsquos iris dataset is well-known in
data mining research
This dataset is commonly used to
illustrate data mining tools
Mark Polczynski PhD The Technology Forge mhptechforgegmailnet
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4857
172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up
Fisherrsquos Database - Background
Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems
Annals of Eugenics 7 179 ndash188 available at
httpdigitallibraryadelaideeduaucollspecialfisher138pdf
iris setosa iris versicolor iris virginica
Dataset contains flower dimension measurements on 50 samples of each species
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4957
172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up
Fisherrsquos Dataset- Background
Data mining terminology
bull The four iris dimensions are termed attributes or input attributes
bull The three iris species are termed classes or output attributes
bull Each example of an iris is termed a sample or instance
Anderson measured these dimensions
bull sepal length
bull sepal width
bull petal length
bull petal width
Measurements on these iris speciesbull setosa
bull versicolor
bull virginica
S t f Fi h rsquo I i D t t
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5057
172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up
Segment of Fisherrsquos Iris Dataset
Input Output
Attributes Attribute
Inst
Sepal
Length
Sepal
Width
Petal
Length
Petal
Width Species1 51 35 14 02 setosa
2 49 3 14 02 setosa
3 47 32 13 02 setosa
4 46 31 15 02 setosa5 5 36 14 02 setosa
Numerical Nominal
ClassSample
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5157
172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up
What Problem are We Trying to Solve
Iris setosa
Weka
decisiontree
Iris versicolor
Iris virginica
Our taskClassify unknown iris using
measurements on 150 iris
samples of known species
Instrumente pentru Data-Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5257
52
Instrumente pentru Data-Mining
Weka Documentation httpwwwcswaikatoacnzmlweka
Waikato Environment for Knowledge Analysis
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5357
53
Instrumente pentru Data-Mining
Principalii producători de soft pentruData-Mining
ndash IBM ndash Intelligent Miner extensie pentru DB2
ndash SAS ndash Enterprise Miner
ndash SPSS ndash Clementine
ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)
ndash hellipmulți alți producători mai mici
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5457
54
Instrumente pentru Data-Mining
SPSS - Clementine
ndash httpwwwspsscomclementine Oracle - Darwin
ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet
ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner
ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml
Standarde Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5557
55
Standarde Data Mining
PMML (Predictive Modelling Markup Language)
ndash Limbaj similar XML pentru salvare și partajare de
modele (cel mai acceptat standard)
CRISP
ndash Metodologie standardizată pentru construirea deaplicații Data Mining
OLE DB pentru Data Mining
ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)
IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5657
56
1 INTRODUCERE
2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE
3-7
CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale
Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici
8 CLUSTERIZARE (ANALIZA CLUSTERILOR)
9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA
ASOCIERILOR)
10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR
11 EVALUAREA MODELELOR
12 APLICAŢII ŞI TENDINŢE IN DATA MINING
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5757
Mulţumesc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2257
22
Analiza şi managementul pieţei
Care sunt sursele datelor de analizat ndash Tranzacţiile cu cardurile de credit cardurile de
fidelitate cupoanele de discount reclamaţiile clienţilorstudiile publice de stil de viaţă
Ţinta de marketing ndash Trebuie găsite grupuri de clienţi ―model care au
aceleaşi caracteristici interese nivel de venit obiceiuride cumpărare etc
Determinarea profilului cumpărătorului icircn timp ndash Conversia unui cont bancar icircn mai multe conectate
căsătorie etc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2357
23
Analiza şi managementul riscurilor
Planificare financiară şi evaluarea capitalului
ndash Analiza şi prognoza fluxului de numerar (cash flow)
ndash Analiza seriilor temporale (analiza tendinţelor etc)
Planificarea resurselor
ndash sumarizarea şi compararea resurselor şi acheltuielilor
Competiţie ndash Monitorizarea competitorilor şi a direcţiilor pieţei
ndash Fundamentarea strategiei preţului icircntr -o piaţă foartecompetitivă
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2457
24
Detecţia fraudelor
Folosirea datelor istorice pentru a construi modele decomportament fraudulos şi utilizarea data mining pentruidentificarea exemplelor similare
Exemple de aplicaţii
ndash Asigurări auto detectarea unui grup de persoane care icircnscenează accidente pentru a icircncasa asigurarea
ndash Spălare de bani detectarea tranzacţiilor suspecte
ndash Detectarea fraudelor telefonice detectareacomportamentelor suspecte (modelul de apel -destinaţie timp durată)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2557
25
DeviationAnomaly Detection
Detect significant deviations from normal behavior
Applications ndash Credit Card Fraud Detection
ndash Network IntrusionDetection
Typical network traffic at
University level may reach over 100
million connections per day
TanSteinbach Kumar Introduction to Data Miningwwwuserscsumnedu~kumardmbookindexphp
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2657
26
Alte domenii de aplicaţie
Sport
ndash Analiza jocurilor icircn NBA (ex detectarea strategieiadversarului) Astronomie
ndash Descoperirea şi clasificarea unor noi obiecte
Internet ndash Analiza acceselor Web descoperirea unor şabloane
(patterns) comportamentale analiza eficienţeimarketingului Web icircmbunătăţirea organizării site-urilor
Web Text
ndash Analiza ştirilor analiza icircnregistrărilor medicale sortarea şifiltrarea automată a e-mail-urilor clasificarea automată a
documentelor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2757
27
Contribuţii
Data Mining
Inteligenţă Artificială
Calculatoare performanteStatistică
Sisteme de baze dedate
Cercetări operaţionale
GIS
Vizualizare
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2857
28
Data miningintersecţia unor discipline multiple
Sisteme de baze de date data warehouse şi OLAP
Statistică
Maşini instruibile (Machine learning)
Vizualizare Informatică
Calcul de icircnaltă performanţă
Alte discipline ndash Reţele neuronale modelare matematică regăsirea
informaţiilor recunoaşterea formelor (patternrecognition)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2957
29
Architectura unui sistem tipic de Data Mining
Data
Warehouse
Curăţarea şi integrarea datelor Filtrare
Baze de date
Server de baze de date
sau de Data Warehouse
Motor data mining
Evaluarea şabloanelor
Interfaţă grafică utilizator
Bază de
cunoştinţe
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3057
30
Evoluţia tehnologiei bazelor de date
Anii 1960
ndash Colecţii de date crearea bazelor de date baze de datereţea
Anii 1970
ndash Modelul relaţional implementarea SGBD relaţional Anii 1980
ndash SGBD relaţionale modele de date avansate (relaţionalextins OO deductive etc) şi SGBD-uri specifice
(domeniul spatial ştiinţific inginerie etc) Anii 1990mdash2000
ndash Data mining şi data warehouse baze de date multimediabaze de date Web
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3157
31
Proces
Data mining inima
procesului de
descoperire a
cunoaşterii
Curăţirea datelor
Baze dedate
Data Warehouse
Date relevante
Data Mining
Evaluarea configuraţiilor
C ţi icirc t d ti b ă d
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3257
32
Comparaţie icircntre procesarea de tip bază de
date şi cea de tip Data Mining
Interogare ndash Bine definită ndash SQL
Interogare ndash Slab definită ndash Nu există limbaj precis de
interogare
Date ndash Date operaţ ionale
Ieşirea ndash Precisă ndash Subset al bazei dedate
Date ndash Date neoperaţionale
Ieşirea ndash Vagă ndash Nu este un subset al bazeide date
E l d i t ă i
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3357
33
Exemple de interogări
Bază de date
Data Mining
ndash Găseşte toţi clienţii care au cumpărat lapte
ndash Găseşte toţi clienţii care au cumpărat frecvent
lapte (Reguli de asociere)
ndash Găseşte toţi titularii de credite cu numele Smith ndash Identifică toţi clienţii care au cumpărat de maimult de $10000 icircn ultima lună
ndash Găseşte toţi titularii de credite cu risc mic decreditare (Clasificare)
ndash Identifică clienţii cu obiceiuri similare decumpărare (Grupare)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3457
34
Modele şi tehnici Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3557
35
Verificarea ipotezelor şi căutarea cunoştinţelor
Aplicarea tehnicilor de data mining poate fi făcută dinperspectiva unui demers ascendent sau descendent
Icircn abordarea descendentă efortul este orientat spre
confirmarea sau infirmarea unor idei (ipoteze) formulate icircnprealabil prin alte mijloace
Abordarea ascendentă are o cu totul altă finalitate ea
urmăreşte extragerea de cunoştinţe sau informaţii noi din dateledisponibile
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3657
36
Căutarea poate fi dirijată sau nedirijată
Căutarea dirijată ia icircn considerare un atribut sau un cacircmpale cărui valori icircncearcă să le explice prin celelalte cacircmpuriEste cea mai folosită icircn practică
Căutarea nedirijată are ca scop identificarea relaţiilor saustructurilor existente icircn ansamblul datelor examinate fără aacorda prioritate unui cacircmp sau altul
Deşi mai spectaculoasă icircn practică se recurge mult maipuţin la ea decacirct la căutarea dirijată
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3757
37
Data mining
verificarea
ipotezelor
căutarea de
cunoştinţe
dirijată nedirijată
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3857
38
Tehnici şi acţiuni
Data mining exploatează colecţiile de date de care dispune o
organizaţie
La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei
icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc
Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod
intrinsec
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3957
39
Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de
icircnţeles o tendinţă relevată de un număr foarte mare de cazuri
practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii
Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se
reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor
raţionamentele bazate pe cazuri analiza legăturilor
La acestea se pot asocia şi tehnici statistice cum sunt spre
exemplu regresiile analiza factorială etc
M d l di ti
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4057
40 40
Modele predictivehellip
Arbori de decizie
Clasificări după cel mai apropiat vecin
Reţele neuronale
Reguli
Analiza grupurilor
A l d i i ă l ă l i i
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4157
41
Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea
predicţiagrupareaanaliza grupărilor
Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un
grup limitat de clase predefinite
Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut
mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4257
42
Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare
Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări
Predicţia urmăreşte să claseze icircnregistrările tratate icircn
funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un
model care să explice comportamentul observat
Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora
icircn viitor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4357
43
Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună
Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei
Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster
Spre deosebire de celelalte tipuri de acţiuni asemănătoare
aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4457
44
Etapele procesului de exploatare a datelor
Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare
Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date
colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4557
45
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4657
46
Evaluarea modelului
Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare
Integrarea modelului
Această etapă finalizează procesul prin includerea
modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4757
172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up
Overview of Fisherrsquos Iris Dataset
Fisherrsquos iris dataset is available for download from the tutorial website
httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls
Iris photos courtesy of SIGNA ndash wwwsignaorg
Fisherrsquos iris dataset is well-known in
data mining research
This dataset is commonly used to
illustrate data mining tools
Mark Polczynski PhD The Technology Forge mhptechforgegmailnet
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4857
172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up
Fisherrsquos Database - Background
Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems
Annals of Eugenics 7 179 ndash188 available at
httpdigitallibraryadelaideeduaucollspecialfisher138pdf
iris setosa iris versicolor iris virginica
Dataset contains flower dimension measurements on 50 samples of each species
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4957
172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up
Fisherrsquos Dataset- Background
Data mining terminology
bull The four iris dimensions are termed attributes or input attributes
bull The three iris species are termed classes or output attributes
bull Each example of an iris is termed a sample or instance
Anderson measured these dimensions
bull sepal length
bull sepal width
bull petal length
bull petal width
Measurements on these iris speciesbull setosa
bull versicolor
bull virginica
S t f Fi h rsquo I i D t t
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5057
172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up
Segment of Fisherrsquos Iris Dataset
Input Output
Attributes Attribute
Inst
Sepal
Length
Sepal
Width
Petal
Length
Petal
Width Species1 51 35 14 02 setosa
2 49 3 14 02 setosa
3 47 32 13 02 setosa
4 46 31 15 02 setosa5 5 36 14 02 setosa
Numerical Nominal
ClassSample
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5157
172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up
What Problem are We Trying to Solve
Iris setosa
Weka
decisiontree
Iris versicolor
Iris virginica
Our taskClassify unknown iris using
measurements on 150 iris
samples of known species
Instrumente pentru Data-Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5257
52
Instrumente pentru Data-Mining
Weka Documentation httpwwwcswaikatoacnzmlweka
Waikato Environment for Knowledge Analysis
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5357
53
Instrumente pentru Data-Mining
Principalii producători de soft pentruData-Mining
ndash IBM ndash Intelligent Miner extensie pentru DB2
ndash SAS ndash Enterprise Miner
ndash SPSS ndash Clementine
ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)
ndash hellipmulți alți producători mai mici
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5457
54
Instrumente pentru Data-Mining
SPSS - Clementine
ndash httpwwwspsscomclementine Oracle - Darwin
ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet
ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner
ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml
Standarde Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5557
55
Standarde Data Mining
PMML (Predictive Modelling Markup Language)
ndash Limbaj similar XML pentru salvare și partajare de
modele (cel mai acceptat standard)
CRISP
ndash Metodologie standardizată pentru construirea deaplicații Data Mining
OLE DB pentru Data Mining
ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)
IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5657
56
1 INTRODUCERE
2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE
3-7
CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale
Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici
8 CLUSTERIZARE (ANALIZA CLUSTERILOR)
9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA
ASOCIERILOR)
10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR
11 EVALUAREA MODELELOR
12 APLICAŢII ŞI TENDINŢE IN DATA MINING
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5757
Mulţumesc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2357
23
Analiza şi managementul riscurilor
Planificare financiară şi evaluarea capitalului
ndash Analiza şi prognoza fluxului de numerar (cash flow)
ndash Analiza seriilor temporale (analiza tendinţelor etc)
Planificarea resurselor
ndash sumarizarea şi compararea resurselor şi acheltuielilor
Competiţie ndash Monitorizarea competitorilor şi a direcţiilor pieţei
ndash Fundamentarea strategiei preţului icircntr -o piaţă foartecompetitivă
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2457
24
Detecţia fraudelor
Folosirea datelor istorice pentru a construi modele decomportament fraudulos şi utilizarea data mining pentruidentificarea exemplelor similare
Exemple de aplicaţii
ndash Asigurări auto detectarea unui grup de persoane care icircnscenează accidente pentru a icircncasa asigurarea
ndash Spălare de bani detectarea tranzacţiilor suspecte
ndash Detectarea fraudelor telefonice detectareacomportamentelor suspecte (modelul de apel -destinaţie timp durată)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2557
25
DeviationAnomaly Detection
Detect significant deviations from normal behavior
Applications ndash Credit Card Fraud Detection
ndash Network IntrusionDetection
Typical network traffic at
University level may reach over 100
million connections per day
TanSteinbach Kumar Introduction to Data Miningwwwuserscsumnedu~kumardmbookindexphp
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2657
26
Alte domenii de aplicaţie
Sport
ndash Analiza jocurilor icircn NBA (ex detectarea strategieiadversarului) Astronomie
ndash Descoperirea şi clasificarea unor noi obiecte
Internet ndash Analiza acceselor Web descoperirea unor şabloane
(patterns) comportamentale analiza eficienţeimarketingului Web icircmbunătăţirea organizării site-urilor
Web Text
ndash Analiza ştirilor analiza icircnregistrărilor medicale sortarea şifiltrarea automată a e-mail-urilor clasificarea automată a
documentelor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2757
27
Contribuţii
Data Mining
Inteligenţă Artificială
Calculatoare performanteStatistică
Sisteme de baze dedate
Cercetări operaţionale
GIS
Vizualizare
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2857
28
Data miningintersecţia unor discipline multiple
Sisteme de baze de date data warehouse şi OLAP
Statistică
Maşini instruibile (Machine learning)
Vizualizare Informatică
Calcul de icircnaltă performanţă
Alte discipline ndash Reţele neuronale modelare matematică regăsirea
informaţiilor recunoaşterea formelor (patternrecognition)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2957
29
Architectura unui sistem tipic de Data Mining
Data
Warehouse
Curăţarea şi integrarea datelor Filtrare
Baze de date
Server de baze de date
sau de Data Warehouse
Motor data mining
Evaluarea şabloanelor
Interfaţă grafică utilizator
Bază de
cunoştinţe
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3057
30
Evoluţia tehnologiei bazelor de date
Anii 1960
ndash Colecţii de date crearea bazelor de date baze de datereţea
Anii 1970
ndash Modelul relaţional implementarea SGBD relaţional Anii 1980
ndash SGBD relaţionale modele de date avansate (relaţionalextins OO deductive etc) şi SGBD-uri specifice
(domeniul spatial ştiinţific inginerie etc) Anii 1990mdash2000
ndash Data mining şi data warehouse baze de date multimediabaze de date Web
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3157
31
Proces
Data mining inima
procesului de
descoperire a
cunoaşterii
Curăţirea datelor
Baze dedate
Data Warehouse
Date relevante
Data Mining
Evaluarea configuraţiilor
C ţi icirc t d ti b ă d
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3257
32
Comparaţie icircntre procesarea de tip bază de
date şi cea de tip Data Mining
Interogare ndash Bine definită ndash SQL
Interogare ndash Slab definită ndash Nu există limbaj precis de
interogare
Date ndash Date operaţ ionale
Ieşirea ndash Precisă ndash Subset al bazei dedate
Date ndash Date neoperaţionale
Ieşirea ndash Vagă ndash Nu este un subset al bazeide date
E l d i t ă i
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3357
33
Exemple de interogări
Bază de date
Data Mining
ndash Găseşte toţi clienţii care au cumpărat lapte
ndash Găseşte toţi clienţii care au cumpărat frecvent
lapte (Reguli de asociere)
ndash Găseşte toţi titularii de credite cu numele Smith ndash Identifică toţi clienţii care au cumpărat de maimult de $10000 icircn ultima lună
ndash Găseşte toţi titularii de credite cu risc mic decreditare (Clasificare)
ndash Identifică clienţii cu obiceiuri similare decumpărare (Grupare)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3457
34
Modele şi tehnici Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3557
35
Verificarea ipotezelor şi căutarea cunoştinţelor
Aplicarea tehnicilor de data mining poate fi făcută dinperspectiva unui demers ascendent sau descendent
Icircn abordarea descendentă efortul este orientat spre
confirmarea sau infirmarea unor idei (ipoteze) formulate icircnprealabil prin alte mijloace
Abordarea ascendentă are o cu totul altă finalitate ea
urmăreşte extragerea de cunoştinţe sau informaţii noi din dateledisponibile
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3657
36
Căutarea poate fi dirijată sau nedirijată
Căutarea dirijată ia icircn considerare un atribut sau un cacircmpale cărui valori icircncearcă să le explice prin celelalte cacircmpuriEste cea mai folosită icircn practică
Căutarea nedirijată are ca scop identificarea relaţiilor saustructurilor existente icircn ansamblul datelor examinate fără aacorda prioritate unui cacircmp sau altul
Deşi mai spectaculoasă icircn practică se recurge mult maipuţin la ea decacirct la căutarea dirijată
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3757
37
Data mining
verificarea
ipotezelor
căutarea de
cunoştinţe
dirijată nedirijată
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3857
38
Tehnici şi acţiuni
Data mining exploatează colecţiile de date de care dispune o
organizaţie
La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei
icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc
Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod
intrinsec
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3957
39
Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de
icircnţeles o tendinţă relevată de un număr foarte mare de cazuri
practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii
Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se
reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor
raţionamentele bazate pe cazuri analiza legăturilor
La acestea se pot asocia şi tehnici statistice cum sunt spre
exemplu regresiile analiza factorială etc
M d l di ti
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4057
40 40
Modele predictivehellip
Arbori de decizie
Clasificări după cel mai apropiat vecin
Reţele neuronale
Reguli
Analiza grupurilor
A l d i i ă l ă l i i
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4157
41
Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea
predicţiagrupareaanaliza grupărilor
Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un
grup limitat de clase predefinite
Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut
mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4257
42
Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare
Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări
Predicţia urmăreşte să claseze icircnregistrările tratate icircn
funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un
model care să explice comportamentul observat
Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora
icircn viitor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4357
43
Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună
Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei
Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster
Spre deosebire de celelalte tipuri de acţiuni asemănătoare
aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4457
44
Etapele procesului de exploatare a datelor
Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare
Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date
colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4557
45
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4657
46
Evaluarea modelului
Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare
Integrarea modelului
Această etapă finalizează procesul prin includerea
modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4757
172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up
Overview of Fisherrsquos Iris Dataset
Fisherrsquos iris dataset is available for download from the tutorial website
httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls
Iris photos courtesy of SIGNA ndash wwwsignaorg
Fisherrsquos iris dataset is well-known in
data mining research
This dataset is commonly used to
illustrate data mining tools
Mark Polczynski PhD The Technology Forge mhptechforgegmailnet
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4857
172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up
Fisherrsquos Database - Background
Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems
Annals of Eugenics 7 179 ndash188 available at
httpdigitallibraryadelaideeduaucollspecialfisher138pdf
iris setosa iris versicolor iris virginica
Dataset contains flower dimension measurements on 50 samples of each species
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4957
172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up
Fisherrsquos Dataset- Background
Data mining terminology
bull The four iris dimensions are termed attributes or input attributes
bull The three iris species are termed classes or output attributes
bull Each example of an iris is termed a sample or instance
Anderson measured these dimensions
bull sepal length
bull sepal width
bull petal length
bull petal width
Measurements on these iris speciesbull setosa
bull versicolor
bull virginica
S t f Fi h rsquo I i D t t
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5057
172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up
Segment of Fisherrsquos Iris Dataset
Input Output
Attributes Attribute
Inst
Sepal
Length
Sepal
Width
Petal
Length
Petal
Width Species1 51 35 14 02 setosa
2 49 3 14 02 setosa
3 47 32 13 02 setosa
4 46 31 15 02 setosa5 5 36 14 02 setosa
Numerical Nominal
ClassSample
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5157
172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up
What Problem are We Trying to Solve
Iris setosa
Weka
decisiontree
Iris versicolor
Iris virginica
Our taskClassify unknown iris using
measurements on 150 iris
samples of known species
Instrumente pentru Data-Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5257
52
Instrumente pentru Data-Mining
Weka Documentation httpwwwcswaikatoacnzmlweka
Waikato Environment for Knowledge Analysis
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5357
53
Instrumente pentru Data-Mining
Principalii producători de soft pentruData-Mining
ndash IBM ndash Intelligent Miner extensie pentru DB2
ndash SAS ndash Enterprise Miner
ndash SPSS ndash Clementine
ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)
ndash hellipmulți alți producători mai mici
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5457
54
Instrumente pentru Data-Mining
SPSS - Clementine
ndash httpwwwspsscomclementine Oracle - Darwin
ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet
ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner
ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml
Standarde Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5557
55
Standarde Data Mining
PMML (Predictive Modelling Markup Language)
ndash Limbaj similar XML pentru salvare și partajare de
modele (cel mai acceptat standard)
CRISP
ndash Metodologie standardizată pentru construirea deaplicații Data Mining
OLE DB pentru Data Mining
ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)
IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5657
56
1 INTRODUCERE
2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE
3-7
CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale
Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici
8 CLUSTERIZARE (ANALIZA CLUSTERILOR)
9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA
ASOCIERILOR)
10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR
11 EVALUAREA MODELELOR
12 APLICAŢII ŞI TENDINŢE IN DATA MINING
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5757
Mulţumesc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2457
24
Detecţia fraudelor
Folosirea datelor istorice pentru a construi modele decomportament fraudulos şi utilizarea data mining pentruidentificarea exemplelor similare
Exemple de aplicaţii
ndash Asigurări auto detectarea unui grup de persoane care icircnscenează accidente pentru a icircncasa asigurarea
ndash Spălare de bani detectarea tranzacţiilor suspecte
ndash Detectarea fraudelor telefonice detectareacomportamentelor suspecte (modelul de apel -destinaţie timp durată)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2557
25
DeviationAnomaly Detection
Detect significant deviations from normal behavior
Applications ndash Credit Card Fraud Detection
ndash Network IntrusionDetection
Typical network traffic at
University level may reach over 100
million connections per day
TanSteinbach Kumar Introduction to Data Miningwwwuserscsumnedu~kumardmbookindexphp
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2657
26
Alte domenii de aplicaţie
Sport
ndash Analiza jocurilor icircn NBA (ex detectarea strategieiadversarului) Astronomie
ndash Descoperirea şi clasificarea unor noi obiecte
Internet ndash Analiza acceselor Web descoperirea unor şabloane
(patterns) comportamentale analiza eficienţeimarketingului Web icircmbunătăţirea organizării site-urilor
Web Text
ndash Analiza ştirilor analiza icircnregistrărilor medicale sortarea şifiltrarea automată a e-mail-urilor clasificarea automată a
documentelor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2757
27
Contribuţii
Data Mining
Inteligenţă Artificială
Calculatoare performanteStatistică
Sisteme de baze dedate
Cercetări operaţionale
GIS
Vizualizare
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2857
28
Data miningintersecţia unor discipline multiple
Sisteme de baze de date data warehouse şi OLAP
Statistică
Maşini instruibile (Machine learning)
Vizualizare Informatică
Calcul de icircnaltă performanţă
Alte discipline ndash Reţele neuronale modelare matematică regăsirea
informaţiilor recunoaşterea formelor (patternrecognition)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2957
29
Architectura unui sistem tipic de Data Mining
Data
Warehouse
Curăţarea şi integrarea datelor Filtrare
Baze de date
Server de baze de date
sau de Data Warehouse
Motor data mining
Evaluarea şabloanelor
Interfaţă grafică utilizator
Bază de
cunoştinţe
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3057
30
Evoluţia tehnologiei bazelor de date
Anii 1960
ndash Colecţii de date crearea bazelor de date baze de datereţea
Anii 1970
ndash Modelul relaţional implementarea SGBD relaţional Anii 1980
ndash SGBD relaţionale modele de date avansate (relaţionalextins OO deductive etc) şi SGBD-uri specifice
(domeniul spatial ştiinţific inginerie etc) Anii 1990mdash2000
ndash Data mining şi data warehouse baze de date multimediabaze de date Web
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3157
31
Proces
Data mining inima
procesului de
descoperire a
cunoaşterii
Curăţirea datelor
Baze dedate
Data Warehouse
Date relevante
Data Mining
Evaluarea configuraţiilor
C ţi icirc t d ti b ă d
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3257
32
Comparaţie icircntre procesarea de tip bază de
date şi cea de tip Data Mining
Interogare ndash Bine definită ndash SQL
Interogare ndash Slab definită ndash Nu există limbaj precis de
interogare
Date ndash Date operaţ ionale
Ieşirea ndash Precisă ndash Subset al bazei dedate
Date ndash Date neoperaţionale
Ieşirea ndash Vagă ndash Nu este un subset al bazeide date
E l d i t ă i
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3357
33
Exemple de interogări
Bază de date
Data Mining
ndash Găseşte toţi clienţii care au cumpărat lapte
ndash Găseşte toţi clienţii care au cumpărat frecvent
lapte (Reguli de asociere)
ndash Găseşte toţi titularii de credite cu numele Smith ndash Identifică toţi clienţii care au cumpărat de maimult de $10000 icircn ultima lună
ndash Găseşte toţi titularii de credite cu risc mic decreditare (Clasificare)
ndash Identifică clienţii cu obiceiuri similare decumpărare (Grupare)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3457
34
Modele şi tehnici Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3557
35
Verificarea ipotezelor şi căutarea cunoştinţelor
Aplicarea tehnicilor de data mining poate fi făcută dinperspectiva unui demers ascendent sau descendent
Icircn abordarea descendentă efortul este orientat spre
confirmarea sau infirmarea unor idei (ipoteze) formulate icircnprealabil prin alte mijloace
Abordarea ascendentă are o cu totul altă finalitate ea
urmăreşte extragerea de cunoştinţe sau informaţii noi din dateledisponibile
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3657
36
Căutarea poate fi dirijată sau nedirijată
Căutarea dirijată ia icircn considerare un atribut sau un cacircmpale cărui valori icircncearcă să le explice prin celelalte cacircmpuriEste cea mai folosită icircn practică
Căutarea nedirijată are ca scop identificarea relaţiilor saustructurilor existente icircn ansamblul datelor examinate fără aacorda prioritate unui cacircmp sau altul
Deşi mai spectaculoasă icircn practică se recurge mult maipuţin la ea decacirct la căutarea dirijată
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3757
37
Data mining
verificarea
ipotezelor
căutarea de
cunoştinţe
dirijată nedirijată
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3857
38
Tehnici şi acţiuni
Data mining exploatează colecţiile de date de care dispune o
organizaţie
La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei
icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc
Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod
intrinsec
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3957
39
Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de
icircnţeles o tendinţă relevată de un număr foarte mare de cazuri
practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii
Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se
reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor
raţionamentele bazate pe cazuri analiza legăturilor
La acestea se pot asocia şi tehnici statistice cum sunt spre
exemplu regresiile analiza factorială etc
M d l di ti
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4057
40 40
Modele predictivehellip
Arbori de decizie
Clasificări după cel mai apropiat vecin
Reţele neuronale
Reguli
Analiza grupurilor
A l d i i ă l ă l i i
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4157
41
Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea
predicţiagrupareaanaliza grupărilor
Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un
grup limitat de clase predefinite
Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut
mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4257
42
Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare
Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări
Predicţia urmăreşte să claseze icircnregistrările tratate icircn
funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un
model care să explice comportamentul observat
Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora
icircn viitor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4357
43
Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună
Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei
Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster
Spre deosebire de celelalte tipuri de acţiuni asemănătoare
aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4457
44
Etapele procesului de exploatare a datelor
Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare
Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date
colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4557
45
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4657
46
Evaluarea modelului
Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare
Integrarea modelului
Această etapă finalizează procesul prin includerea
modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4757
172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up
Overview of Fisherrsquos Iris Dataset
Fisherrsquos iris dataset is available for download from the tutorial website
httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls
Iris photos courtesy of SIGNA ndash wwwsignaorg
Fisherrsquos iris dataset is well-known in
data mining research
This dataset is commonly used to
illustrate data mining tools
Mark Polczynski PhD The Technology Forge mhptechforgegmailnet
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4857
172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up
Fisherrsquos Database - Background
Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems
Annals of Eugenics 7 179 ndash188 available at
httpdigitallibraryadelaideeduaucollspecialfisher138pdf
iris setosa iris versicolor iris virginica
Dataset contains flower dimension measurements on 50 samples of each species
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4957
172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up
Fisherrsquos Dataset- Background
Data mining terminology
bull The four iris dimensions are termed attributes or input attributes
bull The three iris species are termed classes or output attributes
bull Each example of an iris is termed a sample or instance
Anderson measured these dimensions
bull sepal length
bull sepal width
bull petal length
bull petal width
Measurements on these iris speciesbull setosa
bull versicolor
bull virginica
S t f Fi h rsquo I i D t t
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5057
172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up
Segment of Fisherrsquos Iris Dataset
Input Output
Attributes Attribute
Inst
Sepal
Length
Sepal
Width
Petal
Length
Petal
Width Species1 51 35 14 02 setosa
2 49 3 14 02 setosa
3 47 32 13 02 setosa
4 46 31 15 02 setosa5 5 36 14 02 setosa
Numerical Nominal
ClassSample
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5157
172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up
What Problem are We Trying to Solve
Iris setosa
Weka
decisiontree
Iris versicolor
Iris virginica
Our taskClassify unknown iris using
measurements on 150 iris
samples of known species
Instrumente pentru Data-Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5257
52
Instrumente pentru Data-Mining
Weka Documentation httpwwwcswaikatoacnzmlweka
Waikato Environment for Knowledge Analysis
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5357
53
Instrumente pentru Data-Mining
Principalii producători de soft pentruData-Mining
ndash IBM ndash Intelligent Miner extensie pentru DB2
ndash SAS ndash Enterprise Miner
ndash SPSS ndash Clementine
ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)
ndash hellipmulți alți producători mai mici
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5457
54
Instrumente pentru Data-Mining
SPSS - Clementine
ndash httpwwwspsscomclementine Oracle - Darwin
ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet
ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner
ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml
Standarde Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5557
55
Standarde Data Mining
PMML (Predictive Modelling Markup Language)
ndash Limbaj similar XML pentru salvare și partajare de
modele (cel mai acceptat standard)
CRISP
ndash Metodologie standardizată pentru construirea deaplicații Data Mining
OLE DB pentru Data Mining
ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)
IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5657
56
1 INTRODUCERE
2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE
3-7
CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale
Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici
8 CLUSTERIZARE (ANALIZA CLUSTERILOR)
9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA
ASOCIERILOR)
10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR
11 EVALUAREA MODELELOR
12 APLICAŢII ŞI TENDINŢE IN DATA MINING
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5757
Mulţumesc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2557
25
DeviationAnomaly Detection
Detect significant deviations from normal behavior
Applications ndash Credit Card Fraud Detection
ndash Network IntrusionDetection
Typical network traffic at
University level may reach over 100
million connections per day
TanSteinbach Kumar Introduction to Data Miningwwwuserscsumnedu~kumardmbookindexphp
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2657
26
Alte domenii de aplicaţie
Sport
ndash Analiza jocurilor icircn NBA (ex detectarea strategieiadversarului) Astronomie
ndash Descoperirea şi clasificarea unor noi obiecte
Internet ndash Analiza acceselor Web descoperirea unor şabloane
(patterns) comportamentale analiza eficienţeimarketingului Web icircmbunătăţirea organizării site-urilor
Web Text
ndash Analiza ştirilor analiza icircnregistrărilor medicale sortarea şifiltrarea automată a e-mail-urilor clasificarea automată a
documentelor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2757
27
Contribuţii
Data Mining
Inteligenţă Artificială
Calculatoare performanteStatistică
Sisteme de baze dedate
Cercetări operaţionale
GIS
Vizualizare
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2857
28
Data miningintersecţia unor discipline multiple
Sisteme de baze de date data warehouse şi OLAP
Statistică
Maşini instruibile (Machine learning)
Vizualizare Informatică
Calcul de icircnaltă performanţă
Alte discipline ndash Reţele neuronale modelare matematică regăsirea
informaţiilor recunoaşterea formelor (patternrecognition)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2957
29
Architectura unui sistem tipic de Data Mining
Data
Warehouse
Curăţarea şi integrarea datelor Filtrare
Baze de date
Server de baze de date
sau de Data Warehouse
Motor data mining
Evaluarea şabloanelor
Interfaţă grafică utilizator
Bază de
cunoştinţe
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3057
30
Evoluţia tehnologiei bazelor de date
Anii 1960
ndash Colecţii de date crearea bazelor de date baze de datereţea
Anii 1970
ndash Modelul relaţional implementarea SGBD relaţional Anii 1980
ndash SGBD relaţionale modele de date avansate (relaţionalextins OO deductive etc) şi SGBD-uri specifice
(domeniul spatial ştiinţific inginerie etc) Anii 1990mdash2000
ndash Data mining şi data warehouse baze de date multimediabaze de date Web
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3157
31
Proces
Data mining inima
procesului de
descoperire a
cunoaşterii
Curăţirea datelor
Baze dedate
Data Warehouse
Date relevante
Data Mining
Evaluarea configuraţiilor
C ţi icirc t d ti b ă d
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3257
32
Comparaţie icircntre procesarea de tip bază de
date şi cea de tip Data Mining
Interogare ndash Bine definită ndash SQL
Interogare ndash Slab definită ndash Nu există limbaj precis de
interogare
Date ndash Date operaţ ionale
Ieşirea ndash Precisă ndash Subset al bazei dedate
Date ndash Date neoperaţionale
Ieşirea ndash Vagă ndash Nu este un subset al bazeide date
E l d i t ă i
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3357
33
Exemple de interogări
Bază de date
Data Mining
ndash Găseşte toţi clienţii care au cumpărat lapte
ndash Găseşte toţi clienţii care au cumpărat frecvent
lapte (Reguli de asociere)
ndash Găseşte toţi titularii de credite cu numele Smith ndash Identifică toţi clienţii care au cumpărat de maimult de $10000 icircn ultima lună
ndash Găseşte toţi titularii de credite cu risc mic decreditare (Clasificare)
ndash Identifică clienţii cu obiceiuri similare decumpărare (Grupare)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3457
34
Modele şi tehnici Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3557
35
Verificarea ipotezelor şi căutarea cunoştinţelor
Aplicarea tehnicilor de data mining poate fi făcută dinperspectiva unui demers ascendent sau descendent
Icircn abordarea descendentă efortul este orientat spre
confirmarea sau infirmarea unor idei (ipoteze) formulate icircnprealabil prin alte mijloace
Abordarea ascendentă are o cu totul altă finalitate ea
urmăreşte extragerea de cunoştinţe sau informaţii noi din dateledisponibile
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3657
36
Căutarea poate fi dirijată sau nedirijată
Căutarea dirijată ia icircn considerare un atribut sau un cacircmpale cărui valori icircncearcă să le explice prin celelalte cacircmpuriEste cea mai folosită icircn practică
Căutarea nedirijată are ca scop identificarea relaţiilor saustructurilor existente icircn ansamblul datelor examinate fără aacorda prioritate unui cacircmp sau altul
Deşi mai spectaculoasă icircn practică se recurge mult maipuţin la ea decacirct la căutarea dirijată
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3757
37
Data mining
verificarea
ipotezelor
căutarea de
cunoştinţe
dirijată nedirijată
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3857
38
Tehnici şi acţiuni
Data mining exploatează colecţiile de date de care dispune o
organizaţie
La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei
icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc
Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod
intrinsec
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3957
39
Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de
icircnţeles o tendinţă relevată de un număr foarte mare de cazuri
practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii
Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se
reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor
raţionamentele bazate pe cazuri analiza legăturilor
La acestea se pot asocia şi tehnici statistice cum sunt spre
exemplu regresiile analiza factorială etc
M d l di ti
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4057
40 40
Modele predictivehellip
Arbori de decizie
Clasificări după cel mai apropiat vecin
Reţele neuronale
Reguli
Analiza grupurilor
A l d i i ă l ă l i i
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4157
41
Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea
predicţiagrupareaanaliza grupărilor
Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un
grup limitat de clase predefinite
Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut
mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4257
42
Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare
Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări
Predicţia urmăreşte să claseze icircnregistrările tratate icircn
funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un
model care să explice comportamentul observat
Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora
icircn viitor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4357
43
Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună
Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei
Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster
Spre deosebire de celelalte tipuri de acţiuni asemănătoare
aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4457
44
Etapele procesului de exploatare a datelor
Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare
Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date
colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4557
45
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4657
46
Evaluarea modelului
Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare
Integrarea modelului
Această etapă finalizează procesul prin includerea
modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4757
172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up
Overview of Fisherrsquos Iris Dataset
Fisherrsquos iris dataset is available for download from the tutorial website
httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls
Iris photos courtesy of SIGNA ndash wwwsignaorg
Fisherrsquos iris dataset is well-known in
data mining research
This dataset is commonly used to
illustrate data mining tools
Mark Polczynski PhD The Technology Forge mhptechforgegmailnet
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4857
172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up
Fisherrsquos Database - Background
Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems
Annals of Eugenics 7 179 ndash188 available at
httpdigitallibraryadelaideeduaucollspecialfisher138pdf
iris setosa iris versicolor iris virginica
Dataset contains flower dimension measurements on 50 samples of each species
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4957
172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up
Fisherrsquos Dataset- Background
Data mining terminology
bull The four iris dimensions are termed attributes or input attributes
bull The three iris species are termed classes or output attributes
bull Each example of an iris is termed a sample or instance
Anderson measured these dimensions
bull sepal length
bull sepal width
bull petal length
bull petal width
Measurements on these iris speciesbull setosa
bull versicolor
bull virginica
S t f Fi h rsquo I i D t t
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5057
172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up
Segment of Fisherrsquos Iris Dataset
Input Output
Attributes Attribute
Inst
Sepal
Length
Sepal
Width
Petal
Length
Petal
Width Species1 51 35 14 02 setosa
2 49 3 14 02 setosa
3 47 32 13 02 setosa
4 46 31 15 02 setosa5 5 36 14 02 setosa
Numerical Nominal
ClassSample
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5157
172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up
What Problem are We Trying to Solve
Iris setosa
Weka
decisiontree
Iris versicolor
Iris virginica
Our taskClassify unknown iris using
measurements on 150 iris
samples of known species
Instrumente pentru Data-Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5257
52
Instrumente pentru Data-Mining
Weka Documentation httpwwwcswaikatoacnzmlweka
Waikato Environment for Knowledge Analysis
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5357
53
Instrumente pentru Data-Mining
Principalii producători de soft pentruData-Mining
ndash IBM ndash Intelligent Miner extensie pentru DB2
ndash SAS ndash Enterprise Miner
ndash SPSS ndash Clementine
ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)
ndash hellipmulți alți producători mai mici
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5457
54
Instrumente pentru Data-Mining
SPSS - Clementine
ndash httpwwwspsscomclementine Oracle - Darwin
ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet
ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner
ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml
Standarde Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5557
55
Standarde Data Mining
PMML (Predictive Modelling Markup Language)
ndash Limbaj similar XML pentru salvare și partajare de
modele (cel mai acceptat standard)
CRISP
ndash Metodologie standardizată pentru construirea deaplicații Data Mining
OLE DB pentru Data Mining
ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)
IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5657
56
1 INTRODUCERE
2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE
3-7
CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale
Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici
8 CLUSTERIZARE (ANALIZA CLUSTERILOR)
9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA
ASOCIERILOR)
10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR
11 EVALUAREA MODELELOR
12 APLICAŢII ŞI TENDINŢE IN DATA MINING
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5757
Mulţumesc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2657
26
Alte domenii de aplicaţie
Sport
ndash Analiza jocurilor icircn NBA (ex detectarea strategieiadversarului) Astronomie
ndash Descoperirea şi clasificarea unor noi obiecte
Internet ndash Analiza acceselor Web descoperirea unor şabloane
(patterns) comportamentale analiza eficienţeimarketingului Web icircmbunătăţirea organizării site-urilor
Web Text
ndash Analiza ştirilor analiza icircnregistrărilor medicale sortarea şifiltrarea automată a e-mail-urilor clasificarea automată a
documentelor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2757
27
Contribuţii
Data Mining
Inteligenţă Artificială
Calculatoare performanteStatistică
Sisteme de baze dedate
Cercetări operaţionale
GIS
Vizualizare
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2857
28
Data miningintersecţia unor discipline multiple
Sisteme de baze de date data warehouse şi OLAP
Statistică
Maşini instruibile (Machine learning)
Vizualizare Informatică
Calcul de icircnaltă performanţă
Alte discipline ndash Reţele neuronale modelare matematică regăsirea
informaţiilor recunoaşterea formelor (patternrecognition)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2957
29
Architectura unui sistem tipic de Data Mining
Data
Warehouse
Curăţarea şi integrarea datelor Filtrare
Baze de date
Server de baze de date
sau de Data Warehouse
Motor data mining
Evaluarea şabloanelor
Interfaţă grafică utilizator
Bază de
cunoştinţe
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3057
30
Evoluţia tehnologiei bazelor de date
Anii 1960
ndash Colecţii de date crearea bazelor de date baze de datereţea
Anii 1970
ndash Modelul relaţional implementarea SGBD relaţional Anii 1980
ndash SGBD relaţionale modele de date avansate (relaţionalextins OO deductive etc) şi SGBD-uri specifice
(domeniul spatial ştiinţific inginerie etc) Anii 1990mdash2000
ndash Data mining şi data warehouse baze de date multimediabaze de date Web
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3157
31
Proces
Data mining inima
procesului de
descoperire a
cunoaşterii
Curăţirea datelor
Baze dedate
Data Warehouse
Date relevante
Data Mining
Evaluarea configuraţiilor
C ţi icirc t d ti b ă d
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3257
32
Comparaţie icircntre procesarea de tip bază de
date şi cea de tip Data Mining
Interogare ndash Bine definită ndash SQL
Interogare ndash Slab definită ndash Nu există limbaj precis de
interogare
Date ndash Date operaţ ionale
Ieşirea ndash Precisă ndash Subset al bazei dedate
Date ndash Date neoperaţionale
Ieşirea ndash Vagă ndash Nu este un subset al bazeide date
E l d i t ă i
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3357
33
Exemple de interogări
Bază de date
Data Mining
ndash Găseşte toţi clienţii care au cumpărat lapte
ndash Găseşte toţi clienţii care au cumpărat frecvent
lapte (Reguli de asociere)
ndash Găseşte toţi titularii de credite cu numele Smith ndash Identifică toţi clienţii care au cumpărat de maimult de $10000 icircn ultima lună
ndash Găseşte toţi titularii de credite cu risc mic decreditare (Clasificare)
ndash Identifică clienţii cu obiceiuri similare decumpărare (Grupare)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3457
34
Modele şi tehnici Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3557
35
Verificarea ipotezelor şi căutarea cunoştinţelor
Aplicarea tehnicilor de data mining poate fi făcută dinperspectiva unui demers ascendent sau descendent
Icircn abordarea descendentă efortul este orientat spre
confirmarea sau infirmarea unor idei (ipoteze) formulate icircnprealabil prin alte mijloace
Abordarea ascendentă are o cu totul altă finalitate ea
urmăreşte extragerea de cunoştinţe sau informaţii noi din dateledisponibile
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3657
36
Căutarea poate fi dirijată sau nedirijată
Căutarea dirijată ia icircn considerare un atribut sau un cacircmpale cărui valori icircncearcă să le explice prin celelalte cacircmpuriEste cea mai folosită icircn practică
Căutarea nedirijată are ca scop identificarea relaţiilor saustructurilor existente icircn ansamblul datelor examinate fără aacorda prioritate unui cacircmp sau altul
Deşi mai spectaculoasă icircn practică se recurge mult maipuţin la ea decacirct la căutarea dirijată
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3757
37
Data mining
verificarea
ipotezelor
căutarea de
cunoştinţe
dirijată nedirijată
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3857
38
Tehnici şi acţiuni
Data mining exploatează colecţiile de date de care dispune o
organizaţie
La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei
icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc
Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod
intrinsec
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3957
39
Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de
icircnţeles o tendinţă relevată de un număr foarte mare de cazuri
practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii
Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se
reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor
raţionamentele bazate pe cazuri analiza legăturilor
La acestea se pot asocia şi tehnici statistice cum sunt spre
exemplu regresiile analiza factorială etc
M d l di ti
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4057
40 40
Modele predictivehellip
Arbori de decizie
Clasificări după cel mai apropiat vecin
Reţele neuronale
Reguli
Analiza grupurilor
A l d i i ă l ă l i i
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4157
41
Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea
predicţiagrupareaanaliza grupărilor
Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un
grup limitat de clase predefinite
Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut
mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4257
42
Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare
Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări
Predicţia urmăreşte să claseze icircnregistrările tratate icircn
funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un
model care să explice comportamentul observat
Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora
icircn viitor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4357
43
Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună
Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei
Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster
Spre deosebire de celelalte tipuri de acţiuni asemănătoare
aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4457
44
Etapele procesului de exploatare a datelor
Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare
Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date
colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4557
45
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4657
46
Evaluarea modelului
Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare
Integrarea modelului
Această etapă finalizează procesul prin includerea
modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4757
172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up
Overview of Fisherrsquos Iris Dataset
Fisherrsquos iris dataset is available for download from the tutorial website
httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls
Iris photos courtesy of SIGNA ndash wwwsignaorg
Fisherrsquos iris dataset is well-known in
data mining research
This dataset is commonly used to
illustrate data mining tools
Mark Polczynski PhD The Technology Forge mhptechforgegmailnet
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4857
172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up
Fisherrsquos Database - Background
Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems
Annals of Eugenics 7 179 ndash188 available at
httpdigitallibraryadelaideeduaucollspecialfisher138pdf
iris setosa iris versicolor iris virginica
Dataset contains flower dimension measurements on 50 samples of each species
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4957
172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up
Fisherrsquos Dataset- Background
Data mining terminology
bull The four iris dimensions are termed attributes or input attributes
bull The three iris species are termed classes or output attributes
bull Each example of an iris is termed a sample or instance
Anderson measured these dimensions
bull sepal length
bull sepal width
bull petal length
bull petal width
Measurements on these iris speciesbull setosa
bull versicolor
bull virginica
S t f Fi h rsquo I i D t t
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5057
172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up
Segment of Fisherrsquos Iris Dataset
Input Output
Attributes Attribute
Inst
Sepal
Length
Sepal
Width
Petal
Length
Petal
Width Species1 51 35 14 02 setosa
2 49 3 14 02 setosa
3 47 32 13 02 setosa
4 46 31 15 02 setosa5 5 36 14 02 setosa
Numerical Nominal
ClassSample
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5157
172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up
What Problem are We Trying to Solve
Iris setosa
Weka
decisiontree
Iris versicolor
Iris virginica
Our taskClassify unknown iris using
measurements on 150 iris
samples of known species
Instrumente pentru Data-Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5257
52
Instrumente pentru Data-Mining
Weka Documentation httpwwwcswaikatoacnzmlweka
Waikato Environment for Knowledge Analysis
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5357
53
Instrumente pentru Data-Mining
Principalii producători de soft pentruData-Mining
ndash IBM ndash Intelligent Miner extensie pentru DB2
ndash SAS ndash Enterprise Miner
ndash SPSS ndash Clementine
ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)
ndash hellipmulți alți producători mai mici
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5457
54
Instrumente pentru Data-Mining
SPSS - Clementine
ndash httpwwwspsscomclementine Oracle - Darwin
ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet
ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner
ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml
Standarde Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5557
55
Standarde Data Mining
PMML (Predictive Modelling Markup Language)
ndash Limbaj similar XML pentru salvare și partajare de
modele (cel mai acceptat standard)
CRISP
ndash Metodologie standardizată pentru construirea deaplicații Data Mining
OLE DB pentru Data Mining
ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)
IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5657
56
1 INTRODUCERE
2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE
3-7
CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale
Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici
8 CLUSTERIZARE (ANALIZA CLUSTERILOR)
9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA
ASOCIERILOR)
10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR
11 EVALUAREA MODELELOR
12 APLICAŢII ŞI TENDINŢE IN DATA MINING
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5757
Mulţumesc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2757
27
Contribuţii
Data Mining
Inteligenţă Artificială
Calculatoare performanteStatistică
Sisteme de baze dedate
Cercetări operaţionale
GIS
Vizualizare
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2857
28
Data miningintersecţia unor discipline multiple
Sisteme de baze de date data warehouse şi OLAP
Statistică
Maşini instruibile (Machine learning)
Vizualizare Informatică
Calcul de icircnaltă performanţă
Alte discipline ndash Reţele neuronale modelare matematică regăsirea
informaţiilor recunoaşterea formelor (patternrecognition)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2957
29
Architectura unui sistem tipic de Data Mining
Data
Warehouse
Curăţarea şi integrarea datelor Filtrare
Baze de date
Server de baze de date
sau de Data Warehouse
Motor data mining
Evaluarea şabloanelor
Interfaţă grafică utilizator
Bază de
cunoştinţe
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3057
30
Evoluţia tehnologiei bazelor de date
Anii 1960
ndash Colecţii de date crearea bazelor de date baze de datereţea
Anii 1970
ndash Modelul relaţional implementarea SGBD relaţional Anii 1980
ndash SGBD relaţionale modele de date avansate (relaţionalextins OO deductive etc) şi SGBD-uri specifice
(domeniul spatial ştiinţific inginerie etc) Anii 1990mdash2000
ndash Data mining şi data warehouse baze de date multimediabaze de date Web
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3157
31
Proces
Data mining inima
procesului de
descoperire a
cunoaşterii
Curăţirea datelor
Baze dedate
Data Warehouse
Date relevante
Data Mining
Evaluarea configuraţiilor
C ţi icirc t d ti b ă d
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3257
32
Comparaţie icircntre procesarea de tip bază de
date şi cea de tip Data Mining
Interogare ndash Bine definită ndash SQL
Interogare ndash Slab definită ndash Nu există limbaj precis de
interogare
Date ndash Date operaţ ionale
Ieşirea ndash Precisă ndash Subset al bazei dedate
Date ndash Date neoperaţionale
Ieşirea ndash Vagă ndash Nu este un subset al bazeide date
E l d i t ă i
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3357
33
Exemple de interogări
Bază de date
Data Mining
ndash Găseşte toţi clienţii care au cumpărat lapte
ndash Găseşte toţi clienţii care au cumpărat frecvent
lapte (Reguli de asociere)
ndash Găseşte toţi titularii de credite cu numele Smith ndash Identifică toţi clienţii care au cumpărat de maimult de $10000 icircn ultima lună
ndash Găseşte toţi titularii de credite cu risc mic decreditare (Clasificare)
ndash Identifică clienţii cu obiceiuri similare decumpărare (Grupare)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3457
34
Modele şi tehnici Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3557
35
Verificarea ipotezelor şi căutarea cunoştinţelor
Aplicarea tehnicilor de data mining poate fi făcută dinperspectiva unui demers ascendent sau descendent
Icircn abordarea descendentă efortul este orientat spre
confirmarea sau infirmarea unor idei (ipoteze) formulate icircnprealabil prin alte mijloace
Abordarea ascendentă are o cu totul altă finalitate ea
urmăreşte extragerea de cunoştinţe sau informaţii noi din dateledisponibile
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3657
36
Căutarea poate fi dirijată sau nedirijată
Căutarea dirijată ia icircn considerare un atribut sau un cacircmpale cărui valori icircncearcă să le explice prin celelalte cacircmpuriEste cea mai folosită icircn practică
Căutarea nedirijată are ca scop identificarea relaţiilor saustructurilor existente icircn ansamblul datelor examinate fără aacorda prioritate unui cacircmp sau altul
Deşi mai spectaculoasă icircn practică se recurge mult maipuţin la ea decacirct la căutarea dirijată
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3757
37
Data mining
verificarea
ipotezelor
căutarea de
cunoştinţe
dirijată nedirijată
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3857
38
Tehnici şi acţiuni
Data mining exploatează colecţiile de date de care dispune o
organizaţie
La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei
icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc
Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod
intrinsec
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3957
39
Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de
icircnţeles o tendinţă relevată de un număr foarte mare de cazuri
practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii
Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se
reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor
raţionamentele bazate pe cazuri analiza legăturilor
La acestea se pot asocia şi tehnici statistice cum sunt spre
exemplu regresiile analiza factorială etc
M d l di ti
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4057
40 40
Modele predictivehellip
Arbori de decizie
Clasificări după cel mai apropiat vecin
Reţele neuronale
Reguli
Analiza grupurilor
A l d i i ă l ă l i i
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4157
41
Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea
predicţiagrupareaanaliza grupărilor
Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un
grup limitat de clase predefinite
Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut
mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4257
42
Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare
Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări
Predicţia urmăreşte să claseze icircnregistrările tratate icircn
funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un
model care să explice comportamentul observat
Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora
icircn viitor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4357
43
Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună
Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei
Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster
Spre deosebire de celelalte tipuri de acţiuni asemănătoare
aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4457
44
Etapele procesului de exploatare a datelor
Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare
Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date
colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4557
45
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4657
46
Evaluarea modelului
Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare
Integrarea modelului
Această etapă finalizează procesul prin includerea
modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4757
172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up
Overview of Fisherrsquos Iris Dataset
Fisherrsquos iris dataset is available for download from the tutorial website
httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls
Iris photos courtesy of SIGNA ndash wwwsignaorg
Fisherrsquos iris dataset is well-known in
data mining research
This dataset is commonly used to
illustrate data mining tools
Mark Polczynski PhD The Technology Forge mhptechforgegmailnet
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4857
172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up
Fisherrsquos Database - Background
Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems
Annals of Eugenics 7 179 ndash188 available at
httpdigitallibraryadelaideeduaucollspecialfisher138pdf
iris setosa iris versicolor iris virginica
Dataset contains flower dimension measurements on 50 samples of each species
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4957
172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up
Fisherrsquos Dataset- Background
Data mining terminology
bull The four iris dimensions are termed attributes or input attributes
bull The three iris species are termed classes or output attributes
bull Each example of an iris is termed a sample or instance
Anderson measured these dimensions
bull sepal length
bull sepal width
bull petal length
bull petal width
Measurements on these iris speciesbull setosa
bull versicolor
bull virginica
S t f Fi h rsquo I i D t t
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5057
172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up
Segment of Fisherrsquos Iris Dataset
Input Output
Attributes Attribute
Inst
Sepal
Length
Sepal
Width
Petal
Length
Petal
Width Species1 51 35 14 02 setosa
2 49 3 14 02 setosa
3 47 32 13 02 setosa
4 46 31 15 02 setosa5 5 36 14 02 setosa
Numerical Nominal
ClassSample
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5157
172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up
What Problem are We Trying to Solve
Iris setosa
Weka
decisiontree
Iris versicolor
Iris virginica
Our taskClassify unknown iris using
measurements on 150 iris
samples of known species
Instrumente pentru Data-Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5257
52
Instrumente pentru Data-Mining
Weka Documentation httpwwwcswaikatoacnzmlweka
Waikato Environment for Knowledge Analysis
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5357
53
Instrumente pentru Data-Mining
Principalii producători de soft pentruData-Mining
ndash IBM ndash Intelligent Miner extensie pentru DB2
ndash SAS ndash Enterprise Miner
ndash SPSS ndash Clementine
ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)
ndash hellipmulți alți producători mai mici
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5457
54
Instrumente pentru Data-Mining
SPSS - Clementine
ndash httpwwwspsscomclementine Oracle - Darwin
ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet
ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner
ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml
Standarde Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5557
55
Standarde Data Mining
PMML (Predictive Modelling Markup Language)
ndash Limbaj similar XML pentru salvare și partajare de
modele (cel mai acceptat standard)
CRISP
ndash Metodologie standardizată pentru construirea deaplicații Data Mining
OLE DB pentru Data Mining
ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)
IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5657
56
1 INTRODUCERE
2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE
3-7
CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale
Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici
8 CLUSTERIZARE (ANALIZA CLUSTERILOR)
9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA
ASOCIERILOR)
10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR
11 EVALUAREA MODELELOR
12 APLICAŢII ŞI TENDINŢE IN DATA MINING
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5757
Mulţumesc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2857
28
Data miningintersecţia unor discipline multiple
Sisteme de baze de date data warehouse şi OLAP
Statistică
Maşini instruibile (Machine learning)
Vizualizare Informatică
Calcul de icircnaltă performanţă
Alte discipline ndash Reţele neuronale modelare matematică regăsirea
informaţiilor recunoaşterea formelor (patternrecognition)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2957
29
Architectura unui sistem tipic de Data Mining
Data
Warehouse
Curăţarea şi integrarea datelor Filtrare
Baze de date
Server de baze de date
sau de Data Warehouse
Motor data mining
Evaluarea şabloanelor
Interfaţă grafică utilizator
Bază de
cunoştinţe
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3057
30
Evoluţia tehnologiei bazelor de date
Anii 1960
ndash Colecţii de date crearea bazelor de date baze de datereţea
Anii 1970
ndash Modelul relaţional implementarea SGBD relaţional Anii 1980
ndash SGBD relaţionale modele de date avansate (relaţionalextins OO deductive etc) şi SGBD-uri specifice
(domeniul spatial ştiinţific inginerie etc) Anii 1990mdash2000
ndash Data mining şi data warehouse baze de date multimediabaze de date Web
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3157
31
Proces
Data mining inima
procesului de
descoperire a
cunoaşterii
Curăţirea datelor
Baze dedate
Data Warehouse
Date relevante
Data Mining
Evaluarea configuraţiilor
C ţi icirc t d ti b ă d
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3257
32
Comparaţie icircntre procesarea de tip bază de
date şi cea de tip Data Mining
Interogare ndash Bine definită ndash SQL
Interogare ndash Slab definită ndash Nu există limbaj precis de
interogare
Date ndash Date operaţ ionale
Ieşirea ndash Precisă ndash Subset al bazei dedate
Date ndash Date neoperaţionale
Ieşirea ndash Vagă ndash Nu este un subset al bazeide date
E l d i t ă i
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3357
33
Exemple de interogări
Bază de date
Data Mining
ndash Găseşte toţi clienţii care au cumpărat lapte
ndash Găseşte toţi clienţii care au cumpărat frecvent
lapte (Reguli de asociere)
ndash Găseşte toţi titularii de credite cu numele Smith ndash Identifică toţi clienţii care au cumpărat de maimult de $10000 icircn ultima lună
ndash Găseşte toţi titularii de credite cu risc mic decreditare (Clasificare)
ndash Identifică clienţii cu obiceiuri similare decumpărare (Grupare)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3457
34
Modele şi tehnici Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3557
35
Verificarea ipotezelor şi căutarea cunoştinţelor
Aplicarea tehnicilor de data mining poate fi făcută dinperspectiva unui demers ascendent sau descendent
Icircn abordarea descendentă efortul este orientat spre
confirmarea sau infirmarea unor idei (ipoteze) formulate icircnprealabil prin alte mijloace
Abordarea ascendentă are o cu totul altă finalitate ea
urmăreşte extragerea de cunoştinţe sau informaţii noi din dateledisponibile
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3657
36
Căutarea poate fi dirijată sau nedirijată
Căutarea dirijată ia icircn considerare un atribut sau un cacircmpale cărui valori icircncearcă să le explice prin celelalte cacircmpuriEste cea mai folosită icircn practică
Căutarea nedirijată are ca scop identificarea relaţiilor saustructurilor existente icircn ansamblul datelor examinate fără aacorda prioritate unui cacircmp sau altul
Deşi mai spectaculoasă icircn practică se recurge mult maipuţin la ea decacirct la căutarea dirijată
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3757
37
Data mining
verificarea
ipotezelor
căutarea de
cunoştinţe
dirijată nedirijată
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3857
38
Tehnici şi acţiuni
Data mining exploatează colecţiile de date de care dispune o
organizaţie
La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei
icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc
Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod
intrinsec
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3957
39
Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de
icircnţeles o tendinţă relevată de un număr foarte mare de cazuri
practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii
Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se
reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor
raţionamentele bazate pe cazuri analiza legăturilor
La acestea se pot asocia şi tehnici statistice cum sunt spre
exemplu regresiile analiza factorială etc
M d l di ti
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4057
40 40
Modele predictivehellip
Arbori de decizie
Clasificări după cel mai apropiat vecin
Reţele neuronale
Reguli
Analiza grupurilor
A l d i i ă l ă l i i
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4157
41
Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea
predicţiagrupareaanaliza grupărilor
Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un
grup limitat de clase predefinite
Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut
mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4257
42
Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare
Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări
Predicţia urmăreşte să claseze icircnregistrările tratate icircn
funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un
model care să explice comportamentul observat
Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora
icircn viitor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4357
43
Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună
Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei
Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster
Spre deosebire de celelalte tipuri de acţiuni asemănătoare
aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4457
44
Etapele procesului de exploatare a datelor
Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare
Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date
colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4557
45
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4657
46
Evaluarea modelului
Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare
Integrarea modelului
Această etapă finalizează procesul prin includerea
modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4757
172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up
Overview of Fisherrsquos Iris Dataset
Fisherrsquos iris dataset is available for download from the tutorial website
httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls
Iris photos courtesy of SIGNA ndash wwwsignaorg
Fisherrsquos iris dataset is well-known in
data mining research
This dataset is commonly used to
illustrate data mining tools
Mark Polczynski PhD The Technology Forge mhptechforgegmailnet
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4857
172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up
Fisherrsquos Database - Background
Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems
Annals of Eugenics 7 179 ndash188 available at
httpdigitallibraryadelaideeduaucollspecialfisher138pdf
iris setosa iris versicolor iris virginica
Dataset contains flower dimension measurements on 50 samples of each species
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4957
172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up
Fisherrsquos Dataset- Background
Data mining terminology
bull The four iris dimensions are termed attributes or input attributes
bull The three iris species are termed classes or output attributes
bull Each example of an iris is termed a sample or instance
Anderson measured these dimensions
bull sepal length
bull sepal width
bull petal length
bull petal width
Measurements on these iris speciesbull setosa
bull versicolor
bull virginica
S t f Fi h rsquo I i D t t
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5057
172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up
Segment of Fisherrsquos Iris Dataset
Input Output
Attributes Attribute
Inst
Sepal
Length
Sepal
Width
Petal
Length
Petal
Width Species1 51 35 14 02 setosa
2 49 3 14 02 setosa
3 47 32 13 02 setosa
4 46 31 15 02 setosa5 5 36 14 02 setosa
Numerical Nominal
ClassSample
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5157
172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up
What Problem are We Trying to Solve
Iris setosa
Weka
decisiontree
Iris versicolor
Iris virginica
Our taskClassify unknown iris using
measurements on 150 iris
samples of known species
Instrumente pentru Data-Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5257
52
Instrumente pentru Data-Mining
Weka Documentation httpwwwcswaikatoacnzmlweka
Waikato Environment for Knowledge Analysis
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5357
53
Instrumente pentru Data-Mining
Principalii producători de soft pentruData-Mining
ndash IBM ndash Intelligent Miner extensie pentru DB2
ndash SAS ndash Enterprise Miner
ndash SPSS ndash Clementine
ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)
ndash hellipmulți alți producători mai mici
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5457
54
Instrumente pentru Data-Mining
SPSS - Clementine
ndash httpwwwspsscomclementine Oracle - Darwin
ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet
ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner
ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml
Standarde Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5557
55
Standarde Data Mining
PMML (Predictive Modelling Markup Language)
ndash Limbaj similar XML pentru salvare și partajare de
modele (cel mai acceptat standard)
CRISP
ndash Metodologie standardizată pentru construirea deaplicații Data Mining
OLE DB pentru Data Mining
ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)
IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5657
56
1 INTRODUCERE
2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE
3-7
CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale
Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici
8 CLUSTERIZARE (ANALIZA CLUSTERILOR)
9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA
ASOCIERILOR)
10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR
11 EVALUAREA MODELELOR
12 APLICAŢII ŞI TENDINŢE IN DATA MINING
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5757
Mulţumesc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 2957
29
Architectura unui sistem tipic de Data Mining
Data
Warehouse
Curăţarea şi integrarea datelor Filtrare
Baze de date
Server de baze de date
sau de Data Warehouse
Motor data mining
Evaluarea şabloanelor
Interfaţă grafică utilizator
Bază de
cunoştinţe
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3057
30
Evoluţia tehnologiei bazelor de date
Anii 1960
ndash Colecţii de date crearea bazelor de date baze de datereţea
Anii 1970
ndash Modelul relaţional implementarea SGBD relaţional Anii 1980
ndash SGBD relaţionale modele de date avansate (relaţionalextins OO deductive etc) şi SGBD-uri specifice
(domeniul spatial ştiinţific inginerie etc) Anii 1990mdash2000
ndash Data mining şi data warehouse baze de date multimediabaze de date Web
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3157
31
Proces
Data mining inima
procesului de
descoperire a
cunoaşterii
Curăţirea datelor
Baze dedate
Data Warehouse
Date relevante
Data Mining
Evaluarea configuraţiilor
C ţi icirc t d ti b ă d
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3257
32
Comparaţie icircntre procesarea de tip bază de
date şi cea de tip Data Mining
Interogare ndash Bine definită ndash SQL
Interogare ndash Slab definită ndash Nu există limbaj precis de
interogare
Date ndash Date operaţ ionale
Ieşirea ndash Precisă ndash Subset al bazei dedate
Date ndash Date neoperaţionale
Ieşirea ndash Vagă ndash Nu este un subset al bazeide date
E l d i t ă i
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3357
33
Exemple de interogări
Bază de date
Data Mining
ndash Găseşte toţi clienţii care au cumpărat lapte
ndash Găseşte toţi clienţii care au cumpărat frecvent
lapte (Reguli de asociere)
ndash Găseşte toţi titularii de credite cu numele Smith ndash Identifică toţi clienţii care au cumpărat de maimult de $10000 icircn ultima lună
ndash Găseşte toţi titularii de credite cu risc mic decreditare (Clasificare)
ndash Identifică clienţii cu obiceiuri similare decumpărare (Grupare)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3457
34
Modele şi tehnici Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3557
35
Verificarea ipotezelor şi căutarea cunoştinţelor
Aplicarea tehnicilor de data mining poate fi făcută dinperspectiva unui demers ascendent sau descendent
Icircn abordarea descendentă efortul este orientat spre
confirmarea sau infirmarea unor idei (ipoteze) formulate icircnprealabil prin alte mijloace
Abordarea ascendentă are o cu totul altă finalitate ea
urmăreşte extragerea de cunoştinţe sau informaţii noi din dateledisponibile
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3657
36
Căutarea poate fi dirijată sau nedirijată
Căutarea dirijată ia icircn considerare un atribut sau un cacircmpale cărui valori icircncearcă să le explice prin celelalte cacircmpuriEste cea mai folosită icircn practică
Căutarea nedirijată are ca scop identificarea relaţiilor saustructurilor existente icircn ansamblul datelor examinate fără aacorda prioritate unui cacircmp sau altul
Deşi mai spectaculoasă icircn practică se recurge mult maipuţin la ea decacirct la căutarea dirijată
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3757
37
Data mining
verificarea
ipotezelor
căutarea de
cunoştinţe
dirijată nedirijată
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3857
38
Tehnici şi acţiuni
Data mining exploatează colecţiile de date de care dispune o
organizaţie
La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei
icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc
Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod
intrinsec
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3957
39
Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de
icircnţeles o tendinţă relevată de un număr foarte mare de cazuri
practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii
Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se
reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor
raţionamentele bazate pe cazuri analiza legăturilor
La acestea se pot asocia şi tehnici statistice cum sunt spre
exemplu regresiile analiza factorială etc
M d l di ti
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4057
40 40
Modele predictivehellip
Arbori de decizie
Clasificări după cel mai apropiat vecin
Reţele neuronale
Reguli
Analiza grupurilor
A l d i i ă l ă l i i
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4157
41
Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea
predicţiagrupareaanaliza grupărilor
Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un
grup limitat de clase predefinite
Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut
mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4257
42
Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare
Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări
Predicţia urmăreşte să claseze icircnregistrările tratate icircn
funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un
model care să explice comportamentul observat
Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora
icircn viitor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4357
43
Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună
Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei
Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster
Spre deosebire de celelalte tipuri de acţiuni asemănătoare
aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4457
44
Etapele procesului de exploatare a datelor
Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare
Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date
colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4557
45
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4657
46
Evaluarea modelului
Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare
Integrarea modelului
Această etapă finalizează procesul prin includerea
modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4757
172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up
Overview of Fisherrsquos Iris Dataset
Fisherrsquos iris dataset is available for download from the tutorial website
httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls
Iris photos courtesy of SIGNA ndash wwwsignaorg
Fisherrsquos iris dataset is well-known in
data mining research
This dataset is commonly used to
illustrate data mining tools
Mark Polczynski PhD The Technology Forge mhptechforgegmailnet
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4857
172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up
Fisherrsquos Database - Background
Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems
Annals of Eugenics 7 179 ndash188 available at
httpdigitallibraryadelaideeduaucollspecialfisher138pdf
iris setosa iris versicolor iris virginica
Dataset contains flower dimension measurements on 50 samples of each species
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4957
172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up
Fisherrsquos Dataset- Background
Data mining terminology
bull The four iris dimensions are termed attributes or input attributes
bull The three iris species are termed classes or output attributes
bull Each example of an iris is termed a sample or instance
Anderson measured these dimensions
bull sepal length
bull sepal width
bull petal length
bull petal width
Measurements on these iris speciesbull setosa
bull versicolor
bull virginica
S t f Fi h rsquo I i D t t
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5057
172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up
Segment of Fisherrsquos Iris Dataset
Input Output
Attributes Attribute
Inst
Sepal
Length
Sepal
Width
Petal
Length
Petal
Width Species1 51 35 14 02 setosa
2 49 3 14 02 setosa
3 47 32 13 02 setosa
4 46 31 15 02 setosa5 5 36 14 02 setosa
Numerical Nominal
ClassSample
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5157
172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up
What Problem are We Trying to Solve
Iris setosa
Weka
decisiontree
Iris versicolor
Iris virginica
Our taskClassify unknown iris using
measurements on 150 iris
samples of known species
Instrumente pentru Data-Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5257
52
Instrumente pentru Data-Mining
Weka Documentation httpwwwcswaikatoacnzmlweka
Waikato Environment for Knowledge Analysis
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5357
53
Instrumente pentru Data-Mining
Principalii producători de soft pentruData-Mining
ndash IBM ndash Intelligent Miner extensie pentru DB2
ndash SAS ndash Enterprise Miner
ndash SPSS ndash Clementine
ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)
ndash hellipmulți alți producători mai mici
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5457
54
Instrumente pentru Data-Mining
SPSS - Clementine
ndash httpwwwspsscomclementine Oracle - Darwin
ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet
ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner
ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml
Standarde Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5557
55
Standarde Data Mining
PMML (Predictive Modelling Markup Language)
ndash Limbaj similar XML pentru salvare și partajare de
modele (cel mai acceptat standard)
CRISP
ndash Metodologie standardizată pentru construirea deaplicații Data Mining
OLE DB pentru Data Mining
ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)
IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5657
56
1 INTRODUCERE
2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE
3-7
CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale
Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici
8 CLUSTERIZARE (ANALIZA CLUSTERILOR)
9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA
ASOCIERILOR)
10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR
11 EVALUAREA MODELELOR
12 APLICAŢII ŞI TENDINŢE IN DATA MINING
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5757
Mulţumesc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3057
30
Evoluţia tehnologiei bazelor de date
Anii 1960
ndash Colecţii de date crearea bazelor de date baze de datereţea
Anii 1970
ndash Modelul relaţional implementarea SGBD relaţional Anii 1980
ndash SGBD relaţionale modele de date avansate (relaţionalextins OO deductive etc) şi SGBD-uri specifice
(domeniul spatial ştiinţific inginerie etc) Anii 1990mdash2000
ndash Data mining şi data warehouse baze de date multimediabaze de date Web
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3157
31
Proces
Data mining inima
procesului de
descoperire a
cunoaşterii
Curăţirea datelor
Baze dedate
Data Warehouse
Date relevante
Data Mining
Evaluarea configuraţiilor
C ţi icirc t d ti b ă d
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3257
32
Comparaţie icircntre procesarea de tip bază de
date şi cea de tip Data Mining
Interogare ndash Bine definită ndash SQL
Interogare ndash Slab definită ndash Nu există limbaj precis de
interogare
Date ndash Date operaţ ionale
Ieşirea ndash Precisă ndash Subset al bazei dedate
Date ndash Date neoperaţionale
Ieşirea ndash Vagă ndash Nu este un subset al bazeide date
E l d i t ă i
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3357
33
Exemple de interogări
Bază de date
Data Mining
ndash Găseşte toţi clienţii care au cumpărat lapte
ndash Găseşte toţi clienţii care au cumpărat frecvent
lapte (Reguli de asociere)
ndash Găseşte toţi titularii de credite cu numele Smith ndash Identifică toţi clienţii care au cumpărat de maimult de $10000 icircn ultima lună
ndash Găseşte toţi titularii de credite cu risc mic decreditare (Clasificare)
ndash Identifică clienţii cu obiceiuri similare decumpărare (Grupare)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3457
34
Modele şi tehnici Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3557
35
Verificarea ipotezelor şi căutarea cunoştinţelor
Aplicarea tehnicilor de data mining poate fi făcută dinperspectiva unui demers ascendent sau descendent
Icircn abordarea descendentă efortul este orientat spre
confirmarea sau infirmarea unor idei (ipoteze) formulate icircnprealabil prin alte mijloace
Abordarea ascendentă are o cu totul altă finalitate ea
urmăreşte extragerea de cunoştinţe sau informaţii noi din dateledisponibile
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3657
36
Căutarea poate fi dirijată sau nedirijată
Căutarea dirijată ia icircn considerare un atribut sau un cacircmpale cărui valori icircncearcă să le explice prin celelalte cacircmpuriEste cea mai folosită icircn practică
Căutarea nedirijată are ca scop identificarea relaţiilor saustructurilor existente icircn ansamblul datelor examinate fără aacorda prioritate unui cacircmp sau altul
Deşi mai spectaculoasă icircn practică se recurge mult maipuţin la ea decacirct la căutarea dirijată
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3757
37
Data mining
verificarea
ipotezelor
căutarea de
cunoştinţe
dirijată nedirijată
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3857
38
Tehnici şi acţiuni
Data mining exploatează colecţiile de date de care dispune o
organizaţie
La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei
icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc
Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod
intrinsec
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3957
39
Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de
icircnţeles o tendinţă relevată de un număr foarte mare de cazuri
practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii
Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se
reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor
raţionamentele bazate pe cazuri analiza legăturilor
La acestea se pot asocia şi tehnici statistice cum sunt spre
exemplu regresiile analiza factorială etc
M d l di ti
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4057
40 40
Modele predictivehellip
Arbori de decizie
Clasificări după cel mai apropiat vecin
Reţele neuronale
Reguli
Analiza grupurilor
A l d i i ă l ă l i i
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4157
41
Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea
predicţiagrupareaanaliza grupărilor
Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un
grup limitat de clase predefinite
Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut
mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4257
42
Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare
Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări
Predicţia urmăreşte să claseze icircnregistrările tratate icircn
funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un
model care să explice comportamentul observat
Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora
icircn viitor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4357
43
Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună
Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei
Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster
Spre deosebire de celelalte tipuri de acţiuni asemănătoare
aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4457
44
Etapele procesului de exploatare a datelor
Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare
Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date
colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4557
45
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4657
46
Evaluarea modelului
Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare
Integrarea modelului
Această etapă finalizează procesul prin includerea
modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4757
172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up
Overview of Fisherrsquos Iris Dataset
Fisherrsquos iris dataset is available for download from the tutorial website
httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls
Iris photos courtesy of SIGNA ndash wwwsignaorg
Fisherrsquos iris dataset is well-known in
data mining research
This dataset is commonly used to
illustrate data mining tools
Mark Polczynski PhD The Technology Forge mhptechforgegmailnet
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4857
172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up
Fisherrsquos Database - Background
Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems
Annals of Eugenics 7 179 ndash188 available at
httpdigitallibraryadelaideeduaucollspecialfisher138pdf
iris setosa iris versicolor iris virginica
Dataset contains flower dimension measurements on 50 samples of each species
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4957
172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up
Fisherrsquos Dataset- Background
Data mining terminology
bull The four iris dimensions are termed attributes or input attributes
bull The three iris species are termed classes or output attributes
bull Each example of an iris is termed a sample or instance
Anderson measured these dimensions
bull sepal length
bull sepal width
bull petal length
bull petal width
Measurements on these iris speciesbull setosa
bull versicolor
bull virginica
S t f Fi h rsquo I i D t t
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5057
172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up
Segment of Fisherrsquos Iris Dataset
Input Output
Attributes Attribute
Inst
Sepal
Length
Sepal
Width
Petal
Length
Petal
Width Species1 51 35 14 02 setosa
2 49 3 14 02 setosa
3 47 32 13 02 setosa
4 46 31 15 02 setosa5 5 36 14 02 setosa
Numerical Nominal
ClassSample
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5157
172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up
What Problem are We Trying to Solve
Iris setosa
Weka
decisiontree
Iris versicolor
Iris virginica
Our taskClassify unknown iris using
measurements on 150 iris
samples of known species
Instrumente pentru Data-Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5257
52
Instrumente pentru Data-Mining
Weka Documentation httpwwwcswaikatoacnzmlweka
Waikato Environment for Knowledge Analysis
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5357
53
Instrumente pentru Data-Mining
Principalii producători de soft pentruData-Mining
ndash IBM ndash Intelligent Miner extensie pentru DB2
ndash SAS ndash Enterprise Miner
ndash SPSS ndash Clementine
ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)
ndash hellipmulți alți producători mai mici
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5457
54
Instrumente pentru Data-Mining
SPSS - Clementine
ndash httpwwwspsscomclementine Oracle - Darwin
ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet
ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner
ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml
Standarde Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5557
55
Standarde Data Mining
PMML (Predictive Modelling Markup Language)
ndash Limbaj similar XML pentru salvare și partajare de
modele (cel mai acceptat standard)
CRISP
ndash Metodologie standardizată pentru construirea deaplicații Data Mining
OLE DB pentru Data Mining
ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)
IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5657
56
1 INTRODUCERE
2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE
3-7
CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale
Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici
8 CLUSTERIZARE (ANALIZA CLUSTERILOR)
9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA
ASOCIERILOR)
10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR
11 EVALUAREA MODELELOR
12 APLICAŢII ŞI TENDINŢE IN DATA MINING
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5757
Mulţumesc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3157
31
Proces
Data mining inima
procesului de
descoperire a
cunoaşterii
Curăţirea datelor
Baze dedate
Data Warehouse
Date relevante
Data Mining
Evaluarea configuraţiilor
C ţi icirc t d ti b ă d
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3257
32
Comparaţie icircntre procesarea de tip bază de
date şi cea de tip Data Mining
Interogare ndash Bine definită ndash SQL
Interogare ndash Slab definită ndash Nu există limbaj precis de
interogare
Date ndash Date operaţ ionale
Ieşirea ndash Precisă ndash Subset al bazei dedate
Date ndash Date neoperaţionale
Ieşirea ndash Vagă ndash Nu este un subset al bazeide date
E l d i t ă i
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3357
33
Exemple de interogări
Bază de date
Data Mining
ndash Găseşte toţi clienţii care au cumpărat lapte
ndash Găseşte toţi clienţii care au cumpărat frecvent
lapte (Reguli de asociere)
ndash Găseşte toţi titularii de credite cu numele Smith ndash Identifică toţi clienţii care au cumpărat de maimult de $10000 icircn ultima lună
ndash Găseşte toţi titularii de credite cu risc mic decreditare (Clasificare)
ndash Identifică clienţii cu obiceiuri similare decumpărare (Grupare)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3457
34
Modele şi tehnici Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3557
35
Verificarea ipotezelor şi căutarea cunoştinţelor
Aplicarea tehnicilor de data mining poate fi făcută dinperspectiva unui demers ascendent sau descendent
Icircn abordarea descendentă efortul este orientat spre
confirmarea sau infirmarea unor idei (ipoteze) formulate icircnprealabil prin alte mijloace
Abordarea ascendentă are o cu totul altă finalitate ea
urmăreşte extragerea de cunoştinţe sau informaţii noi din dateledisponibile
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3657
36
Căutarea poate fi dirijată sau nedirijată
Căutarea dirijată ia icircn considerare un atribut sau un cacircmpale cărui valori icircncearcă să le explice prin celelalte cacircmpuriEste cea mai folosită icircn practică
Căutarea nedirijată are ca scop identificarea relaţiilor saustructurilor existente icircn ansamblul datelor examinate fără aacorda prioritate unui cacircmp sau altul
Deşi mai spectaculoasă icircn practică se recurge mult maipuţin la ea decacirct la căutarea dirijată
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3757
37
Data mining
verificarea
ipotezelor
căutarea de
cunoştinţe
dirijată nedirijată
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3857
38
Tehnici şi acţiuni
Data mining exploatează colecţiile de date de care dispune o
organizaţie
La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei
icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc
Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod
intrinsec
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3957
39
Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de
icircnţeles o tendinţă relevată de un număr foarte mare de cazuri
practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii
Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se
reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor
raţionamentele bazate pe cazuri analiza legăturilor
La acestea se pot asocia şi tehnici statistice cum sunt spre
exemplu regresiile analiza factorială etc
M d l di ti
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4057
40 40
Modele predictivehellip
Arbori de decizie
Clasificări după cel mai apropiat vecin
Reţele neuronale
Reguli
Analiza grupurilor
A l d i i ă l ă l i i
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4157
41
Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea
predicţiagrupareaanaliza grupărilor
Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un
grup limitat de clase predefinite
Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut
mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4257
42
Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare
Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări
Predicţia urmăreşte să claseze icircnregistrările tratate icircn
funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un
model care să explice comportamentul observat
Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora
icircn viitor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4357
43
Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună
Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei
Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster
Spre deosebire de celelalte tipuri de acţiuni asemănătoare
aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4457
44
Etapele procesului de exploatare a datelor
Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare
Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date
colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4557
45
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4657
46
Evaluarea modelului
Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare
Integrarea modelului
Această etapă finalizează procesul prin includerea
modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4757
172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up
Overview of Fisherrsquos Iris Dataset
Fisherrsquos iris dataset is available for download from the tutorial website
httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls
Iris photos courtesy of SIGNA ndash wwwsignaorg
Fisherrsquos iris dataset is well-known in
data mining research
This dataset is commonly used to
illustrate data mining tools
Mark Polczynski PhD The Technology Forge mhptechforgegmailnet
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4857
172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up
Fisherrsquos Database - Background
Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems
Annals of Eugenics 7 179 ndash188 available at
httpdigitallibraryadelaideeduaucollspecialfisher138pdf
iris setosa iris versicolor iris virginica
Dataset contains flower dimension measurements on 50 samples of each species
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4957
172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up
Fisherrsquos Dataset- Background
Data mining terminology
bull The four iris dimensions are termed attributes or input attributes
bull The three iris species are termed classes or output attributes
bull Each example of an iris is termed a sample or instance
Anderson measured these dimensions
bull sepal length
bull sepal width
bull petal length
bull petal width
Measurements on these iris speciesbull setosa
bull versicolor
bull virginica
S t f Fi h rsquo I i D t t
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5057
172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up
Segment of Fisherrsquos Iris Dataset
Input Output
Attributes Attribute
Inst
Sepal
Length
Sepal
Width
Petal
Length
Petal
Width Species1 51 35 14 02 setosa
2 49 3 14 02 setosa
3 47 32 13 02 setosa
4 46 31 15 02 setosa5 5 36 14 02 setosa
Numerical Nominal
ClassSample
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5157
172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up
What Problem are We Trying to Solve
Iris setosa
Weka
decisiontree
Iris versicolor
Iris virginica
Our taskClassify unknown iris using
measurements on 150 iris
samples of known species
Instrumente pentru Data-Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5257
52
Instrumente pentru Data-Mining
Weka Documentation httpwwwcswaikatoacnzmlweka
Waikato Environment for Knowledge Analysis
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5357
53
Instrumente pentru Data-Mining
Principalii producători de soft pentruData-Mining
ndash IBM ndash Intelligent Miner extensie pentru DB2
ndash SAS ndash Enterprise Miner
ndash SPSS ndash Clementine
ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)
ndash hellipmulți alți producători mai mici
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5457
54
Instrumente pentru Data-Mining
SPSS - Clementine
ndash httpwwwspsscomclementine Oracle - Darwin
ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet
ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner
ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml
Standarde Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5557
55
Standarde Data Mining
PMML (Predictive Modelling Markup Language)
ndash Limbaj similar XML pentru salvare și partajare de
modele (cel mai acceptat standard)
CRISP
ndash Metodologie standardizată pentru construirea deaplicații Data Mining
OLE DB pentru Data Mining
ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)
IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5657
56
1 INTRODUCERE
2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE
3-7
CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale
Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici
8 CLUSTERIZARE (ANALIZA CLUSTERILOR)
9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA
ASOCIERILOR)
10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR
11 EVALUAREA MODELELOR
12 APLICAŢII ŞI TENDINŢE IN DATA MINING
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5757
Mulţumesc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3257
32
Comparaţie icircntre procesarea de tip bază de
date şi cea de tip Data Mining
Interogare ndash Bine definită ndash SQL
Interogare ndash Slab definită ndash Nu există limbaj precis de
interogare
Date ndash Date operaţ ionale
Ieşirea ndash Precisă ndash Subset al bazei dedate
Date ndash Date neoperaţionale
Ieşirea ndash Vagă ndash Nu este un subset al bazeide date
E l d i t ă i
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3357
33
Exemple de interogări
Bază de date
Data Mining
ndash Găseşte toţi clienţii care au cumpărat lapte
ndash Găseşte toţi clienţii care au cumpărat frecvent
lapte (Reguli de asociere)
ndash Găseşte toţi titularii de credite cu numele Smith ndash Identifică toţi clienţii care au cumpărat de maimult de $10000 icircn ultima lună
ndash Găseşte toţi titularii de credite cu risc mic decreditare (Clasificare)
ndash Identifică clienţii cu obiceiuri similare decumpărare (Grupare)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3457
34
Modele şi tehnici Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3557
35
Verificarea ipotezelor şi căutarea cunoştinţelor
Aplicarea tehnicilor de data mining poate fi făcută dinperspectiva unui demers ascendent sau descendent
Icircn abordarea descendentă efortul este orientat spre
confirmarea sau infirmarea unor idei (ipoteze) formulate icircnprealabil prin alte mijloace
Abordarea ascendentă are o cu totul altă finalitate ea
urmăreşte extragerea de cunoştinţe sau informaţii noi din dateledisponibile
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3657
36
Căutarea poate fi dirijată sau nedirijată
Căutarea dirijată ia icircn considerare un atribut sau un cacircmpale cărui valori icircncearcă să le explice prin celelalte cacircmpuriEste cea mai folosită icircn practică
Căutarea nedirijată are ca scop identificarea relaţiilor saustructurilor existente icircn ansamblul datelor examinate fără aacorda prioritate unui cacircmp sau altul
Deşi mai spectaculoasă icircn practică se recurge mult maipuţin la ea decacirct la căutarea dirijată
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3757
37
Data mining
verificarea
ipotezelor
căutarea de
cunoştinţe
dirijată nedirijată
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3857
38
Tehnici şi acţiuni
Data mining exploatează colecţiile de date de care dispune o
organizaţie
La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei
icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc
Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod
intrinsec
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3957
39
Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de
icircnţeles o tendinţă relevată de un număr foarte mare de cazuri
practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii
Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se
reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor
raţionamentele bazate pe cazuri analiza legăturilor
La acestea se pot asocia şi tehnici statistice cum sunt spre
exemplu regresiile analiza factorială etc
M d l di ti
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4057
40 40
Modele predictivehellip
Arbori de decizie
Clasificări după cel mai apropiat vecin
Reţele neuronale
Reguli
Analiza grupurilor
A l d i i ă l ă l i i
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4157
41
Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea
predicţiagrupareaanaliza grupărilor
Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un
grup limitat de clase predefinite
Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut
mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4257
42
Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare
Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări
Predicţia urmăreşte să claseze icircnregistrările tratate icircn
funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un
model care să explice comportamentul observat
Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora
icircn viitor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4357
43
Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună
Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei
Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster
Spre deosebire de celelalte tipuri de acţiuni asemănătoare
aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4457
44
Etapele procesului de exploatare a datelor
Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare
Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date
colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4557
45
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4657
46
Evaluarea modelului
Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare
Integrarea modelului
Această etapă finalizează procesul prin includerea
modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4757
172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up
Overview of Fisherrsquos Iris Dataset
Fisherrsquos iris dataset is available for download from the tutorial website
httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls
Iris photos courtesy of SIGNA ndash wwwsignaorg
Fisherrsquos iris dataset is well-known in
data mining research
This dataset is commonly used to
illustrate data mining tools
Mark Polczynski PhD The Technology Forge mhptechforgegmailnet
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4857
172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up
Fisherrsquos Database - Background
Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems
Annals of Eugenics 7 179 ndash188 available at
httpdigitallibraryadelaideeduaucollspecialfisher138pdf
iris setosa iris versicolor iris virginica
Dataset contains flower dimension measurements on 50 samples of each species
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4957
172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up
Fisherrsquos Dataset- Background
Data mining terminology
bull The four iris dimensions are termed attributes or input attributes
bull The three iris species are termed classes or output attributes
bull Each example of an iris is termed a sample or instance
Anderson measured these dimensions
bull sepal length
bull sepal width
bull petal length
bull petal width
Measurements on these iris speciesbull setosa
bull versicolor
bull virginica
S t f Fi h rsquo I i D t t
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5057
172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up
Segment of Fisherrsquos Iris Dataset
Input Output
Attributes Attribute
Inst
Sepal
Length
Sepal
Width
Petal
Length
Petal
Width Species1 51 35 14 02 setosa
2 49 3 14 02 setosa
3 47 32 13 02 setosa
4 46 31 15 02 setosa5 5 36 14 02 setosa
Numerical Nominal
ClassSample
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5157
172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up
What Problem are We Trying to Solve
Iris setosa
Weka
decisiontree
Iris versicolor
Iris virginica
Our taskClassify unknown iris using
measurements on 150 iris
samples of known species
Instrumente pentru Data-Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5257
52
Instrumente pentru Data-Mining
Weka Documentation httpwwwcswaikatoacnzmlweka
Waikato Environment for Knowledge Analysis
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5357
53
Instrumente pentru Data-Mining
Principalii producători de soft pentruData-Mining
ndash IBM ndash Intelligent Miner extensie pentru DB2
ndash SAS ndash Enterprise Miner
ndash SPSS ndash Clementine
ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)
ndash hellipmulți alți producători mai mici
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5457
54
Instrumente pentru Data-Mining
SPSS - Clementine
ndash httpwwwspsscomclementine Oracle - Darwin
ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet
ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner
ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml
Standarde Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5557
55
Standarde Data Mining
PMML (Predictive Modelling Markup Language)
ndash Limbaj similar XML pentru salvare și partajare de
modele (cel mai acceptat standard)
CRISP
ndash Metodologie standardizată pentru construirea deaplicații Data Mining
OLE DB pentru Data Mining
ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)
IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5657
56
1 INTRODUCERE
2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE
3-7
CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale
Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici
8 CLUSTERIZARE (ANALIZA CLUSTERILOR)
9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA
ASOCIERILOR)
10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR
11 EVALUAREA MODELELOR
12 APLICAŢII ŞI TENDINŢE IN DATA MINING
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5757
Mulţumesc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3357
33
Exemple de interogări
Bază de date
Data Mining
ndash Găseşte toţi clienţii care au cumpărat lapte
ndash Găseşte toţi clienţii care au cumpărat frecvent
lapte (Reguli de asociere)
ndash Găseşte toţi titularii de credite cu numele Smith ndash Identifică toţi clienţii care au cumpărat de maimult de $10000 icircn ultima lună
ndash Găseşte toţi titularii de credite cu risc mic decreditare (Clasificare)
ndash Identifică clienţii cu obiceiuri similare decumpărare (Grupare)
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3457
34
Modele şi tehnici Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3557
35
Verificarea ipotezelor şi căutarea cunoştinţelor
Aplicarea tehnicilor de data mining poate fi făcută dinperspectiva unui demers ascendent sau descendent
Icircn abordarea descendentă efortul este orientat spre
confirmarea sau infirmarea unor idei (ipoteze) formulate icircnprealabil prin alte mijloace
Abordarea ascendentă are o cu totul altă finalitate ea
urmăreşte extragerea de cunoştinţe sau informaţii noi din dateledisponibile
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3657
36
Căutarea poate fi dirijată sau nedirijată
Căutarea dirijată ia icircn considerare un atribut sau un cacircmpale cărui valori icircncearcă să le explice prin celelalte cacircmpuriEste cea mai folosită icircn practică
Căutarea nedirijată are ca scop identificarea relaţiilor saustructurilor existente icircn ansamblul datelor examinate fără aacorda prioritate unui cacircmp sau altul
Deşi mai spectaculoasă icircn practică se recurge mult maipuţin la ea decacirct la căutarea dirijată
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3757
37
Data mining
verificarea
ipotezelor
căutarea de
cunoştinţe
dirijată nedirijată
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3857
38
Tehnici şi acţiuni
Data mining exploatează colecţiile de date de care dispune o
organizaţie
La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei
icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc
Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod
intrinsec
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3957
39
Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de
icircnţeles o tendinţă relevată de un număr foarte mare de cazuri
practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii
Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se
reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor
raţionamentele bazate pe cazuri analiza legăturilor
La acestea se pot asocia şi tehnici statistice cum sunt spre
exemplu regresiile analiza factorială etc
M d l di ti
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4057
40 40
Modele predictivehellip
Arbori de decizie
Clasificări după cel mai apropiat vecin
Reţele neuronale
Reguli
Analiza grupurilor
A l d i i ă l ă l i i
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4157
41
Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea
predicţiagrupareaanaliza grupărilor
Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un
grup limitat de clase predefinite
Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut
mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4257
42
Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare
Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări
Predicţia urmăreşte să claseze icircnregistrările tratate icircn
funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un
model care să explice comportamentul observat
Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora
icircn viitor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4357
43
Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună
Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei
Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster
Spre deosebire de celelalte tipuri de acţiuni asemănătoare
aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4457
44
Etapele procesului de exploatare a datelor
Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare
Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date
colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4557
45
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4657
46
Evaluarea modelului
Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare
Integrarea modelului
Această etapă finalizează procesul prin includerea
modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4757
172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up
Overview of Fisherrsquos Iris Dataset
Fisherrsquos iris dataset is available for download from the tutorial website
httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls
Iris photos courtesy of SIGNA ndash wwwsignaorg
Fisherrsquos iris dataset is well-known in
data mining research
This dataset is commonly used to
illustrate data mining tools
Mark Polczynski PhD The Technology Forge mhptechforgegmailnet
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4857
172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up
Fisherrsquos Database - Background
Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems
Annals of Eugenics 7 179 ndash188 available at
httpdigitallibraryadelaideeduaucollspecialfisher138pdf
iris setosa iris versicolor iris virginica
Dataset contains flower dimension measurements on 50 samples of each species
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4957
172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up
Fisherrsquos Dataset- Background
Data mining terminology
bull The four iris dimensions are termed attributes or input attributes
bull The three iris species are termed classes or output attributes
bull Each example of an iris is termed a sample or instance
Anderson measured these dimensions
bull sepal length
bull sepal width
bull petal length
bull petal width
Measurements on these iris speciesbull setosa
bull versicolor
bull virginica
S t f Fi h rsquo I i D t t
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5057
172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up
Segment of Fisherrsquos Iris Dataset
Input Output
Attributes Attribute
Inst
Sepal
Length
Sepal
Width
Petal
Length
Petal
Width Species1 51 35 14 02 setosa
2 49 3 14 02 setosa
3 47 32 13 02 setosa
4 46 31 15 02 setosa5 5 36 14 02 setosa
Numerical Nominal
ClassSample
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5157
172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up
What Problem are We Trying to Solve
Iris setosa
Weka
decisiontree
Iris versicolor
Iris virginica
Our taskClassify unknown iris using
measurements on 150 iris
samples of known species
Instrumente pentru Data-Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5257
52
Instrumente pentru Data-Mining
Weka Documentation httpwwwcswaikatoacnzmlweka
Waikato Environment for Knowledge Analysis
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5357
53
Instrumente pentru Data-Mining
Principalii producători de soft pentruData-Mining
ndash IBM ndash Intelligent Miner extensie pentru DB2
ndash SAS ndash Enterprise Miner
ndash SPSS ndash Clementine
ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)
ndash hellipmulți alți producători mai mici
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5457
54
Instrumente pentru Data-Mining
SPSS - Clementine
ndash httpwwwspsscomclementine Oracle - Darwin
ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet
ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner
ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml
Standarde Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5557
55
Standarde Data Mining
PMML (Predictive Modelling Markup Language)
ndash Limbaj similar XML pentru salvare și partajare de
modele (cel mai acceptat standard)
CRISP
ndash Metodologie standardizată pentru construirea deaplicații Data Mining
OLE DB pentru Data Mining
ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)
IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5657
56
1 INTRODUCERE
2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE
3-7
CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale
Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici
8 CLUSTERIZARE (ANALIZA CLUSTERILOR)
9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA
ASOCIERILOR)
10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR
11 EVALUAREA MODELELOR
12 APLICAŢII ŞI TENDINŢE IN DATA MINING
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5757
Mulţumesc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3457
34
Modele şi tehnici Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3557
35
Verificarea ipotezelor şi căutarea cunoştinţelor
Aplicarea tehnicilor de data mining poate fi făcută dinperspectiva unui demers ascendent sau descendent
Icircn abordarea descendentă efortul este orientat spre
confirmarea sau infirmarea unor idei (ipoteze) formulate icircnprealabil prin alte mijloace
Abordarea ascendentă are o cu totul altă finalitate ea
urmăreşte extragerea de cunoştinţe sau informaţii noi din dateledisponibile
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3657
36
Căutarea poate fi dirijată sau nedirijată
Căutarea dirijată ia icircn considerare un atribut sau un cacircmpale cărui valori icircncearcă să le explice prin celelalte cacircmpuriEste cea mai folosită icircn practică
Căutarea nedirijată are ca scop identificarea relaţiilor saustructurilor existente icircn ansamblul datelor examinate fără aacorda prioritate unui cacircmp sau altul
Deşi mai spectaculoasă icircn practică se recurge mult maipuţin la ea decacirct la căutarea dirijată
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3757
37
Data mining
verificarea
ipotezelor
căutarea de
cunoştinţe
dirijată nedirijată
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3857
38
Tehnici şi acţiuni
Data mining exploatează colecţiile de date de care dispune o
organizaţie
La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei
icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc
Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod
intrinsec
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3957
39
Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de
icircnţeles o tendinţă relevată de un număr foarte mare de cazuri
practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii
Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se
reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor
raţionamentele bazate pe cazuri analiza legăturilor
La acestea se pot asocia şi tehnici statistice cum sunt spre
exemplu regresiile analiza factorială etc
M d l di ti
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4057
40 40
Modele predictivehellip
Arbori de decizie
Clasificări după cel mai apropiat vecin
Reţele neuronale
Reguli
Analiza grupurilor
A l d i i ă l ă l i i
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4157
41
Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea
predicţiagrupareaanaliza grupărilor
Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un
grup limitat de clase predefinite
Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut
mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4257
42
Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare
Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări
Predicţia urmăreşte să claseze icircnregistrările tratate icircn
funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un
model care să explice comportamentul observat
Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora
icircn viitor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4357
43
Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună
Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei
Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster
Spre deosebire de celelalte tipuri de acţiuni asemănătoare
aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4457
44
Etapele procesului de exploatare a datelor
Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare
Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date
colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4557
45
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4657
46
Evaluarea modelului
Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare
Integrarea modelului
Această etapă finalizează procesul prin includerea
modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4757
172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up
Overview of Fisherrsquos Iris Dataset
Fisherrsquos iris dataset is available for download from the tutorial website
httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls
Iris photos courtesy of SIGNA ndash wwwsignaorg
Fisherrsquos iris dataset is well-known in
data mining research
This dataset is commonly used to
illustrate data mining tools
Mark Polczynski PhD The Technology Forge mhptechforgegmailnet
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4857
172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up
Fisherrsquos Database - Background
Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems
Annals of Eugenics 7 179 ndash188 available at
httpdigitallibraryadelaideeduaucollspecialfisher138pdf
iris setosa iris versicolor iris virginica
Dataset contains flower dimension measurements on 50 samples of each species
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4957
172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up
Fisherrsquos Dataset- Background
Data mining terminology
bull The four iris dimensions are termed attributes or input attributes
bull The three iris species are termed classes or output attributes
bull Each example of an iris is termed a sample or instance
Anderson measured these dimensions
bull sepal length
bull sepal width
bull petal length
bull petal width
Measurements on these iris speciesbull setosa
bull versicolor
bull virginica
S t f Fi h rsquo I i D t t
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5057
172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up
Segment of Fisherrsquos Iris Dataset
Input Output
Attributes Attribute
Inst
Sepal
Length
Sepal
Width
Petal
Length
Petal
Width Species1 51 35 14 02 setosa
2 49 3 14 02 setosa
3 47 32 13 02 setosa
4 46 31 15 02 setosa5 5 36 14 02 setosa
Numerical Nominal
ClassSample
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5157
172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up
What Problem are We Trying to Solve
Iris setosa
Weka
decisiontree
Iris versicolor
Iris virginica
Our taskClassify unknown iris using
measurements on 150 iris
samples of known species
Instrumente pentru Data-Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5257
52
Instrumente pentru Data-Mining
Weka Documentation httpwwwcswaikatoacnzmlweka
Waikato Environment for Knowledge Analysis
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5357
53
Instrumente pentru Data-Mining
Principalii producători de soft pentruData-Mining
ndash IBM ndash Intelligent Miner extensie pentru DB2
ndash SAS ndash Enterprise Miner
ndash SPSS ndash Clementine
ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)
ndash hellipmulți alți producători mai mici
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5457
54
Instrumente pentru Data-Mining
SPSS - Clementine
ndash httpwwwspsscomclementine Oracle - Darwin
ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet
ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner
ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml
Standarde Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5557
55
Standarde Data Mining
PMML (Predictive Modelling Markup Language)
ndash Limbaj similar XML pentru salvare și partajare de
modele (cel mai acceptat standard)
CRISP
ndash Metodologie standardizată pentru construirea deaplicații Data Mining
OLE DB pentru Data Mining
ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)
IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5657
56
1 INTRODUCERE
2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE
3-7
CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale
Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici
8 CLUSTERIZARE (ANALIZA CLUSTERILOR)
9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA
ASOCIERILOR)
10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR
11 EVALUAREA MODELELOR
12 APLICAŢII ŞI TENDINŢE IN DATA MINING
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5757
Mulţumesc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3557
35
Verificarea ipotezelor şi căutarea cunoştinţelor
Aplicarea tehnicilor de data mining poate fi făcută dinperspectiva unui demers ascendent sau descendent
Icircn abordarea descendentă efortul este orientat spre
confirmarea sau infirmarea unor idei (ipoteze) formulate icircnprealabil prin alte mijloace
Abordarea ascendentă are o cu totul altă finalitate ea
urmăreşte extragerea de cunoştinţe sau informaţii noi din dateledisponibile
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3657
36
Căutarea poate fi dirijată sau nedirijată
Căutarea dirijată ia icircn considerare un atribut sau un cacircmpale cărui valori icircncearcă să le explice prin celelalte cacircmpuriEste cea mai folosită icircn practică
Căutarea nedirijată are ca scop identificarea relaţiilor saustructurilor existente icircn ansamblul datelor examinate fără aacorda prioritate unui cacircmp sau altul
Deşi mai spectaculoasă icircn practică se recurge mult maipuţin la ea decacirct la căutarea dirijată
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3757
37
Data mining
verificarea
ipotezelor
căutarea de
cunoştinţe
dirijată nedirijată
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3857
38
Tehnici şi acţiuni
Data mining exploatează colecţiile de date de care dispune o
organizaţie
La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei
icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc
Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod
intrinsec
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3957
39
Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de
icircnţeles o tendinţă relevată de un număr foarte mare de cazuri
practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii
Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se
reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor
raţionamentele bazate pe cazuri analiza legăturilor
La acestea se pot asocia şi tehnici statistice cum sunt spre
exemplu regresiile analiza factorială etc
M d l di ti
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4057
40 40
Modele predictivehellip
Arbori de decizie
Clasificări după cel mai apropiat vecin
Reţele neuronale
Reguli
Analiza grupurilor
A l d i i ă l ă l i i
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4157
41
Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea
predicţiagrupareaanaliza grupărilor
Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un
grup limitat de clase predefinite
Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut
mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4257
42
Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare
Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări
Predicţia urmăreşte să claseze icircnregistrările tratate icircn
funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un
model care să explice comportamentul observat
Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora
icircn viitor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4357
43
Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună
Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei
Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster
Spre deosebire de celelalte tipuri de acţiuni asemănătoare
aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4457
44
Etapele procesului de exploatare a datelor
Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare
Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date
colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4557
45
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4657
46
Evaluarea modelului
Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare
Integrarea modelului
Această etapă finalizează procesul prin includerea
modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4757
172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up
Overview of Fisherrsquos Iris Dataset
Fisherrsquos iris dataset is available for download from the tutorial website
httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls
Iris photos courtesy of SIGNA ndash wwwsignaorg
Fisherrsquos iris dataset is well-known in
data mining research
This dataset is commonly used to
illustrate data mining tools
Mark Polczynski PhD The Technology Forge mhptechforgegmailnet
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4857
172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up
Fisherrsquos Database - Background
Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems
Annals of Eugenics 7 179 ndash188 available at
httpdigitallibraryadelaideeduaucollspecialfisher138pdf
iris setosa iris versicolor iris virginica
Dataset contains flower dimension measurements on 50 samples of each species
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4957
172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up
Fisherrsquos Dataset- Background
Data mining terminology
bull The four iris dimensions are termed attributes or input attributes
bull The three iris species are termed classes or output attributes
bull Each example of an iris is termed a sample or instance
Anderson measured these dimensions
bull sepal length
bull sepal width
bull petal length
bull petal width
Measurements on these iris speciesbull setosa
bull versicolor
bull virginica
S t f Fi h rsquo I i D t t
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5057
172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up
Segment of Fisherrsquos Iris Dataset
Input Output
Attributes Attribute
Inst
Sepal
Length
Sepal
Width
Petal
Length
Petal
Width Species1 51 35 14 02 setosa
2 49 3 14 02 setosa
3 47 32 13 02 setosa
4 46 31 15 02 setosa5 5 36 14 02 setosa
Numerical Nominal
ClassSample
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5157
172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up
What Problem are We Trying to Solve
Iris setosa
Weka
decisiontree
Iris versicolor
Iris virginica
Our taskClassify unknown iris using
measurements on 150 iris
samples of known species
Instrumente pentru Data-Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5257
52
Instrumente pentru Data-Mining
Weka Documentation httpwwwcswaikatoacnzmlweka
Waikato Environment for Knowledge Analysis
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5357
53
Instrumente pentru Data-Mining
Principalii producători de soft pentruData-Mining
ndash IBM ndash Intelligent Miner extensie pentru DB2
ndash SAS ndash Enterprise Miner
ndash SPSS ndash Clementine
ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)
ndash hellipmulți alți producători mai mici
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5457
54
Instrumente pentru Data-Mining
SPSS - Clementine
ndash httpwwwspsscomclementine Oracle - Darwin
ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet
ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner
ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml
Standarde Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5557
55
Standarde Data Mining
PMML (Predictive Modelling Markup Language)
ndash Limbaj similar XML pentru salvare și partajare de
modele (cel mai acceptat standard)
CRISP
ndash Metodologie standardizată pentru construirea deaplicații Data Mining
OLE DB pentru Data Mining
ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)
IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5657
56
1 INTRODUCERE
2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE
3-7
CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale
Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici
8 CLUSTERIZARE (ANALIZA CLUSTERILOR)
9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA
ASOCIERILOR)
10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR
11 EVALUAREA MODELELOR
12 APLICAŢII ŞI TENDINŢE IN DATA MINING
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5757
Mulţumesc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3657
36
Căutarea poate fi dirijată sau nedirijată
Căutarea dirijată ia icircn considerare un atribut sau un cacircmpale cărui valori icircncearcă să le explice prin celelalte cacircmpuriEste cea mai folosită icircn practică
Căutarea nedirijată are ca scop identificarea relaţiilor saustructurilor existente icircn ansamblul datelor examinate fără aacorda prioritate unui cacircmp sau altul
Deşi mai spectaculoasă icircn practică se recurge mult maipuţin la ea decacirct la căutarea dirijată
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3757
37
Data mining
verificarea
ipotezelor
căutarea de
cunoştinţe
dirijată nedirijată
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3857
38
Tehnici şi acţiuni
Data mining exploatează colecţiile de date de care dispune o
organizaţie
La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei
icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc
Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod
intrinsec
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3957
39
Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de
icircnţeles o tendinţă relevată de un număr foarte mare de cazuri
practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii
Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se
reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor
raţionamentele bazate pe cazuri analiza legăturilor
La acestea se pot asocia şi tehnici statistice cum sunt spre
exemplu regresiile analiza factorială etc
M d l di ti
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4057
40 40
Modele predictivehellip
Arbori de decizie
Clasificări după cel mai apropiat vecin
Reţele neuronale
Reguli
Analiza grupurilor
A l d i i ă l ă l i i
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4157
41
Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea
predicţiagrupareaanaliza grupărilor
Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un
grup limitat de clase predefinite
Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut
mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4257
42
Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare
Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări
Predicţia urmăreşte să claseze icircnregistrările tratate icircn
funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un
model care să explice comportamentul observat
Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora
icircn viitor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4357
43
Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună
Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei
Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster
Spre deosebire de celelalte tipuri de acţiuni asemănătoare
aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4457
44
Etapele procesului de exploatare a datelor
Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare
Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date
colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4557
45
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4657
46
Evaluarea modelului
Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare
Integrarea modelului
Această etapă finalizează procesul prin includerea
modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4757
172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up
Overview of Fisherrsquos Iris Dataset
Fisherrsquos iris dataset is available for download from the tutorial website
httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls
Iris photos courtesy of SIGNA ndash wwwsignaorg
Fisherrsquos iris dataset is well-known in
data mining research
This dataset is commonly used to
illustrate data mining tools
Mark Polczynski PhD The Technology Forge mhptechforgegmailnet
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4857
172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up
Fisherrsquos Database - Background
Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems
Annals of Eugenics 7 179 ndash188 available at
httpdigitallibraryadelaideeduaucollspecialfisher138pdf
iris setosa iris versicolor iris virginica
Dataset contains flower dimension measurements on 50 samples of each species
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4957
172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up
Fisherrsquos Dataset- Background
Data mining terminology
bull The four iris dimensions are termed attributes or input attributes
bull The three iris species are termed classes or output attributes
bull Each example of an iris is termed a sample or instance
Anderson measured these dimensions
bull sepal length
bull sepal width
bull petal length
bull petal width
Measurements on these iris speciesbull setosa
bull versicolor
bull virginica
S t f Fi h rsquo I i D t t
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5057
172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up
Segment of Fisherrsquos Iris Dataset
Input Output
Attributes Attribute
Inst
Sepal
Length
Sepal
Width
Petal
Length
Petal
Width Species1 51 35 14 02 setosa
2 49 3 14 02 setosa
3 47 32 13 02 setosa
4 46 31 15 02 setosa5 5 36 14 02 setosa
Numerical Nominal
ClassSample
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5157
172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up
What Problem are We Trying to Solve
Iris setosa
Weka
decisiontree
Iris versicolor
Iris virginica
Our taskClassify unknown iris using
measurements on 150 iris
samples of known species
Instrumente pentru Data-Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5257
52
Instrumente pentru Data-Mining
Weka Documentation httpwwwcswaikatoacnzmlweka
Waikato Environment for Knowledge Analysis
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5357
53
Instrumente pentru Data-Mining
Principalii producători de soft pentruData-Mining
ndash IBM ndash Intelligent Miner extensie pentru DB2
ndash SAS ndash Enterprise Miner
ndash SPSS ndash Clementine
ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)
ndash hellipmulți alți producători mai mici
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5457
54
Instrumente pentru Data-Mining
SPSS - Clementine
ndash httpwwwspsscomclementine Oracle - Darwin
ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet
ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner
ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml
Standarde Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5557
55
Standarde Data Mining
PMML (Predictive Modelling Markup Language)
ndash Limbaj similar XML pentru salvare și partajare de
modele (cel mai acceptat standard)
CRISP
ndash Metodologie standardizată pentru construirea deaplicații Data Mining
OLE DB pentru Data Mining
ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)
IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5657
56
1 INTRODUCERE
2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE
3-7
CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale
Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici
8 CLUSTERIZARE (ANALIZA CLUSTERILOR)
9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA
ASOCIERILOR)
10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR
11 EVALUAREA MODELELOR
12 APLICAŢII ŞI TENDINŢE IN DATA MINING
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5757
Mulţumesc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3757
37
Data mining
verificarea
ipotezelor
căutarea de
cunoştinţe
dirijată nedirijată
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3857
38
Tehnici şi acţiuni
Data mining exploatează colecţiile de date de care dispune o
organizaţie
La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei
icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc
Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod
intrinsec
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3957
39
Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de
icircnţeles o tendinţă relevată de un număr foarte mare de cazuri
practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii
Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se
reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor
raţionamentele bazate pe cazuri analiza legăturilor
La acestea se pot asocia şi tehnici statistice cum sunt spre
exemplu regresiile analiza factorială etc
M d l di ti
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4057
40 40
Modele predictivehellip
Arbori de decizie
Clasificări după cel mai apropiat vecin
Reţele neuronale
Reguli
Analiza grupurilor
A l d i i ă l ă l i i
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4157
41
Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea
predicţiagrupareaanaliza grupărilor
Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un
grup limitat de clase predefinite
Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut
mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4257
42
Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare
Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări
Predicţia urmăreşte să claseze icircnregistrările tratate icircn
funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un
model care să explice comportamentul observat
Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora
icircn viitor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4357
43
Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună
Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei
Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster
Spre deosebire de celelalte tipuri de acţiuni asemănătoare
aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4457
44
Etapele procesului de exploatare a datelor
Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare
Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date
colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4557
45
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4657
46
Evaluarea modelului
Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare
Integrarea modelului
Această etapă finalizează procesul prin includerea
modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4757
172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up
Overview of Fisherrsquos Iris Dataset
Fisherrsquos iris dataset is available for download from the tutorial website
httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls
Iris photos courtesy of SIGNA ndash wwwsignaorg
Fisherrsquos iris dataset is well-known in
data mining research
This dataset is commonly used to
illustrate data mining tools
Mark Polczynski PhD The Technology Forge mhptechforgegmailnet
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4857
172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up
Fisherrsquos Database - Background
Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems
Annals of Eugenics 7 179 ndash188 available at
httpdigitallibraryadelaideeduaucollspecialfisher138pdf
iris setosa iris versicolor iris virginica
Dataset contains flower dimension measurements on 50 samples of each species
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4957
172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up
Fisherrsquos Dataset- Background
Data mining terminology
bull The four iris dimensions are termed attributes or input attributes
bull The three iris species are termed classes or output attributes
bull Each example of an iris is termed a sample or instance
Anderson measured these dimensions
bull sepal length
bull sepal width
bull petal length
bull petal width
Measurements on these iris speciesbull setosa
bull versicolor
bull virginica
S t f Fi h rsquo I i D t t
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5057
172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up
Segment of Fisherrsquos Iris Dataset
Input Output
Attributes Attribute
Inst
Sepal
Length
Sepal
Width
Petal
Length
Petal
Width Species1 51 35 14 02 setosa
2 49 3 14 02 setosa
3 47 32 13 02 setosa
4 46 31 15 02 setosa5 5 36 14 02 setosa
Numerical Nominal
ClassSample
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5157
172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up
What Problem are We Trying to Solve
Iris setosa
Weka
decisiontree
Iris versicolor
Iris virginica
Our taskClassify unknown iris using
measurements on 150 iris
samples of known species
Instrumente pentru Data-Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5257
52
Instrumente pentru Data-Mining
Weka Documentation httpwwwcswaikatoacnzmlweka
Waikato Environment for Knowledge Analysis
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5357
53
Instrumente pentru Data-Mining
Principalii producători de soft pentruData-Mining
ndash IBM ndash Intelligent Miner extensie pentru DB2
ndash SAS ndash Enterprise Miner
ndash SPSS ndash Clementine
ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)
ndash hellipmulți alți producători mai mici
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5457
54
Instrumente pentru Data-Mining
SPSS - Clementine
ndash httpwwwspsscomclementine Oracle - Darwin
ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet
ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner
ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml
Standarde Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5557
55
Standarde Data Mining
PMML (Predictive Modelling Markup Language)
ndash Limbaj similar XML pentru salvare și partajare de
modele (cel mai acceptat standard)
CRISP
ndash Metodologie standardizată pentru construirea deaplicații Data Mining
OLE DB pentru Data Mining
ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)
IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5657
56
1 INTRODUCERE
2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE
3-7
CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale
Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici
8 CLUSTERIZARE (ANALIZA CLUSTERILOR)
9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA
ASOCIERILOR)
10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR
11 EVALUAREA MODELELOR
12 APLICAŢII ŞI TENDINŢE IN DATA MINING
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5757
Mulţumesc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3857
38
Tehnici şi acţiuni
Data mining exploatează colecţiile de date de care dispune o
organizaţie
La acestea se adaugă date provenite din alte surse cum ar fi spre exemplu statistici oficiale privitoare la evoluţia economiei
icircn ansamblu date privitoare la concurenţă diverse măsurilegislative sau normative etc
Aceasta explică utilizarea frecventă a calificativului deinformaţii ascunse volumul mare sau foarte mare şi faptul căstructura şi conţinutul lor sunt edificate icircn perspectiva altor finalităţi fac foarte dificilă sau imposibilă detectarea corelaţiilor sau raporturilor de ansamblu pe care le icircncorporează icircn mod
intrinsec
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3957
39
Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de
icircnţeles o tendinţă relevată de un număr foarte mare de cazuri
practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii
Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se
reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor
raţionamentele bazate pe cazuri analiza legăturilor
La acestea se pot asocia şi tehnici statistice cum sunt spre
exemplu regresiile analiza factorială etc
M d l di ti
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4057
40 40
Modele predictivehellip
Arbori de decizie
Clasificări după cel mai apropiat vecin
Reţele neuronale
Reguli
Analiza grupurilor
A l d i i ă l ă l i i
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4157
41
Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea
predicţiagrupareaanaliza grupărilor
Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un
grup limitat de clase predefinite
Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut
mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4257
42
Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare
Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări
Predicţia urmăreşte să claseze icircnregistrările tratate icircn
funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un
model care să explice comportamentul observat
Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora
icircn viitor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4357
43
Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună
Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei
Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster
Spre deosebire de celelalte tipuri de acţiuni asemănătoare
aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4457
44
Etapele procesului de exploatare a datelor
Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare
Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date
colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4557
45
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4657
46
Evaluarea modelului
Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare
Integrarea modelului
Această etapă finalizează procesul prin includerea
modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4757
172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up
Overview of Fisherrsquos Iris Dataset
Fisherrsquos iris dataset is available for download from the tutorial website
httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls
Iris photos courtesy of SIGNA ndash wwwsignaorg
Fisherrsquos iris dataset is well-known in
data mining research
This dataset is commonly used to
illustrate data mining tools
Mark Polczynski PhD The Technology Forge mhptechforgegmailnet
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4857
172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up
Fisherrsquos Database - Background
Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems
Annals of Eugenics 7 179 ndash188 available at
httpdigitallibraryadelaideeduaucollspecialfisher138pdf
iris setosa iris versicolor iris virginica
Dataset contains flower dimension measurements on 50 samples of each species
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4957
172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up
Fisherrsquos Dataset- Background
Data mining terminology
bull The four iris dimensions are termed attributes or input attributes
bull The three iris species are termed classes or output attributes
bull Each example of an iris is termed a sample or instance
Anderson measured these dimensions
bull sepal length
bull sepal width
bull petal length
bull petal width
Measurements on these iris speciesbull setosa
bull versicolor
bull virginica
S t f Fi h rsquo I i D t t
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5057
172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up
Segment of Fisherrsquos Iris Dataset
Input Output
Attributes Attribute
Inst
Sepal
Length
Sepal
Width
Petal
Length
Petal
Width Species1 51 35 14 02 setosa
2 49 3 14 02 setosa
3 47 32 13 02 setosa
4 46 31 15 02 setosa5 5 36 14 02 setosa
Numerical Nominal
ClassSample
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5157
172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up
What Problem are We Trying to Solve
Iris setosa
Weka
decisiontree
Iris versicolor
Iris virginica
Our taskClassify unknown iris using
measurements on 150 iris
samples of known species
Instrumente pentru Data-Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5257
52
Instrumente pentru Data-Mining
Weka Documentation httpwwwcswaikatoacnzmlweka
Waikato Environment for Knowledge Analysis
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5357
53
Instrumente pentru Data-Mining
Principalii producători de soft pentruData-Mining
ndash IBM ndash Intelligent Miner extensie pentru DB2
ndash SAS ndash Enterprise Miner
ndash SPSS ndash Clementine
ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)
ndash hellipmulți alți producători mai mici
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5457
54
Instrumente pentru Data-Mining
SPSS - Clementine
ndash httpwwwspsscomclementine Oracle - Darwin
ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet
ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner
ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml
Standarde Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5557
55
Standarde Data Mining
PMML (Predictive Modelling Markup Language)
ndash Limbaj similar XML pentru salvare și partajare de
modele (cel mai acceptat standard)
CRISP
ndash Metodologie standardizată pentru construirea deaplicații Data Mining
OLE DB pentru Data Mining
ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)
IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5657
56
1 INTRODUCERE
2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE
3-7
CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale
Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici
8 CLUSTERIZARE (ANALIZA CLUSTERILOR)
9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA
ASOCIERILOR)
10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR
11 EVALUAREA MODELELOR
12 APLICAŢII ŞI TENDINŢE IN DATA MINING
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5757
Mulţumesc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 3957
39
Rezultatele sunt cu atacirct mai sigure şi relevante cu cacirct sebazează pe un volum mai mare de date din motive lesne de
icircnţeles o tendinţă relevată de un număr foarte mare de cazuri
practice este mult mai pertinentă decacirct cea dedusă din doar cacircteva situaţii
Explorarea datelor icircn vederea obţinerii de informaţii recurgela diverse tehnici printre cele mai folosite aflacircndu-se
reţelele neuronale arborii de deciziealgoritmii geneticianaliza grupurilor
raţionamentele bazate pe cazuri analiza legăturilor
La acestea se pot asocia şi tehnici statistice cum sunt spre
exemplu regresiile analiza factorială etc
M d l di ti
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4057
40 40
Modele predictivehellip
Arbori de decizie
Clasificări după cel mai apropiat vecin
Reţele neuronale
Reguli
Analiza grupurilor
A l d i i ă l ă l i i
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4157
41
Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea
predicţiagrupareaanaliza grupărilor
Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un
grup limitat de clase predefinite
Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut
mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4257
42
Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare
Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări
Predicţia urmăreşte să claseze icircnregistrările tratate icircn
funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un
model care să explice comportamentul observat
Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora
icircn viitor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4357
43
Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună
Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei
Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster
Spre deosebire de celelalte tipuri de acţiuni asemănătoare
aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4457
44
Etapele procesului de exploatare a datelor
Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare
Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date
colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4557
45
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4657
46
Evaluarea modelului
Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare
Integrarea modelului
Această etapă finalizează procesul prin includerea
modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4757
172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up
Overview of Fisherrsquos Iris Dataset
Fisherrsquos iris dataset is available for download from the tutorial website
httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls
Iris photos courtesy of SIGNA ndash wwwsignaorg
Fisherrsquos iris dataset is well-known in
data mining research
This dataset is commonly used to
illustrate data mining tools
Mark Polczynski PhD The Technology Forge mhptechforgegmailnet
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4857
172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up
Fisherrsquos Database - Background
Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems
Annals of Eugenics 7 179 ndash188 available at
httpdigitallibraryadelaideeduaucollspecialfisher138pdf
iris setosa iris versicolor iris virginica
Dataset contains flower dimension measurements on 50 samples of each species
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4957
172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up
Fisherrsquos Dataset- Background
Data mining terminology
bull The four iris dimensions are termed attributes or input attributes
bull The three iris species are termed classes or output attributes
bull Each example of an iris is termed a sample or instance
Anderson measured these dimensions
bull sepal length
bull sepal width
bull petal length
bull petal width
Measurements on these iris speciesbull setosa
bull versicolor
bull virginica
S t f Fi h rsquo I i D t t
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5057
172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up
Segment of Fisherrsquos Iris Dataset
Input Output
Attributes Attribute
Inst
Sepal
Length
Sepal
Width
Petal
Length
Petal
Width Species1 51 35 14 02 setosa
2 49 3 14 02 setosa
3 47 32 13 02 setosa
4 46 31 15 02 setosa5 5 36 14 02 setosa
Numerical Nominal
ClassSample
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5157
172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up
What Problem are We Trying to Solve
Iris setosa
Weka
decisiontree
Iris versicolor
Iris virginica
Our taskClassify unknown iris using
measurements on 150 iris
samples of known species
Instrumente pentru Data-Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5257
52
Instrumente pentru Data-Mining
Weka Documentation httpwwwcswaikatoacnzmlweka
Waikato Environment for Knowledge Analysis
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5357
53
Instrumente pentru Data-Mining
Principalii producători de soft pentruData-Mining
ndash IBM ndash Intelligent Miner extensie pentru DB2
ndash SAS ndash Enterprise Miner
ndash SPSS ndash Clementine
ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)
ndash hellipmulți alți producători mai mici
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5457
54
Instrumente pentru Data-Mining
SPSS - Clementine
ndash httpwwwspsscomclementine Oracle - Darwin
ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet
ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner
ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml
Standarde Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5557
55
Standarde Data Mining
PMML (Predictive Modelling Markup Language)
ndash Limbaj similar XML pentru salvare și partajare de
modele (cel mai acceptat standard)
CRISP
ndash Metodologie standardizată pentru construirea deaplicații Data Mining
OLE DB pentru Data Mining
ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)
IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5657
56
1 INTRODUCERE
2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE
3-7
CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale
Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici
8 CLUSTERIZARE (ANALIZA CLUSTERILOR)
9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA
ASOCIERILOR)
10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR
11 EVALUAREA MODELELOR
12 APLICAŢII ŞI TENDINŢE IN DATA MINING
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5757
Mulţumesc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4057
40 40
Modele predictivehellip
Arbori de decizie
Clasificări după cel mai apropiat vecin
Reţele neuronale
Reguli
Analiza grupurilor
A l d i i ă l ă l i i
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4157
41
Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea
predicţiagrupareaanaliza grupărilor
Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un
grup limitat de clase predefinite
Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut
mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4257
42
Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare
Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări
Predicţia urmăreşte să claseze icircnregistrările tratate icircn
funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un
model care să explice comportamentul observat
Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora
icircn viitor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4357
43
Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună
Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei
Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster
Spre deosebire de celelalte tipuri de acţiuni asemănătoare
aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4457
44
Etapele procesului de exploatare a datelor
Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare
Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date
colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4557
45
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4657
46
Evaluarea modelului
Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare
Integrarea modelului
Această etapă finalizează procesul prin includerea
modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4757
172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up
Overview of Fisherrsquos Iris Dataset
Fisherrsquos iris dataset is available for download from the tutorial website
httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls
Iris photos courtesy of SIGNA ndash wwwsignaorg
Fisherrsquos iris dataset is well-known in
data mining research
This dataset is commonly used to
illustrate data mining tools
Mark Polczynski PhD The Technology Forge mhptechforgegmailnet
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4857
172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up
Fisherrsquos Database - Background
Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems
Annals of Eugenics 7 179 ndash188 available at
httpdigitallibraryadelaideeduaucollspecialfisher138pdf
iris setosa iris versicolor iris virginica
Dataset contains flower dimension measurements on 50 samples of each species
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4957
172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up
Fisherrsquos Dataset- Background
Data mining terminology
bull The four iris dimensions are termed attributes or input attributes
bull The three iris species are termed classes or output attributes
bull Each example of an iris is termed a sample or instance
Anderson measured these dimensions
bull sepal length
bull sepal width
bull petal length
bull petal width
Measurements on these iris speciesbull setosa
bull versicolor
bull virginica
S t f Fi h rsquo I i D t t
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5057
172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up
Segment of Fisherrsquos Iris Dataset
Input Output
Attributes Attribute
Inst
Sepal
Length
Sepal
Width
Petal
Length
Petal
Width Species1 51 35 14 02 setosa
2 49 3 14 02 setosa
3 47 32 13 02 setosa
4 46 31 15 02 setosa5 5 36 14 02 setosa
Numerical Nominal
ClassSample
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5157
172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up
What Problem are We Trying to Solve
Iris setosa
Weka
decisiontree
Iris versicolor
Iris virginica
Our taskClassify unknown iris using
measurements on 150 iris
samples of known species
Instrumente pentru Data-Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5257
52
Instrumente pentru Data-Mining
Weka Documentation httpwwwcswaikatoacnzmlweka
Waikato Environment for Knowledge Analysis
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5357
53
Instrumente pentru Data-Mining
Principalii producători de soft pentruData-Mining
ndash IBM ndash Intelligent Miner extensie pentru DB2
ndash SAS ndash Enterprise Miner
ndash SPSS ndash Clementine
ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)
ndash hellipmulți alți producători mai mici
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5457
54
Instrumente pentru Data-Mining
SPSS - Clementine
ndash httpwwwspsscomclementine Oracle - Darwin
ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet
ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner
ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml
Standarde Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5557
55
Standarde Data Mining
PMML (Predictive Modelling Markup Language)
ndash Limbaj similar XML pentru salvare și partajare de
modele (cel mai acceptat standard)
CRISP
ndash Metodologie standardizată pentru construirea deaplicații Data Mining
OLE DB pentru Data Mining
ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)
IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5657
56
1 INTRODUCERE
2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE
3-7
CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale
Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici
8 CLUSTERIZARE (ANALIZA CLUSTERILOR)
9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA
ASOCIERILOR)
10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR
11 EVALUAREA MODELELOR
12 APLICAŢII ŞI TENDINŢE IN DATA MINING
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5757
Mulţumesc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4157
41
Aportul data mining se rezumă la următoarele acţiuniclasificareaestimarea
predicţiagrupareaanaliza grupărilor
Clasificarea urmăreşte să plaseze obiectele prelucrate icircntr -un
grup limitat de clase predefinite
Spre exemplu o cerere de credit va fi icircncadrată princlasificare icircn una dintre următoarele categorii de risc scăzut
mediu ridicatObiectele clasificate sunt reprezentate icircn general sub formăde icircnregistrări compuse din atribute sau cacircmpuri Dintretehnicile de data mining cele mai adecvate clasificării suntarborii de decizie şi raţionamentul bazat pe cazuri
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4257
42
Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare
Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări
Predicţia urmăreşte să claseze icircnregistrările tratate icircn
funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un
model care să explice comportamentul observat
Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora
icircn viitor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4357
43
Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună
Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei
Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster
Spre deosebire de celelalte tipuri de acţiuni asemănătoare
aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4457
44
Etapele procesului de exploatare a datelor
Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare
Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date
colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4557
45
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4657
46
Evaluarea modelului
Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare
Integrarea modelului
Această etapă finalizează procesul prin includerea
modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4757
172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up
Overview of Fisherrsquos Iris Dataset
Fisherrsquos iris dataset is available for download from the tutorial website
httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls
Iris photos courtesy of SIGNA ndash wwwsignaorg
Fisherrsquos iris dataset is well-known in
data mining research
This dataset is commonly used to
illustrate data mining tools
Mark Polczynski PhD The Technology Forge mhptechforgegmailnet
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4857
172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up
Fisherrsquos Database - Background
Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems
Annals of Eugenics 7 179 ndash188 available at
httpdigitallibraryadelaideeduaucollspecialfisher138pdf
iris setosa iris versicolor iris virginica
Dataset contains flower dimension measurements on 50 samples of each species
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4957
172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up
Fisherrsquos Dataset- Background
Data mining terminology
bull The four iris dimensions are termed attributes or input attributes
bull The three iris species are termed classes or output attributes
bull Each example of an iris is termed a sample or instance
Anderson measured these dimensions
bull sepal length
bull sepal width
bull petal length
bull petal width
Measurements on these iris speciesbull setosa
bull versicolor
bull virginica
S t f Fi h rsquo I i D t t
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5057
172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up
Segment of Fisherrsquos Iris Dataset
Input Output
Attributes Attribute
Inst
Sepal
Length
Sepal
Width
Petal
Length
Petal
Width Species1 51 35 14 02 setosa
2 49 3 14 02 setosa
3 47 32 13 02 setosa
4 46 31 15 02 setosa5 5 36 14 02 setosa
Numerical Nominal
ClassSample
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5157
172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up
What Problem are We Trying to Solve
Iris setosa
Weka
decisiontree
Iris versicolor
Iris virginica
Our taskClassify unknown iris using
measurements on 150 iris
samples of known species
Instrumente pentru Data-Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5257
52
Instrumente pentru Data-Mining
Weka Documentation httpwwwcswaikatoacnzmlweka
Waikato Environment for Knowledge Analysis
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5357
53
Instrumente pentru Data-Mining
Principalii producători de soft pentruData-Mining
ndash IBM ndash Intelligent Miner extensie pentru DB2
ndash SAS ndash Enterprise Miner
ndash SPSS ndash Clementine
ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)
ndash hellipmulți alți producători mai mici
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5457
54
Instrumente pentru Data-Mining
SPSS - Clementine
ndash httpwwwspsscomclementine Oracle - Darwin
ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet
ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner
ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml
Standarde Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5557
55
Standarde Data Mining
PMML (Predictive Modelling Markup Language)
ndash Limbaj similar XML pentru salvare și partajare de
modele (cel mai acceptat standard)
CRISP
ndash Metodologie standardizată pentru construirea deaplicații Data Mining
OLE DB pentru Data Mining
ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)
IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5657
56
1 INTRODUCERE
2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE
3-7
CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale
Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici
8 CLUSTERIZARE (ANALIZA CLUSTERILOR)
9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA
ASOCIERILOR)
10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR
11 EVALUAREA MODELELOR
12 APLICAŢII ŞI TENDINŢE IN DATA MINING
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5757
Mulţumesc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4257
42
Estimarea urmăreşte să atribuie o valoare unei variabilepe baza celorlalte date de intrare
Reţelele neuronale sunt printre cele mai bune tehnici dedata mining pentru acest gen de prelucrări
Predicţia urmăreşte să claseze icircnregistrările tratate icircn
funcţie de un comportament sau o valoare estimată viitoare Icircn acest scop se recurge la o colecţie de exemple bazate pedate din trecut icircn care valorile variabilei de previzionat suntdeja cunoscute Cu ajutorul acestora se construieşte un
model care să explice comportamentul observat
Aplicacircnd acest model asupra icircnregistrărilor de prelucrat seobţine o predicţie a comportamentului sau valorilor acestora
icircn viitor
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4357
43
Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună
Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei
Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster
Spre deosebire de celelalte tipuri de acţiuni asemănătoare
aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4457
44
Etapele procesului de exploatare a datelor
Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare
Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date
colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4557
45
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4657
46
Evaluarea modelului
Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare
Integrarea modelului
Această etapă finalizează procesul prin includerea
modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4757
172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up
Overview of Fisherrsquos Iris Dataset
Fisherrsquos iris dataset is available for download from the tutorial website
httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls
Iris photos courtesy of SIGNA ndash wwwsignaorg
Fisherrsquos iris dataset is well-known in
data mining research
This dataset is commonly used to
illustrate data mining tools
Mark Polczynski PhD The Technology Forge mhptechforgegmailnet
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4857
172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up
Fisherrsquos Database - Background
Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems
Annals of Eugenics 7 179 ndash188 available at
httpdigitallibraryadelaideeduaucollspecialfisher138pdf
iris setosa iris versicolor iris virginica
Dataset contains flower dimension measurements on 50 samples of each species
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4957
172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up
Fisherrsquos Dataset- Background
Data mining terminology
bull The four iris dimensions are termed attributes or input attributes
bull The three iris species are termed classes or output attributes
bull Each example of an iris is termed a sample or instance
Anderson measured these dimensions
bull sepal length
bull sepal width
bull petal length
bull petal width
Measurements on these iris speciesbull setosa
bull versicolor
bull virginica
S t f Fi h rsquo I i D t t
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5057
172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up
Segment of Fisherrsquos Iris Dataset
Input Output
Attributes Attribute
Inst
Sepal
Length
Sepal
Width
Petal
Length
Petal
Width Species1 51 35 14 02 setosa
2 49 3 14 02 setosa
3 47 32 13 02 setosa
4 46 31 15 02 setosa5 5 36 14 02 setosa
Numerical Nominal
ClassSample
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5157
172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up
What Problem are We Trying to Solve
Iris setosa
Weka
decisiontree
Iris versicolor
Iris virginica
Our taskClassify unknown iris using
measurements on 150 iris
samples of known species
Instrumente pentru Data-Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5257
52
Instrumente pentru Data-Mining
Weka Documentation httpwwwcswaikatoacnzmlweka
Waikato Environment for Knowledge Analysis
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5357
53
Instrumente pentru Data-Mining
Principalii producători de soft pentruData-Mining
ndash IBM ndash Intelligent Miner extensie pentru DB2
ndash SAS ndash Enterprise Miner
ndash SPSS ndash Clementine
ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)
ndash hellipmulți alți producători mai mici
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5457
54
Instrumente pentru Data-Mining
SPSS - Clementine
ndash httpwwwspsscomclementine Oracle - Darwin
ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet
ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner
ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml
Standarde Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5557
55
Standarde Data Mining
PMML (Predictive Modelling Markup Language)
ndash Limbaj similar XML pentru salvare și partajare de
modele (cel mai acceptat standard)
CRISP
ndash Metodologie standardizată pentru construirea deaplicații Data Mining
OLE DB pentru Data Mining
ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)
IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5657
56
1 INTRODUCERE
2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE
3-7
CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale
Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici
8 CLUSTERIZARE (ANALIZA CLUSTERILOR)
9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA
ASOCIERILOR)
10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR
11 EVALUAREA MODELELOR
12 APLICAŢII ŞI TENDINŢE IN DATA MINING
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5757
Mulţumesc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4357
43
Gruparea urmăreşte să determine care sunt obiectele careapar cel mai frecvent icircmpreună
Exemplul tipic pentru acest gen de acţiune estedeterminarea mărfurilor care se cumpără uzual icircmpreună deunde şi denumirea de analiză a coşului gospodinei
Analiza grupurilor urmăreşte să dividă o populaţieeterogenă icircn grupuri mai omogene numite cluster
Spre deosebire de celelalte tipuri de acţiuni asemănătoare
aici nu există un set predeterminat de clase ca icircn cazulclasificării şi nici exemple trecute Segmentarea se face icircnexclusivitate pe baza similitudinilor sesizate icircntre obiecte
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4457
44
Etapele procesului de exploatare a datelor
Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare
Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date
colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4557
45
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4657
46
Evaluarea modelului
Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare
Integrarea modelului
Această etapă finalizează procesul prin includerea
modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4757
172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up
Overview of Fisherrsquos Iris Dataset
Fisherrsquos iris dataset is available for download from the tutorial website
httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls
Iris photos courtesy of SIGNA ndash wwwsignaorg
Fisherrsquos iris dataset is well-known in
data mining research
This dataset is commonly used to
illustrate data mining tools
Mark Polczynski PhD The Technology Forge mhptechforgegmailnet
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4857
172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up
Fisherrsquos Database - Background
Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems
Annals of Eugenics 7 179 ndash188 available at
httpdigitallibraryadelaideeduaucollspecialfisher138pdf
iris setosa iris versicolor iris virginica
Dataset contains flower dimension measurements on 50 samples of each species
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4957
172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up
Fisherrsquos Dataset- Background
Data mining terminology
bull The four iris dimensions are termed attributes or input attributes
bull The three iris species are termed classes or output attributes
bull Each example of an iris is termed a sample or instance
Anderson measured these dimensions
bull sepal length
bull sepal width
bull petal length
bull petal width
Measurements on these iris speciesbull setosa
bull versicolor
bull virginica
S t f Fi h rsquo I i D t t
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5057
172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up
Segment of Fisherrsquos Iris Dataset
Input Output
Attributes Attribute
Inst
Sepal
Length
Sepal
Width
Petal
Length
Petal
Width Species1 51 35 14 02 setosa
2 49 3 14 02 setosa
3 47 32 13 02 setosa
4 46 31 15 02 setosa5 5 36 14 02 setosa
Numerical Nominal
ClassSample
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5157
172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up
What Problem are We Trying to Solve
Iris setosa
Weka
decisiontree
Iris versicolor
Iris virginica
Our taskClassify unknown iris using
measurements on 150 iris
samples of known species
Instrumente pentru Data-Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5257
52
Instrumente pentru Data-Mining
Weka Documentation httpwwwcswaikatoacnzmlweka
Waikato Environment for Knowledge Analysis
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5357
53
Instrumente pentru Data-Mining
Principalii producători de soft pentruData-Mining
ndash IBM ndash Intelligent Miner extensie pentru DB2
ndash SAS ndash Enterprise Miner
ndash SPSS ndash Clementine
ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)
ndash hellipmulți alți producători mai mici
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5457
54
Instrumente pentru Data-Mining
SPSS - Clementine
ndash httpwwwspsscomclementine Oracle - Darwin
ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet
ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner
ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml
Standarde Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5557
55
Standarde Data Mining
PMML (Predictive Modelling Markup Language)
ndash Limbaj similar XML pentru salvare și partajare de
modele (cel mai acceptat standard)
CRISP
ndash Metodologie standardizată pentru construirea deaplicații Data Mining
OLE DB pentru Data Mining
ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)
IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5657
56
1 INTRODUCERE
2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE
3-7
CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale
Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici
8 CLUSTERIZARE (ANALIZA CLUSTERILOR)
9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA
ASOCIERILOR)
10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR
11 EVALUAREA MODELELOR
12 APLICAŢII ŞI TENDINŢE IN DATA MINING
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5757
Mulţumesc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4457
44
Etapele procesului de exploatare a datelor
Datele disponibile provin din surse variate şi au fost laorigine organizate şi constituite pentru a răspunde altor scopurieste necesară o fază de pregătire prealabilă de curăţare şiuniformizare
Icircn cadrul acestora se pot distinge următoarele etape definirea problemeiidentificarea surselor de date
colectarea şi selectarea datelor pregătirea datelor construirea modeluluievaluarea modeluluiintegrarea modelului
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4557
45
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4657
46
Evaluarea modelului
Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare
Integrarea modelului
Această etapă finalizează procesul prin includerea
modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4757
172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up
Overview of Fisherrsquos Iris Dataset
Fisherrsquos iris dataset is available for download from the tutorial website
httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls
Iris photos courtesy of SIGNA ndash wwwsignaorg
Fisherrsquos iris dataset is well-known in
data mining research
This dataset is commonly used to
illustrate data mining tools
Mark Polczynski PhD The Technology Forge mhptechforgegmailnet
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4857
172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up
Fisherrsquos Database - Background
Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems
Annals of Eugenics 7 179 ndash188 available at
httpdigitallibraryadelaideeduaucollspecialfisher138pdf
iris setosa iris versicolor iris virginica
Dataset contains flower dimension measurements on 50 samples of each species
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4957
172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up
Fisherrsquos Dataset- Background
Data mining terminology
bull The four iris dimensions are termed attributes or input attributes
bull The three iris species are termed classes or output attributes
bull Each example of an iris is termed a sample or instance
Anderson measured these dimensions
bull sepal length
bull sepal width
bull petal length
bull petal width
Measurements on these iris speciesbull setosa
bull versicolor
bull virginica
S t f Fi h rsquo I i D t t
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5057
172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up
Segment of Fisherrsquos Iris Dataset
Input Output
Attributes Attribute
Inst
Sepal
Length
Sepal
Width
Petal
Length
Petal
Width Species1 51 35 14 02 setosa
2 49 3 14 02 setosa
3 47 32 13 02 setosa
4 46 31 15 02 setosa5 5 36 14 02 setosa
Numerical Nominal
ClassSample
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5157
172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up
What Problem are We Trying to Solve
Iris setosa
Weka
decisiontree
Iris versicolor
Iris virginica
Our taskClassify unknown iris using
measurements on 150 iris
samples of known species
Instrumente pentru Data-Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5257
52
Instrumente pentru Data-Mining
Weka Documentation httpwwwcswaikatoacnzmlweka
Waikato Environment for Knowledge Analysis
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5357
53
Instrumente pentru Data-Mining
Principalii producători de soft pentruData-Mining
ndash IBM ndash Intelligent Miner extensie pentru DB2
ndash SAS ndash Enterprise Miner
ndash SPSS ndash Clementine
ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)
ndash hellipmulți alți producători mai mici
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5457
54
Instrumente pentru Data-Mining
SPSS - Clementine
ndash httpwwwspsscomclementine Oracle - Darwin
ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet
ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner
ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml
Standarde Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5557
55
Standarde Data Mining
PMML (Predictive Modelling Markup Language)
ndash Limbaj similar XML pentru salvare și partajare de
modele (cel mai acceptat standard)
CRISP
ndash Metodologie standardizată pentru construirea deaplicații Data Mining
OLE DB pentru Data Mining
ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)
IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5657
56
1 INTRODUCERE
2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE
3-7
CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale
Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici
8 CLUSTERIZARE (ANALIZA CLUSTERILOR)
9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA
ASOCIERILOR)
10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR
11 EVALUAREA MODELELOR
12 APLICAŢII ŞI TENDINŢE IN DATA MINING
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5757
Mulţumesc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4557
45
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4657
46
Evaluarea modelului
Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare
Integrarea modelului
Această etapă finalizează procesul prin includerea
modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4757
172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up
Overview of Fisherrsquos Iris Dataset
Fisherrsquos iris dataset is available for download from the tutorial website
httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls
Iris photos courtesy of SIGNA ndash wwwsignaorg
Fisherrsquos iris dataset is well-known in
data mining research
This dataset is commonly used to
illustrate data mining tools
Mark Polczynski PhD The Technology Forge mhptechforgegmailnet
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4857
172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up
Fisherrsquos Database - Background
Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems
Annals of Eugenics 7 179 ndash188 available at
httpdigitallibraryadelaideeduaucollspecialfisher138pdf
iris setosa iris versicolor iris virginica
Dataset contains flower dimension measurements on 50 samples of each species
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4957
172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up
Fisherrsquos Dataset- Background
Data mining terminology
bull The four iris dimensions are termed attributes or input attributes
bull The three iris species are termed classes or output attributes
bull Each example of an iris is termed a sample or instance
Anderson measured these dimensions
bull sepal length
bull sepal width
bull petal length
bull petal width
Measurements on these iris speciesbull setosa
bull versicolor
bull virginica
S t f Fi h rsquo I i D t t
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5057
172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up
Segment of Fisherrsquos Iris Dataset
Input Output
Attributes Attribute
Inst
Sepal
Length
Sepal
Width
Petal
Length
Petal
Width Species1 51 35 14 02 setosa
2 49 3 14 02 setosa
3 47 32 13 02 setosa
4 46 31 15 02 setosa5 5 36 14 02 setosa
Numerical Nominal
ClassSample
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5157
172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up
What Problem are We Trying to Solve
Iris setosa
Weka
decisiontree
Iris versicolor
Iris virginica
Our taskClassify unknown iris using
measurements on 150 iris
samples of known species
Instrumente pentru Data-Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5257
52
Instrumente pentru Data-Mining
Weka Documentation httpwwwcswaikatoacnzmlweka
Waikato Environment for Knowledge Analysis
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5357
53
Instrumente pentru Data-Mining
Principalii producători de soft pentruData-Mining
ndash IBM ndash Intelligent Miner extensie pentru DB2
ndash SAS ndash Enterprise Miner
ndash SPSS ndash Clementine
ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)
ndash hellipmulți alți producători mai mici
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5457
54
Instrumente pentru Data-Mining
SPSS - Clementine
ndash httpwwwspsscomclementine Oracle - Darwin
ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet
ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner
ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml
Standarde Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5557
55
Standarde Data Mining
PMML (Predictive Modelling Markup Language)
ndash Limbaj similar XML pentru salvare și partajare de
modele (cel mai acceptat standard)
CRISP
ndash Metodologie standardizată pentru construirea deaplicații Data Mining
OLE DB pentru Data Mining
ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)
IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5657
56
1 INTRODUCERE
2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE
3-7
CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale
Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici
8 CLUSTERIZARE (ANALIZA CLUSTERILOR)
9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA
ASOCIERILOR)
10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR
11 EVALUAREA MODELELOR
12 APLICAŢII ŞI TENDINŢE IN DATA MINING
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5757
Mulţumesc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4657
46
Evaluarea modelului
Evaluarea are scopul de a stabili capacitatea modelului de adetermina corect valorile pentru cazuri noi Pentru aceasta va fiaplicat asupra ultimei părţi a datelor preclasate disponibilereţinute pentru evaluare
Integrarea modelului
Această etapă finalizează procesul prin includerea
modelului obţinut icircntr -un sistem al cărui inimă va deveni sauprin integrarea sa icircntr-un proces decizional mai general
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4757
172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up
Overview of Fisherrsquos Iris Dataset
Fisherrsquos iris dataset is available for download from the tutorial website
httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls
Iris photos courtesy of SIGNA ndash wwwsignaorg
Fisherrsquos iris dataset is well-known in
data mining research
This dataset is commonly used to
illustrate data mining tools
Mark Polczynski PhD The Technology Forge mhptechforgegmailnet
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4857
172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up
Fisherrsquos Database - Background
Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems
Annals of Eugenics 7 179 ndash188 available at
httpdigitallibraryadelaideeduaucollspecialfisher138pdf
iris setosa iris versicolor iris virginica
Dataset contains flower dimension measurements on 50 samples of each species
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4957
172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up
Fisherrsquos Dataset- Background
Data mining terminology
bull The four iris dimensions are termed attributes or input attributes
bull The three iris species are termed classes or output attributes
bull Each example of an iris is termed a sample or instance
Anderson measured these dimensions
bull sepal length
bull sepal width
bull petal length
bull petal width
Measurements on these iris speciesbull setosa
bull versicolor
bull virginica
S t f Fi h rsquo I i D t t
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5057
172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up
Segment of Fisherrsquos Iris Dataset
Input Output
Attributes Attribute
Inst
Sepal
Length
Sepal
Width
Petal
Length
Petal
Width Species1 51 35 14 02 setosa
2 49 3 14 02 setosa
3 47 32 13 02 setosa
4 46 31 15 02 setosa5 5 36 14 02 setosa
Numerical Nominal
ClassSample
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5157
172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up
What Problem are We Trying to Solve
Iris setosa
Weka
decisiontree
Iris versicolor
Iris virginica
Our taskClassify unknown iris using
measurements on 150 iris
samples of known species
Instrumente pentru Data-Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5257
52
Instrumente pentru Data-Mining
Weka Documentation httpwwwcswaikatoacnzmlweka
Waikato Environment for Knowledge Analysis
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5357
53
Instrumente pentru Data-Mining
Principalii producători de soft pentruData-Mining
ndash IBM ndash Intelligent Miner extensie pentru DB2
ndash SAS ndash Enterprise Miner
ndash SPSS ndash Clementine
ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)
ndash hellipmulți alți producători mai mici
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5457
54
Instrumente pentru Data-Mining
SPSS - Clementine
ndash httpwwwspsscomclementine Oracle - Darwin
ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet
ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner
ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml
Standarde Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5557
55
Standarde Data Mining
PMML (Predictive Modelling Markup Language)
ndash Limbaj similar XML pentru salvare și partajare de
modele (cel mai acceptat standard)
CRISP
ndash Metodologie standardizată pentru construirea deaplicații Data Mining
OLE DB pentru Data Mining
ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)
IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5657
56
1 INTRODUCERE
2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE
3-7
CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale
Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici
8 CLUSTERIZARE (ANALIZA CLUSTERILOR)
9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA
ASOCIERILOR)
10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR
11 EVALUAREA MODELELOR
12 APLICAŢII ŞI TENDINŢE IN DATA MINING
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5757
Mulţumesc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4757
172009 Weka Tutorial 1 - Start-Up 4747Weka Tutorial 1 - Start-Up
Overview of Fisherrsquos Iris Dataset
Fisherrsquos iris dataset is available for download from the tutorial website
httpwwwtechnologyforgenettutorialswekaWTDSFishersIrisDatasetxls
Iris photos courtesy of SIGNA ndash wwwsignaorg
Fisherrsquos iris dataset is well-known in
data mining research
This dataset is commonly used to
illustrate data mining tools
Mark Polczynski PhD The Technology Forge mhptechforgegmailnet
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4857
172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up
Fisherrsquos Database - Background
Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems
Annals of Eugenics 7 179 ndash188 available at
httpdigitallibraryadelaideeduaucollspecialfisher138pdf
iris setosa iris versicolor iris virginica
Dataset contains flower dimension measurements on 50 samples of each species
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4957
172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up
Fisherrsquos Dataset- Background
Data mining terminology
bull The four iris dimensions are termed attributes or input attributes
bull The three iris species are termed classes or output attributes
bull Each example of an iris is termed a sample or instance
Anderson measured these dimensions
bull sepal length
bull sepal width
bull petal length
bull petal width
Measurements on these iris speciesbull setosa
bull versicolor
bull virginica
S t f Fi h rsquo I i D t t
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5057
172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up
Segment of Fisherrsquos Iris Dataset
Input Output
Attributes Attribute
Inst
Sepal
Length
Sepal
Width
Petal
Length
Petal
Width Species1 51 35 14 02 setosa
2 49 3 14 02 setosa
3 47 32 13 02 setosa
4 46 31 15 02 setosa5 5 36 14 02 setosa
Numerical Nominal
ClassSample
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5157
172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up
What Problem are We Trying to Solve
Iris setosa
Weka
decisiontree
Iris versicolor
Iris virginica
Our taskClassify unknown iris using
measurements on 150 iris
samples of known species
Instrumente pentru Data-Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5257
52
Instrumente pentru Data-Mining
Weka Documentation httpwwwcswaikatoacnzmlweka
Waikato Environment for Knowledge Analysis
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5357
53
Instrumente pentru Data-Mining
Principalii producători de soft pentruData-Mining
ndash IBM ndash Intelligent Miner extensie pentru DB2
ndash SAS ndash Enterprise Miner
ndash SPSS ndash Clementine
ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)
ndash hellipmulți alți producători mai mici
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5457
54
Instrumente pentru Data-Mining
SPSS - Clementine
ndash httpwwwspsscomclementine Oracle - Darwin
ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet
ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner
ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml
Standarde Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5557
55
Standarde Data Mining
PMML (Predictive Modelling Markup Language)
ndash Limbaj similar XML pentru salvare și partajare de
modele (cel mai acceptat standard)
CRISP
ndash Metodologie standardizată pentru construirea deaplicații Data Mining
OLE DB pentru Data Mining
ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)
IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5657
56
1 INTRODUCERE
2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE
3-7
CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale
Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici
8 CLUSTERIZARE (ANALIZA CLUSTERILOR)
9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA
ASOCIERILOR)
10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR
11 EVALUAREA MODELELOR
12 APLICAŢII ŞI TENDINŢE IN DATA MINING
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5757
Mulţumesc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4857
172009 Weka Tutorial 1 - Start-Up 4848Weka Tutorial 1 - Start-Up
Fisherrsquos Database - Background
Fisher RA (1936) The Use of Multiple Measurements in Taxonomic Problems
Annals of Eugenics 7 179 ndash188 available at
httpdigitallibraryadelaideeduaucollspecialfisher138pdf
iris setosa iris versicolor iris virginica
Dataset contains flower dimension measurements on 50 samples of each species
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4957
172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up
Fisherrsquos Dataset- Background
Data mining terminology
bull The four iris dimensions are termed attributes or input attributes
bull The three iris species are termed classes or output attributes
bull Each example of an iris is termed a sample or instance
Anderson measured these dimensions
bull sepal length
bull sepal width
bull petal length
bull petal width
Measurements on these iris speciesbull setosa
bull versicolor
bull virginica
S t f Fi h rsquo I i D t t
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5057
172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up
Segment of Fisherrsquos Iris Dataset
Input Output
Attributes Attribute
Inst
Sepal
Length
Sepal
Width
Petal
Length
Petal
Width Species1 51 35 14 02 setosa
2 49 3 14 02 setosa
3 47 32 13 02 setosa
4 46 31 15 02 setosa5 5 36 14 02 setosa
Numerical Nominal
ClassSample
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5157
172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up
What Problem are We Trying to Solve
Iris setosa
Weka
decisiontree
Iris versicolor
Iris virginica
Our taskClassify unknown iris using
measurements on 150 iris
samples of known species
Instrumente pentru Data-Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5257
52
Instrumente pentru Data-Mining
Weka Documentation httpwwwcswaikatoacnzmlweka
Waikato Environment for Knowledge Analysis
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5357
53
Instrumente pentru Data-Mining
Principalii producători de soft pentruData-Mining
ndash IBM ndash Intelligent Miner extensie pentru DB2
ndash SAS ndash Enterprise Miner
ndash SPSS ndash Clementine
ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)
ndash hellipmulți alți producători mai mici
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5457
54
Instrumente pentru Data-Mining
SPSS - Clementine
ndash httpwwwspsscomclementine Oracle - Darwin
ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet
ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner
ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml
Standarde Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5557
55
Standarde Data Mining
PMML (Predictive Modelling Markup Language)
ndash Limbaj similar XML pentru salvare și partajare de
modele (cel mai acceptat standard)
CRISP
ndash Metodologie standardizată pentru construirea deaplicații Data Mining
OLE DB pentru Data Mining
ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)
IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5657
56
1 INTRODUCERE
2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE
3-7
CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale
Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici
8 CLUSTERIZARE (ANALIZA CLUSTERILOR)
9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA
ASOCIERILOR)
10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR
11 EVALUAREA MODELELOR
12 APLICAŢII ŞI TENDINŢE IN DATA MINING
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5757
Mulţumesc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 4957
172009 Weka Tutorial 1 - Start-Up 4949Weka Tutorial 1 - Start-Up
Fisherrsquos Dataset- Background
Data mining terminology
bull The four iris dimensions are termed attributes or input attributes
bull The three iris species are termed classes or output attributes
bull Each example of an iris is termed a sample or instance
Anderson measured these dimensions
bull sepal length
bull sepal width
bull petal length
bull petal width
Measurements on these iris speciesbull setosa
bull versicolor
bull virginica
S t f Fi h rsquo I i D t t
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5057
172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up
Segment of Fisherrsquos Iris Dataset
Input Output
Attributes Attribute
Inst
Sepal
Length
Sepal
Width
Petal
Length
Petal
Width Species1 51 35 14 02 setosa
2 49 3 14 02 setosa
3 47 32 13 02 setosa
4 46 31 15 02 setosa5 5 36 14 02 setosa
Numerical Nominal
ClassSample
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5157
172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up
What Problem are We Trying to Solve
Iris setosa
Weka
decisiontree
Iris versicolor
Iris virginica
Our taskClassify unknown iris using
measurements on 150 iris
samples of known species
Instrumente pentru Data-Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5257
52
Instrumente pentru Data-Mining
Weka Documentation httpwwwcswaikatoacnzmlweka
Waikato Environment for Knowledge Analysis
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5357
53
Instrumente pentru Data-Mining
Principalii producători de soft pentruData-Mining
ndash IBM ndash Intelligent Miner extensie pentru DB2
ndash SAS ndash Enterprise Miner
ndash SPSS ndash Clementine
ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)
ndash hellipmulți alți producători mai mici
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5457
54
Instrumente pentru Data-Mining
SPSS - Clementine
ndash httpwwwspsscomclementine Oracle - Darwin
ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet
ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner
ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml
Standarde Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5557
55
Standarde Data Mining
PMML (Predictive Modelling Markup Language)
ndash Limbaj similar XML pentru salvare și partajare de
modele (cel mai acceptat standard)
CRISP
ndash Metodologie standardizată pentru construirea deaplicații Data Mining
OLE DB pentru Data Mining
ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)
IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5657
56
1 INTRODUCERE
2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE
3-7
CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale
Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici
8 CLUSTERIZARE (ANALIZA CLUSTERILOR)
9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA
ASOCIERILOR)
10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR
11 EVALUAREA MODELELOR
12 APLICAŢII ŞI TENDINŢE IN DATA MINING
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5757
Mulţumesc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5057
172009 Weka Tutorial 1 - Start-Up 5050Weka Tutorial 1 - Start-Up
Segment of Fisherrsquos Iris Dataset
Input Output
Attributes Attribute
Inst
Sepal
Length
Sepal
Width
Petal
Length
Petal
Width Species1 51 35 14 02 setosa
2 49 3 14 02 setosa
3 47 32 13 02 setosa
4 46 31 15 02 setosa5 5 36 14 02 setosa
Numerical Nominal
ClassSample
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5157
172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up
What Problem are We Trying to Solve
Iris setosa
Weka
decisiontree
Iris versicolor
Iris virginica
Our taskClassify unknown iris using
measurements on 150 iris
samples of known species
Instrumente pentru Data-Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5257
52
Instrumente pentru Data-Mining
Weka Documentation httpwwwcswaikatoacnzmlweka
Waikato Environment for Knowledge Analysis
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5357
53
Instrumente pentru Data-Mining
Principalii producători de soft pentruData-Mining
ndash IBM ndash Intelligent Miner extensie pentru DB2
ndash SAS ndash Enterprise Miner
ndash SPSS ndash Clementine
ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)
ndash hellipmulți alți producători mai mici
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5457
54
Instrumente pentru Data-Mining
SPSS - Clementine
ndash httpwwwspsscomclementine Oracle - Darwin
ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet
ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner
ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml
Standarde Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5557
55
Standarde Data Mining
PMML (Predictive Modelling Markup Language)
ndash Limbaj similar XML pentru salvare și partajare de
modele (cel mai acceptat standard)
CRISP
ndash Metodologie standardizată pentru construirea deaplicații Data Mining
OLE DB pentru Data Mining
ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)
IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5657
56
1 INTRODUCERE
2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE
3-7
CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale
Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici
8 CLUSTERIZARE (ANALIZA CLUSTERILOR)
9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA
ASOCIERILOR)
10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR
11 EVALUAREA MODELELOR
12 APLICAŢII ŞI TENDINŢE IN DATA MINING
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5757
Mulţumesc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5157
172009 Weka Tutorial 1 - Start-Up 5151Weka Tutorial 1 - Start-Up
What Problem are We Trying to Solve
Iris setosa
Weka
decisiontree
Iris versicolor
Iris virginica
Our taskClassify unknown iris using
measurements on 150 iris
samples of known species
Instrumente pentru Data-Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5257
52
Instrumente pentru Data-Mining
Weka Documentation httpwwwcswaikatoacnzmlweka
Waikato Environment for Knowledge Analysis
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5357
53
Instrumente pentru Data-Mining
Principalii producători de soft pentruData-Mining
ndash IBM ndash Intelligent Miner extensie pentru DB2
ndash SAS ndash Enterprise Miner
ndash SPSS ndash Clementine
ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)
ndash hellipmulți alți producători mai mici
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5457
54
Instrumente pentru Data-Mining
SPSS - Clementine
ndash httpwwwspsscomclementine Oracle - Darwin
ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet
ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner
ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml
Standarde Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5557
55
Standarde Data Mining
PMML (Predictive Modelling Markup Language)
ndash Limbaj similar XML pentru salvare și partajare de
modele (cel mai acceptat standard)
CRISP
ndash Metodologie standardizată pentru construirea deaplicații Data Mining
OLE DB pentru Data Mining
ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)
IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5657
56
1 INTRODUCERE
2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE
3-7
CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale
Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici
8 CLUSTERIZARE (ANALIZA CLUSTERILOR)
9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA
ASOCIERILOR)
10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR
11 EVALUAREA MODELELOR
12 APLICAŢII ŞI TENDINŢE IN DATA MINING
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5757
Mulţumesc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5257
52
Instrumente pentru Data-Mining
Weka Documentation httpwwwcswaikatoacnzmlweka
Waikato Environment for Knowledge Analysis
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5357
53
Instrumente pentru Data-Mining
Principalii producători de soft pentruData-Mining
ndash IBM ndash Intelligent Miner extensie pentru DB2
ndash SAS ndash Enterprise Miner
ndash SPSS ndash Clementine
ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)
ndash hellipmulți alți producători mai mici
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5457
54
Instrumente pentru Data-Mining
SPSS - Clementine
ndash httpwwwspsscomclementine Oracle - Darwin
ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet
ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner
ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml
Standarde Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5557
55
Standarde Data Mining
PMML (Predictive Modelling Markup Language)
ndash Limbaj similar XML pentru salvare și partajare de
modele (cel mai acceptat standard)
CRISP
ndash Metodologie standardizată pentru construirea deaplicații Data Mining
OLE DB pentru Data Mining
ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)
IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5657
56
1 INTRODUCERE
2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE
3-7
CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale
Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici
8 CLUSTERIZARE (ANALIZA CLUSTERILOR)
9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA
ASOCIERILOR)
10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR
11 EVALUAREA MODELELOR
12 APLICAŢII ŞI TENDINŢE IN DATA MINING
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5757
Mulţumesc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5357
53
Instrumente pentru Data-Mining
Principalii producători de soft pentruData-Mining
ndash IBM ndash Intelligent Miner extensie pentru DB2
ndash SAS ndash Enterprise Miner
ndash SPSS ndash Clementine
ndash Microsoft ndash Analysis Server (hellipparte a SQL Server)
ndash hellipmulți alți producători mai mici
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5457
54
Instrumente pentru Data-Mining
SPSS - Clementine
ndash httpwwwspsscomclementine Oracle - Darwin
ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet
ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner
ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml
Standarde Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5557
55
Standarde Data Mining
PMML (Predictive Modelling Markup Language)
ndash Limbaj similar XML pentru salvare și partajare de
modele (cel mai acceptat standard)
CRISP
ndash Metodologie standardizată pentru construirea deaplicații Data Mining
OLE DB pentru Data Mining
ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)
IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5657
56
1 INTRODUCERE
2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE
3-7
CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale
Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici
8 CLUSTERIZARE (ANALIZA CLUSTERILOR)
9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA
ASOCIERILOR)
10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR
11 EVALUAREA MODELELOR
12 APLICAŢII ŞI TENDINŢE IN DATA MINING
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5757
Mulţumesc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5457
54
Instrumente pentru Data-Mining
SPSS - Clementine
ndash httpwwwspsscomclementine Oracle - Darwin
ndash httpwwworaclecomipanalyzewarehousedatamining SGI - MineSet
ndash httpwwwsgicomsoftwaremineset IBM - Intelligent Miner
ndash httpwww-4ibmcomsoftwaredataiminerfordata httpwwwkdnuggetscomsoftwareindexhtml
Standarde Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5557
55
Standarde Data Mining
PMML (Predictive Modelling Markup Language)
ndash Limbaj similar XML pentru salvare și partajare de
modele (cel mai acceptat standard)
CRISP
ndash Metodologie standardizată pentru construirea deaplicații Data Mining
OLE DB pentru Data Mining
ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)
IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5657
56
1 INTRODUCERE
2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE
3-7
CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale
Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici
8 CLUSTERIZARE (ANALIZA CLUSTERILOR)
9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA
ASOCIERILOR)
10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR
11 EVALUAREA MODELELOR
12 APLICAŢII ŞI TENDINŢE IN DATA MINING
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5757
Mulţumesc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5557
55
Standarde Data Mining
PMML (Predictive Modelling Markup Language)
ndash Limbaj similar XML pentru salvare și partajare de
modele (cel mai acceptat standard)
CRISP
ndash Metodologie standardizată pentru construirea deaplicații Data Mining
OLE DB pentru Data Mining
ndash Standard Microsoft pentru dezvoltarea componentelor OLEDBCOM pentru extinderea serverului de analiză cufuncționalități pentru Data Mining (folosește un limbajSQL particularizat)
IBM și Oracle au pregătit extensii standard pentru limbajulSQL pentru a suporta funcționalitățile Data Mining
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5657
56
1 INTRODUCERE
2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE
3-7
CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale
Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici
8 CLUSTERIZARE (ANALIZA CLUSTERILOR)
9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA
ASOCIERILOR)
10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR
11 EVALUAREA MODELELOR
12 APLICAŢII ŞI TENDINŢE IN DATA MINING
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5757
Mulţumesc
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5657
56
1 INTRODUCERE
2CULEGEREA DATELOR ȘI SISTEMATIZAREA ACESTORA IcircN BAZEDE DATE
3-7
CLASIFICARE ȘI PREDICŢIEArbori de clasificare decizieClasificatori bazaţi pe reguli de decizie Clasificatori Bayesieni Reţele neuronale
Clasificatori de tip k-nearest neighbourMaşini cu suport vectorial Algoritmi genetici
8 CLUSTERIZARE (ANALIZA CLUSTERILOR)
9DESCOPERIREA REGULILOR DE ASOCIERE (ANALIZA
ASOCIERILOR)
10 IDENTIFICAREA ANOMALIILOR ȘI DEVIAŢIILOR
11 EVALUAREA MODELELOR
12 APLICAŢII ŞI TENDINŢE IN DATA MINING
5142018 C1_MPABD_11 - slidepdfcom
httpslidepdfcomreaderfullc1mpabd11 5757
Mulţumesc