Weka

23
UNIVERSITATEA “PETRU MAIOR” TÎRGU MUREŞ FACULTATEA DE ŞTIINŢE ECONOMICE JURIDICE ADMINISTRATIVE SPECIALIZAREA: GESTIUNE FINANCIAR-BANCARĂ Data mining şi WEKA

description

-

Transcript of Weka

Page 1: Weka

UNIVERSITATEA “PETRU MAIOR” TÎRGU MUREŞFACULTATEA DE ŞTIINŢE ECONOMICE JURIDICE ADMINISTRATIVE

SPECIALIZAREA: GESTIUNE FINANCIAR-BANCARĂ

Data mining şi WEKA

Masterand: Soos Monika-Maria

2014

Page 2: Weka

Cuprins

1. Tehnologia Data mining

2. Programul informatic WEKA

3. Studiu de caz

3.1.Prezentarea setului de date utilizat

3.2.Preprocesarea datelor

3.3.Clasificarea datelor

3.4.Performanţa algoritmilor WEKA

3.5.Rezultate

4. Concluzii

5. Bibliografie

2

Page 3: Weka

1. Tehnologia Data mining

Data mining este un concept ce presupune găsirea de relaţii şi tipare (necunoscute până la momentul căutării)  între datele ce compun un set informaţional oarecare. În implementarea conceptului de  data mining sunt utilizate aplicaţii software ce folosesc metode statistice, algoritmi matematici, algoritmi genetici sau reţele neuronale, specializate în detectarea şi predicţia unor anumite tipuri comportamentale.

Data Mining reprezintă un proces de extragere de informatii noi din colectiile de date existente. Termenul de dată are semnificatia de descriere a unui eveniment bine determinat care se produce în lumea reală si este perfect verificabil.Prin tehnologia Data Mining se prelucrează date care referă perioade anterioare(date istorice), care sunt examinate si sunt deja cunoscute, pe baza lor constituindu-se un model. Acest model va putea fi aplicat situatiilor noi deacelasi tip cu cele deja cunoscute. Informatiile care se pot obtine prin DataMining sunt predictive sau descriptive. De exemplu directionarea actiunilor demarketing pot constitui o problemă tipică predictivă. Detectarea fraudelor  produse cu carduri bancare reprezintă o problemă tipică de aplicatie descriptivă.Dezvoltarea tehnicilor de Data Mining se explică prin acumularea de volume pecare acestea le-au derulat de-a lungul anilor. De asemenea, concurenta tot mai acerbă precum si cresterea exigentelor pietei au determinat firmele să ia tot mai mult înconsiderare potentialul urias pe care îl oferă arhivele de date. Alături de arhivele de datememorate pe suporturi informatice mai există încă doi factori care au dus la necesitatea Data Mining: existenta si perfectionarea algoritmilor si a produselor program dedicate precum si cresterea capacitătii de memorare si prelucrare a calculatoarelor care permittratarea corelativă a volumelor mari de date. Potentialul oferit de Data Mining se încorporează în procesele comerciale ale firmelor, iar căutarea informatiilor nu devine un scop în sine ci este utilă doar dacă estetransformată ca actiune. Astfel firmele pot alege să reactioneze sau nu la situatiile diversecreate de realitate (diminuarea numărului de clienti, scăderea vânzărilor, pierderea unor  piete de desfacere etc.). Pasul următor după această alegere este exploatarea propriu-zisă a datelor utilizând diversi algoritmi.De multe ori, actiunea de Data Mining poate fi un esec si nu o reusită, fiind posibilca măsurile luate să nu fie adecvate informatiilor obtinute.

Toate elementele considerate anterior conduc spre ideea de ciclu în utilizarea DataMining în cursul căruia sunt patru etape:- definirea oportunitătilor comerciale si a datelor,- obtinerea de informatii din colectiile de date existente prin tehnici Data Mining,- adoptarea deciziilor si actiunilor în urma informatiilor rezultate,- cuantificarea cât mai corectă a rezultatelor concrete pentru a identifica si alte căi deexploatare a datelor. 

Avantajele procesului de învăţare din baze de date prin intermediul tehnologiei data mining1: Depozitarea datelor într-o manieră structurată facilitează găsirea datelor din cadrul bazei de

date. Astfel într-o bază de date relaţională, datele sunt normalizate în relaţii şi astfel se elimină

1 Aplicarea tehnologiei data mining în sistemul medical, Raţiu Silviu, 2013, UPM3

Page 4: Weka

redundanţa, iar relaţiilor pot fi combinate prin diferite meode pentru a se regăsi seturile de date cerute din baza de date.

Codarea anterioară a unor cunoştinţe în interiorul bazei de date. Astfel existenţa unei constrângeri de „not null” reprezintă o modalitate de codare a cunoştinţelor explicit specificate în interiorul structurii bazei de date.

Interogarea bazei de date la performanţe ridicate, precum şi exitenţa unor unelte de manipulare a datelor şi a tranzacţiilor.

Volumul mare de date presupune ca orice unealtă de extragere de date trebuie să sa execute satisfăcător pe un volum mare de date.

2. Programul informatic WEKA

WEKA (Waikato Envireonment for Knowledge Analysis) este o colecţie de algoritmi de învăţare pentru data mining, cuprinşi într-un soft gratuit fiind produsul Universităţii din Waikato, New Zeelandă implementat pentru prima oară în anul 1997. Acest software este scris în limbaj Jawa, având o interfaţă grafică pentru a interacţiona cu fişierele de date şi a produce rezultate vizuale.

WEKA conţine unelte pentru prepocesarea datelor, iar pentru clasificarea acestora se utilizează arbori de decizie, regresie, reguli de asociere şi vizualizare. Acest sistem poate fi utilizat pe mai multe platforme, cum ar fi Linux, Unix şi Microsoft Windows.

WEKA poate fi utilizat în orice domeniu de interes, comparativ cu celelalte aplicaţii de data mining, care sunt destinate unui singur domeniu de activitate. Se poate utiliza în cercetare, educaţie şi în cadrul aplicaţiilor însumând un set vast de instrumente de procesare a datelor, algoritmi de învăţare şi metode de evaluare, interfeţe grafice şi un mediu pentru compararea algoritmilor de învăţare.

Există trei scheme majore implementate în Weka: - Scheme implementate pentru clasificare,- Scheme implementate pentru previziunea numerică,- Meta-scheme implementate.

Mediul Explorer al programului informatic WEKA pune la dispoziţie în interfaţa grafică pachetele sistemului şi anume:

1. Preprocessing, în cadrul căruia se pot deschide seturile de date sub forma fişierelor „arff” cât şi dintr-o bază de date anume; de asemenea se poate realiza o filtrare nesupravegheată a datelor cu un unul din filtrele puse la dispoziţie.

2. Classify, permite alegerea şi rularea oricărui algoritm de clasificare din cele 6 categorii de algoritmi diferite.

3. Associate, permite setarea unei reguli de asociere a datelor şi apliccarea acesteia.

4

Page 5: Weka

4. Select Attributes, este un alt pachet WEKA şi permite configurarea şi aplicarea oricărei combinaţii de atribute din cele ce definesc setul de date pentru a depista care sunt cele mai relevante atribute din set.

5. Vizualize, permite vizualizarea setului curent de date în una sau două dimensiuni, iar dacă atributele au valori continue este utilizat un spectru de nuanţe ale aceleiaşi culori pentru reprezentraea valorilor, pe când pentru atribute discrete fiecare valoare este reprezentată cu altă culoare.

În programul informatic WEKA sunt implementaţi mai multe algoritmi de Data mining, cum ar fi:

Arbori de decizie: în mediul WEKA algoritmul specific elborării arborilor de decizie este algoritmul J48, ai cărui parametrii permit schimbarea pragului de încredere responsabil pentru simplificarea arborelui, numărul minim de cazuri care sunt permise pe o frunză. Se poate stabili şi dimensiunea setului de simlificare, a numărului părţilor de date de la care ultima este utilizată pentru simplificare, sau arborii pot fi simplificaţi cu eroare redusă. Petru a realiza acest lucru este esenţial ca funcţia „reduce ErrorPruning” să fie pornită, iar opţiunea „SaveIstanceData” este utilă în timpul vizualizării arborelui.

NaЇve Bayes, care se bazează pe cunoştinţele probabilistice şi pe regula lui Bayes. Această metodă este valabilă pentru multilicarea probabilităţilor atunci când evenimentele sunt independente. 2Metoda se bazează pe învăţare supervizată, scopul fiind de prezicere a clasei cazurilor de testare cu informaţii care provin din datele de formare. Acastă calsificare constă într-un set de exemple din setul de antrenare, utilizând teorema Bayes pentru a estima probabilităţiile tuturor clasificărilor. Pentru fiecare exmplu, clasificarea cu cea mai mare probabilitate este aleasă drept clasă de predicţie.

Multilazer perceptron, care este echipat cu interfaţă grafică suplimentară care permite modificarea reţelei. Este posibilă adăugarea nodurilor şi conexiunilor între noduri iar utilizatorul poate decide cât de mult timp sistemul trebuie instruit cu parametrul „number of epoch” şi continuă instruirea prin negarea rezultatelor obţinute sau ruperea formării prin acceptarea erorii prezentate pe epoci

3. Studiu de caz

2 Witen N., Selected techniques for data mining in medicine. Artificial Intelligence in Medicine 1999, vol.16, 3-235

Page 6: Weka

3.1. Prezentarea setului de date utilizat3

Baza de date a fost preluat de pe site-ul https://archive.ics.uci.edu/ml/datasets/Adult şi conţine observaţii reale de la 250 de persoane cu privire la datele personale. Extracția a fost făcut de către Barry Becker de la baza de date Recensamantul din 1994. Sarcina de predicție este de a determina dacă o persoană câştigă peste 50.000 dolar un an.

Fişierul de date adult.data-250.arff conţine 15 atribute ce descriu informaţiile existente despre 250 de subiecţi cu vârsta cuprinsă între 17-90 de ani, femei şi bărbaţi, cu diferite nivel de studii şi stare civilă, etc.

Baza de date a fost implementat cu ajutorul interfeţei grafice a Explorer-ului. Odată ce datele sunt încărcate, WEKA va recunoaste atributele şi pe măsura ce datele sunt scanate se vor determina anumite statistici pentru fiecare atribut. Figura de mai jos prezintă lista de atribute recunoscute:

În cazul fiecărui atribut se afişează statisticile de bază referitoare la atributul curent, astfel pentru atributele de tip continuu se afişează valoarea minima, maxima, media şi deviaţia standard (de ex. pentru atributul vârstă valoarea inimă este de 17 ani, maximă de 90 de ani, media este de 38,82 şi deviaţia standard aproximativ 14), în timp ce la atributele de tip categorie se afişează frecvenţa valorii atributului, ca de exemplu:

3 Machine Learning with WEKA, Eibe Frank, Department of Computer Science University of Waikato, New Zealand6

Page 7: Weka

Programul WEKA permite vizualizarea valorilor tuturor atributelor, respectiv a întregii serii supuse analizei. Prin apăsarea butonului „Edit”, se deschide o fereastră ce conţine seria de date. Un fragment din această serie este prezentată în următoarea figură:

3.2. Preprocesarea datelor

Aceasta este prima etapă din cadrul prelucrării datelor în programul utilizat, în care datele din cadrul seriei sunt supuse filrării. Pentru filtrarea datelor se apasă butonul „Choose, care deschide o listă a filtrelor disponibile în program. Din această listă se selectează instrucţiunea „AllFilter” după care se apasă butonul „Apply”. Acest program filtrează datele în mod automat şi generază reprezentări grafice ale valorilor specifice fiecărui atribut. Aceste grafice pot fi vizualizate şi separat sau prin butonul „Visualise All”, şi rezultă următoarele grafice:

7

Page 8: Weka

3.3. Clasificarea datelor

Folosind agoritmul de clasificare J48 prin apăsarea butonului „Classify” → „Choose” →”trees” → ”J48” construim arborele de decizie. Aceştia se construieşte pe baza testării fiecărui nodal arborelui, începând cu nodul rădăcină, pentru fiecare înregistrare. Fiecare nod reprezintă numele unui atribut. Se încearcă introducerea instanţei într-o clasă existentă, pe baza caracteristicilor comune, evaluându-se atributul corespunzător nodului la care s-a ajuns. În funcşie de valoarea sa instanţa va urma o ramură, iar când nu mai există noduri de evaluat instanşa este clasificată. Folosind circumstanţa „Use training set” (Folosirea setului de exersare) şi apăsând butonul „Strart” obţinem arborele generat:

8

Page 9: Weka

Conform rezultatelor generate se poate observa că din 250 de persoane 235 au un câştigul de capital mai mic de 5,013 dolari, iar din acestea numai 47 obţin anual venituri mai mici de 50,000 de dolari/an şi şi. Numărul persoanelor care obţin venituri peste 50,000 de dolari pe an este de 15, iar aceste persoane au câstig de capital peste 5,013 dolari/an. Acelasi concluzii putem trage şi când interpretăm arborul de decizie.

Din figura următoare se poate observa procentajul de eroare a clasificării. Din 250 de instanţe 203 sunt clasificate corect, adică în proporţie de 81,2%, în timp ce celelalte 47 în proporţie de 18,8% sunt incorect clasificate.

Matricea de confuzie prezintă informaţii importante despre arborele generat, şi anume indică faptul cărezultatele obţinutesunt de încredere sau nu. În cazul nostru Din 62 de subiecţi care erau clasificate în venituri anuale mai mari de 50,000 de dolari numai 47 sunt corect clasificate.

Adăugând o nouă clasificare WEKA face o clasificare fără erori din care reiese că din 250 de persoane 235 au venituri sub 50,000 de dolari/an şi numai 15 peste aceste valori.

9

Page 10: Weka

După această clasificare analizând arborele de decizie se poate observa că persoanele care au un câştig de capital mai mare de 5,013 dolari/an au şi venituri anuale mai mari fiind numai 15, restul persoanelor sunt clasificate sub aceste niveluri de câştig.

Folosind meniul Select Atributes al programului WEKA atributele se pot evalua prin aplicarea filtrului InfoGainAttributeEval, care a ierarhizat atributele în funcţie de relevanţa informaţiilor pe care le oferă. Astfel în cazul de faţă, al bazei ”adult.data-250”, rezultatele obţinute sunt prezentate în figura următoare. Se poate observa că cele mai concentrate date, în proporţie de 19% se află în cadrul atributului relationship, fiind urmat de marital-status şi education, ierarhizarea dată fiind relevantă, dat fiind faptul că acestea sunt atributele reprezentative ale studiului. Cea mai slabă reprezeentare este în cadrul vârstei şi a perderii de capital.

10

Page 11: Weka

11

Page 12: Weka

3.4. Performanţa algoritmilor WEKA

WEKA oferă anumite circumstanţe de aplicare a acestor algoritmi asupra seturilor de date, J48, având posibilitatea de a fi aplicat în diferite cazuri, precum: Use training sets (Folosirea setului de exersare), Supplied test set (care presupune furnizarea setului de date), Cross-validation (Validări încrucişate, având posibilitatea selectării numărului de straturi de modelare a seriei în aplicarea algoritmilor) şi Percentage split (care oferă posibilitatea împărţirii în procente).

Arbori de decizieÎn urma analizei rezultatelor obţinute aplicând fiecăre opţiune existentă, au fost centralizate

într-un tabel, putând fi observată performanţa algoritmului J48 cu privire la configuraţia de testare pentru baza de date „adult.data-250.arff”.

Metoda de testareTraining

set

10-fold cross

validation

5-fols cross validation

15-fold cross

validation

30% split

50% split

66 % split

Correctly Classified Instances

81.20% 80% 78.40% 79.60% 77.14% 82.40% 82.35%

Incorrectly Classified Instances

18.80% 20% 21.60% 20.40% 22.86% 17.60% 17.65%

Kappa statistic 0.3243 0.2965 0.2508 0.2875 0 0.2898 0.4094Mean absolute

error0.3008 0.3041 0.3044 0.303 0.3878 0.3123 0.1909

Root mean squared error

0.3878 0.398 0.4147 0.4044 0.4249 0.3849 0.4007

Relative absolute error

80.43% 81.28% 81.33% 80.93% 99.25% 82.83% 52.26%

Root relative squared error

89.80% 92.15% 96% 93.63% 99.80% 92.29% 98.43%

TP rate 0.812 0.8 0.784 0.796 0.771 0.824 0.824FP rate 0.57 0.574 0.59 0.575 0.771 0.612 0.441

Precision 0.85 0.806 0.769 0.795 0.595 0.83 0.813Recall 0.812 0.8 0.784 0.796 0.771 0.824 0.824

F-measure 0.765 0.755 0.74 0.606 0.672 0.78 0.817

Tabelul anterior cuprinde valorile obţinute în urma aplicării algoritmului J48, asupra bazei de date ”adult.data-250”. În urma analizei tabelului se poate observa că, în cazul circumstanţei Correctly classified, cea mai mare valoare se înregistrează în cazul opţiunii 66% split, mai exact 82,35%. Cea mai scăzută valoare în cazul acestei opţiuni este înregistrată la nivelul 30% Split, 77,14%, acestă circumstanţă se explică prin faptul că 60% din date se testează (test data), iar pe restul, de 30% se obţine această valoare (training data). Acelaşi lucru se poate face şi împărţind setul de date

12

Page 13: Weka

în două părţi, de dimensiunile dorite şi aplicand asupra uneia dintre ele (training data) circumstanţa Supplied test set, care o va introduce pe cea de-a doua (test data), în acest mod, rezultatul apropiindu-se în mai mare măsură de cel corect. Valoarea medie înregistrată în cadrul opţiunii de clasificare corectă a datelor este de 80,15%, reprezentând un grad ridicat de corectitudine al bazei prelucrate în WEKA. Erorile sunt date de indicatorul Mean absolute error, sau Media Absolută a Erorilor, care înregistrează valori sub 4%, ceea ce semnifică faptul că analiza realizată asupra bazei de date prelucrată este, din punct de vedere a sistemului WEKA aproape de adevăr. Un alt indicator, TP Rate, semnifică gradul de corestitudine al clasificărilor pozitive, înregistrând valori ridicate, 82,4% în cazul 50% split si 30% split. Valorile înregistrate de indicatorul FP rate indică posibilitatea înregistrării unor valori eronate în anumite cazuri. Indicatorii Precission, Recall şi F-measure au înregistrat valori diversificate.

Algoritmul Naive BayesPerformanţa acestui algoritm obţinută în programul WEKA este prezentat în tabelul următor.

Acest algoritm a fost similar aplicat asupra seriei de date utilizând aceleaşi configuraţii.

Metoda de testareTrainin

g set

10-fold cross

validation

5-fold cross validation

15-fold cross

validation

30% split

50% split

66 % split

Correctly Classified Instances

83.20% 80.4% 79.60% 80.00% 82.28% 84.00% 87.05%

Incorrectly Classified Instances

16.80% 19.6% 20.40% 20.00% 17.72% 16.00% 12.95%

Kappa statistic 0.5345 0.4348 0.4185 0.4266 0.4746 0.5008 0.5217

Mean absolute error

0.1696 0.1981 0.1973 0.2036 0.1878 0.193 0.161

Root mean squared error

0.341 0.3746 0.3754 0.3835 0.3615 0.3689 0.3309

Relative absolute error

45.34% 52.95% 52.72% 54.41% 48.05% 51.19% 44.09%

Root relative squared error

78.97% 86.73% 87% 88.80% 84.92% 88.47% 81.29%

TP rate 0.832 0.804 0.796 0.8 0.823 0.84 0.871FP rate 0.315 0.4 0.402 0.401 0.369 0.366 0.429

Precision 0.827 0.793 0.786 0.789 0.816 0.833 0.864Recall 0.832 0.804 0.796 0.8 0.823 0.84 0.871

F-measure 0.829 0.796 0.789 0.792 0.819 0.835 0.875

În urma analizei tabelului se poate observa că, în cazul circumstanţei Correctly classified, cea mai mare valoare se înregistrează în cazul opţiunii 66% slit, adică 87%. Cea mai scăzută valoare în cazul acestei opţiuni este înregistrată la nivelul 5-fold cross validation, 79,6%, acestă circumstanţă se explică prin faptul că 60% din date se testează (test data), iar pentru restul, de 30% se obţine această valoare (training data). Valoarea medie înregistrată în cadrul opţiunii de clasificare corectă a datelor este de 82,36%,această valoare fiind mai mare decât în cazul algoritmului J48. Erorile date

13

Page 14: Weka

de indicatorul Mean absolute error a înregistreat valori sub 3%, ceea ce semnifică faptul că analiza realizată asupra bazei de date prelucrată este, din punct de vedere a sistemului WEKA aproape de adevăr. Un alt indicator, TP Rate, semnifică gradul de corestitudine al clasificărilor pozitive, înregistrând valori ridicate, 87,1% în cazul Training set. Valorile înregistrate de indicatorul FP rate indică posibilitatea înregistrării unor valori eronate în anumite cazuri. Indicatorii Precission, Recall şi F-measure au înregistrat valori peste 70%.

3.5. Rezultate

În urma aplicării celor 2 algoritmi asupra bazei de date „adult.data-250” au adus rezultate bune, iar fiind greu de comparat performanţele algoritmilor se va analiza performanţa configuraţiilor a fiecărui algoritm. În acest sens se va acorda un puctaj de la 1 la 7 asupra valorilor obţinute în toate circumstanţele aplicării fiecărui algoritm. Acest punctaj se acordă în funcţie de semnificaţia indicatorului şi valoare obţinută de către acesta. De exemplu în situaţia indicatorului „Correctly Classified Instances” punctajul maxim se va acorda celei mai ridicate valori, iar în cazul „mean absolute error” se va acorda punctajul maxim celei mai scăzute valori. Însumând punctele obţinute de fiecare configuraţie a fiecărei algoritm, configuraţia cu cel mai mare punctaj o să fie cel mai performant.

În tabelele următoare sunt prezentate punctajele acordate în cazul algoritmului J48:

Metoda de testareTraining

set

10-fold cross

validation

5-fols cross validation

15-fold cross

validation

30% split

50% split

66 % split

Correctly Classified Instances

5 4 2 3 1 7 6

Mean absolute error

6 4 3 5 1 2 7

Root mean squared error

6 5 2 3 1 7 4

Relative absolute error

6 4 3 5 1 2 7

TP rate 5 4 2 3 1 6 7FP rate 2 3 5 4 7 6 1

Precision 7 4 2 3 1 6 5Recall 5 4 2 3 1 6 7

F-measure 5 4 3 1 2 6 7Total 47 36 24 30 16 48 51

Din tabelul de mai sus rezultă că cea mai mare performanţă este dată de configuraţia 66% split, în cadrul căreia se obţin cele mai mari procente, prin implementarea algoritmului J48, obţinând 51 de

14

Page 15: Weka

puncte. Al doilea loc, după gradul de performanţă este ocupat de circumstanţa 50% split, 47 de puncte, cel mai scăzut punctaj fiind înregistrat de configuraţia 30% split, cauza fiind probabil faptul ca utilizeaza doar 30% din totalul datelor, rezultând în acest caz un punctaj de 22 puncte.Matricea de confuzie rezultată în urma aplicări algoritmului J48 în configuraţia cea mai bună şi cea mai slabă este prezentată în tabelul următor, prezentând confuziile pe care sistemul WEKA le-a făcut, în momentul analizei atributelor:

“66 % split” Valori prezise

 

“30% split” Valori prezise

Valori reale <=50K >50K Valori reale <=50K >50K

<=50K 62 6 <=50K 135 0

>50K 9 8 >50K 40 0

Similar, testăm şi algoritmul Naive Bayes, nivelul cunctajelor fiind prezentate în următorul tabel:

Metoda de testareTraining

set

10-fold cross

validation

5-fold cross validation

15-fold cross

validation30% split

50% split

66 % split

Correctly Classified Instances

5 3 1 2 4 6 7

Mean absolute error

6 2 3 1 5 4 7

Root mean squared error

6 3 2 1 5 4 7

Root relative squared error

7 4 3 1 5 2 6

TP rate 5 3 1 2 4 6 7FP rate 1 4 6 5 3 2 7

Precision 5 3 1 2 4 6 7Recall 5 3 1 2 4 6 7

F-measure 5 3 1 2 4 6 7Total 45 28 19 18 38 42 62

În urma calcului punctajelor celor 7 configuraţii putem observa că şi în cazul acestui algoritm, cele mai performante rezultate sunt obţinute în momentul în care utilizăm configuraţia 66% split, obţinându-se în acest caz 62 punctaj această configuraţie este urmată de Training set cu 45 de puncte, pe ultimul loc clasându-se în cazul acestui algoritm configuraţia 15-fold cross validation cu 18 puncte. În acest caz matricea de confuzie arată în felul următor:

“66 % split” Valori prezise

 

 “15-fold cross validation” Valori prezise

Valori reale <=50K >50K Valori reale <=50K >50K<=50K 66 2 <=50K 169 19>50K 9 8 >50K 31 31

15

Page 16: Weka

4. Concluzii

Data mining reprezentând procesul de de descoperire a informatiilor din depozite mari de

date, analizează seturilor de date de dimensiuni mari resultate prin observatii asupra unor fenomene

pentru a determmina relati noi. Tehnologia data mining prezintă o importanţă deosebită în multe

domenii, din cauza volumului mare de date care sunt într-o continuare creştere. Un algoritm

important de învăţare pentru data mining este WEKA.

Necesitatea WEKA constă în necesitatea prelucrării datelor în timp real datorita volumul

mari de date, oferind multe posibilităţi de prelucrare, clasificare, de analiză a datelor. Printre

punctele forte putem menţiona faptul că Weka este foarte portabil, fiind implementat în programul

de programare Java, care se rulează pe orice platformă. Conţine o colecţie de tehnici pentru

preprocesarea şi date de modelare, iar uşurinţa folosirii acestui program constă în faptul că se

utilizează interfeţe grafice.

Studiul de caz a constat în analiza bazei de date „adult.data-250”, prin aplicarea a 2

algoritmi în cadrul programului WEKA, pentru a analiza situaţia financiară a subiecţilor în decursul

unei ani, precum şi a factorilor de influenţa. A fost efectuat o comparaţie folosind algoritmul J48 si

Naive Bayes al cărui rezultate erau foarte similare.

16

Page 17: Weka

Bibliografie

1. Machine Learning with WEKA, Eibe Frank, Department of Computer Science University of

Waikato, New Zealand

2. Aplicarea tehnologiei data mining în sistemul medical, Raţiu Silviu, 2013, UPM

3. Witen N., Selected techniques for data mining in medicine. Artificial Intelligence in

Medicine 1999, vol.16, 3-23

17