Data Mining Algoritmi de Regresie

download Data Mining Algoritmi de Regresie

of 3

Transcript of Data Mining Algoritmi de Regresie

783 ANALIZA STATISTIC A DATELOR ECONOMICE PRIN ALGORITMI DATA MINING DE ARBORI DE DECIZIE LAVINIU AURELIAN BDULESCU Universitatea din Craiova; Facultatea de Automatic, Calculatoare i Electronic, Secia InginerieSoftware;Craiova,str.G.Fotino,nr.2,bl.b8,3,11,200481,Dolj;mobil 0722276554;E-mail: [email protected] In contrast with statistical analysis, data mining analyzes all the relevant data in database andextractshiddenpatterns.DataMiningDecisionTreeAlgorithmsgenerate classificationorestimationmodels.Thealgorithmsuseasplittingcriteriontodetermine themostpredictivefactorandplaceitasthefirstdecisionpointinthetree.Specific decision tree include CART and CHAID. 1. INTRODUCERE DataMiningestenanumiteprivineoextensieastatisticiilacareaufostadugate elemente de inteligen artificial i Machine Learning. Ca i statistica, Data Mining nu este osoluiedeafaceri,eaestedoarotehnologie[8].ncontrastcuanalizastatistic,Data Mininganalizeaztoatedatelerelevantedinbazadedateiextragemodelele(patterns) ascunse[2].Metodeledelucrualestatisticiisuntcombinatecumetodelespecifice domeniuluiMachineLearningisuntajustatepentruestimareamodeluluioptimde performan din bazele de date [6]. Un arbore de decizie (Decision Tree) este un model de clasificare sau estimare care poate fi privitcaunarbore.Fiecaresubarboredincomponenasareprezintunrspunslao ntrebare de clasificare, frunzele arborelui sunt partiii sau segmentri ale setului de date n funcie de clasificarea realizat, iar nodurile prezint informaii statistice. Ideeadebazaalgoritmilordearboridedecizieesteutilizareaunuicriteriudedivizare pentruadeterminacelmaipredictivfactoriamplasarealuicaprimpunctdedecizien arbore i n continuare s execute o cutare de factori predictivi pentru a construi subarborii pncndnumaiexistdatedeprocesat.Reducereaarborelui(treepruning)crete acurateealadatele-zgomotipoatefirealizatatuncicndarboreleestenconstrucie (pre-pruning), sau dup construcia arborelui (post-pruning).[5] Arborelededeciziegenereazunoutputcuointerpretareuoarpentrumarketingio identificarefacilavariabilelorsemnificativenluareadeciziilormanageriale.La construireamodeluluiarborescentsepotutilizavariabileleoriginalecarenuaufost transformate sau normalizate. Modelul de arbore de decizie va crea reguli asupra datelor de estimat variabila int. Metodele specifice de arbore de decizie includ arborii de clasificare i regresie (Classification and Regression Trees: CART) i detecia automat a interaciunii 2 (ChiSquareAutomaticInteractionDetection:CHAID).Eifurnizeazomulimede reguli cepotfiaplicatepentru unsetdedateneclasificat,pentruaestimacare nregistrri 784voraveaoanumitieire.CARTsegmenteazunsetdedatecrendsubarboribinari,n timpceCHAIDsegmenteazsetuldedatecrendsubarborioarecare,utilizndteste2. CART necesit de obicei mai puin pregtire a datelor dect CHAID.[1] Dei arborii de decizie au fost dezvoltai iniial ca instrumente exploratorii pentru rafinarea i preprocesarea datelor pentru tehnici statistice, cum ar fi regresia logic, ei sunt din ce n ce mai mult utilizai pentru predicie. Analiza regresiei este o tehnic statistic tradiional pentru gsirea unei funcii care descrie relaia dintre un numr de variabile i o valoare care se dorete estimat. Aceast tehnic utilizeaz, n general, intrri numerice. De obicei, este necesaropreprocesare.Celemaiutilizatetehnicideregresiesunt:regresiapolinomial (polynomial regression), extensie a regresiei lineare i regresia logic (logistic regression), ieireanacestcazfiind1sau0[3].Arboriidedecizieluainconsiderarenproblema analizelor de regresie sunt numii arbori de regresie.[9] 2. ALGORITMII CART I CHAID Algoritmul CART este un algoritm de explorare i predicie[4] care alege fiecare predictor la construirea arborelui astfel nct s scad dezordinea datelor. Msura pe baza creia este preferat un predictor altuia este valoarea entropiei. Algoritmul CART este relativ robust n raportcudatelelips.Dacovaloarelipsetepentruunpredictorparticularntr-o nregistrareparticular,laconstruireaarboreluiaceanregistrarenuvafiutilizatn realizareadeterminriiramificriioptimale.CndCARTesteutilizatpentruaprezice asupraunordatenoi,valorilelipspotfimanipulateprinintermediulsubstitutelor (surrogates). Substitutele sunt valori de ramificare i predictori care simuleaz ramificarea real din arbore i pot fi utilizate cnd lipsesc datele pentru predictorul dorit. De exemplu, deimrimealapantofinuesteunpredictorperfectpentrunlimeauneipersoane,ea poatefifolositcaunsubstitutnncercareadeasimulaoramificarebazatpenlime cnd acea informaie lipsete dintr-o nregistrare particular ce trebuie utilizat n estimarea cu modelul CART. CHAIDdiferdeCARTnmodulcumalegeramificarea.Pentrualegerearamificrii optimale,CHAIDsebazeazpetestul2dintabeleledecontingenpentruadetermina carepredictorcategorialestecelmaidepartedeindependencuvalorileestimate. AlgoritmulCHAIDestepopularncercetriledemarketingncontextulstudiilorde segmentareapieei.Putndfiutilizaiattpentruprediciectipentruclasificare, algoritmii CART i CHAID pot fi aplicai pentru analiza problemelor de tip regresie sau de tip clasificare. Prezentm paii urmai la dezvoltarea algoritmului CHAID. 1.Pregtireapredictorilor.Seconstruiescpredictoriicategorialidinpredictoriicontinui prinmprireadistribuieicontinuentr-unnumrdecategoriicuunnumraproximativ egaldeobservaii.Pentrupredictoriicategoriali,categoriile(clasele)suntdefinitedela sine. 2.Fuziuneacategoriilor.Parcurgemrepetatpredictoriipentruadeterminapentrufiecare predictor perechea de categorii predictor care sunt cel mai puin semnificative n raport cu variabiladependent;pentruproblemeledeclasificare(undevariabiladependenteste categorial),sevaevaluauntest2(Pearson2);pentruproblemelederegresie(unde variabiladependentestecontinu),sevaevaluauntestF.Dactestulrespectivpentruo perechedatdecategoriipredictornuestesemnificantstatistic,atuncisevorfuziona categoriile predictor respective i se va repeta acest pas (i.e. se va gsi urmtoarea pereche 785 decategorii,careacumpotincludecategoriileanteriorfuzionate).Dacperecheade categoriipredictorestesemnificativstatistic,atuncisevaestimauntestBonferronip-valoare ajustat pentru mulimea categoriilor predictorului respectiv. 3. Selectarea valorii de separare. Alegem variabila predictor de separare cu cea mai mic p-valoareajustat,adicvariabilapredictorcareproduceceamaisemnificativseparare; dacceamaimicp-valoareajustat(Bonferroni)pentruoricepredictorestemaimare dect o anumit valoare de separare , atunci nu va mai fi executat nici o separare i nodul respectiv este o frunz. Acest proces continu pn cnd nu mai poate fi realizat nici o separare.[7]3. CONCLUZII Arborelededecizieialgoritmulcarelcreeazpotficomplicai,nsrezultatulpoatefi prezentatntr-unmoduordeneles,lucrucarepoatefiextremdefolositornluarea deciziilor n afaceri. Astfel arborele de decizie este situat n topul modelelor predictive. El poatefiutilizatns,negalmsur,inaplicaiiledeclasificarecesuntsolicitaten diverse domenii cum ar fi experimentele tiinifice, aprobrile de credite, target marketing, store location, analizele financiare, customer segmentation, detectarea fraudelor etc. S observm dou elemente interesante la acest tip de arbore: eldividedatelelafiecarepunctderamificarefrspiardniciodat,numrul total de nregistrri din nodul printe fiind egal cu suma nregistrrilor coninute n cei doi subarbori fii; esteuordenelescumafostconstruitmodelul,ncontrastcualtemodelele concurente cum ar fi reele neuronale etc. Datorit naltului lor nivel de automatism i uurinei de translatare a modelelor construite cuarboridedecizienSQL,pentruutilizareanbazededaterelaionale,tehnologiaeste uor de integrat n procese IT deja existentele, necesitnd puin preprocesare i reducere a datelor, sau extragere a lor cu scop precis pentru Data Mining.BIBLIOGRAFIE 1.***,AnOverviewofDataMiningatDun&Bradstreet,DataIntelligence Group White Paper 95/01, 1995. 2.Baragoin,C.,Andersen,C.,M.,Bayerl,S.,Bent,G.,Lee,J.,Schommer,C., MiningYourOwnBusinessinRetailUsingDB2IntelligentMinerforData, InternationalTechnicalSupportOrganization,InternationalBusinessMachines Corporation, RedBook, San Jose, California, 2001, p. 21. 3.Baragoin,C.,Andersen,C.,M.,Bayerl,S.,Bent,G.,Lee,J.,Schommer,C., Mining Your Own Business in Telecoms Using DB2 Intelligent Miner for Data, InternationalTechnicalSupportOrganization,InternationalBusinessMachines Corporation, RedBook, San Jose, California, 2001. 4.Breiman,L.,Friedman,J.,Olshen,R.,Stone,C.,ClassificationandRegression Trees, Stanford University and the University of California, Berkeley, 1984. 5.Nepomnjashiy,A.,DataMiningAlgorithms:MicrosoftSQLServer2000vs. "Yukon"SQLServer,DatabaseJournal.com,2004, http://www.databasejournal.com/. 6.Ratner,B.,StatisticalModelingandAnalysisforDatabaseMarketing: Effective Techniques for Mining Big Data, Chapman & Hall/CRC, 2003.