02._Metode_de_invatare_in_analiza_datelor___clasificare

download 02._Metode_de_invatare_in_analiza_datelor___clasificare

of 5

Transcript of 02._Metode_de_invatare_in_analiza_datelor___clasificare

  • 7/21/2019 02._Metode_de_invatare_in_analiza_datelor___clasificare

    1/5

    Capitolul 2. Metode de nvare n analiza datelor

    clasificare

    n ultimii ani au crescut simitor aplicaiile n domeniul analizeidatelor. Prezena unui soft performant a fcut ca s apar solicitri pentru

    prelucrarea datelor din diverse medii economice, de afaceri, bancare, etc.Evident c existena unor baze de date care conin informaii la zi dindomeniul afacerilor, bancar, al prospectrii pieei, face accesibilextragereaunor seturi de date, n general de dimensiuni mari, care s se preteze latehnici de analiza datelor. n cele ce urmeazvom enumera cteva aplicaiimai recente.

    1) Un analist n afaceri este interesat sordoneze un numr mare defonduri mutuale asupra crora are informaii privind evoluia lor n ultimiiani. Sunt cunoscute nivelele unor indicatori financiari relevani, precum i oserie de rate (rapoarte) calculate pe baza acestora. Analistului i va venifoarte greu sacorde scoruri fondurilor innd seamde un mare numr deindicatori. El va standardiza matricea informaiilor sale i apoi va apela latehnici ACP. Dac presupunem c primele dou componente principalegsite vor acoperi 70% din informaia total, atunci analistul se va declara

    mulumit cu acestea, iar calculul scorurilor i ordonarea fondurilor vor fifcute n raport cu aceste componente.

    2) O companie de librrii deine numeroase informaii la zi privindvnzrile anuale de cri, CD-uri, DVD-uri, precum i informaii despreclienii si. Conducerea companiei este interesat s gseasc asemnrintre cumprtori, aa nct strategiile privind reclama sse facspre clasesau grupuri de cumprtori. Ea va folosi analiza factorilor pentruidentificarea unui factori lateni care sunt responsabili de gruparea clienilorn clase. Clienii vor fi grupai n funcie de scorurile obinute, adoptndu-se

    apoi strategii de piaadecvate n raport cu grupele formate.3) O bancdeine i actualizeazo mare bazde date ce se referla

    clienii si. Pe o perioadlungde timp sunt contabilizate serviciile oferite,i anume: conturi curente, depozite, mprumuturi, carduri de credit.Conducerea bncii ar dori s grupeze clienii si n raport cu serviciileoferite, i s scoat n eviden fidelitatea acestora. Ar fi interesat n aidentifica grupul clienilor foarte activi, al celor moderai i al celorpasivi. Odat fcut aceast identificare, conducerea bncii va apela la

    diverse strategii de promovare a serviciilor sale n raport cu caracteristicileclaselor formate.

  • 7/21/2019 02._Metode_de_invatare_in_analiza_datelor___clasificare

    2/5

    4) ntr-un studiu lunar privind consumul populaiei, studiu efectuatasupra a n gospodrii, se cunosc informaii despre p bunuri de consumdiferite nregistrate asupra fiecrei familii. Corelaiile dintre nivelele deconsum ale celor p bunuri pot fi explicate printr-un numr relativ mic de

    factori, n general de natur social ce stau la baza deciziei de consum.Cum identificm aceti factori neobservai, lateni i ce corelaii au ei cunivelele de consum ale celorpbunuri?

    Evident, aplicaiile pot fi diverse, dar o ntrebare apare acum cuinsisten: Cum rspundem problemelor deosebit de complexe existente ndiverse domenii? n cele ce urmeazvom prezenta pe scurt o clasificare iapoi o prezentare succint a ctorva metode folosite azi cu succes ndomeniul afacerilor.

    Clasificarea metodelor de analiza datelor

    n Capitolul 1 am artat c n analiza datelor se studiazinformaiiconinute n diverse matrice

    pjniij ,...,2,1;,...,2,1 ==xX = avnd liniile

    corespunztoare indivizilor (sau cazurilor) iar coloanele asociatevariabilelor. Atunci cnd ne alegem tehnica de analiz a datelor pe caredorim s o aplicm, avnd ca suport informaiile oferite de matricea X,

    trebuie savem n vedere ceea ce urmrim n aplicaia noastr. n cele ceurmeaz vom prezenta o clasificare a tehnicilor de analiz a datelor i opropunere de etapizare a aplicrii lor, n funcie de scopul urmrit.

    De regul, n analiza pe care dorim s o facem att numrulindivizilor ct i cel al variabilelor fiind mare suntem confruntai cu oanalizmultivariat. Dispunem nsde informaii asupra celor pvariabile,informaii colectate de la nindivizi. Din punct de vedere geometric, acesteobservaii pot fi reprezentate prin n puncte n spaiul p-dimensional alvariabilelor. Dacam analiza doar douvariabile, atunci configuraia celor n

    puncte ar fi uor de vizualizat plan, iar dificultatea analizei s-ar reducefoarte mult. nsnumrul variabilelor urmrite este de regul mare, iarconfiguraia punctelor este dificil de imaginat.

    Mai precizm faptul c ntr-o prim etap a modelrii toate cele pvariabile sunt tratate ca variabile inputi nu am stabilit nici o variabilscop(output). Prin urmare, sintetiznd cele afirmate anterior, un prim obiectiv nanaliza realizat ar fi acela de a reduce controlat dimensiunea matricei(reducnd numrul de linii sau/i de coloane) i de a gsi un numr mai mic

    de variabile care sexplice trsturile indivizilor. n acelai timp, n uneleaplicaii se dorete att asocierea unor scoruri indivizilor, aa nct s-i

  • 7/21/2019 02._Metode_de_invatare_in_analiza_datelor___clasificare

    3/5

    putem ordona, ct i o clasificare a acestora n clase ct mai omogene. naceste situaii vom apela la tehnici descriptive de analiz, tehnici numitenesupervizate. Acestea presupun ctoate variabilele urmrite au acelai roln explicarea fenomenului, neprecizndu-se iniial nici o distincie ntre ele.

    Totui, vom presupune car exista factori ascuni (lateni) comuni tuturorvariabilelor, factori pe care ncercm s-i scoatem la iveal. n categoriametodelor nesupervizate se regsesc, dup cele mai recente clasificri dindomeniul data mining, urmtoarele patru:

    1) Analiza componentelor principale, avnd ca scop reducereadimensionalitii datelor iniiale.

    2)

    Analiza factorilor, avnd ca scopuri principale identificareafactorilor lateni i asocierea de scoruri indivizilor.

    3)

    Analiza clasificrii, ce are ca scop gruparea n clase ct maiomogene, uneori de indivizi, alteori de variabile.

    4) Analiza coului de pia, avnd ca scop determinarea grupelor deproduse care sunt achiziionate mpreunde ctre cumprtori.

    Dacn matricea de date putem identifica o variabila crei evoluiedepinde de celelalte, fie conform legitii fenomenului, fie ca o constatare aunei analize anterioare, atunci aceasta va fi numit variabildependentsau variabil rspuns, iar variabilele care o influeneaz vor fi numite

    variabilele predictorsau variabile de influen. Evident, n aceste situaiine-ar interesa s cuantificm, printr-o expresie matematic,legtura/legturile dintre variabila rspuns i variabilele predictor. Vomrecurge la aa-numitele metode supervizatecare sunt metode explicativede analiz a datelor. n afar de funcia explicativ, ele au de regul i ofuncie predictiv privind comportarea variabilei rspuns. Ele secaracterizeaz prin faptul c, pe baza unui set de date de nvare(antrenament), este construit un model care va fi apoi aplicat pentru a

    previziona comportamentul variabilei rspuns pentru diverse situaii noi,

    similare celor analizate. n categoria metodelor supervizate se regsesc atttehnicile de explicare a clasificrii, ct i diversele tipuri de regresie. S leenumerm:

    1)

    Clasificarea prin arbori de regresie (CART) are ca scop obinereade submulimi de date ct mai omogene n raport cu variabilarspuns. (O variabilrspuns poate fi continusau categorial.)

    2) Detectarea automata interaciunilor (CHAID) este o metoddeclasificare folositpentru a studia relaiile dintre o variabil de

    rspuns de tip categorial i o mulime de variabile predictor cepot interaciona unele cu altele.

  • 7/21/2019 02._Metode_de_invatare_in_analiza_datelor___clasificare

    4/5

    3)

    Analiza discriminrii este o metod de clasificare ce pune neviden acele variabil predictor care discrimineaz cel maimult ntre dousau mai multe grupri formate natural. (Variabilarspuns acceptat este de tip categorial n timp ce variabilele

    predictor pot fi att variabile continue ct i variabile ordinale.)4) Regresia liniar multipl prin care se descrie, printr-un model

    liniar, legtura dintre variabila rspuns i variabilele predictor.(De regultoate variabilele implicate sunt continue.)

    5) Regresia logisticeste un model particular de regresie liniarcepresupune cvariabila rspuns este binarsau ordinal.

    6) Folosirea reelelor neurale prin intermediul crora se modeleazun fenomen complex cu multe variabile predictor i multiple

    interaciuni. Reelele neurale folosesc un set de date de instruirepe baza cruia se propune un model, care este apoi testat ivalidat pe un alt subset de date. (Variabilele rspuns pot ficodificate ca variabile binare.)

    Sintetiznd, putem afirma c este indicat a se aplica tehniciledescriptive, nesupervizate, dup etapa primar de explorare a datelormatricei. Ele pot fi tehnici de analiza componentelor principale, de analiza factorilor sau de analiz a clasificrii. Toate au ca scop reducerea

    controlat a dimensionalitii matricei iniiale. Tehnicile explicative,supervizate, se aleg dupnatura variabilei rspuns i a variabilelor predictor.Putem ntlni urmtoarele situaii:

    I) Variabila rspuns este continui toate variabilele predictor suntde asemenea continue; pentru a estima dependena dorit sefolosesc tehnici de regresie (simplsau multipl);

    II) Variabila rspuns este binar, iar predictorii sunt variabilecontinue. n acest caz se apeleazla regresia logit;

    III)

    Variabila rspuns este nominal, iar variabilele predictor suntcontinue. Se va apela, n general, la tehnici de discriminare;

    III)Variabila rspuns este continu, dar variabilele predictor sunt detip categorial; se vor aplica tehnici de analiza varianei;

    IV)Att variabila rspuns, ct i variabilele predictor sunt de tipcategorial. Vom folosi tehnici de analizde tip conjoint.

    Prezentm n tabelul 1 o clasificare elocventa tehnicilor de analiz

    a datelor.

  • 7/21/2019 02._Metode_de_invatare_in_analiza_datelor___clasificare

    5/5

    Tabelul 1. Clasificarea tehnicilor de analiza datelor

    Variabila rspuns Variabilele predictorTipul

    tehnicii

    Denumirea

    cantitativ calitativ cantitative calitative

    Analiza

    componentelorprincipale

    Nu are Nu are Da -

    Analiza factorial Nu are Nu are Da -

    Analiza

    clasificriiNu are Nu are Da -

    Nesupervizat

    (descriptiv)

    Analizacorespondenelor

    Nu are Nu are - Da

    Regresia liniarsimpli multipl

    Da - Da -

    Regresia logistic - Da Da -

    ANOVA/MANOVA

    - Da Da -

    Analiza

    discriminrii - Da Da Da

    o Tehnica arbo-rilor de decizie(CART)

    Da Da - Da

    o TehnicaCHAID

    - Da Da -Supervizat(

    exp

    licativ)

    Analiza canonic Da/Maimulte

    variabile

    - Da -