regresia liniara

download regresia liniara

of 16

Transcript of regresia liniara

Cursul 10bis. Data Mining

Coninutul acestui curs este urmtorul: 10bis.1. Data Mining ................................................................................................ 139 10bis.2. Analiza Componentelor Principale i Analiza Factorial .......................... 142 10bis.3. Analiza clasificrii (Cluster Analysis) ........................................................ 145 10bis.4. Regresia Liniar Multipl i Regresia Logistic Binar ............................. 148 10bis.5. Analiza de Discriminant ............................................................................. 151

138

10bis.1. Data Mining Data mining, cunoscut i ca descoperirea cunotinelor n baze de date mari este un instrument modern i puternic al TI&C (Tehnologia Informaiei i Comunicaiilor), instrument ce poate fi folosit pentru extragerea unor informaii utile dar nc necunoscute. Acest instrument automatizeaz procesul de descoperire a unor relaii i combinaii n datele brute, iar rezultatele gsite ar putea fi ncadrate ntr-un sistem automat de suport a deciziei. Data mining a fost folosit pn acum n afaceri de ctre organizaii comerciale de succes n scopul de a obine avantaje critice n competiia lor. Se bnuiete c n viitorul apropiat acest instrument va fi folosit pentru prelucrarea bazelor de date uriae, ca de exemplu dosarele computerizate ale pacienilor, la nivel naional. De fapt, chiar i n prezent, prin identificarea procedurilor medicale ce au tendina de a se grupa, prin data mining putem prezice care pacieni vor folosi noile strategii de ngrijire a sntii, putem defini modele de comportare ale pacienilor de risc, putem identifica fraudele. Metodele data mining provin din calculul statistic clasic, din administrarea bazelor de date i din inteligena artificial. Ele nu nlocuiesc metodele tradiionale ale statisticii, ci sunt considerate a fi extinderi ale tehnicilor grafice i statistice. Deoarece softului i lipsete intuiia uman (pentru a face recunoaterea a ceea ce este relevant de ceea ce nu este), rezultatele metodelor data mining vor trebui supuse n mod sistematic unei supravegheri umane. Structura tipic de date potrivit pentru data mining conine observaiile (cazurile, de exemplu referitoare la pacieni) plasate pe linii iar variabilele plasate pe coloane. Domeniile sau intervalele de valori pentru fiecare variabil vor trebui s fie definite precis, evitndu-se ct mai mult posibil exprimrile vagi. Formatul cu linii (ce corespund observaiilor sau cazurilor) i coloane (ce corespund variabilelor), similar cu cel al unui fiier spreadsheet, este obligatoriu pentru data mining. Pregtirea datelor pentru a le fi aplicate instrumentele din data mining const n: a) Preprocesare eliminarea datelor care nu sunt necesare, verificarea consistenei (unitilor de msur), detectarea datelor eronate i eliminarea lor, eliminarea valorilor extreme (outliers);139

b) Integrarea datelor combinarea unor variabile; c) Transformarea variabilelor prin standardizare, prin trecere la scala logaritmic; d) Separarea bazei de date n trei categorii de date: 1) 2) 3) Categoria pentru antrenament, Categoria pentru validare, Categoria pentru testare.

e) Folosirea statisticilor descriptive clasice simple: media, mediana, amplitudinea, abaterea standard, cuartilele; f) Folosirea diagramelor simple: histograme ale frecvenelor, box plot-uri, diagrame cu bare, diagrame radiale (rozet). S ne reamintim c: Histogramele frecvenelor prezint distribuia valorilor variabilelor continue; Box plot-urile sumarizeaz (vizual) mai multe aspecte importante ale unei variabile continue (mediana, cuartilele, extremele); Diagramele cu bare prezint diferenele ntre diversele grupuri, pentru variabile categoriale, calitative; Diagramele radiale compar ntre ele nivelurile claselor unei variabile calitative. Metodele data mining de nvare pot fi grupate n dou categorii: cele nesupervizate, respectiv cele supervizate. Metodele de nvare nesupervizate includ urmtoarele: 1) Analiza Componentelor Principale (ACP). Scopul su este cel de a reduce dimensionalitatea datelor multi-variate prin integrarea variabilelor corelate, transformnd liniar variabilele iniiale n variabile necorelate ntre ele. 2) Analiza Factorial (Factor Analysis). Scopul su este cel de a extrage un numr mic de factori ascuni care explic cea mai mare parte a variabilitii comune i determin corelaiile observate ntre datele iniiale.140

3) Analiza Clasificrii (Cluster Analysis). Scopul su este cel de a grupa cazurile (observaiile) n clustere (grupuri, categorii). Principalele metode de nvare supervizat sunt urmtoarele: 1) Regresia Liniar Multipl. Scopul su este cel de a descrie asociaiile ntre dou seturi de variabile, prin intermediul unor formule liniare. Aceste formule sunt folosite ulterior pentru a prezice valorile unor variabile continue de rspuns odat ce sunt cunoscute valorile tuturor variabilelor predictor. 2) Regresia Logistic. n acest tip de regresie rspunsul este o variabil binar sau ordinal (nu una continu). 3) Reelele Neurale. Sunt folosite pentru clasificare. Totui, o reea neural conine de obicei mult mai muli parametri dect un model statistic clasic, este nevoie de mult mai mult timp de antrenare, iar rezultatele obinute nu pot fi interpretate cu uurin. 4) Analiza Funciilor Discriminante (sau Analiza Discriminrii). Aceast metod este folosit pentru a determina care dintre variabilele predictor discrimineaz cel mai bine ntre mai multe grupuri care sunt formate natural. Modelele identificate de o metod de data mining vor putea fi transformate n cunotine, ns dup o validare corespunztoare; apoi, cunotinele vor putea fi folosite ulterior pentru a fundamenta luarea deciziilor. n continuare va fi prezentat esena principalelor metode de data mining, ncepnd cu cele nesupervizate.

141

10bis.2. Analiza Componentelor Principale i Analiza Factorial Din cauza dificultii evidente a vizualizrii spaiilor multi-dimensionale avnd dimensiuni p 4, ACP este folosit cel mai mult pentru a reduce pe ct posibil dimensionalitatea a p variabile la doar dou sau trei dimensiuni. Aceast metod sumarizeaz variabilitatea iniial a datelor privind cele p variabile iniiale n cteva componente necorelate ntre ele, numite componentele principale. Fiecare component principal este extras ca o combinaie liniar de variabilele iniiale. Metoda const n extragerea celui mai mic numr de componente care preiau cea mai mare parte a varianei datelor iniiale, adic n sumarizarea datelor iniiale cu o pierdere minim de informaie. Prima component principal extras este acea combinaie liniar de variabile care preia maximul posibil din variana datelor iniiale. Cea de-a doua component principal preia mai puin varian, i aa mai departe. Dac primele cteva componente principale preiau 80% sau mai mult din variana datelor iniiale, atunci scopul reducerii dimensionalitii va fi atins. Calculele sunt fcute prin algoritmi ai algebrei liniare, aplicai fie matricei dreptunghiulare a datelor originale, fie matricei ptratice a coeficienilor de corelaie. n teoria matematic ce fundamenteaz aceti algoritmi se folosete termenul de valoare proprie (eigenvalue) a unei matrice. Valorile proprii msoar cantitatea de varian explicat de fiecare component principal. Ele descresc odat cu indexul componentei, prima component principal avnd valoarea proprie maxim. Pe de alt parte, suma valorilor proprii este egal cu p (numrul variabilelor iniiale). De obicei sunt reinute doar componentelor principale ce au valorile proprii mai mari dect 1. Valorile proprii exprim importana componentelor principale. O diagram n care valorile proprii sunt prezentate ca linii verticale sau ca puncte deasupra numerelor naturale (care reprezint componentelor) este numit n coborre (scree plot). Un exemplu alturat. este prezentat n figura Exemplu de scree plot

142

Noiunea de scor (al unei observaii) poate fi neleas dac interpretm observaiile ca vectori ntr-un spaiu p-dimensional al variabilelor. n ACP acest spaiu este nlocuit cu un altul, cel al componentelor principale. Scorurile sunt exact vectorii ce reprezint observaiile n acest nou spaiu. n sfrit, ncrcrile (loadings) sunt coeficienii de corelaie ntre coloanele-scor i variabilele originale. Extrem de important este studiul coeficienilor de corelaie (loadings) dintre variabilele iniiale i primele dou componente principale. Coeficieni puternici arat c variabilele corespunztoare pot fi considerate responsabile pentru variaia datelor. Din contra, dac o variabil nu se coreleaz cu nici o component principal, sau se coreleaz cu componentele ce au valori proprii mici, aceasta sugereaz c variabila n cauz are o contribuie minor la variana setului de date. Astfel de variabile neimportante vor fi eliminate, n scopul de a simplifica analiza de ansamblu. n unele situaii avem motive s credem c variabilele msurate sunt corelate ntre ele deoarece ele sunt influenate de unul sau mai muli factori necunoscui, numii factori ascuni. Analiza Factorial este o tehnic al crui scop este extragerea unui numr mic de factori ascuni care sunt responsabili pentru corelaiile ntre variabile. Principalul rezultat al acestei tehnici, aplicat fie plecnd de la matricea datelor, fie plecnd de la matricea de corelaie, const n gruparea variabilelor n aa fel nct variabilele influenate de un anumit factor sunt corelate mai puternic ntre ele dect cu variabilele influenate de ali factori. Iniial se accept c toate variabilele msurate ar putea fi asociate cu orice factor ascuns. Dup aplicarea tehnicii, fiecare variabil msurat va fi exprimat ca o combinaie liniar (ponderat) de civa factori ascuni. n implementarea metodei AF se ntlnete termenul de comunalitate (communality). Comunalitatea unei variabile msurate este exact proporia din variana ei ce poate fi atribuit factorilor ascuni. Evident, comunalitatea este un numr ntre 0 i 1, iar valorile apropiate de 1 indic faptul c variabila noastr este bine explicat de factorii ascuni. ncrcrile factorilor (factor loadings) sunt coeficienii de corelaie ntre variabilele msurate i factorii ascuni. ncrcri mai mari dect 0.7 n valoare absolut sunt considerate semnificative. ncrcrile semnificative pentru un factor ascuns dat ar putea fi folosite pentru a obine o interpretare a acelui factor.143

Rezultat de AF obinut cu Statistica

Pentru determinarea numrului de factori ascuni se poate folosi un scree plot, sau poate fi ales un prag pentru comunaliti, la fel ca n metoda componentelor principale. Cteodat, pentru a putea obine factori care nu au multe ncrcri mici (nesemnificative) prin urmare pentru a simplifica interpretarea factorilor este efectuat o rotaie; aceasta este cunoscut sub numele de metoda Varimax. S prezentm, n figura de mai sus, un rezultat tipic al tehnicii Analizei factoriale. Este o diagram planar n care variabilele msurate CA, CE, IM, RI, SN, TV i UR sunt nlocuite prin puncte din interiorul cercului unitate. Cei doi factori ascuni sunt nlocuii prin punctele identificate ca F1 i F2. Rezultatele numerice, dup efectuarea unui Varimax, sunt prezentai n tabelul de sub diagram. Variabilele CE, IM, TV i UR pot fi grupate ntr-un grup i reprezentate de factorul F1; pe diagram este clar c variabilele CE, IM, TV, UR sunt puternic (negativ) corelate cu F1 (i ntre ele). Astfel Factorul 1 reprezint ceva ce variabilele CE, IM, TV, UR au n comun. Variabilele CA i RI pot fi grupate n alt grup i nlocuite prin F2. Este clar c CA este puternic corelat pozitiv cu F2 iar RI este puternic corelat negativ cu F2. (Am putea spune c variabilele CA i RI au tendina de a varia n direcii opuse.) Pe de alt parte, variabilele MI i SN sunt neutre n raport cu ambii factori. Factorului 1 i se atribuie mai mult de 54% din variana total, iar ambilor factori li se atribuie mai mult de 54+18 = 72% din variana total. Analiza Factorial este similar cu Analiza Componentelor Principale, ambele avnd ca scop reducerea numrului (mare de) variabile msurate ntr-un numr mai mic de factori ascuni respectiv componente principale. Ele difer totui ca utilitate. n AF numrul (mic) de factori are identificat n aa fel nct s explice de ce variabilele msurate sunt corelate ntre ele. Din contra, n ACP componentele principale sunt identificate n aa fel nct s preia ct mai mult din variana prezent n datele msurate.144

10bis.3. Analiza clasificrii (Cluster Analysis) Aceast metod statistic este folosit pentru a grupa date multi-dimensionale (adic puncte ce reprezint cazuri sau observaii) n grupe (clusters) definite algoritmic. Aceast metod este util pentru sumarizarea unor cantiti mari de informaie, fiecare grup reprezentnd mai multe puncte avnd caracteristici similare. Clusterele distincte nu se suprapun (adic sunt disjuncte). De fapt, analiza clasificrii const dintr-o colecie de algoritmi ce exploateaz mai multe euristici fundamentate n principal pe experiena noastr vizual n gruparea punctelor n nori de puncte. n general, pentru a putea folosi un algoritm de clasificare, este nevoie de precizarea: a) Unei distane ntre punctele unui spaiu multidimensional. Cele mai cunoscute distane ntre punctele A = (a1, a 2 ,...) i B = (b1, b2 ,...) sunt (a se vedea figura alturat): Euclidian Distanele ca lungimi

d E ( A, B) = (a1 b1 ) 2 + (a2 b2 ) 2 + ... ; Manhattan Distane ntre grupe (clusters)

d M ( A, B) =| a1 b1 | + | a2 b2 | +... ; Pearson

d P ( A, B) = valoarea absolut a coeficientului de corelaie dintre A i B. b) O strategie de alegere a punctului reprezentativ (adic a centrului) pentru orice

grupare de puncte. Cei mai muli oameni au tendina de a alege media aritmetic (adic centrul de greutate). c) sus):145

O distan ntre dou grupe de puncte. Cele mai folosite asemenea distane iau n

considerare distana ntre puncte aleas anterior; acestea sunt (a se vedea figura de mai

Distana ntre centre (n algoritmul Ward); Distana ntre cei mai apropiai vecini (opiune cunoscut ca single linkage); Distana ntre cei mai deprtai vecini (opiune cunoscut sub numele de complete linkage). Odat ce au fost efectuate alegerile, un algoritm ierarhic de clasificare va funciona n felul urmtor: Pasul 1. Fiecare punct este considerat ca grup separat (de 1 punct). Pasul 2. Cele mai apropiate dou grupe sunt amalgamate ntr-o grupare mai mare. Acest pas este repetat pn cnd toate punctele au fost grupate ntr-o grupare final (care conine totul). Schema de amalgamare este reprezentat diagramatic printr-o dendrogram (hierarchical tree plot) a se vedea figura de mai jos pentru un exemplu). Pasul 3. Se aplic o procedur de tiere asupra dendrogramei; n acest fel se identific numrul obiectiv de grupe (clusters), apoi componena fiecreia. (Aflai detalii despre algoritmul lui Ward i despre metoda poligonului lui Newton, ca procedur de tiere.) Exemplu de dendrogram obinut prin Statistica

S facem observaia c n clasificarea ierarhic nu se permite nici un fel de alt suprapunere a dou grupe ce excepia incluziunii unei grupe n cealalt. n plus, din cauza numrului mare de distane care ar trebui calculate, aceti algoritmi nu sunt adecvai pentru seturi mari de puncte.146

Prin contrast, n clasificarea disjunct numrul de grupe va trebui ales dinainte. Apoi: Pasul 1. Toate punctele sunt asignate arbitrar unor grupe. Pasul 2. Unul dintre puncte este reasignat altei grupe, lund n considerare similaritatea sa cu punctele acelei grupe. Acest pas este repetat pn cnd toate punctele sunt asignate optim. Algoritmii de clasificare sunt mai eficieni pentru seturi mari de puncte. (Dar s ne aducem aminte c au i un neajuns: numrul de grupe este ales arbitrar!) Cel mai cunoscut algoritm de clasificare disjunct este cel al k-mediilor (k-means). n acesta reprezentantul fiecrei grupe este obinut din media punctelor (cazuri, observaii) care sunt asignate acelei grupe. Iniial este selectat un set de puncte, numite seminele grupelor (cluster seeds) ca o prim alegere a centrelor grupelor. Apoi, la fiecare pas, se execut maximizarea distanei globale ntre grupele distincte, n aa fel nct s se reduc variana din cadrul grupelor, iar centrele s se deplaseze spre o poziie stabil. Algoritmul se oprete atunci cnd nu se mai detecteaz nici o modificare n poziia centrelor. S facem observaia c varianele variabilelor au o influen puternic asupra distanelor, n special asupra celor Euclidiene. De exemplu, atunci cnd se calculeaz distane, datele n domeniul 100-1000 sunt practic decisive comparativ cu cele din domeniul 0.01-0.1.

147

10bis.4. Regresia Liniar Multipl i Regresia Logistic Binar Aceast metod de nvare supervizat este cea mai larg folosit astzi. Este utilizat pentru a studia asocierea dintre dou seturi de variabile: primul set { X 1, X 2 ,...} conine variabilele predictor (numite i independente sau explicative), cellalt set {Y1, Y2 ,...} conine variabilele rspuns (numite i dependente). Asocierea dintre cele dou seturi este descris prin formulele liniare

Y j = b j 0 + b jk X kk

n care b j 0 , b jk sunt parametrii de regresie. Dac aceast formul este suficient de bun, ea va putea fi folosit pentru a prezice valorile y j ale variabilelor Y j odat ce sunt cunoscute valorile xk ale variabilelor independente X k . Parametrii de regresie ce apar n formula de mai sus sunt estimai lund n( ( ( ( considerare datele de antrenament cunoscute ( x1i ) , x2i ) ,..., y1i ) , y 2i ) ,...) , prin folosirea

criteriului celor mai mici ptrate: min ( y (ji ) b j 0 b jk xk ) 2(i ) k (i )

adic prin minimizarea sumei ptratelor diferenelor dintre valorile observate y ale variabilelor-rspuns i valorile corespunztoare ale variabilelor predictor. S considerm cazul particular al unei singure variabile-rspuns Y. Primul obiectiv al metodei regresiei liniare multiple l constituie obinerea unui hiperplan care se potrivete optimal norului de puncte format de datele de antrenament; acest scop este atins prin calcularea estimaiilor 0 , k pentru parametrii b0 , bk . Formula de calcul final este

Y = 0 + k X kk

n care 0 este numit interceptul, iar k sunt numii coeficienii de regresie.148

(De obicei estimrile k sunt notate bk , cciula avnd exact nelesul deestimare.) Numerele k exprim cu ct se modific rspunsul Y atunci cnd predictorul X k suport o modificare de o unitate, iar ceilali predictori nu-i modific valoarea. (Atenie, are sens s comparm ntre ei doi coeficieni de regresie k i l doar dac predictorii corespunztori X k i X l sunt msurai cu aceeai unitate de msur!) O noiune important n folosirea metodei RLM este cea de reziduu. Reziduurile sunt exact diferenele dintre valorile y observate i valorile-rspuns y ce corespund valorilor predictor xk observate. Aceste diferene sunt calculate folosindu-se estimrile 0 , k , mai precis astfel( r (i) = y (i) b0 bk xki ) k

unde i numr observaiile din setul de date de antrenament. n aplicarea concret a metodei regresiei liniare multiple se fac urmtoarele presupuneri (considerate implicit ca adevrate): 1) 2) Reziduurile r (i) obinute din regresie sunt realizri ale unor variabile aleatoare Nu este prezent multi-colinearitatea, adic nici o variabil predictor nu este o

normale de medie 0 i aceeai varian, variabile care sunt i independente ntre ele; combinaie liniar de celelalte variabile predictor. n figura urmtoare sunt prezentate dou exemple de reziduuri care nu valideaz metoda RLM. n asemenea situaii, o abordare posibil ar consta n corectarea neliniar a variabilelor. Exemple de reziduuri care nu valideaz RLM

149

Defectul major al RLM const n faptul c nu putem fi siguri asupra mecanismului relaiei cauzale dintre predictori i rspunsuri. Chiar i relaiile de regresie foarte semnificative nu implic (logic) deloc existena unor relaii cauz-efect! Cu toate acestea, metoda RLM este des folosit, iar formulelor semnificative de regresie sunt creditate ca adevrate n activitile de predicie. Rezultatul unei RLM obinut prin folosirea setului de date de antrenament, cu alte cuvinte formula de calcul, ar putea fi validat n urma aplicrii formulei asupra altui set de date i constatrii potrivirii ei. Pentru validare, graficele obinute din setul de antrenament i din setul de validare ar trebui s prezinte trsturi similare. S ne reamintim c metoda regresiei liniare presupune c variabilele att cele predictor ct i cele rspuns sunt de tip continuu. Prin contrast, Regresia Logistic permite tratarea altor tipuri de variabile. Metoda Regresiei Logistice Binare se aplic atunci cnd variabila de rspuns este de tip Boolean (adic are doar dou valori: adevrat/fals, sau da/nu, sau 0/1). Funcia pas, definit de formula urmtoare, transform numerele reale n valori Booleene:

step( x) =

1 pentru x 0 0 pentru x < 0

150

10bis.5. Analiza de Discriminant ntro situaie tipic, un medic curant ar putea lua n considerare o serie de date privind trecutul pacientului, date pe care el le consider importante pentru c ele indic dac pacientul are anse de a se vindeca complet, sau doar parial, sau deloc. Scopul su iniial este de fapt de a construi un model predictiv de discriminare ntre grupuri, bazat pe variabile predictor. Un asemenea model ar putea fi folosit pentru: Investigarea diferenelor dintre categoriile de observaii, Discriminarea efectiv ntre categorii, Identificarea acelor variabile predictor care sunt discriminatoare. ntro alt situaie tipic, un specialist ar putea cuta de exemplu criterii de discriminare ntre tipurile de celule canceroase. n ambele situaii de mai sus datele iniiale sunt grupate natural n cteva categorii (trei n primul caz). Metodele Analizei de discriminant presupun c toate variabilele predictor sunt continue; din contra, se presupune c variabila de rspuns indic gruparea, categoria creia i va aparine un nou caz. O prim metod este cea numit analiza de discriminant progresiv n pai (forward stepwise discriminant analysis). Pe scurt, aceasta const n urmtoarele: iniial nici o variabil predictor nu este inclus n model. Apoi, la fiecare pas, sunt examinate toate variabilele predictive rmase, iar cea care contribuie cel mai mult la discriminarea ntre grupuri va fi selectat i inclus n model. n metoda dual, aa-numita analiza de discriminant regresiv n pai (backward stepwise discriminant analysis), procedura este urmtoarea: iniial toate variabilele predictor sunt incluse n model iar apoi, la fiecare pas, aceea care contribuie cel mai puin la predicia apartenenei corecte la grupare este eliminat. n model vor rmne n final doar variabilele importante, acelea care contribuie cel mai mult la discriminarea ntre grupe. n ambele metode de selecie a variabilelor, prezentate mai sus, procedura pas cu pas este ghidat de o valoare care este calculat pentru fiecare variabil predictor. Aceasta, cunoscut ca valoarea F, indic semnificaia statistic a acelei variabile pentru discriminarea ntre grupe.151

La fiecare pas, se ia n considerare i semnificaia predictorului anterior introdus n model. Variabila care contribuie cel mai puin la puterea discriminatorie a modelului este eliminat, iar apoi variabila care nu este n model i contribuie cel mai mult la discriminare va fi introdus n model. Atunci cnd toate variabilele din model nu vor mai suferi modificri, procedura pas cu pas este oprit. Pentru a fora oprirea procedurii, pot fi fixate dinainte praguri pentru valoarea F (identificate ca F-to-enter i F-to-remove n figura urmtoare). Exemplu de utilizare a Analizei de discriminant n Statistica

n cazul cel mai simplu (doar dou categorii-grupe), Analiza de Discriminant este practic echivalent cu Analiza de regresie multipl, modelul constnd n acest caz dintr-o singur formul liniar

Category = 0 + k X kk

n care k sunt coeficienii de regresie. Trebuie s fim contieni de faptul c indicele celui mai mare coeficient de regresie (n valoare absolut) identific acea variabil care contribuie cel mai mult la predicia apartenenei la categoria-grup. Formula de mai sus descrie funcia de discriminare. n cazul existenei mai multor categorii, vor fi obinute mai mult de o funcie de discriminare. De exemplu, n cazul existenei a trei categorii, o prim funcie de discriminare ar putea discrimina ntre categoria 1 i categoriile 2-3 combinate, iar a doua funcie de discriminare va discrimina ntre categoria a 2-a i 3-a.152

Modelele de discriminare ntre categorii vor trebui validate pe baza unor date noi, altele dect cele pe baza crora au fost construite. Metodele de selecie n pai nu dau ntotdeauna cele mai bune rezultate. Unele motive ar fi: a) n procesul de selecie nu sunt luate n considerare relaiile ntre variabilele care nc n-au fost selectate; b) nu se iau n considerare diferenele ntre mrimea grupelor. (Aceast mrime a grupelor influeneaz probabilitile a priori, cu alte cuvinte probabilitatea ca un caz nou s aparin unei grupe particulare.) Datorit creterii influenei Tehnologiei Informaiei i Comunicaiilor n lumea modern, recent au fost imaginate metode noi n Data Mining. Printre aceste metode, aprute n lumea finanelor, se afl: Aplicaiile depozitului de date (data warehousing), i Analiza asocierilor din coul de pia (market basket association analysis). n aplicaiile depozitului de date obiectivele sunt: utilizarea complet a surselor de date, extragerea datelor din diferite locaii, integrarea datelor n baze de date (multidimensionale) de nalt calitate, optimizarea stocrii datelor. n acest context s prezentm doar o idee specific, anume cea de metadat. O metadat conine, pe lng datele ca atare, i informaii despre acestea: sursa lor, transformrile la care au fost supuse, intervalul de timp etc. Obiectivul principal al analizei asocierilor din coul de pia const n identificarea produselor i serviciilor pe care clienii (de exemplu ai unui supermarket) le achiziioneaz mpreun. Cunoaterea asocierilor ntre produsele i serviciile asociate ajut managerii n luarea unor decizii bune n tacticile de marketing i vnzare. Este evident c aceste metode noi ar putea fi aplicate pentru a mbunti calitatea sistemului de sntate, cel puin la nivelul spitalului. (Imaginai-v beneficiile unei analize a asocierilor din coul de pia, efectuate pe datele medicale la nivel naional.)

153