Tot

114
Capitolul 8 Metode descriptive de analiza a datelor În continuare vor fi prezentate câteva din cele mai importante metode descriptive de analiza a datelor: analiza componentelor principale, analiza canonica, analiza factoriala a corespondentelor, analiza tipologica si analiza discriminanta. 8.1. Analiza în componente principale Aceasta metoda 30 este utilizata pentru descrierea datelor continute de un tabel indivizi-caracteristici numerice: “p” caracteristici sunt masurate pe “n” indivizi. Prin intermediul acestui tip de analiza, un ansamblu de date poate fi redus într-o forma compacta, dar care totusi poate scoate în relief anumite structuri fundamentale ale datelor respective. Metoda permite evidentierea unor relatii semnificative de interdependenta, care nu ar putea fi cunoscute numai prin examinarea datelor de intrare. Scopul acestei analizei este de a reduce complexitatea, prin identificarea unui numar mic de factori ale caror caracteristici care stau la baza numeroaselor evaluari ale unui produs, utilaj sau element de mediu. Prezentarea metodei

description

asd

Transcript of Tot

tot.doc

Capitolul 8Metode descriptive de analiza a datelorn continuare vor fi prezentate cteva din cele mai importante metode descriptive de analiza a datelor: analiza componentelor principale, analiza canonica, analiza factoriala a corespondentelor, analiza tipologica si analiza discriminanta.8.1. Analiza n componente principaleAceasta metoda30 este utilizata pentru descrierea datelor continute de un tabel indivizi-caracteristici numerice: p caracteristici sunt masurate pe n indivizi. Prin intermediul acestui tip de analiza, un ansamblu de date poate fi redus ntr-o forma compacta, dar care totusi poate scoate n relief anumite structuri fundamentale ale datelor respective. Metoda permite evidentierea unor relatii semnificative de interdependenta, care nu ar putea fi cunoscute numai prin examinarea datelor de intrare. Scopul acestei analizei este de a reduce complexitatea, prin identificarea unui numar mic de factori ale caror caracteristici care stau la baza numeroaselor evaluari ale unui produs, utilaj sau element de mediu.Prezentarea metodein cazul n care exista doar doua caracteristici x1 si X!, datele pot fi prezentate usor cu ajutorul geometriei plane: fiecare individ ei va fi un punct [footnoteRef:1] [1: Bouroche J-M., Saporta G., Lanalyse des donnes, Presses Universitaires de France, Paris, 1980.]

de coordonate xj si xf iar simpla vizualizare a aiurii norului de puncte permite studierea intensitatii legaturii dintre X si x2 precum si stabilirea indivizilor sau grupurilor de indivizi care prezinta caracteristici apropiate. Daca exista trei caracteristici, studiul vizual va fi nca posibil daca se recurge la geometria n spatiu. Daca numarul caracteristicilor va fi mai mare sau egal cu patru, studiul vizual va deveni imposibil.n cele ce urmeaza metoda va fi prezentata pe un exemplu n care respondentii (managerii ntreprinderilor la care s-a facut studiul) au apreciat mai multe tipuri de utilaje n functie de anumite afirmatii: fiabilitate sporita - 1, numar redus de rebuturi - 2 , timp redus de obtinere a componentei - 3 , volum redus de noxe - 4, consum redus de apa- 5, volum redus de deseuri - 6, consum specific redus - 7. Cei 650 de respondenti formeaza un nor putin vizibil ntr-un spatiu de sapte dimensiuni, avnd sapte coordonate.Din punct de vedere geometric, desenul va fi obtinut prin proiectarea punctelor individuale e1, e2, ..., en pe un plan de proiectie si va trebui ales planul pe care distantele vor fi n medie cel mai bine conservate. Operatia de proiectare are n vedere distantele d(f1,fj) < d(e1,ej) iar accentul va fi asupra criteriului de restituire maxima a mediei patratelor distantelor ntre proiectiile f1 , f2, ., fn.Pentru a determina acest plan (planul principal), este suficient sa se gaseasca doua drepte D1 si D2. Daca D1 si D2 sunt perpendiculare,d2(fi,fj) = d2(ai, a j) + d2(bi, b j), n care a i, bi sunt proiectiile lui e si 1!pe D1 si D 2.Media patratelor distantelor ntre f este deci egala cu media patratelor distantelor ntre a i plus media patratelor distantelor ntre bi. Metoda constan cautarea lui A1 prin maximizarea mediei lui d2(a15aj) astfel nct A21AJ si prin maximizarea mediei luid2(bi5Pj). Se continua n afaraplanului si se gasesc A 1;A2,...,Ap perpendiculare ntre ele: Ai sunt axele principale ale norului.Proiectarea lui ei care are coordonatele initiale (x1,xi2,...,xip) pe axele principale, determina obtinerea noilor coordonate initiale (cj,c2,...,cp). n acest fel se construiesc noile caracteristici (c1, c2, ..., cp) pe numite componentele principale: fiecare componenta ck, care nu este alta dect lista de coordonate a celor n indivizi pe axa A k, este o combinatie liniara a caracteristicilor initialeck = (uj x1 + ufx2 +... + upxp).Coeficientii(uf, u2 ,...,uj) formeaza al kleafactor principal uk.Cea mai buna reprezentare a datelor la mijlocul celor q caracteristici (qM = eMe2, caz n care se poate afirma ca spatiul indivizilor unei structuri euclidiene a fost nzestrat, iar matricea M se va intitula matricea spatiului.Matricele cele mai utilizate i analiza componentelor principale sunt matricele diagonale care pondereaza caracteristicile.

n particular, se utilizeaz n mod frecvent matricea diagonala a inverselor dispersiilor calculate, care are forma:(1A

?0.. 0

1

0. 0

M = D 1 =sT .

~s00.. ... 2

Vsp )

unitatea de masura deoarece numerelexjsjnu au dimensiuni. De exemplu,ceea ce nseamna ca fiecare caracteristica este ponderata cu dispersia. Avantajul este dat de faptul ca distanta dintre doi indivizi nu depinde dedaca x1 reprezinta vrsta unui individ, se pot utiliza ca unitate de masura lunile sau anii, iar daca X este nmultit cu 12, atunci si sj este nmultit cu 12 iar raportul va ramne constant. Aceasta metrica ofera aceeasi importanta fiecarei caracteristici, oricare ar fi dispersia. Totodata, inversa matricei de corelatie restabileste echilibrul caracteristicilor, dnd tuturor varianta 1.Tabelul 8.2. Inversa matricei de corelaieAfirmatia1Afirmatia2Afirmatia3Afirmatia4Afirmatia5Afirmatia6Afirm.7

Afirmatia11.21453

Afirmatia2-0.036981.11915

Afirmatia3-0.22872-0.063721.20008

Afirmatia4-0.09292-0.319630.06581.17911

Afirmatia5-0.024940.03503-0.215340.148161.10652

Afirmatia6-0.380450.06194-0.14049-0.13862-0.110871.2442

Afirmatia70.03737-0.10344-0.20424-0.18054-0.11872-0.155481.14532

a j0 ... 00a 2 ... 000... apD a =p 0se va face prin multiplicarea caracteristicilor cuAnterior s-a aratat ca utilizarea unei matrice diagonale:ai iar utilizarea sa permite utilizarea matricei unitate M = E. Acestrezultat se generalizeaza la o matrice oarecare M: pentru toate matricele simetrice definite pozitiv M, exista o matrice T astfel nct M = T T. Produsul scalarM = etMe2 mai poate fi scris si ca< Tej,Te2 >E = e1tTtTe2 = (Te1)t(Te2). Acest lucru nseamna ca tabelul de date X va fi nlocuit prin Y = X Tt si prin utilizarea matricei unitate. Calcularea coordonatelor indivizilor pe o noua axa Se considera sistemul de axe ordonate care reprezinta caracteristicile initiale (x1, x2, ..., xp). Proiectnd indivizii pe o dreapta oarecare D, se creeaza o noua caracteristica c, ale carei valori (ct, c2, ..., c) sunt valori algebrice ale proiectiilor punctelor et pe aceasta dreapta, dupa cum se poate observa n figura 8.1.Figura 8.1. Reprezentarea caracteristicilor c

Fie a vectorul unitate al lui D; valoarea algebrica a lui ci a proieciei individului e1 va fi egala cu produsul scalar dintre e1 si a: c1 = e1Mta = (Ma)te1, caci M este simetrica. Daca u = Ma, se poate scrie caPcompunerea lui c1 a lui e1 pe dreapta D va fi u e1; iar c1 = ^ ujX1 .j=1Caracteristica c ale carei valori sunt cele n coordonate (c1 ,c2,.. .,cn) se va obtine direct prin intermediul relatiei c = X u. c va fi deci o combinatie liniara a celor p caracteristici initiale la mijlocul factorului u. Daca M = E, atunci exista egalitate ntre factorul u si vectorul unitar a. Daca D trece prin origine, c va fi o caracteristica centrata.IneriaInertia totala a norului de puncte reprezinta media patratelor distantelor celor n puncte la origine:1 = Z pilMIM =Z pietMeiAceasta cantitate caracteristica a norului de puncte masoara alungirea punctelor n raport cu centrul lor de greutate, ceea ce este echivalent cu dispersia globala a norului. O inertie nula sau apropiata de zero semnifica faptul ca toti indivizii sunt identici sau aproape identici si se confunda cu centrul lor de greutate.Spaiul caracteristicilorn fapt, fiecare caracteristica 'X este o lista de n valori numerice care vor fi considerate ca fiind vectorul X al unui spatiu cu n dimensiuni, denumit spatiul caracteristicilor, notat cu Rn.Pentru a studia proximitatea caracteristicilor ntre ele trebuie gasita o matrice de ordinul n simetrica si pozitiv definita. n acest caz, pentru spatiul indivizilor si al obiectelor, se utilizeaza matricea diagonala afrecventelor relative din mai multe considerente. Produsul scalar a doua caracteristici i si xk, xJtDxk = ^pixkxi nu este altul dect covarianta sjki =1deoarece caracteristicile sunt centrate. Norma unei caracteristici xJesteP

dispersia sa.ntr-un spatiu euclidian unghiul 9 ntre doi vectori este definit cu ajutorul functiei trigonometrice cosinus, care este egal cu rezultatul raportului dintre produsul scalar si produsul normelor celor doi vectori:sjkcos 0 =< xJ,xk >j kxJ x. Acest cosinus nu este altceva dect coeficientulsjsk||xJ|| = sj, cu alte cuvinte, lungimea unei caracteristici este egala culor de corelatie liniara.Daca n acest spatiu al indivizilor intereseaza distanta dintre puncte, n spatiul caracteristicilor intereseaza mai mult unghiurile, tocmai datorita relatiei precedente.Caracteristici rezultate din tabelul de dateDaca (x1, x2, ..., x) sunt caracteristici masurate pe cei n indivizi, se vor putea deduce noi caracteristici prin intermediul unor combinatii liniare de tipul: c = u1x1 + u2x2 +... + upxp. n acest moment se cauta onoua axa n spatiul indivizilor.Totalitatea caracteristicilor care pot fi obtinute printr-un astfel de procedeu formeaza un subspatiu vectorial W al spatiului caracteristicilor. Daca nu exista nici o relatie liniara ntre caracteristicile , acest subspatiu7are dimensiunea p n exemplul prezentat, ^ xJ = 100, dimensiunea luij=1

W este mai mare de zece, deoarece pot exista si alte relaii care nu au fost remarcate.Caracteristicile c, combinatii ale caracteristicilor initiale, pot fi obtinute cu ajutorul formulei c = Xu, n care u este factorul asociat lui c Este usor sa se deduca dispersia: s^ = ctDc = utXtDXu, deci s2 = utVu.

e2e3Cautarea componentelor, axelor si factorilor principali Axa principala Dj a fost definita prin intermediul proprietatii maximizarii mediei patratelor distantelor ntre proiectiile punctelor norului.Figura 8.2. Reprezentarea axei principaleAcest lucru este echivalent cu maximizarea inertiei proiectiilor ^pic2, n care ci sunt valorile algebrice ale proiectiilor e pe D, deoarece D trece prin centrul de greutate al norului.D j este axa principala alungita a norului, n sensul ca pe aceasta axa, c, sunt foarte dispersate sau, cu alte cuvinte, c reprezinta combinatia liniara a xi de varianta maxima.Axele si factorii principali (vi, v2, ..., vp), cnd M = E, sunt vectorii proprii ai matricei de varianta asociati valorilor proprii (1j, 12,...,1p), scrisi n ordine descrescatoare.Pentru ca axele spaiului indivizilor sa fie considerate noi, vectorii matricei de varianta vor fi trecui pe diagonala operatorului liniar asociat lui Vy. Matricea variantei componentelor principale Vc va fi egala cu:1000 N

01 200

0V001 p 0

V =

Aceasta nseamna ca componentele principale nu sunt corelate doua cte doua.Analiza componentelor principale nlocuieste cele p caracteristici initiale cu caracteristici necorelate de varianta maxima si de importanta descrescatoare.Pentru a gasi n mod direct axele, factorii si componetele principale n functie de X, este suficient sa se scrie ca Vyv = 1 v = TVTtv si partea stnga sa fie nmultita cu T: TtTVT tv = 1Ttv sau MVu = lu . Axa a este u = Ma, iar MVMa = 1Ma. Rezulta VMa = 1 a deoarece M este o matrice simetrica.Axele principale sunt deci vectorii proprii ai lui VM, iar factorii principali, cei ai lui MV. Daca componertele principale se obtin prin c=Xu,atunci trebuie remarcat faptul ca MV = MXtDX; MXtDXu = 1 u creste nmultind partea stnga cu X, deci c este vectorul propriu al lui XMXtD.Suma valorilor proprii 1 1 + 12 +... + 1 este o constanta egala cu semnul lui Vy si al lui MV, adica este inertia totala I.1Raportul j-- poarta denumirea de procent de inertie (sau de

se numeste procentul dedispersie) explicata prin axa k. Raportul

I

Iinerie cumulat al primelor doua axe, si masoara aplatizarea norului pe planul principal. Cu ct acest procent este mai mare, cu att este mai buna reprezentarea norului pe planul respectiv.Numarul de valori proprii nenule ofera dimensiunea spatiului n care exista observatii. O valoare proprie nula indica faptul ca exista o relatie liniara ntre caracteristicile initiale.Rezultatele si interpretarea lorRevenind la exemplul considerat, vor fi prezentate principiile generale de interpretare ale rezultatelor numerice si grafice ale analizei componentelor principale.Calculele au fost efectuate cu ajutorul unor pachete de programe pentru PC[footnoteRef:2]. Pentru analiza datelor a fost aleasa matricea D 1 , ceea ce a [2: De exemplu, Excel, Statistica.]

s2presups centrarea si reducerea celor sapte caracteristici (afirmatii). Ca rezultat, factorii principali au fost obtinuti prin diagonala matricei de corelatie R.Valori proprii, factori si componente principaleSuma valorilor proprii este egala cu numarul de caracteristici atta timp ct M = D 1 , adica 7. Se verifica daca ultima valoare proprie este nula, ceea ce are drept consecinta faptul ca caracteristicile sunt legate printr-o relatie liniara (suma lor este egala cu 100).

Tabelul 8.3. Statistici initialeVariabilaComunalitateaFactorulValoripropriiProcentul de dispersie explicata de fiecare factorProcentulcumulat

VariableCommunalityFactorEigenvaluePct of VarCum Pct

Afirmaia1111.9381227.727.7

Afirmaia2121.3378019.146.8

Afirmaia3130.9850914.160.9

Afirmaia4140.8000811.472.3

Afirmaia5150.7295510.482.7

Afirmaia6160.620318.991.6

Afirmaia7170.589058.4100

Primele trei valori proprii reprezint aproximativ 61% din inerie, motiv pentru care ne vom rezuma la primele trei componente principale. Este greu sa raspundem la ntrebarea de la ce procent putem neglija componentele principale rezultate?. Depinde de numarul de caracteristici: o prima axa explica 27,7% din inertie (cu sapte caracteristici). Daca R nu contine dect termeni putin diferiti de zero, nu trebuie sa ne asteptam sa gasim valori proprii foarte ridicate: nu putem reduce n mod eficient numarul de caracteristici dect daca acestea sunt puternic corelate. De fapt, numai examinarea semnificatiei componentelor principale si experienta cercetatorului permite cunoasterea numarului de componente care vor fi retinute.Primii trei vectori proprii vi, v si v ai lui R sunt urmtorii:Tabelul 8.4. Vectorii propriiFactor 1Factor 2Factor 3

Afirmaia 1 Afirmaia 20.621160.3152-0.104350.64796-0.554990.25939

Afirmaia 30.62544-0.30340.17669

Afirmaia 40.386530.70001-0.06987

Afirmaia 50.37819-0.539780.43722

Afirmaia 6 Afirmaia 70.670290.56571-0.131720.12762-0.386460.48288

Suma ptratelor componentelor este egala cu 1 si se poate verifica Rv1 = livi. Pentru a obtine componentele principale q, c2 si c3 se aplica formula c = Y v. Astfel, pentru primul individ pentru care s-au calculat cele mai mari valori ale coordonatelor centrate reduse, este suficienta multiplicarea fiecarei coordonate prin compunerea primului vector si calcularea sumei.Tabelul 8.5. Statistici finaleVariabilaComunalitateaFactorulValoripropriiProcentul de dispersie explicata de fiecare factorProcentulcumulat

VariableCommunalityFactorEigenvaluePct of VarCum Pct

Afirmaia10.7047411.9381227.727.7

Afirmaia20.5864821.337819.146.8

Afirmaia30.5144430.9850914.160.9

Afirmaia4Afirmaia50.64430.62555

Afirmaia60.616

Afirmaia70.56949

Reprezentarea indivizilor n planul principalTabelul 8.6. Reprezentarea indivizilor n planul principalAfirmaia1Afirmaia2Afirmaia3Afirmaia4Afirmaia5Afirmaia6Afirmaia7

Afirmaia10.70474*0.08675-0.05583-0.076550.05413-0.275930.03225

Afirmaia2-0.015780.58648*0.02552-0.253690.07930.00339-0.23756

Afirmaia30.32210.046380.51444*0.0019-0.23174-0.14642-0.16262

Afirmaia40.205830.557290.017030.64430*0.16155-0.04057-0.07968

Afirmaia50.04859-0.117140.47755-0.262210.64555*0.00158-0.20999

Afirmaia60.644590.025680.390910.193890.155630.61600*0.03465

Afirmaia70.070080.386260.400410.274260.356180.175760.56949*

Triunghiul din coltul stnga jos conine matricea de corelaie reprodusa; diagonala este formata din comunalitati iar triunghiul din coltul dreapta sus reziduurile dintre corelatiile observate si corelatiile reproduse. Sunt 14 (66,0%) reziduuri (de-a lungul diagonalei) cu valori absolute mai mari ca 0,05.Componentele c1, c2 si c3 dau coordonatele indivizilor pe planul principal, obtinndu-se configuratia 3D prezentata n figura 8.3.

Figura 8.3. Reprezentarea indivizilor n planul principalSe observa imediat ca apar trei grupe separate.Interpretarea componentelor si axelor principale Aceasta este partea de cea mai mare finete si trebuie avute n vedere att corelaiile cu caracteristicile initiale ct si indivizii tipici.Calculul corelatiilor ntre componentele principale si caracteristicile initiale este foarte usor de efectuat n cazul matricei D j : coeficientul decorelatie liniar ntre X si ck este egal cu cea de-a j-a componenta a celui de-al k vector propriu multiplicat prin . n acest mod se deduce ca suma patratelor corelatiilor lui ck cu X dau l k.

Vom gasi:r(c1,xj)r(c2,xj)r(c3,xj)Afirmatia10.837450.040150.02462Afirmatia20.058420.761190.06055Afirmatia30.351010.03820.62431Afirmatia40.216530.75996-0.14097Afirmatia50.02945-0.21220.76135Afirmatia60.756060.076140.19639Afirmatia7-0.031210.462460.59552Factor1Factor2Factor3Factor10.69170.420460.58717Factor2-0.143280.87678-0.45906Factor3-0.707830.23340.6667Tabelul 8.7. Componentele principalePrima componenta principala este puternic corelata cu afirmaiile 1 si 6 (fiabilitate sporita si volum redus de deeuri) si negativ corelata cu afirmatia 7 (consum specific redus ). Opozitia ntre aceste doua grupuri de caracteristici, data de tabelul R, este o trasatura dominanta si permite interpretarea pozitiei indivizilor n planul principal: cu ct un punct este situat mai la dreapta pe grafic cu att se abate de la medie pentru afirmatiile 1, 6, 3, 4 (VAR24, VAR8, VAR6, VAR25), concomitent cu valorile inferioare de la medie a afirmatiilor 2, 5, 7 (VAR27, VAR7, VAR26).Factorul 1 s-ar putea intitulaperformanta economica deoarecenglobeaza afirmatiile consum specific redus si volum redus de deseur.A doua componenta principala este mai mica dect prima si se caracterizeaza prin opozitia ntre afirmatia 2 (numar redus de rebuturi) si afirmatia 5 (consum redus de apa) iar cea de-a treia componenta principala este puternic corelata cu afirmatiile 3, 5 si 7 (timp redus deobinere a componentei, consum redus de apa si consum specific redus) si slab corelata cu restul.Factorul 2 s-ar putea denumi protejeaza mediul deoarece cuprinde afirmaiile Volum redus de noxe si consum redus de apa iar factorul 3 "calitate deoarece reuneste afirmatiile fiabilitate sporita, "umar redus de rebuturi si "timp redus de obtinere a componentei.Tabelul 8.8. Patratele marimilor ponderale ale factorilor sicomunalitatile (dispersiile comune)Factor 1Factor 2Factor 3Comunalitati

Afirmatia 10.70132250.0016120230.001816460.704750983

Afirmatia 20.00341290.5794102160.00366630.586489416

Afirmatia 30.123208020.001459240.389762980.51443024

Afirmatia 40.046885240.5775392020.019872540.644296982

Afirmatia 50.00086730.045028840.579653820.62554996

Afirmatia 60.571626720.00579730.038569030.61599305

Afirmatia 70.000974060.2138692520.354644070.569487382

Procentul mediu al dispersiei explicate de catre factor0.206899540.2035308670.19828360.608714007

Coloana "comunalitati" reprezinta portiunea din dispersia variabilei dn rndul respectiv care este explicata de factorii extrasi. Astfel, cei trei factori explica ntr-o proportie de 70,47% variabilitatea existenta n afirmatia "fiabilitate sporita. Acest rang explicativ ridicat sugereaza ca nu mai exista multi alti factor i care determina afirmatia respectiva. Cu ct dispersia comuna (comunalitatea) este mai mare, cu att mai ampla este explicatia furnizata de factorii luati n comun.Interpretarea procentului mediul al dispersiei explicate de catre fiecare factor n parte ar putea fi urmatoarea: n momentul achizitionarii unui utilaj,20,68% din preferine sunt datorate performantelor economice ale utilajului, 20,35% sunt datorate faptului ca protejeaza mediul, iar 19,82% sunt datorate calitatii. Acestea sunt deci principalele motive pentru care se achizitioneaza un anumit utilaj.Totalul coloanei comunalitati arata ct de mult din dispersia preferintelor fata de toate afirmatiile este explicata de cei trei factori extrasi, deci 60,87%. O problema dificila este cea a numarului de factorizari, adica de extrageri de factori. De obicei, se procedeaza cu factorizarea n continuare pna cnd se ajunge la factori marunti si lipsiti de semnificatie. n cazul nostru, mai exista si alti factori care trebuie luati n considerare (100% - 60,87% = 39,13%). Acestia ar putea fi pretul utilajului, raportul pret-calitate etc.8.2. Analiza canonicaAnaliza canonica a fost propusa n anul 1936 de catre H. Hotelling, n lucrarea Relations between two sets of variables si are un rol teoretic foarte important. Ea nglobeaza majoritatea metodelor de analiza: regresia multipla, analiza dispersionala, analiza corespondentelor, analiza discriminanta, acestea putnd fi considerate cazuri particulare ale analizei canonice .Desi este disponibila sub forma unor software-uri de specialitate (Statistica de exemplu), ea nu este utilizata dect foarte putin datorita dificultatilor care apar n interpretarea si utilizarea rezultatelor. [footnoteRef:3] [3: Bouroche J-M., Saporta G., Lanalyse des donnes, Presses Universitaires de France, Paris, 1980.]

Prezentarea metodeiScopul analizei canonice l constituie studierea relaiilor liniare existente ntre doua grupe de caracteristici cantitative observate pe acelai eantion. ntr-o maniera foarte precisa se cauta o combinatie liniara a caracteristicilor primei grupe si o combinatie liniara a caracteristic ilor celei de-a doua grupe, care sa fie ct mai puternic corelate. Metoda va fi prezentata pe cazul cercetarii impactului unor noi tipuri de detergenti asupra mediului.Pentru studierea performantelor detergentilor testati, s-au luat n considerare sase parametri care masoara caracteristicile acestora: x1VAR22continutulde apa (gr)x2VAR23continutulde fosfat (gr)x3VAR24continutulde enzime(gr)x4VAR25continutulde silicat de sodiu(gr)x5VAR26continutulde sulfat de sodiu(gr)x6VAR27continutulde nalbitor (gr)Datele au fost culese separat, fiind indicate pe fiecare ambalaj de detergent n parte. Respondentii au acordat note acestor tipuri de detergenti n functie de caracteristicile individuale ale acestora.1yVAR6nota pentru calitatea spalarii

2yVAR7nota pentru proprietatile benefice ale produsului

y3VAR8nota pentru protectia mediului

Problema care se pune este n ce masura notele acordate de respondenti pot fi legate de caracteristicile obiective ale diferitelor tipuri de detergenti.Ca si n cazul analizei componentelor principale, caracteristicile pot fi reprezentate n Rn, n care n reprezinta numarul de observatii (n cazul prezentat n = 28). Se noteaza cu (x1,x2,_,X,_,xp) si (y1,y2,^,yk,^,yq) caracteristicile celor doua grupe reprezentate de vectorul Rn. Pentru a compara cele doua caracteristici, se calculeaza o combinatie liniara a caracteristicilor primei grupe X = a1x1 + a2x2 +... + a^J +... + apxp si o combinatie liniara a caracteristicilor celei de-a doua grupe h = b1y1 + b2y2 +... + bkyk +... + bqyq. Se determina coeficientiita = (a1,a2,...,aj,...,ap)si tb = (b1,b2,...,bk,...,bq) care maximizeazapatratele corelatiilor ntre X si p.Se numesc caracteristicile canonice ale vectorilor X si pe Rn,factorii canonici ai vectorilor coeficientilor a e Rp si b e Rq si corelaii canonice coeficientii de corelatie dintre X si p.Totalitatea caracteristicilor X, combinatiilor liniare(x1,x2,_,xJ,_,xp) formeaza un subspatiu vectorial W1 c Rn, numit potentialul de previziune al primei grupe. n acelasi fel, celei de-a doua grupe i este asociat W2 c Rn .Trebuie determinati doi vectori XeW1 si heW2 care sa faca un unghi minim, n timp ce la analiza componentelor principale exista o identitate ntre cos 9 si corelatiile pentru caracteristicile centrate.Aici exista o solutie foartesimpla h1 si X', pentru care cos2(h',X') = 1.n

Figura 8.4. Vectorii h si consecinta, n R3, intersecia celor doua planuri va avea o dimensiune mai mica sau egala cu 2. n timp ce primul cuplu de variabile canonice a fost obtinut, se cauta un alt cuplu de caracteristici h2 si X2 pentru care r2(X2, h2) sa fie maxim si pentru care X' si X2, respectiv h' si h2 sa aibe o corelatie nula, si apoi la fel pentru h3 si X3 s.a.m.d.Problema analizei canonice poate fi comparata cu cea a regresiei multiple. Se presupune ncercarea previzionarii variabilei x6 (VAR27), continutul de nalbitor, cu ajutorul notelor acordate de respondenti. n acest caz, spatiul W' nu are dect o singura dimensiune, n timp ce W este neschimbat.Se va obtine graficul din figura 8.5.Se cauta vectorul W2 de forma h = bjy1 + b2y2 + b3y3 care realizeaza un unghi minim cu variabila x6(VAR27).Figura 8.5. Reprezentarea spatiilorDupa cum se va observa n continuare, p este un vector coliniar cu proiecia ortogonala a lui x6 (VAR27) pe W2.Formularea geometrica Proiecia ortogonala pe un subspatiu vectorial Cazul regresiei multipleSe considera cazul unei caracteristici care trebuie explicata y si p caracteristici explicative (x1,x2,_,X,_,xp). Se presupune ca (p+1) caracteristici sunt observate pe acelasi esantion de n indivizi, fiecare individ fiind descris de ponderea p>0, cu ^ pi = 1 .Se cauta o combinatie liniara a celor p caracteristici explicative = a1x1 + a2x2 +... + a^J +... + apxp, n care trebuie sa fie ct mai aproape posibil de y n sensul distantei n spatiul caracteristicilor.Fiecare din cele (p+1) caracteristici pot fi reprezentate printr-un vector Rn:'yi ^" xp

y =yie Rn ; xJ =xJe Rn , J = 1,p

V yn 0xJV n 0

Se presupune ca cele (p+1) caracteristici sunt centrate:Ep^ =0Epixj = j = 1,pi=ii=iSubspatiul vectorial W c Rn este considerat ca fiind provenit din combinatiileliniarealecaracteristicilorxJ:Xe W ^X = a1x1 + a2x2 +... + aJxJ +... + apxp. n continuare se va

f x1 ... x1j ... ^1x1 ... xJ ... xp1x... x jn ... xpV nn 0Xnp =este egala cu p. Din punct de vedere algebricpresupune ca dimensiunea lui W = p, ceea ce nseamna ca cele p caracteristici xJ formeaza o baza a lui W, sau ca dimensiunea matriceise scrie: W = {X e Rn / X = Xa, a e Rp}.Ca si n cazul analizei componentelor principale, se presupune ca spatiul caracteristicilor este dat de produsul scalar asociat matricei diagonale a ponderilor:pi

piD =

0

0n spaiul caracteristicilor centrate, produsul scalar si covarianta sunt identice:txJDxk= sjk, la fel ca sinorma sidispersia: ||x]|2 =sj2. Distantantredoua caracteristici este data de relatiad2(xJ,xk) = xJ -xk = t(xJ -xk)D(xJ -xk). n spatiul caracteristicilor W c Rn si y e Rn pot fi reprezentate grafic ca n figura 8.6.y R nfiinddat,secauta X e W n timp ce distanta ntre y si X trebuie sa fie minima, deci criteriul poatefiscris astfel:min ||y -x||2.XeWncontinuare,senoteazaypunctuldinW

Figura 8.6. Reprezentarea lui W si y nspatiul caracteristicilorcel mai apropiat de y: y este proiectia ortogonala a lui y pe W.Cautarea proieciei ortogonale pe WSe numeste proiecie ortogonala pe W aplicatia liniara a lui Rn n Rn care face sa corespunda tuturor vectorilor lui Rn proiectia sa ortogonala pe W. Notatia este: y Ay = y, n care t (y - y)Dy = 0 (ortogonalitatea).Toti vectorii X e W pot fi scrisi sub forma X = Xa ; n particular y e W sub forma y = Xa. (y - y) trebuie sa fie ortogonal pentru totivectorii lui W, iar n particular vectorilor baza. n consecina, exista p ecuaii de forma: tx]D(y - y) = 0, j = 1,p sau y = Xa, j = 1,ptxJDy=txjDX, j = 1, psau scris sub forma unei singure ecuatii matriceale: tXDXa = XDyDaca rang(X) = p, atunci matricea tXDX este inversa, deci poate fi scris:a = (tXD)-1 XDyVectorul contine p coeficienti ai combinatiei liniare y = 1x1 + 2x2 +... + jxj +... + pxp e W cei mai apropiati de y Dinexpresia lui putem deduce y = X : y = X(tXDX)-11 XDy care face ca lui y sa i corespunda proiectia sa ortogonala pe W. Se deduce astfel expresia lui A: A = X(t XDX)-1 tXD .Cautarea dreptei lui W care sa faca unghi minimSe cunoaste ||y||2 = ||y - y||2 +||;y||2 din teorema lui Pitagora.Minimizarea lui||y - y||2 nseamna maximizarea lui ||y||2 n timp ce ||y||2 ramne constanta. y este deci vectorul lui W prin maximizarea expresiei

cos2(y,y)=2ceea ce nseamna realizarea unui unghi minim cu y.2Se observa ca, daca vectorii y si x, j = 1,p sunt centrati, cosinusul dintre y si ;y poate fi interpretat drept coeficientul de corelatie ntre caracteristicile y si y.

Cautarea caracteristicilor canonice Prezentarea geometricaLa fel ca si n cazul regresiei multiple, se presupune ca cele (p+q)ncaracteristici sunt observate pe acelasi esantion n, cu ^ pi = 1 si ca elei=1sunt centrate. Fiecare dintre cele (p+q) caracteristici pot fi reprezentate printr-un vector Rn:(XJ ^ x 1f k0y1

II!