Analiza multivariată a variaţiei

9
Analiza multivariat a variaiei Analiza multivariat a variaiei cuprinde un grup de metode aparinând statisticii infereniale (deductive), utilizate mai ales pentru analiza datelor provenite din diferite tipuri de experimente, cu ajutorul crora se poate face separarea i testarea semnificaiei efectelor cauzate de aciunea simultan a mai multor factori. Numeroase tehnici de proiectare a experimentelor permit organizatorilor acestora s controleze variaia mai multor variabile independente (factori) i s estimeze efectele acestei variaii asupra variabilelor dependente msurate în scal metric. Numele de “analiz a variaiei” s-ar putea s conduc la impresia greit c aceste tehnici s-ar putea folosi pentru testarea diferenelor între dispersiile factorilor, nu între mediile acestora, aa cum se întâmpl de fapt. Printre cele mai cunoscute metode cu ajutorul crora se poate realiza analiza multivariat a variaiei se pot meniona: proiectrile factoriale, ptratele latine, ptratele greco-latine. Indiferent de metoda folosit pentru analiza variaiei, datele trebuie s îndeplineasc anumite cerine. În primul rând, se presupune c datele culese provin de la grupuri experimentale a cror constituire din rândul unor populaii statistice alctuite conform repartiiei normale s-a fcut dup principii aleatoare. Mai precis, trebuie depuse eforturi pentru ca atât selecia unitilor experimentale cât i aplicarea tratamentelor experimentale s aib la baz selecia aleatoare. În al doilea rând, se face presupunerea c setul de date utilizate pentru a calcula variaia aleatoare (eroarea experimental) prezint aceleai posibiliti de a fi afectate de variaia aleatoare întrucât are o abatere standard (i deci o variaie) constant. A treia presupunere consider c variaia aleatoare este independent de la o observaie la alta. În al patrulea rând, se presupune c efectele diferitelor surse ale variaiei (efectele factorilor experimentali, efectele de interaciune între factori i eroarea experimental) sunt aditive i nu multiplicative. Dac acest lucru nu ar fi adevrat, tehnicile utilizate pentru

Transcript of Analiza multivariată a variaţiei

Analiza multivariata a variatieiAnaliza multivariata a variatiei cuprinde un grup de metode apartinând statisticii inferentiale (deductive), utilizate mai ales pentru analiza datelor provenite din diferite tipuri de experimente, cu ajutorul carora se poate face separarea si testarea semnificatiei efectelor cauzate de actiunea simultana a mai multor factori. Numeroase tehnici de proiectare a experimentelor permit organizatorilor acestora sa controleze variatia mai multor variabile independente (factori) si sa estimeze efectele acestei variatii asupra variabilelor dependente masurate în scala metrica.Numele de “analiza a variatiei” s-ar putea sa conduca la impresia gresita ca aceste tehnici s-ar putea folosi pentru testarea diferentelor între dispersiile factorilor, nu între mediile acestora, asa cum se întâmpla de fapt.Printre cele mai cunoscute metode cu ajutorul carora se poate realiza analiza multivariata a variatiei se pot mentiona: proiectarile factoriale, patratele latine, patratele greco-latine. Indiferent de metoda folosita pentru analiza variatiei, datele trebuie sa îndeplineasca anumite cerinte.• În primul rând, se presupune ca datele culese provin de la grupuri experimentale a caror constituire din rândul unor populatii statistice alcatuite conform repartitiei normale s-a facut dupa principii aleatoare. Mai precis, trebuie depuse eforturi pentru ca atât selectia unitatilor experimentale cât si aplicarea tratamentelor experimentale sa aiba la baza selectia aleatoare.• În al doilea rând, se face presupunerea ca setul de date utilizate pentru a calcula variatia aleatoare (eroarea experimentala) prezinta aceleasi posibilitati de a fi afectate de variatia aleatoare întrucât are o abatere standard (si deci o variatie) constanta.• A treia presupunere considera ca variatia aleatoare este independenta de la o observatie la alta.• În al patrulea rând, se presupune ca efectele diferitelor surse ale variatiei (efectele factorilor experimentali, efectele de interactiune între factori si eroarea experimentala) sunt aditive si nu multiplicative. Daca acest lucru nu ar fi adevarat, tehnicile utilizate pentru descompunerea variatiei totale în componentele ei nu ar mai fi valide.1• În al cincilea rând, categoriile variabilelor independente se presupune ca sunt fixe. Exista însa si modele de analiza aplicabile unor definiri aleatoare a categoriilor (de regula construite ca subseantioane definite aleator).• În sfârsit, Cea mai importanta cerinta este ca factorii sa fie exprimati în forma discreta, nu în cea continua.Analiza variatiei1 Malhotra N.K. - Marketing Research: An Applied Orientation, Prentice Hali, EngleWood Cliffs, 1993, p. 522 2Analiza variatiei (ANOVA) si analiza covariatiei (ANCOVA) sunt folosite pentru aexamina diferentele dintre valorile medii ale variabilei dependente sub efectul unor variabileindependente controlate, dupa izolarea efectului unor variabile independente necontrolate. Înesenta, ANOVA este folosita pentru a testa diferentele dintre mediile a doua sau mai multegrupuri (populatii). Mai precis, analiza variatiei testeaza ipoteza nula conform careia nu existadiferente între medii (altfel spus, toate mediile ar fi egale între ele).În forma cea mai simpla, analiza variatiei necesita o variabila dependenta masurata pe o

scala metrica (interval sau proportionala) si una sau mai multe variabile independente masuratepe o scala nemetrica (nominala sau ordinala). Aceste variabile independente de tip categorialsunt denumite, de obicei, factori. Modul în care nivelurile (categoriile) factorilor actioneazaasupra variabilei dependente poarta denumirea de tratament1.Procedurile de analiza a variatiei au la baza acelasi principiu dar se diferentiaza (si, caurmare primesc denumirea corespunzatoare) prin numarul de factori si numarul de variabiledependente analizate simultan în model. Vom distinge, pe de o parte, situatiile în care esteanalizata o singura variabila dependenta, iar în functie de numarul de factori putem realizaanaliza variatiei cu un factor (one-way analysis of variance) sau analiza variatiei cu n-factori (n-way analysis of variance). Situatiile în care sunt mai multe variabile dependente simai multi factori analizati simultan sunt cunoscute sub denumirea de analizei multivariata avariatiei (MANOVA).În situatia în care setul de variabile independente contine atât variabile nemetrice(categoriale) cât si metrice, tehnica poarta denumirea de analiza a covariatiei (ANCOVA).Rolul acestei forme a analizei variatiei este de a izola influenta unor variabile independente(metrice) asupra variabilelor dependente pentru a putea evalua efectul factorilor.Aplicatii în marketing ale analizei variatieiIndicatori si notiuni asociate analizei variatieiAnaliza variatiei este utilizata în mod deosebit în experimentele de marketing, atuncicând se evalueaza influenta unor variabile independente asupra altora, tratate ca dependente.Printre cele mai cunoscute utilizate în acest context se numara proiectarile factoriale,patratele latine, patratele greco-latine etc.Mult mai frecvent însa cercetatorii urmaresc sa analizeze, în studii pe care lerealizeaza, diferentele dintre valorile medii ale unei variabile independente pe care le ia lanivelul mai multor categorii ale uneia sau mai multor variabile independente (factori) pentrua putea concluziona daca exista sau nu diferente între grupurile respective. Mai precis,analiza variatiei poate furniza raspunsuri la întrebari precum:• exista diferente în privinta duratei totale lunare a convorbirilor telefonice întrepersoanele din diferite regiuni ale tarii sau pe categorii de educatie si venit?• care sunt diferentele în privinta intentiilor de cumparare la diferite niveluri alepreturilor unui produs?• perceptiile privind diversitatea ofertei (categorii), interactiunea cu vânzatorii (da/nu)si modul în care au fost rezolvate plângerile (categorii) îsi pun amprenta asuprasatisfactiei clientilor?• consumul de cafea este influentat de vârsta (categorii) si educatie (categorii)?

Prezentam mai jos situatia analizei variatiei cu un factor. Indicatorii ramân valabili sipentru celelalte forme ale analizei variatiei.• Variatia dintre grupuri (between variation): notata, de obicei cu SSX (sau SSîntre-

grupuri) reprezinta variatia variabilei dependente corespunzatoare variatiei mediei pecategoriile variabilei independente. Ea reprezinta partea din suma patratelor aferentavariabilei independente;• Variatia din interiorul grupurilor (within variation) notata, de obicei cu SSE

(sauSSin-interior sau SSeroare) reprezinta variatia variabilei dependente datorata variatiei în3interiorul fiecarei categorii a variabilei independente. Aceasta variatie nu estegenerata de variabila independente;• Variatia totala (total variation): notata, de obicei cu SST (sau SStotala) reprezintavariatia variabilei dependente corespunzatoare variatiei mediei pe categoriilevariabilei independente. Ea reprezinta partea din suma patratelor abaterilor variabileidependente aferenta variabilei independente;• Media patrata (mean square): este suma patratelor împartita la numarul gradelor delibertate;• testul eta (TI2, eta2): masoara efectul variabilei independente asupra celei dependentesi arata proportia explicata de prima în variabilitatea celei de a doua. Ia valori între 0si 1;• testul F (F statistic): verifica ipoteza nula (H0) ca dispersiile categoriilor variabileiindependente pentru variabila dependenta sunt egale; se calculeaza ca raport întremedia patratelor aferenta variabilei independente si media patratelor aferente erorii.Etapele realizarii analizei variatiei cu un singur factorAnaliza variatiei poate fi împartita în trei pasi mari: identificarea variabilelor,efectuarea calculelor si interpretarea rezultatelor. Astfel:Identificarea variabilelor: în aceasta etapa trebuie tinut cont de cerinta acestui tip de analizaca variabila dependenta sa fie metrica iar cea independenta sa fie nemetrica(categoriala -masurata pe scala nominala sau ordinala).Descompunerea variatiei totale: în aceasta etapa este examinata variabilitatea variatiei dinesantion (variabila independenta) si pe baza acestei variabilitati se stabilestedaca exista motive de a considera ca mediile categoriilor populatiei diferaîntre ele. Variatia totala a variabilei dependente (SST) este formata din variatiaexplicata de variabila independenta (SSX sau SSîntre-grupuri) si variatia reziduala(SSeroare sau SSin-intenor)SST = SSîntre-grupuri + SSin-intenor

sau SST = SSX + SSE

unde:4

∑n SS= (y−y)2

i=1Ti

SS =∑k (y −y)2

j =1

Xjkn

SS = E

∑∑ j=1 i=1

(y −y)2 ij i

unde:yi - valoarea i a variabilei dependentey j - media variabilei dependente pentru categoria j a variabilei independentey - media la nivelul întregului esantionyij - valoarea i a variabilei dependente corespunzatoare categoriei j a variabileiindependenteMasurarea efectelor: în aceasta etapa este determinat efectul factorului asupra variabileidependente date de SSX. Pentru masurarea acestui efect se foloseste testuleta2, calculat în modul urmator:η2 =SSX SST

Eta2 ia valori între 0 si 1. O valoarea apropiata de 0 indica faptul ca nu existadiferente între medii în timp ce o valoarea apropiata de 1 arata o variabilitateîntre grupuri.Testarea semnificatiei statistice: se realizeaza cu ajutorul testului F prin verificarea ipotezeinula (H0) confom careia dispersiile variabilei dependente în cazul fiecaruigrup (categorie) a variabilei independente sunt egale. Indicatorul testului F secalculeaza ca raport între variatia pusa pe seama variabilei independente siajustata cu numarul gradelor de libertate aferente (SSx/(k-1)) si variatiacorespondenta erorii ajustata si ea cu numarul gradelor de libertate diferenta(SSE/(n-k)).Interpretarea testului F poate fi facuta absolut, prin compararea cu valoriletabelate sau prin prisma nivelului de semnificatie asociat. Un nivel desemnificatie sub 0,05 (aferent unei probabilitati de peste 95%) permiterespingerea ipotezei nule a egalitatii dispersiilor.2 Neter J., Wasserman W., Kutner M. - Applied Linear Statistical Models, Irwin, Homewood, 2nd edition , 1985 5Interpretarea rezultatelor: în situatia în care ipoteza nula a egalitatii mediilor grupurilor afost acceptata, variabila independenta nu are un efect semnificativ asupravariabilei dependente. În caz contrar, prin neacceptarea ipotezei nule se poateconcluziona ca grupurile difera între ele din punct de vedere al caracteristiciistudiate (variabila dependenta) si ca variabila independenta exercita un efectsemnificativ asupra celei dependente. Mergând mai departe, o comparare amediilor la nivelul grupurilor va da informatii legate de natura efectuluivariabilei independente.Analiza variatiei cu n-factoriAcest tip de analiza se aplica în situatia în care exista o variabila dependenta si maimulti (n) factori (variabile independente). Faptul ca exista o actiune simultana a mai multorfactori aduce în discutie efectul generat de fiecare dintre factori si cel produs deinteractiunile dintre ei.Procedura de aplicare a analizei variatiei cu n-factori este similara cu cea în careavem un singur factor, dar modul de descompunere a variatiei este unul care trebuie

sa tinaseama de toti factorii implicati (si de interactiunile dintre ei). Pentru modelul cel mai simplu,cu 2 factori (X1 si X2) variatia totala se calculeaza astfel:SST = SSX1 + SSX2 + SSX1X2 + SSE

Un efect mai puternic al variabilei X1 va fi reflectat printr-o diferenta mai mare întremedii la nivelul categoriilor acestei variabile si suma a patratelor SSX1 mai mare, la fel încazul celeilalte variabile independente. Pe de alta parte, cu cât exista o interactiune mai mareîntre factorii X1 si X2 cu atât contributia comuna la explicarea variatiei (ca rezultat al acesteiinteractiuni) va fi mai mare (relatia functioneaza si în sens invers, aratând ca o o valoare micaa SSX1X2 arata o independenta între cei doi factori (din acest punct de vedere).Testul F va ajuta, de data aceasta, la calcularea nu numai a efectului principal alfiecarui factor, ci va fi calculat câte un indicator atât pentru evaluarea efectului interactiuniicât si pentru a testa semnificatia statistica a întregului model, deci efectul global al tuturortratamentelor (factori, individual + interactiunea dintre ele). Valorile calculate alte testuluiFisher (Fc) sunt comparate cu cele din tabelele statistice Ft asociate acestui test (ultimul pe6baza nivelului de semnificatie si numarului gradelor de libertate). Daca valorile calculatesunt mai mici decât cele tabelare (teoretice), atunci factorul respectiv nu are influentasemnificativa asupra procesului analizat; daca valorile calculate sunt mai mari decât celetabelare (teoretice), atunci factorul respectiv are o influenta importanta asupra procesului.Analiza covariatieiSpecificitatea analizei multivariate a variatiei3 Wildt A. R., Ahtola O. T., Analysis of Covariance; Beverly Hills, CA, Sage, 1978, p. 48-50. 7De multe ori atunci când se analizeaza efectul exercitat de variabilele independentecontrolate asupra valorilor medii ale unei variabile dependente apare necesitatea de a tinecont si izola influenta altor variabile independente. Aceasta se rezolva prin utilizarea analizeicovariatiei care include în model, pe lânga factorii masurati pe scale nemetrice si cel putin ovariabila independenta de tip metric, denumita covariant Utilizarea acestui are rolul de aelimina variatiile externe exercitate asupra variabilei dependente.La fel ca si în celelalte cazuri, semnificatia statistica a efectelor variabilelorcovariante este testat cu ajutorul testului F. Analiza covariatiei este utila atunci când întrevariabilele covariante si variabila dependenta exista o relatie liniara si când acestea nu sunt

corelate cu factorii3. Analiza covariatiei poate fi utilizata cu o singura alternanta, cu maimulte alternante, ca si prin tehnicile multivariate ANOVA.Similara cu ANOVA, analiza multivariata a variatiei (MANOVA) include în modelcel putin doua variabile dependente metrice si analizeaza efectele asupra acestora luatesimultan. Obiectivul MANOVA este, la fel ca si pentru ANOVA, examinarea si testareadiferentelor dintre medii, dar în acest caz calculele sunt facute pe baza vectorilor mediilorvariabilelor dependente multiple.Analiza multivariata a variatiei se justifica atunci când variabilele dependente suntcorelate între ele, în caz contrar fiind mult mai potrivita procedura ANOVA pentru fiecaredintre variabilele dependente luate în considerare.MANOVA compara grupurile si explica diferentele dintre grupuri. Pentru aceastaMANOVA creeaza un nou rezumat al variabilelor dependente, care este o combinatie liniaraa fiecarei variabile dependente initiale. MANOVA poate fi folosit într-un sens, doua sensurisi cu un nivel ridicat de proiectare (cu multiple variabile independente), ca si în analizeicovariatiei (controlând variabilele suplimentare).