Analiza Variationala ANOVA

Analiza variationala

ANOVA

Student: Andriescu Andreea

Profesor coordonator:

S.l. dr. ing. Petriceanu Constantin

Universitatea Politehnica Bucuresti

Facultatea Ingineria si Managementul Sistemelor Tehnologice

Cuprins:

Capitolul 1: Definirea temei.........................................................................................................................3

1.1 Introducere........................................................................................................................................3

1.2 Definitie.............................................................................................................................................3

1.3 Clasificarea tehnicilor ANOVA............................................................................................................4

Capitolul 2: Domenii de aplicare.................................................................................................................5

Capitolul 3: Principiul metodei....................................................................................................................6

3.1 Testele t.............................................................................................................................................6

3.2 ANOVA simpla................................................................................................................................10

3.3 ANOVA cu masuratori repetate.......................................................................................................18

3.4 ANOVA factoriala.............................................................................................................................23

3.5 Conditiile generale si ipotezele de efectuare a experimentelor......................................................33

Capitolul IV: Bibliografie............................................................................................................................35

2



Capitolul 1: Definirea temei

1.1 Introducere

Exista unele metode de analiza si interpretare a datelor experimentale si de

proiectare a experimentelor a caror folosire necesita cunostinte avansate de statistica

matematica. Frecvent ele sunt grupate sub denumirea de „metode statistice speciale”.

Promovarea folosirii lor in practica inginereasca este franata in buna parte de faptul ca

natura concluziilor pe care metodele statistice speciale le ofera, ca si datele necesare

aplicarii lor, nu sunt cunoscute. Studierea literaturii de specialitate este utila, dar nu elimina

colaborarea cu personal specializat.

Metodologiile de calcul presupun folosirea unor calculatoare de birou. Exista insa

programe speciale concepute pentru calculatoarele electronice mai puternice, care in multe

cazuri sunt mai complete si mai eficiente. Provocarea unui dialog intre inginer si

statistician constituie obiectivul principal al expunerii.

1.2 Definitie

Metoda ANOVA (ANalysis Of VAriance) constituie o cale perfectionata de

rezolvare a testului egalitatii mai multor medii. Testarea se poate efectua in conditiile

existentei mai multor grupe de observatii provenite din variatia unui singur factor

(experiment unifactorial), doi factori (bifactorial), mai multi factori (multifactorial).

Acestia pot fi la randul lor la 2, 3, mai multe niveluri. Analizele ANOVA pot da

raspunsuri la intrebari de tipul: care tratament termic este mai bun? Diferentele date de

verificarea cu mai multe pasametre provin din pasametre, cotele de reglaj ale acestora sau

ambele cauze?

3



1.3 Clasificarea tehnicilor ANOVA

Cele mai des intalnite desing-uri de cercetare experimentala utilizeaza una dintre

urmatoarele forme de analiza de varianta:

-ANOVA simpla sau unifactoriala este modelul cel mai simplu dintre tehnicile ANOVA,

fiind un corespondent al testului t pentru două eşantioane independente.

-ANOVA cu masuratori repetate este un model corespondent al testului t pentru două

eşantioane perechi.

- ANOVA factoriala cel mai utilizat fiind bifactoriala este un model mai complex, testand

efectele mai multor variabile independente (factori) asupra unei variabile dependente.

4



Capitolul 2: Domenii de aplicare

Aplicarea metodei si concluziile sunt influentate de tipul experimentului. Acesta

poate fi:

-cu efecte fixe sau model I;

-cu efecte variabile (aleatorii) sau model II;

-cu efecte mixte (acest model este o combinatie in primele doua).

Tipul experimentului se deduce raspunzand la intrebarea: Grupurile de date

reprezinta toate grupele in care experimenul este interesat? Experimentul cu efecte fixe

corespunde raspunsului „da” si cel cu efecte variabile raspunsului „nu”.

O aplicatie deosebit de interesanta si in acelasi timp importanta o are folosirea

ANOVA la efectuarea incercarilor interlaboratoare in scopul determinarii abaterilor

admisibile a dispersiei valorilor masurate.

Domeniile de aplicare in care este folosita metoda ANOVA pot fi, de exemplu:

ingineria, statistica, psihiatria.

5



Capitolul 3: Principiul metodei

3.1 Testele t

Testul t este o procedura de testare a semnificatiei statistice a diferentei dintre doua

medii.

Distribuția teoretică de referință (distribuția de nul) poate fi:

– normala, pentru esantioane mai mari de 30 de subiecti;

– t , pentru eșantioane mai mici de 30 de subiecti.

Tipuri de teste t:

•Testul t pentru un eșantion;

•Testul t pentru două eșantioane independente;

• Testul t pentru două eșantioane dependente.

3.1.2 Testul t pentru un eșantion

Testul t pentru un esantion testeaza diferenta dintre media unui esantion si media

populatiei. Mai general, diferenta dintre media esantionului si o valoare de referinta.

Raportare:

– Media si abaterea standard a esantionului;

– Media populatiei (valoarea de referinta);

– Intervalul de încredere pentru diferenta dintre medii;

– Marimea efectului: d= (m-µ)/σ

3.1.3 Testul t pentru diferenta dintre mediile a doua grupuri independente

Testul t pentru diferenta dintre mediile a doua grupuri independente compara mediile a

doua grupuri formate din subiecti diferiti.

Raportare:

– Mediile si abaterile standard ale celor doua grupuri;

– Valoarea testului t, semnificatia statistica (p);

6




– Mărimea efectului: d= (m1-m2)/ Sdif.

3.1.4 Testul t pentru doua esantioane dependente

Testul t pentru doua esantioane dependente testeaza diferenta dintre mediile a doua

esantioane dependente.

Constituie aceeasi variabila masurata în doua momente diferite pe acelasi grup de

subiecti.

Rapotare:

– Mediile si abaterile standard pentru fiecare dintre cele doua masurari grupuri;

– Valoarea testului t, semnificatia statistica (p);


– Marimea efectului: d= (m1-m2)/ Sdif.

3.1.5 Conditii generale de aplicare

Normalitatea distributiei de esantionare: rezultatul testului devine nesigur daca

distributia variabilei se abate de la forma normala, mai ales daca volumul esantionului este

mai mic de 30 de subiecţi.

În temeiul teoremei limitei centrale, cu cat volumul esantionului este mai mare, cu

atat normalitatea distributiei de esantionare este mai sigura, iar impactul unei eventuale

anormalitati a distributiei asupra testului t, mai mic.

3.1.6. Utilizarea testelor t

Utilizarea testelor t este o metoda foarte buna de determinare a diferentelor dintre

doua grupe. Totusi, deseori, cercetatorii lucreaza cu mai mult de doua grupe. În acest caz

este nevoie de o noua metoda pentru a determina diferentele între grupe => ANOVA.

Se vor analiza avantajele teoretice si de ordin statistic pe care le poseda analiza

dispersionala (ANOVA) fata de testul t.

7



Se aduce drept exemplu legea Yerkes-Dodson în ce priveste relatia dintre motivatie

si invatare. Se cunoaste ca exista un optimum motivational care determina performante

crescute. Daca nivelul motivational al subiectilor este prea mic ori prea puternic, rezultatul

va fi acelasi: o scadere a performantei în învatare, în primul caz datorat submotivarii, în

celalalt datorita supramotivarii.

Daca un experimentator decide sa aplice testul t pe doua grupe de subiecti (puternic,

respectiv slab motivati) pentru a urmarii efectul motivarii asupra performantelor în învatare

va ajunge la concluzia ca motivatia nu influenteaza eficienta învatarii doarece nu exista

diferente semnificative între grupul subiectilor puternic motivati si grupul celor slab

motivati.

Daca însa introduce o a treia grupa de subiecti care au un nivel mediu de motivare

(apropiat de optimum motivational), se va observa ca performantele la învatare vor creste.

Iata graficul aceastei situatii:

Se observa ca acest design experimental constituit din trei grupe este mai fidel

decât cel format din doua grupe, deoarece reuseste sa surprinda faptul ca eficienta învatarii

8



creste la un nivel mediu de motivare si scade în situatiile extreme. Acest fapt nu ar fi putut

fi surprins daca am fi utilizat doar doua esantioane.

Ca urmare, cu cât numarul de grupe comparative este mai mare, cu atât se

diversifica si gradele unei variabile independente. Astfel, putem observa care este efectul

variabilei independente asupra celei dependente în situatii variate (lipsa ei, prezenta ei

slaba, într-o masura medie sau puternica).

Pentru a creste siguranta relatiei dintre o variabila independenta si una dependenta

se recomanda cresterea numarului de grupe experimentale.

Cel de-al doilea neajuns al testelor t în cazul designului experimental cu mai mult de

doua grupe este de ordin statistic.

Tipul de eroare de ordinul I este determinat de formula:

Unde: α este nivelul de încredere pentru fiecare test t efectuat; c este numarul de teste t ce

trebuie efectuate.

Daca existau doar doua grupe de subiecti se aplica un singur test t între grupul 1 si

grupul 2. Daca exista însa trei grupe de subiecti sunt necesare trei teste t (între grupul 1 si

grupul 2; între 2 si 3; respectiv între 1 si 3). Cu cât avem un numar mai mare de grupe cu

atât numarul testelor t ce trebuie efectuate creste.

Ori, nivelul de încredere maxim pâna la care putem respinge o ipoteza nula este de

0,05 (.05). Conform formulei date mai sus, acest nivel de încredere se calculeaza în functie

de numarul de grupe. Daca în cazul a doua grupe aplicam un singur test t nivelul de

încredere al experimentului este:

9



Însa începând cu situatia în care avem trei grupe trebuie aplicate mai multe teste t

simultane, crescând astfel sansa de a comite o eroare de tip I.

Aceasta valoare ar fi mai mare decât maximul acceptat (0,05), ca urmare nici din

punct de vedere statistic nu este recomandabila utilizarea testului t pentru mai mult de doua

grupe.

Pornind de la aceasta situatie, R.A. Fisher a dezvoltat o tehnica numita analiza

dispersionala sau ANOVA (care în limba engleza provine de la analysis of variance).

Exista mai multe tipuri de ANOVA care vor fi discutate punctual în continuare.

3.2 ANOVA simpla

Se va utiliza aceasta tehnica în situatia în care vom avea o singura variabila

independenta cu mai multe trepte (mai mult de doua trepte si implicit grupe de subiecti) si

o singura variabila dependenta. Tehnica este echivalentul testului t independent.

De fapt, testul t independent este un tip special de ANOVA simpla în care sunt

implicate doar doua grupe. ANOVA simpla permite evaluarea ipotezei nule între mediile a

doua sau mai multe serii de date cu restrictia ca acestea sa fie trepte ale aceleiasi variabile

independente. Exemplul anterior contine o variabila independenta cu trei trepte: motivare

slaba, medie si puternica, respectiv o variabila dependenta, eficienta în învatare. Pot exista

mai multe trepte, cu conditia sa existe o singura variabila independenta, respectiv o singura

variabila dependenta.

ANOVA simpla permite compararea simultana a trei sau mai multe grupe mentinând

nivelul α la valoarea dorita, de maxim 0,05.

Procedeul matematic implicat în ANOVA simpla consta în analiza dispersiei

variabilei dependente. În aceasta analiza dispersia totala are doua componente: dispersia

din interiorul fiecarui grup format si dispersia între mediile grupelor si marea medie (media

10



totala fara a tine cont de grupele formate). De exemplu, subiectul X1 din grupa I abaterea

fata de marea medie M este data de doua componente: abaterea lui X1 fata de media

grupului din care face parte M1 (X1-M1), respectiv abaterea mediei grupului I fata de

marea medie (M1-M). Prima componenta este denumita dispersia intragrup si se datoreaza

fluctuatiilor esantionului ales pentru studiu, cea de a doua se numeste dispersia intergrup si

apare mai ales ca urmare a influentei variabilei independente.

Deci, în ANOVA simpla totalul dispersiei provine din doua surse: intragrupal si

intergrupal. Ambele surse reflecta dispersia datorata selectiei randomizate a esantionului.

În plus, dispersia intergrup reflecta abaterile datorate treptelor diferite ale variabilei

independente. Dispersia datorata esantionarii aleatoare se mai numeste si dispersia erorii,

în timp ce dispersia datorata variabilei independente poarta numele si de dispersie

adevarata.

Pentru a întelege mai bine mecanismul matematic de calculare a lui F (simbolul

rezultatului obtinut prin ANOVA) se va prezenta un exemplu si algoritmul de calcul pentru

ANOVA simpla.

Studiu de caz: Un cercetator doreste sa urmareasca efectul unei terapii asertive

asupra stimei de sine la debilii mintali. Toti subiectii aveau un IQ între 70 si 80 si au fost

împartiti în trei grupe de subiecti.

Din totalul de 15 participanti au fost relizate trei grupe a câte cinci subiecti fiecare.

O prima grupa a urmat o terapie individuala bisaptamanala timp de o luna de zile, cel de-al

doilea grup a urmat o terapie de grup în aceleasi conditii în timp ce al treilea grup, de

control, n-a urmat nici o forma de terapie.

La sfârsitul experimentului subiectii au fost testati în ce priveste nivelul stimei de

sine, care în acest caz constituie variabila dependenta. Rezultatele sunt prezentate în tabelul

de mai jos:

11



Terapie individuala Terapie grup Grup de control X X² X X² X X² 12 144 9 81 6 36 10 100 7 49 7 49 11 121 6 36 2 4 7 49 9 81 3 9 10 100 4 16 2 4 X 50 514 35 263 20 102Media 10 103 7 52,6 4 20,4

Pentru calcularea raportului F din ANOVA simpla, cea mai usoara cale este metoda

denumita ABC.

Astfel trebuie mai întâi calculate A, B si C, unde:

A se obtine prin ridicarea la patrat a rezultatelor fiecarui subiect si apoi sumarea lor

(indiferent de grupa din care face parte).

B se obtine prin suma rezultatelor tuturor subiectilor (indiferent de grupa), ridicarea

sumei la patrat si apoi împartirea la numarul total de subiecti ai experimentului.

C se obtine prin suma rezultatelor subiectilor din grupa 1, ridicarea la patrat a valorii

obtinute urmata apoi de împartirea la totalul de subiecti ai primei grupe.

Procedeul se repeta pentru toate grupele experimentului, în final are loc adunarea

tuturor rezultatelor partiale.

Înainte de a se prezenta un tabel ANOVA trebuie prezentati câtiva termeni noi.

-Suma patratelor (SS) este suma abaterilor standard.

12



-Media patratica (MS) este expresia ANOVA a dispersiei esantionului.

-Media mare este media tuturor rezultatelor fara a tine cont de diferentele dintre grupe.

Se obisnuieste ca orice tabel ANOVA sa fie prezentat în felul urmator:

Dispersia SS df MS FIntergrup C-B k-1 (C-B) / (k-1) MS1/MS2Intragrup A-C N-k (A-C) / (N-k)Totala A-B N-1

X- rezultatul unui subiect;

N- numarul total de subiecti din experiment;

k- numarul de grupe;

SS- suma patratelor;

df- numarul de grade de libertate;

MS- media patratica;

F- raportul ANOVA.

Calculând A, B si C pentru problema de fata obtinem:

A = 514+263+102= 879;

B = (50+35+20)² / 15= 735

C = (50)² / 5 + (35)² / 5 + (20)² / 5 = 825.

Ca urmare tabelul ANOVA pentru problema de fata arata astfel:

Dispersia SS df MS FIntergrup 90 2 45 10,00Intragrup 54 12 4,5Totala 144 14

13



Interesul major în acest tabel îl reprezinta valoarea lui F. Aceasta vine raportata la

tabelul lui F pentru nivelele de semnificatie de .05 sau .01. Tabelul lui F se utilizeaza

diferit de cel al lui t.

Se observa ca raportul F este obtinut prin împartirea Mediei patratice (MS)

intergrup la media patratica (MS) intragrup. Fiecarei medii patratice îi corespunde anumite

grade de libertate. În cazul problemei date, se observa citind din tabelul sumar ANOVA ca

MS intergrup are 2 df (doua grade de libertate), iar MS intragrup are 12 df.

În tabelul lui F se citeste valoarea corespunzatoare gradelor de libertate pentru

intergrup (pe coloana a doua deoarece df=2) si pentru intragrup (df=12, deci linia 12). Se

observa doua valori trecute la intersectia coloanei 2 cu linia 12 (3,88 pentru un p<.05 si

6,93 pentru un p<.01).

Comparând valoarea lui F obtinuta de noi (F=10) cu valorile trecute în tabel în

functie pragul de semnificatie ales pentru a respinge ipoteza nula (3,88 pentru un p<.05 si

6,93 pentru un p<.01) observam ca F obtinut este mai mare decât valoarea lui F tabelar.

Aceasta înseamna ca raportul F obtinut este semnificativ statistic, ipoteza nula este

respinsa, deci exista diferente între mediile celor trei grupe.

Matematic rezultatul obtinut se scrie sub forma:

F (2,12) = 10,00, p<.05 (se citeste "F cu 2 si 12 grade de libertate are valoarea 10 si este

semnificativ la nivelul de .05").

Respingerea ipotezei nule ne arata doar ca cele trei grupe nu sunt egale în ce

priveste media rezultatelor variabilei dependente. Cu toate acestea, nu stim cum difera cele

trei grupe între ele, daca spre exemplu, doar grupa 1 difera de grupele 2 si 3 sau daca toate

difera semnificativ.

14



Pentru a depasi acest impas, prima solutie ar fi realizarea de teste t între grupele 1 si

2, 2 si 3 sau 1 si 3. În aceasta situatie reapare problema enuntata anterior privind . De

aceea sunt necesare alte solutii care poarta numele de comparatii post hoc, efectuate dupa

gasirea unui raport F semnificativ.

De asemenea, pot fi utilizate si comparatii planificate pentru a testa diferentele între

grupele de subiecti, înainte de efectuarea experimentului.

OBSERVATIE: Desi în problema data numarul de subiecti din fiecare grupa a fost

egal, în aplicare testului ANOVA simpla numarul de subiecti din grupe poate sa nu fie egal

cu conditia respectarii unei dispersii omogene în grupe.

Omogenitatea dispersiei – o masura a asocierii

Respingerea ipotezei nule arata ca exista o diferenta semnificativa între medii. În

cazul unor esantioane mari acest rezultat poate fi lipsit de aplicativitate. Situatia poate fi

similara unui coeficient de corelatie r=.15 semnificativ statistic la un esantion mare însa

relatia dintre cele doua variabile (r=.15) arata o slaba asociere.

O masura a marimii asocierii între variabila independenta si cea dependenta în

cazul ANOVA este omogenitatea dispersiei ( ² – omega patrat). Ea indica proportia din

dispersia variabilei dependente care poate fi pusa pe seama variatiei variabilei

independente. Masura este similara coeficientului de determinare (r²) discutat în cadrul

studiului corelational.

Formula lui omega patrat propusa de Hays (1981) este:

Înlocuind în formula datele problemei obtinem:

15



Formulând o concluzie asupra datelor statistice, putem spune ca treptele diferite

ale variabilei independente: terapia asertiva (terapie individuala, de grup, control)

influenteaza semnificativ evolutia stimei de sine. F(2, 12)= 10,00, p<.05 si raspund de o

proportie însemnata din dispersie (ω² = 54,5%).

O alta formula simpla de calcul a lui ω² a fost data de Tolson (1980):

Unde: N este totalul subiectilor din experiment, iar k numarul de grupe formate.

Exista câteva precautii în utilizarea lui ω². Cea mai importanta dintre ele se refera

la utilizarea acestei masuri în conditiile în care variabila independenta a fost atent împartita

în trepte cât mai egale posibil.

Grupele realizate pe baza unor variabile cantitative ar trebui sa pastreze o distanta

egala între ele. Unitatile egale de tip (2 ore, 4 ore, 6 ore) conduc la utilizarea lui ω² fara nici

o problema. În cazul unitatilor inegale de tip (2 ore, 5 ore, 15 ore) nu este indicata

calcularea omogenitatii dispersiei.

Grupele realizate pe baza unei variabile independente nominale (calitative) ar

trebui sa pastreze aceasta conditie dintr-o perspectiva teoretica cât mai mult posibil. În

cazul problemei de fata, cele trei trepte (tratament individual, colectiv si control) nu sunt

egale din perspectiva teoretica (distanta dintre tratamentul individual si cel colectiv fiind

mai mica decât cea dintre nontratament si oricare din grupele experimentale). Drept

consecinta, calcularea lui ω² nu este recomandata.

O alta precautie a utilizarii lui ω² este aceea a modificarii valorii sale în functie de

treptele variabilei independente. În cazul amintit (2 ore, 4 ore, 6 ore) calcularea lui ω² va

conduce la un rezultat diferit daca ar fi fost utilizate (3 ore, 6 ore si 9 ore).

În ciuda acestor neajunsuri, în situatia în care sunt respectate în mare conditiile

amintite, omogenitatea dispersiei ofera informatii importante si merita calculat. Este în

16



mod special util în cazurile în care obtinem un F semnificativ, foarte mare si are rolul de a

tempera concluziile primare. Se poate obtine un ω² modest, chiar în situatiile în care

raportul F ANOVA a iesit foarte mare. În acest caz, omogenitatea dispersiei va arata mai

exact în ce masura variabila independenta este responsabila (influenteaza) dispersia

variabilei dependente.

Marimea efectului

Daca mai sus, referitor la testele t indexul marimii efectului a fost notat cu d, în

cazul ANOVA se noteaza cu f. Formula de calcul a lui f este:

Unde: N este numarul total de subiecti cuprinsi în experiment.

Înlocuind simbolurile cu datele problemei referitoare la efectul terapiei asertive

asupra stimei de sine la deficientii mintali obtinem:

OBSERVATIE: Aceasta formula este valida numai în situatia în care numarul de subiecti

din fiecare grupa este egal.

Pentru situatia ANOVA factorial, MS intergrup devine MS tratament (factor), iar

MS intragrup devine MS eroare (intracelula).

Urmatorul pas, consta în interpretarea valorii gasite, Cohen (1992) propune

urmatoarele valori ale lui f:

Efect slab f =.10

Efect mediu f =.25

Efect mare f =.40

17



Valoarea obtinuta arata un efect foarte puternic, cea ce înseamna o influenta

puternica a variabilei independente asupra celei dependente. Totusi, datele problemei sunt

artificiale si servesc doar ca exemplu de rezolvare pentru ANOVA simpla.

3.3 ANOVA cu masuratori repetate

Daca ANOVA simpla era în analogie cu testul t independent, ANOVA cu

masuratori repetate este în corespondenta cu testul t dependent.

Termenul masuratori repetate implica evaluarea unui individ de doua sau mai multe ori în

ce priveste variabila dependenta.

În aceasta situatie, suma patratelor totala si implicit dispersia totala sunt împartite în trei

componente: dispersia dintre indivizi; dispersia datorata variabilei independente; si

dispersia reziduala.

Se prezinta în continuare tabelul sumar pentru ANOVA cu masuratori repetate necesar în

vederea aflarii lui F.

Sursa dispersiei SS df MS F

Individuala C-B n-1 SS/df

V.independenta D-B k-1 SS/df F

Reziduala (A-B)- [(C-B)+

(D-B)]

(k-1)(n-1) SS/df

Total N-1

Unde: n este numarul de subiecti a unei grupe; N numarul de subiecti din experiment, iar k

este numarul de repetari a testarii. F se obtine facând raportul între MS independent si MS

rezidual.

Mai trebuie facute câteva precizari:

SS individual = C-B;

SS independent (adevarat, tratament) = D-B;

18



SS rezidual = (A-B)-[(C-B)+(D-B)];

SS total = A-B

Trebuie mai întâi calculate A, B si C.


(indiferent de grupa din care face parte.

B se obtine prin sumarea rezultatelor tuturor subiectilor (indiferent de grupa), ridicarea


C se obtine prin sumarea rezultatelor obtinute de primul subiect pe parcursul tuturor

evaluarilor (k). Procedura se repeta si pentru ceilalti subiecti supusi experimentului. Aceste

rezultate partiale se aduna, iar valoarea rezultata se împarte la totalul de evaluari la care

este supus un subiect.

D se obtine prin sumarea rezultatelor subiectilor din grupa 1, ridicarea la patrat a valorii

obtinute. Procedeul se repeta si pentru celelalte grupe, iar rezultatele partiale obtinute se

aduna, suma obtinuta se împarte în final la numarul de subiecti cuprinsi într-o grupa.

Unde: k reprezinta numarul de evaluari, implicit de grupe; N numarul de subiecti dintr-o

grupa.

Pentru a usura întelegerea tehnicii ANOVA unifactoriala cu masuratori repetate se va oferi

spre rezolvare urmatoarea problema.

19



Studiu de caz: Un cercetator este interesat sa observe în ce masura interactiunile sociale

ale populatiei cu persoane apartinând etniei rroma vor reduce atitudinea refractara fata de

acestia si vor elimina prejudecatile.

Drept urmare, sase subiecti sunt pusi sa interactioneze zilnic cu un grup de alti sase

minoritari rroma, în vederea realizarii unui proiect comun timp de doua luni de zile.

Subiectilor li se aplica un chestionar validat de masurare a atitudinii fata de rromi, realizat

în vederea depistarii impresiei populatiei majoritare asupra rromilor, pe o axa acceptare-

respingere. Scorurile mari arata un nivel crescut de acceptare.

Subiectii sunt testati de patru ori: înainte de începerea experimentului; la o luna dupa

declansarea proiectului comun, la finalizarea proiectului (dupa înca o luna); si la o luna

dupa terminarea proiectului. Cum a influentat trecerea unui anumit interval de timp

atitudinea fata de etnia rroma? Ipoteza pe care o lanseaza cercetatorul este: persoanele cu

cât interactioneaza mai frecvent cu cei din etnia rroma, cu atât vor avea o atitudine mai

toleranta fata de acestia. Ipoteza nula a cercetarii este: M1 = M2 = M3 = M4

Rezultatele celor sase subiecti la cele patru testari sunt trecute în tabelul de mai jos:

S Înainte Dupa 1

luna

Dupa 2

luni

Dupa 3

luni

x x

²

x x

²

x x

²

x x

²

1 6 3

6

9 8

1

1

2

1

4

4

1

1

1

2

1

2 8 6

4

1

0

1

0

0

1

4

1

9

6

1

5

2

2

5

3 5 2 6 3 1 1 1 1

20



5 6 0 0

0

1 2

1

4 7 4

9

9 8

1

9 8

1

1

0

1

0

0

5 4 1

6

8 6

4

1

0

1

0

0

9 8

1

6 9 8

1

6 3

6

1

1

1

2

1

1

0

1

0

0

3

9

271 4

8

3

9

8

6

6

7

4

2

6

6

7

4

8

M 6

,

5

8

,

0

1

1,

0

1

1,

0

Se calculeaza mai întai valorile A, B, C si D:

A = 271 + 398 + 742 + 748 = 2159

B = (39 + 48 + 66 + 66)x² / 24 = 1998,375

C = [(6 + 9 + 12 + 11)² + (8 + 10 + 14 + 15)² + (5 + 6 +10 + 11) ² + (7 + 9 + 9 + 10)² + (4 +

8 + 10 + 9)² + (9 + 6 + 11 + 10)²] / 4 = 2039,75

D = (39² + 48² + 66² + 66²) / 6 = 2089,5.

Urmatorul pas este calcularea sumei patratelor:

SS individual = C – B = 2039,75 – 1998,375 = 41,375

21



SS adevarata (experiment) = D–B = 2089,5 – 1998,375 = 91,125

SS reziduala = (A-B)-(C-B)+(D-B)=(2159 – 1998,375) – [(2039,75–1998,375)+(2089,5 –

1998,375)] = 28,125

SS totala = A – B = 2159 – 1998,375 = 160,625.

Sa nu se uite ca:

SS totala = SS individual+SS experiment+SS rezidual

Al treilea pas consta în calcularea gradelor de libertate:

df individual = n – 1 = 6 – 1 = 5.

df experimental = k – 1 = 4 – 1 = 3.

df rezidual = (k – 1)(n – 1) = (6 – 1)(4 – 1) = 15.

df totala = N – 1 = 24 – 1 = 23.

Penultimul pas pentru a constitui tabelul ANOVA necesita calcularea mediei patratice

(MS):

MS individual = SS individual / df individual = 41,375 / 5 = 8,275.

MS experimental = SS experimental / df experimental = 91,125 / 3 = 30,375.

MS rezidual = SS rezidual / df rezidual = 28,125 / 15 = 1,875.

Ultimul pas consta în calcularea raportului lui F în cazul ANOVA cu masuratori repetate:

F = MS experimental / MS rezidual;

F = 30,375 / 1,875 = 16,2.

Iata tabelul sumar ANOVA masuratori repetate în cazul problemei date:

Sursa

dispersie

i

SS d

f

MS F F,p<.

05

22



Individu

ala

41,37

5

5 8,27

5

Experim

ent

91,12

5

3 30,3

75

16

,2

3,29*

Rezidual

a

28,12

5

1

5

1,87

5

Totala 160,6

25

2

3

Dupa calcularea lui F se compara valoarea gasita cu cea prezenta în tabelul lui F. Se

observa ca valoarea obtinuta F = 16,2 este mai mare decât cea prezenta în tabelul lui F la

un prag de .05, pentru 3 si 15 grade de libertate (F = 3,29). Ca urmare ipoteza nula este

respinsa, constatându-se diferente semnificative în ce priveste mediile celor patru serii de

evaluari. Matematic rezultatul obtinut se scrie:

F (3, 15) = 16,2, p<.05.

Orice test parametric necesita îndeplinirea mai multor conditii pentru a putea fi

utilizat. Se prezinta în continuare conditiile necesare pentru a putea aplica ANOVA simpla

si ANOVA cu masuratori repetate.

Asumptii ale tehnicii ANOVA simpla:

Esantionul a fost selectat randomizat din populatie. În cazul în care acest fapt este

greu de realizat se recomanda ca masura compensatorie randomizarea subiectilor în

grupele experimentale.

Variabila dependenta este distribuita normal. Aceasta conditie este greu de

demonstrat în conditiile în care mare parte din cercetarile care utilizeaza ANOVA se

23



realizeaza cu un numar mic de subiecti. Încalcarea acestei conditii are însa efecte reduse

asupra erorii de tip.

Dispersia subiectilor împartiti pe grupe de tratament diferite sa fie egala. Exista

coeficienti special construiti pentru a observa în ce masura este realizata aceasta

omogenitate a dispersiei. Testul ANOVA este o tehnica robusta, rezistenta la violarile

prezentate (în special a primelor doua). Numai în cazuri deosebite în care exista violari

majore a acestor conditii si mai ales a existentei unor dispersii inegale si a unor grupe de

subiecti inegale se recomanda sa se renunte la testul ANOVA în favoarea utilizarii unor

tehnici neparametrice.

Asumptiile testului ANOVA cu masuratori repetate:

Primele trei conditii sunt identice. La acestea se adauga o conditie suplimentara:

Coeficientii de corelatie între diferitele evaluari repetate sa fie aproximativ egali. Daca

omogenitatea dispersiei si egalitatea aproximativa a coeficientilor de corelatie sunt

încalcate, eroarea de tip I poate fi afectata. Totusi, se poate continua aplicarea tehnicii

parametrice daca se procedeaza la aplicarea unei corectii prealabile referitoare la gradele

de libertate. Valoarea lui F obtinuta va fi comparata cu valoarea prezenta în tabelul lui F

pentru (1 si n-1 grade de libertate) si nu pentru k-1 si (n-1)(k-1) grade de libertate ca în

situatia în care aceste conditii erau îndeplinite.

3.4 ANOVA factoriala

S-au urmarit cazurile de ANOVA în care era prezenta o singura variabila

independenta cu mai multe trepte si o singura variabila dependenta, celelate variabile fiind

controlate. Se poate însa manipula mai mult decât o singura variabila independenta.

În acest caz de analiza dispersionala, ANOVA factorial, este vorba de studiul

influentei simultane a doua sau mai multe variabile independente asupra unei variabile

dependente.

24



Exista mai multe avantaje în utilizarea unui design experimental factorial. Un prim

câstig este eficienta studiului, deoarece doua sau mai multe variabile independente sunt

analizate simultan si sunt extrase informatii referitoare atât despre fiecare factor în parte,

cât si despre interactiunea dintre acestia si influenta lor asupra variabilei independente.

Din aceasta perspectiva, ANOVA factorial conduce la calculul a trei teste statistice

F. Doua dintre ele se realizeaza pentru a gasi efectele principale (efectul principal al

variabilei A si efectul principal al variabilei B), iar cel de-al treilea test masoara efectul

interactiunii AB asupra variabilei dependente. Efectele principale sunt analoage dispersiei

intergrup din ANOVA simpla, iar testul interactiunii (simbolizat AB) ne arata daca

rezultatele obtinute la diferite nivele ale variabilei A sunt dependente de nivelul factorului

B si viceversa.

În cele ce urmeaza se va analiza testul ANOVA bifactorial (2 variabile

independente cu mai multe trepte fiecare), fiind însa posibile si experimente care necesita

mai mult de doi factori (variabile independente). Algoritmul de rezolvare a acestor situatii

este asemanator cu ANOVA bifactorial, dar este prea complicat de calculat manual.

Orice ANOVA factorial are specificat designul experimental realizat, sub forma

unor cifre. Un design factorial cu doua variabile, fiecare având câte trei trepte va fi notat,

ANOVA 3x3, un altul în care prima variabila are doua trepte, iar cea de a doua cinci, va fi

simbolizata ANOVA 2x5. Un design factorial (cu trei variabile independente), în care

primele doua variabile au câte 3 trepte, iar cea de-a treia doar doua, va fi notat ANOVA

3x3x2 s.a.

Se prezinta în continuare forma grafica a unui design experimental bifactorial, în care cele

doua variabile independente au câte trei trepte.

B1 B2 B3

A1 A1B1 A1B2 A1B3 Medie A1


25




Medie B1 Medie B2 Medie B3

Dupa cum se observa, din combinarea celor doi factori fiecare cu trei trepte, se obtin

noua situatii experimentale diferite. Acestea poarta numele de celule.

Daca în cazul ANOVA simpla dispersia totala era suma dispersiei intergrup cu

dispersia intragrup, în cazul ANOVA factoriala exista patru surse ale dispersiei totale, si

anume: dispersia intracelula (echivalenta cu dispersia intragrup); dispersia de-a lungul

mediei liniilor; dispersia de-a lungul mediei coloanelor si dispersia datorata interactiunii

dintre cele doua variabile independente, suma ultimeler trei fiind echivalentul dispersiei

intergrup.

Din aceasta cauza sunt testate trei ipoteze nule în cazul ANOVA bifactorial.

Primele doua se refera la efectul variabilelor independente luate separat (media fiecarei

linii este egala, respectiv media fiecarei coloane este egala), iar cea de-a treia se refera la

interactiune.

Pornind de la aceste coordonate se prezinta tabelul sumar pentru ANOVA factorial:

Sursa disp. SS df MS FLin.-factorA C-B l-1 SS/df FCol.-factorB D-B c-1 SS/df FInteractiune (E-B)-(C-B)(D-B) (l-1)(c-1) SS/df FIntracelule (A-E)-(E-B) (N-1)-rest SS/df

Total A-B N-1

Unde: l este numarul de linii (treptele variabilei A); c este numarul de coloane

(treptele variabilei B), iar gradele de libertate (df) pentru intracelule se calculeaza scazând

din df total celelalte grade de libertate (linii, coloane, interactiune).

26



Utilizând aceasta metoda ABC în calcularea celor trei F pentru ANOVA factorial

este necesar mai întâi sa calculam A, B, C, D si E.


(indiferent de celula din care face parte.

B se obtine prin sumarea rezultatelor tuturor subiectilor (indiferent de grupa), ridicarea


C se obtine prin sumarea rezultatelor obtinute de subiectii prezenti pe linia întâi, rezultatul

obtinut fiind ridicat la patrat. Procedura se repeta si pentru celelalte linii. Aceste rezultate

partiale se aduna, valoarea rezultata se împarte la totalul de subiecti ai unei linii, indiferent

de coloane.

D se obtine prin sumarea rezultatelor subiectilor din coloana 1 si apoi ridicarea la patrat a

valorii obtinute. Procedeul se repeta si pentru celelalte coloane, iar rezultatele partiale

obtinute se aduna iar suma se împarte la numarul de subiecti cuprinsi într-o coloana,

indiferent de linie.

E se obtine prin sumarea rezultatelor subiectilor din celula întâi si apoi ridicarea la patrat a

sumei obtinute. Procedeul se repeta pentru toate celulele designului factorial, iar rezultatele

27



partiale obtinute se însumeaza. Rezultatul obtinut se împarte la numarul de subiecti dintr-o

celula.

OBSERVATIE: Formulele date sunt aplicabile si în situatia în care celulele nu au un

numar egal de subiecti, cu conditia sa nu varieze foarte mult sau sa fie proportionali. În

acele situatii calculul lui C, D si E se diferentiaza înlocuind numitorul cu numarul de

subiecti pentru fiecare linie, coloana sau celula în parte. De pilda, E se va calcula astfel:

Pentru a concretiza elementele teoretice prezentate în cadrul ANOVA factoriala, se

ofera drept exemplu model rezolvarea unei probleme care necesita aplicarea ANOVA

factorial.

Studiu de caz: Pornind de la experimentele care au aratat ca memoria are o natura

reconstructiva, un cercetator doreste sa studieze în ce masura relatarile martorilor oculari

sunt influentate de întrebarile adresate si de experienta subiectilor fata de situatia în cauza,

pentru a stabili gradul de încredere în depozitiile martorilor.

În experiment, cercetatorul propune subiectilor sa vizioneze un film despre un

accident de circulatie. Dupa vizionare le cere subiectilor sa estimeze viteza cu care rulau

masinile în momentul accidentului (variabila dependenta). El este interesat de influenta a

doua variabile independente.

O prima variabila este data de manipularea experimentatorului. Astfel, el cere unui

grup sa estimeze viteza cu care s-au "zdrobit" masinile; unui al doilea grup i s-a cerut

acelasi lucru, dar foloseste expresia "s-au lovit", iar în a treia situatie subiectii au fost

întrebati "ce viteza" aveau masinile în momentul accidentului.

Cea de a doua variabila independenta luata în calcul a fost experienta subiectiilor

care a avut doua trepte: soferi si ne-soferi. Avem asadar un model de ANOVA factorial de

tip 3x2 (trei linii si doua coloane).

28



Ipoteza cercetatorului este: relatarile subiectilor sunt influentate atât de expresiile

utilizate (întrebarile anchetatorului) cât si de experienta subiectilor în situatia descrisa, în

sensul ca subiectii soferi pot estima mai bine decât ne-soferii viteza de deplasare a masinii.

A = 41706;

B = 1080² / 30 = 38880;

C = (447² + 321² + 312²) / 10 = 40019,4;

D = (513² + 567²) / 15 = 38977,2;

E = (189² + 258² + 174² + 147² + 150² + 162²) / 5 = 40582,8

Dupa calcularea lui A, B, C, D si E cu ajutorul datelor din tabel, se calculeaza

suma patratelor pentru fiecare situatie.

SS linii (factorul A) = C-B = 40019,4-38880 = 1139,4

SS coloane (factorul B) = D-B = 38977,2-38880 = 97,2

SS linii x coloane (interactiune) = (E-B)-(C-B)-(D-B) = (40582,8-38880)-(40019,4-

38880)-(38977,2-38880) = 466,2

SS intracelula = (A-B)-(E-B) = (41706-38880)-(40582,8-38880) = 1123,2

SS total = A-B = 41706-38880 = 2826

A1

Zdrobit

B1 Soferi B2 Nesoferi

A1(linie)=

189+258= 447

A1²=7623+1364

4= 21267

Media lui

A1 = 44,7

X X² X X²

51 2601 63 3969

45 2025 57 3249

39 1521 51 2601

30 900 48 2304

24 576 39 1521

189 7623 258 13644

Media 37,8 51,6

A2 42 1764 36 1296 A2(linie)=

29



Lovit 174+147= 321

A2² =6192

+4401= 10593

Media lui

A2 = 32,1

39 1521 30 900

33 1089 30 900

33 1089 27 729

27 729 24 576

174 6192 147 4401

Media 34,8 29,4

A3

Accide

nt

33 1089 36 1296 (linie)A3 =

150+162= 312

A3² =

4536+5310

= 9846

Media lui

A3 = 31,2

33 1089 33 1089

30 900 36 1296

27 729 30 900

27 729 27 729

150 4536 162 5310

Media 30 32,4

B1=189+174+150

=513

B1²=7623+

6192+4536 = 18351

Media B1= 34,2

B2=258+147+162

=567

B2²=13644

+4401+5310 = 23355

Media B2= 37,8

Xtot.=1080

Xtotal² = 41706

Media lui X total

= 36

De asemenea putem stabili gradele de libertate:

df linii = numarul de linii(l) – 1 = 3-1 = 2

df coloane = numarul de coloane(c) – 1 = 2-1 =1

df interactiune = (l-1)(c-1) = (3-1)(2-1) = 2

df total = Numarul total de subiecti (N) – 1 = 30-1 = 29

df intracelula = df total – df linii – df coloane – df interactiune = 29-2-1-2 = 24

30



Având calculate atât suma patratelor (SS) cât si gradele de libertate (df) putem

calcula media patratica pentru aceste elemente:

MS linii (A) = SS linii / df linii = 1139,4 / 2 = 569,7

MS coloane (B) = SS coloane / df coloane = 97,2 / 1 = 97,2

MS linii x coloane (interactiune - AB) = SS linii x coloane / df linii x coloane = 466,2 / 2 =

233,1

MS intracelula (eroare) = SS intracelula / df intracelula = 1123,2 / 24 = 46,8.

Ultimul pas ramas de facut este calcularea celor trei F:

FA = MS linii / MS intracelula = 569,7 / 46,8 = 12,17

FB = MS coloane / MS intracelula = 97,2 / 46,8 = 2,07

FC = MS interactiune / MS intracelula = 233,1 / 46,8 = 4,98

Tabelul sumar ANOVA 3x2 al problemei este:

Sursa

dispersiei

SS df MS F Prag

p

Linii (A) 1139,

4

2 569,

7

12,17

(2,24

)

<.01

Coloane

(B)

97,2 1 97,2 2,07

(1,24

)

>.05

Interactiun

e

466,2 2 233,

1

4,98

(2,24

)

<.05

Intracelula 1123,

2

2

4

46,8

Totala 2826 2

31



9

Asadar, se observa ca din cele trei raporturi F, doua sunt semnificative statistic F

linii (determinat de factorul A) si F interactiune (determinat de actiunea comuna a

factorilor A si B).

Se obisnuieste sa se reprezinte grafic influenta factorilor A si B si a interactiunii

lor asupra variabilei dependente. Pe abscisa este trecuta una din variabilele independente

(într-un mod arbitrar), în timp ce pe ordonata sunt trecute valorile variabilei dependente.

Vom prezenta un grafic ilustrativ utilizând datele problemei de fata.

Doua variabile independente care nu interactioneaza au o reprezentare grafica de

tip paralel: Dupa cum se observa în problema de fata, variabilele interactioneaza între ele,

cele doua linii intersectându-se chiar în doua locuri.

Asa cum s-a observat si în cazul precedentelor teste ANOVA se poate calcula ω²

ca masura a asocierii între variabilele independente si cele dependente. Existând trei

raporturi F, se pot calcula trei omogenitati ale dispersiei (pentru dispersia liniilor, data de

influenta factorului A asupra variabilei dependente; pentru dispersia coloanelor, data de

influenta factorului B; si pentru dispersia interactiunii data de actiunea comuna a factorilor

A si B asupra variabilei dependente).

Formulele de calcul a lui ω² sunt:

32



Pentru ω linii (factorul A):

Pentru ω coloane (factorul B):

Pentru ω interactiune (factorii AB):

Trebuie amintit ca aceste tehnici ω sunt utilizate doar în conditiile în care

raporturile F sunt semnificative statistic. Pentru problema de fata, doar F linii (factorul A)

si F interactiune (factorii A si B) au fost semnificativi si au respins ipoteza nula. Ca

urmare, în problema data vor fi calculati doar doi coeficienti ω².

Datele indica ca aproximativ 36,4% din dispersia estimarii vitezei automobilelor

în momentul accidentului se datoreaza manipularii afirmatiilor experimentatorului, iar

12,9% poate fi atribuita interactiunii dintre cele doua variabile (estimarea vitezei depinde

de interactiunea data de exprimarea cercetatorului si experienta subiectilor ca si

conducatori auto).

Raporturile F stabilite în cazul ANOVA simpla, sau ANOVA cu masuratori

repetate, dar si în cazul ANOVA factorial sunt denumite si teste omnibus. De la ele se

porneste apoi spre analize aprofundate de comparare a datelor. Aceste analize pot avea loc

atât înainte de realizarea experimentului (comaparatii a priori) cât si dupa gasirea unui F

semnificativ (comparatii post-hoc). 33



Asumptiile testului ANOVA factorial:

Primele trei asumptii prezentate în cazul celorlalte teste ANOVA ramân valide. La

acestea se adauga altele doua:

4.Celulele trebuie sa fie independente. Aceasta înseamna ca formulele prezentate în

cazul ANOVA factorial sunt valabile în cazul esantioanelor independente si sunt

inadecvate în studiul esantioanelor corelate (dependente).

5.Treptele ambilor factori sunt alese de experimentator (design factorial fix). Daca

treptele sunt alese randomizat din mai multe posibilitati formulele prezentate în acest

capitol nu se aplica.

3.5 Conditiile generale si ipotezele de efectuare a experimentelor

Experimentele sau testarile, sunt actiuni care, pentru a fi eficiente sunt desfasurate in

conformitate cu un plan stabilit dinainte.

Experimentele vizeaza obtinerea unor informatii valide in limitele unor niveluri de

incredere, de preferinta prestabilite care trebuie sa corespunda importantei si folosirii in

continuare a concluziilor desprinse.

Costul experimentelor conduse dupa un plan bine intocmit este intotdeauna mai mic

decat cele efectuate haotic. Se evita pe aceasta cale nu numai reluarea unor incercari,

datorita datelor continand erori, lipsuri sau generand niveluri de incredere prea mici, dar si

reducerea timpului si efortului de cercetare, la care se mai adauga implicatiile folosirii unor

concluzii avand valabilitatea indoielnica.

Pregatirea adecvata a unui experiment constituie premisa principala a reusitei

acestuia din care cauza literatura de specialitate prezinta adesea metode de intocmire a unui

asemena plan.

In aplicarea metodei ANOVA se presupune ca observatiile sunt distribuite normal si

ca variabilitatea rezultatelor este aceeasi pentru fiecare factor de influenta. Verficarea

acestor ipoteze trebuie facuta. Este de luat in considerare faptul ca puterea acestor teste sa 34



nu fie desproportionat de mare cu aceea a celor din metoda ANOVA. Literatura de

specialitate recomanda sa se tina seama de intentia experimentatorului. Nu trebuie uitat ca

analiza datelor culese din controlil statistic al procesului pot furniza datele necesare

verificarii normalitatii.

Capitolul IV: Bibliografie35



Radu Motoiu- Ingineria Calitatii, Editura Chiminform Data S.A., Bucuresti

statisticasociala.tripod.com

36

Analiza Variationala ANOVA

Documents

Transcript of Analiza Variationala ANOVA