Testarea diferenţei dintre mai mult de două medii: … · ANOVA unifactorial ă(One-way ANOVA)...

38
M. Popa Testarea diferenţei dintre mai mult de două medii: Testarea diferenţei dintre mai mult de două medii: Testarea diferenţei dintre mai mult de două medii: Testarea diferenţei dintre mai mult de două medii: Analiza de varianţă unifactorială (ANOVA) Analiza de varianţă unifactorială (ANOVA) Analiza de varianţă unifactorială (ANOVA) Analiza de varianţă unifactorială (ANOVA)

Transcript of Testarea diferenţei dintre mai mult de două medii: … · ANOVA unifactorial ă(One-way ANOVA)...

Page 1: Testarea diferenţei dintre mai mult de două medii: … · ANOVA unifactorial ă(One-way ANOVA) ANOVA multifactorial ă(Two-way ANOVA) ANOVA unifactorial ...

M. Popa

Testarea diferenţei dintre mai mult de două medii:Testarea diferenţei dintre mai mult de două medii:Testarea diferenţei dintre mai mult de două medii:Testarea diferenţei dintre mai mult de două medii:Analiza de varianţă unifactorială (ANOVA)Analiza de varianţă unifactorială (ANOVA)Analiza de varianţă unifactorială (ANOVA)Analiza de varianţă unifactorială (ANOVA)

Page 2: Testarea diferenţei dintre mai mult de două medii: … · ANOVA unifactorial ă(One-way ANOVA) ANOVA multifactorial ă(Two-way ANOVA) ANOVA unifactorial ...

Modelul de cercetare� Testul t pentru eşantioane independente:

� diferenţa dintre mediile a două loturi de de subiecţi diferiţi� în două condiţii diferite (de ex.: practicare-nepracticare TA; masculin-feminin,

etc.)

� Există şi situaţii în care se pune problema semnificaţiei diferenţei dintre mai mult de două medii� diferenţele constatate la un test de cunoştinţe statistice între cele 5 grupe ale unui

an de studiu, diferă semnificativ?

� Variabila dependentă� performanţa la testul de cunoştinţe (scală I-R)

� Variabila independentă� grupele de studiu (scală nominală)

Page 3: Testarea diferenţei dintre mai mult de două medii: … · ANOVA unifactorial ă(One-way ANOVA) ANOVA multifactorial ă(Two-way ANOVA) ANOVA unifactorial ...

De ce nu aplicăm repetat testul t?� volum mare de calcule (pe măsură ce creşte numărul categoriilor) � problema cercetării vizează relaţia dintre variabila dependentă şi

variabila independentă (grupele de studiu) � ar fi bine să putem utiliza un singur test, nu mai multe

� argumentul esenţial:� cumulul de eroare de tip I peste alfa=0.05� Exemplu

� testăm relaţia dintre nivelul performanţei şi trei metode de antrenament� avem trei categorii ale căror medii ar trebui comparate două câte două

� se cumulează o cantitate totală de eroare de tip I de 0.15 adică0.05+0.05+0.05

Page 4: Testarea diferenţei dintre mai mult de două medii: … · ANOVA unifactorial ă(One-way ANOVA) ANOVA multifactorial ă(Two-way ANOVA) ANOVA unifactorial ...

Soluţia: Soluţia: Soluţia: Soluţia: ANALIZA DE VARIANŢĂ (ANOVA)

� ANOVA unifactorială (One-way ANOVA)

� ANOVA multifactorială (Two-way ANOVA)

Page 5: Testarea diferenţei dintre mai mult de două medii: … · ANOVA unifactorial ă(One-way ANOVA) ANOVA multifactorial ă(Two-way ANOVA) ANOVA unifactorial ...

ANOVA unifactorialăANOVA unifactorialăANOVA unifactorialăANOVA unifactorială((((One-way ANOVA))))

� variabilă dependentă� scală de interval/raport

� variabilă independentă� de tip categorial (nominală sau ordinală)� este denumită „factor”� are trei sau mai multe valori (“niveluri”)� exemple

� Nivelul anxietăţii în raport cu trei categorii de fumători („1-10 ţigări zilnic”, „11-20 ţigări” şi „21-30 ţigări”).

� Timpul de răspuns la un strigăt de ajutor, în funcţie de natura vocii persoanelor care solicită ajutorul (copil, femeie, bărbat).

� Scorul la un test de cunoştinţe statistice ale studenţilor de la psihologie, în funcţie de tipul de liceu absolvit (real, umanist, agricol, artistic)

Page 6: Testarea diferenţei dintre mai mult de două medii: … · ANOVA unifactorial ă(One-way ANOVA) ANOVA multifactorial ă(Two-way ANOVA) ANOVA unifactorial ...

ANOVA multifactorialăANOVA multifactorialăANOVA multifactorialăANOVA multifactorială� variabilă dependentă

� măsurată pe scală I/R

� două sau mai multe variabile independente� fiecare cu două sau mai multe valori măsurate pe o scală nominală sau ordinală� exemple

� Nivelul anxietăţii în raport cu intensitatea fumatului („1-10 ţigări zilnic”, „11-20 ţigări” şi „21-30 ţigări”), şi cu genul (masculin, feminin). În acest caz, problema cercetării este dacă intensitatea fumatului şi caracteristica de sex au, împreună, o relaţie cu nivelul anxietăţii.

� Timpul de răspuns la un strigăt de ajutor în funcţie de natura vocii care solicită ajutorul (copil, femeie, bărbat) şi de genul (masculin, feminin) al persoanei care trebuie sărăspundă la solicitarea de ajutor.

� Scorul la un test de cunoştinţe statistice ale studenţilor de la psihologie, în funcţie de tipul de liceu absolvit (real, umanist, agricol, artistic) şi de genul (masculin, feminin) al studenţilor.

Page 7: Testarea diferenţei dintre mai mult de două medii: … · ANOVA unifactorial ă(One-way ANOVA) ANOVA multifactorial ă(Two-way ANOVA) ANOVA unifactorial ...

ANOVA unifactorială- cadrul conceptualcadrul conceptualcadrul conceptualcadrul conceptual -

Page 8: Testarea diferenţei dintre mai mult de două medii: … · ANOVA unifactorial ă(One-way ANOVA) ANOVA multifactorial ă(Two-way ANOVA) ANOVA unifactorial ...

� Temă de cercetare:� relaţia dintre performanţa sportivilor în tragerea la ţintă şi trei metode de

antrenament (metoda 1, metoda 2 şi metoda 3)

� trei grupuri de sportivi antrenaţi prin metode diferite

� mediile performanţei lor la o şedinţă de tragere sunt diferite? (sunt diferenţe de eficienţă între cele trei metode de antrenament?)

� ANOVA este o procedură de comparare a mediilor eşantioanelor

� În locul diferenţei directe dintre medii, se utilizeazădispersia lor

Page 9: Testarea diferenţei dintre mai mult de două medii: … · ANOVA unifactorial ă(One-way ANOVA) ANOVA multifactorial ă(Two-way ANOVA) ANOVA unifactorial ...

� Ipoteza cercetării (H1):� valorile variabilei dependente aferente fiecărui nivel al variabilei

independente, fac parte din populaţii distincte, cărora le corespunde un nivel specific de performanţă (o medie caracteristică, diferită de a celorlalte populaţii)

(m1≠m2 ≠m3 ≠m4)

Page 10: Testarea diferenţei dintre mai mult de două medii: … · ANOVA unifactorial ă(One-way ANOVA) ANOVA multifactorial ă(Two-way ANOVA) ANOVA unifactorial ...

� Ipoteza de nul (H0):� valorile variabilei dependente fac parte dintr-o populaţie unică,

indiferent de categoriile variabilei independente.(m1=m2=m3=m4)

Page 11: Testarea diferenţei dintre mai mult de două medii: … · ANOVA unifactorial ă(One-way ANOVA) ANOVA multifactorial ă(Two-way ANOVA) ANOVA unifactorial ...

Populaţia 1(metoda 1)

Populaţia 2(metoda 2)

Populaţia 3(metoda 3)

eşantion1

(m1, s12)

eşantion2

(m2, s22)

eşantion3

(m2, s32)

populaţia de nul

m1≠m2≠m3

Cât de diferite (împrăştiate) trebuie să fie m1, m2, m3 �

(luate ca distribuţie de sine stătătoare) pentru a accepta că

nu provin din populaţia de nul, ci din trei populaţii diferite

(P1, P2, P3)?

Ipoteza de nul: m1=m2=m3

Ipoteza cercetării:

Page 12: Testarea diferenţei dintre mai mult de două medii: … · ANOVA unifactorial ă(One-way ANOVA) ANOVA multifactorial ă(Two-way ANOVA) ANOVA unifactorial ...

a) dispersia mediilor performanţei grupurilor cercetării (considerate ca eşantioane separate)

� “dispersia intergrup”

b) dispersia valorilor individuale la nivelul populaţiei de nul (indiferent de metoda de antrenament)

� “dispersia intragrup”

c) Facem raportul dintre aceste două valori� un raport ridicat exprimă apartenenţa fiecăreia din cele trei medii la o

populaţie distinctă� un raport scăzut ar sugera provenienţa mediilor dintr-o populaţie unică (de

nul)

d) Decizia statistică cu privire la mărimea raportului (semnificaţia diferenţelor dintre medii), se face prin raportarea valorii raportului la o distribuţie teoreticăadecvată, alta decât distribuţia normală

Page 13: Testarea diferenţei dintre mai mult de două medii: … · ANOVA unifactorial ă(One-way ANOVA) ANOVA multifactorial ă(Two-way ANOVA) ANOVA unifactorial ...

intragrup dispersia

intergrup dispersia=F

Raportul Fisher

Cu cât valoarea raportului este mai mare,

cu atât împrăştierea mediilor eşantioanelor

este mai mare decât împrăştierea valorilor

populaţiei de nul

Page 14: Testarea diferenţei dintre mai mult de două medii: … · ANOVA unifactorial ă(One-way ANOVA) ANOVA multifactorial ă(Two-way ANOVA) ANOVA unifactorial ...
Page 15: Testarea diferenţei dintre mai mult de două medii: … · ANOVA unifactorial ă(One-way ANOVA) ANOVA multifactorial ă(Two-way ANOVA) ANOVA unifactorial ...

Procedura de calculProcedura de calculProcedura de calculProcedura de calcul

Page 16: Testarea diferenţei dintre mai mult de două medii: … · ANOVA unifactorial ă(One-way ANOVA) ANOVA multifactorial ă(Two-way ANOVA) ANOVA unifactorial ...

(a) (a) (a) (a) varianţa intragrupvarianţa intragrupvarianţa intragrupvarianţa intragrup (media dispersiilor)(media dispersiilor)(media dispersiilor)(media dispersiilor)

� grupuri de volume

egale grupuriN

ssss

2

3

2

2

2

1intragrup

2 ++=

• grupuri de volume

inegale3

2

intragrup

32

2

intragrup

21

2

intragrup

1intragrup

2 *** sdf

dfs

df

dfs

df

dfs ++=

unde: df1=N1-1; df2=N2-1; df3=N3-1

dfintragrup=Nsubiecţi-Ngrupuri

Page 17: Testarea diferenţei dintre mai mult de două medii: … · ANOVA unifactorial ă(One-way ANOVA) ANOVA multifactorial ă(Two-way ANOVA) ANOVA unifactorial ...

((((bbbb) varianţa intergrup) varianţa intergrup) varianţa intergrup) varianţa intergrup (dispersia mediilor)(dispersia mediilor)(dispersia mediilor)(dispersia mediilor)

intergrup

2

intergrup2

)(*

df

Mmns

ii∑ −=

intergrup

2

33

2

22

2

11intergrup

2 )(*)(*)(*

df

MmnMmnMmns

−+−+−=

intergrup

2

3

2

2

2

1intergrup

2 )()()(*

df

MmMmMmns

−+−+−=

NM

22 σ

σ = MN 22 *σσ =

pentru grupuri inegale

pentru grupuri egale

Există o relaţie între variaţia mediilor şi variaţia valorilor din grupurile comparate:

Page 18: Testarea diferenţei dintre mai mult de două medii: … · ANOVA unifactorial ă(One-way ANOVA) ANOVA multifactorial ă(Two-way ANOVA) ANOVA unifactorial ...

� varianţa intragrup� Dispersia valorilor individuale

� estimare directă (media dispersiilor)

� varianţa intergrup� Dispersia mediilor grupurilor

� estimare indirectă (dispersia mediilor)

� Raportul s2intergrup/s2

intragrup tinde să devină cu atât mai mare, cu cât dispersia dintre mediile grupurilor este mai mare decât dispersia din interiorul grupurilor

� Dacă H0 este falsă� valorile variabilei independente (factorul) influenţează mediile

variabilei dependente

Page 19: Testarea diferenţei dintre mai mult de două medii: … · ANOVA unifactorial ă(One-way ANOVA) ANOVA multifactorial ă(Two-way ANOVA) ANOVA unifactorial ...

Distribuţia Fisher

1. asimetrie pozitivă;2. poate lua o valori oricât de mari; 3. valoarea minimă este 0, deoarece

decurge din raportul a douădispersii(!)

4. forma distribuţiei variază în funcţie de o pereche de grade de libertate

intragrup2

intergrup2

s

sF =

dfintergrup=nr. grupuri-1

dfintragrup=NT-nr. grupuri

Sir Ronald Aylmer Fisher

1890-1962

Page 20: Testarea diferenţei dintre mai mult de două medii: … · ANOVA unifactorial ă(One-way ANOVA) ANOVA multifactorial ă(Two-way ANOVA) ANOVA unifactorial ...

EXEMPLU DE CALCUL

Page 21: Testarea diferenţei dintre mai mult de două medii: … · ANOVA unifactorial ă(One-way ANOVA) ANOVA multifactorial ă(Two-way ANOVA) ANOVA unifactorial ...

� Problema cercetării:� Avem rezultatele la o şedinţă de tragere la ţintă pentru trei grupuri

de câte 6 sportivi, fiecare grup fiind antrenat cu o altă metodă

� vrem să vedem dacă există o legătură între nivelul performanţei şi metoda de antrenament.

� Ipoteza cercetării: � „Performanţa sportivă este în legătură cu metoda de antrenament

utilizată.

� Ipoteza de nul: � „Nu există o legătură între performanţa sportivă şi metoda de

antrenament.”

Page 22: Testarea diferenţei dintre mai mult de două medii: … · ANOVA unifactorial ă(One-way ANOVA) ANOVA multifactorial ă(Two-way ANOVA) ANOVA unifactorial ...

criteriile deciziei statistice

� Nivelul α=0.05

� dfintergrup=3-1=2

� dfintragrup=18-3=15

� Citim F critic (F(0.05, 2, 15)) din tabelul F pentru α=0.05:

• Fcritic=3.6823

Page 23: Testarea diferenţei dintre mai mult de două medii: … · ANOVA unifactorial ă(One-way ANOVA) ANOVA multifactorial ă(Two-way ANOVA) ANOVA unifactorial ...

df

intragrup

(within)

df intergrup (between)

1 2 3 4

1 161.4476 199.5000 215.7073 224.5832

2 18.5128 19.0000 19.1643 19.2468

3 10.1280 9.5521 9.2766 9.1172

4 7.7086 6.9443 6.5914 6.3882

5 6.6079 5.7861 5.4095 5.1922

6 5.9874 5.1433 4.7571 4.5337

7 5.5914 4.7374 4.3468 4.1203

8 5.3177 4.4590 4.0662 3.8379

9 5.1174 4.2565 3.8625 3.6331

10 4.9646 4.1028 3.7083 3.4780

11 4.8443 3.9823 3.5874 3.3567

12 4.7472 3.8853 3.4903 3.2592

13 4.6672 3.8056 3.4105 3.1791

14 4.6001 3.7389 3.3439 3.1122

15 4.5431 3.6823 3.2874 3.0556

16 4.4940 3.6337 3.2389 3.0069

Page 24: Testarea diferenţei dintre mai mult de două medii: … · ANOVA unifactorial ă(One-way ANOVA) ANOVA multifactorial ă(Two-way ANOVA) ANOVA unifactorial ...

X1

(puncte)

10

9

10

7

8

6

X2

(puncte)

3

6

6

5

8

7

X3

(puncte)

4

5

2

3

2

1

(X1-m1)2

3.13

0.59

3.13

0.59

0.10

5.42

(X2-m2)2

8.00

0.02

0.02

0.68

4.70

1.36

(X3-m3)2

1.36

4.70

0.68

0.02

0.02

3.34

ΣΣΣΣX

N

M

s2

(m-M)

(m-M)2

50

6

m1=8.33

2.67

7.12

12.96 35

6

m2=5.83

0.17

0.02

14.78 17

6

m3=2.83

-2.83

8.00

10.14

M=(m1+m2+m3)/3=5.66

ΣΣΣΣ(m-M)2=15.14

„metoda 2”„metoda 1” „metoda 3”

2.59 2.96 2.83

Page 25: Testarea diferenţei dintre mai mult de două medii: … · ANOVA unifactorial ă(One-way ANOVA) ANOVA multifactorial ă(Two-way ANOVA) ANOVA unifactorial ...
Page 26: Testarea diferenţei dintre mai mult de două medii: … · ANOVA unifactorial ă(One-way ANOVA) ANOVA multifactorial ă(Two-way ANOVA) ANOVA unifactorial ...

F calculat (6) > F critic (3.6823)

Decizia statistică:

Respingem ipoteza de nul şi acceptăm ipoteza cercetării:

„Nivelul performanţei prezintă o variaţie în legătură cu metoda

de antrenament utilizată”

42.4557.7*62

00.802.012.7*6intergrup

2 ==++

=s

57.73

02.296.259.22

3

2

2

2

1intragrup

2 =++

=++

=grupuriN

ssss

657.7

42.45

intragrup2

intergrup2

===s

sF

Page 27: Testarea diferenţei dintre mai mult de două medii: … · ANOVA unifactorial ă(One-way ANOVA) ANOVA multifactorial ă(Two-way ANOVA) ANOVA unifactorial ...
Page 28: Testarea diferenţei dintre mai mult de două medii: … · ANOVA unifactorial ă(One-way ANOVA) ANOVA multifactorial ă(Two-way ANOVA) ANOVA unifactorial ...

Mărimea efectului pentru testul FMărimea efectului pentru testul FMărimea efectului pentru testul FMărimea efectului pentru testul F� Mărimea lui F indică de câte ori este cuprinsă dispersia

intragrup în dispersia intergrup

� Uzual, doi indici de mărime a efectului (ai asocierii):� eta pătrat (η2)� omega pătrat (ω2)

Page 29: Testarea diferenţei dintre mai mult de două medii: … · ANOVA unifactorial ă(One-way ANOVA) ANOVA multifactorial ă(Two-way ANOVA) ANOVA unifactorial ...

Indicele eta pătrat

� descrie procentul din varianţa (împrăştierea) variabilei dependente care este explicat de varianţa variabilei independente

intragrupintergrup

intergrup2

dfF+∗

∗=df

Fdfη

Page 30: Testarea diferenţei dintre mai mult de două medii: … · ANOVA unifactorial ă(One-way ANOVA) ANOVA multifactorial ă(Two-way ANOVA) ANOVA unifactorial ...

Indicele eta pătrat

� Variante de interpretare:

0.9-1 Aproape perfect, descrie relaţia dintre două variabile practic indistincte

0.7-0.9 Foarte mare, foarte ridicat

0.5-0.7 Mare, ridicat, major

0.3-0.5 Moderat, mediu

0.1-0.3 Mic, minor

0.0-0.1 Foarte mic, neglijabil, nesubstanţial

0.70 → asociere foarte puternică

0.50 – 0.69 asociere substanţială

0.30 – 0.49 asociere moderată

0.10 – 0.29 asociere scăzută

0.01 – 0.09 asociere neglijabilă

Hopkins (2000):

Davis (citat de Kotrlik şi Williams, 2003)

Page 31: Testarea diferenţei dintre mai mult de două medii: … · ANOVA unifactorial ă(One-way ANOVA) ANOVA multifactorial ă(Two-way ANOVA) ANOVA unifactorial ...

Pentru exemplul nostru

� Mărime a efectului medie (moderată)

� 44% din variaţia performanţei de instruire este explicată de utilizarea metodelor de antrenament…

� … restul de variabilitate de 54% provine din alte surse

44.01562

62

dfF intragrupintergrup

intergrup2 =+∗

∗=

+∗

∗=df

Fdfη

Page 32: Testarea diferenţei dintre mai mult de două medii: … · ANOVA unifactorial ă(One-way ANOVA) ANOVA multifactorial ă(Two-way ANOVA) ANOVA unifactorial ...

Indicele f (Cohen) pentru mărimea efectului

� efect mic=0.10

� efect mediu=0.25

� efect mare=0.402

2

1 η

η

−=f

Page 33: Testarea diferenţei dintre mai mult de două medii: … · ANOVA unifactorial ă(One-way ANOVA) ANOVA multifactorial ă(Two-way ANOVA) ANOVA unifactorial ...

Analiza „postAnaliza „postAnaliza „postAnaliza „post----hoc”hoc”hoc”hoc”

� Testul F spune ceva despre relaţia globală dintre v.dep. şi categoriile v.indep.

� există teste post-hoc, care testează semnificaţia diferenţei dintre categorii, luate două câte două

� Bonferoni, Scheffe, Tuckey...

Page 34: Testarea diferenţei dintre mai mult de două medii: … · ANOVA unifactorial ă(One-way ANOVA) ANOVA multifactorial ă(Two-way ANOVA) ANOVA unifactorial ...

Publicarea rezultatului testului (ANOVA)Publicarea rezultatului testului (ANOVA)Publicarea rezultatului testului (ANOVA)Publicarea rezultatului testului (ANOVA)

� Grupurile (categoriile) comparate, mediile lor, valoarea testului F, cu numărul gradelor de libertate şi pragul de semnificaţie al testului, mărimea efectului

� Într-o manieră narativă, rezultatul obişnuit pe exemplul de mai sus, poate fi prezentat astfel:� „A fost analizată performanţa în tragerea la ţintă a trei grupuri de sportivi, antrenaţi cu

metode diferite. Mediile performanţei pentru cele trei grupuri au fost 8.33, 5.83, respectiv 2.83. Analiza de varianţă unifactorială a relevat o diferenţă semnificativă între aceste medii, F (2, 15)=6; p≤0.05. Mărimea efectului apreciată cu indicele eta pătrat indică un efect moderat (η2=0.44), în timp ce indicele f al lui Cohen indică un efect mare (f=0.88)”.

Page 35: Testarea diferenţei dintre mai mult de două medii: … · ANOVA unifactorial ă(One-way ANOVA) ANOVA multifactorial ă(Two-way ANOVA) ANOVA unifactorial ...

Avantajele ANOVAAvantajele ANOVAAvantajele ANOVAAvantajele ANOVA� elimină riscul cumulării unei cantităţi prea mari de eroare de

tip I � pune în evidenţă diferenţe semnificative între mediile mai

multor grupuri, chiar şi atunci când nici una dintre ele nu diferă semnificativ una de cealaltă (testul t)

� poate fi utilizată şi în cazurile în care există numai douăgrupuri (deşi nu este uzual)

Page 36: Testarea diferenţei dintre mai mult de două medii: … · ANOVA unifactorial ă(One-way ANOVA) ANOVA multifactorial ă(Two-way ANOVA) ANOVA unifactorial ...

v. indep. v. dep.

1 9

1 5

1 7

2 14

2 15

2 10

t=3.13, p=0.035

F=9.82 (t2), p=0.035

Echivalenţa testelor t şi F

pentru compararea a două medii independente

Page 37: Testarea diferenţei dintre mai mult de două medii: … · ANOVA unifactorial ă(One-way ANOVA) ANOVA multifactorial ă(Two-way ANOVA) ANOVA unifactorial ...

Condiţii de utilizare a testului ANOVACondiţii de utilizare a testului ANOVACondiţii de utilizare a testului ANOVACondiţii de utilizare a testului ANOVA

� independenţa eşantioanelor (grupurilor supuse comparaţiei)� normalitatea distribuţiei de eşantionare, în conformitate cu

teorema limitei centrale� absenţa valorilor extreme (outliers)� egalitatea varianţei grupurilor comparate (denumită

„homoscedasticitate”)� în caz de nerespectare:

� renunţarea la ANOVA în favoarea unei prezentări descriptive � transformarea variabilei dependente astfel încât să dobândească proprietăţile

necesare � transformarea variabilei pe o altă scală de măsurare şi aplicarea altui test

statistic (neparametric)

Page 38: Testarea diferenţei dintre mai mult de două medii: … · ANOVA unifactorial ă(One-way ANOVA) ANOVA multifactorial ă(Two-way ANOVA) ANOVA unifactorial ...