TESTE STATISTICE PENTRU DATE ORDINALE - Psygnificant · Testul Mann-Whitney (U) pentru două...

44
TESTE STATISTICE PENTRU DATE ORDINALE M. Popa

Transcript of TESTE STATISTICE PENTRU DATE ORDINALE - Psygnificant · Testul Mann-Whitney (U) pentru două...

TESTE STATISTICE

PENTRU DATE ORDINALE

M. Popa

Situaţii în care se utilizează teste

pentru date ordinale: a) Variabila dependentă este exprimată pe scală

de tip ordinal. • valorile nu au proprietăţi de interval, dar exprimă poziţia

fiecăreia în raport cu cealaltă.

b) Variabila dependentă este măsurată pe scală de interval/raport, dar distribuţia ei nu respectă condiţiile impuse de testele parametrice.

• se efectuează transformare de rang

• noua distribuţie rezultată poate fi supusă analizei statistice cu teste neparametrice ordinale.

Teste ordinale

1) Testul Mann-Whitney (U) pentru diferenţa rangurilor a două eşantioane independente

2) Testul Kruskal-Wallis pentru diferenţa rangurilor a mai mult de două eşantioane independente

3) Testul Wilcoxon pentru diferenţa rangurilor a două eşantioane perechi

4) Testul Friedman pentru diferenţa rangurilor în cazul mai mult de 2 măsurări (repeated measures)

5) Coeficientul de corelaţie pentru date ordinale (Spearman, Kendall)

Testul Mann-Whitney (U) pentru

două eşantioane independente

• Exemplu: Un psiholog care lucrează într-o mare bancă doreşte să vadă dacă există o diferenţă între premiile băneşti anuale primite de femeile şi bărbaţii angajaţi ai băncii.

2 3

1 9

2 17

2 26

2 32

1 34

1 35

2 36

1 43

2 43

2 44

2 47

2 51

1 56

2 59

1 61

1 62

1 64

1 67

1 67

1 70

1 75

1 80

1 87

1 88

1 110

1 200

Masculin„Premiu”(mil. lei)

Feminin„Premiu”(mil. lei)

1 9 2 3

1 34 2 17

1 35 2 26

1 43 2 32

1 56 2 36

1 61 2 43

1 62 2 44

1 64 2 47

1 67 2 51

1 67 2 59

1 70 nB=10

1 75

1 80

1 87

1 88

1 110

1 200

nA=17

• Variabilă independentă ?• Variabilă dependentă ?• Problema este una tipică pentru a fi

rezolvată cu... ?• Dar...

Descriptives

58,0000 7,25659

43,0839

72,9161

54,3765

56,0000

1421,769

37,70636

3,00

200,00

197,00

35,00

2,033 ,448

7,073 ,872

Mean

Lower Bound

Upper Bound

95% ConfidenceInterval for Mean

5% Trimmed Mean

Median

Variance

Std. Deviation

Minimum

Maximum

Range

Interquartile Range

Skewness

Kurtosis

premiuStatistic Std. Error

Masculin„Premiu”(mil. lei)

Rang„Primă”

Feminin„Premiu

”(mil. lei)

Rang„primă”

1 9 26 2 3 27

1 34 22 2 17 25

1 35 21 2 26 24

1 43 18,5 2 32 23

1 56 14 2 36 20

1 61 12 2 43 18,5

1 62 11 2 44 17

1 64 10 2 47 16

1 67 8,5 2 51 15

1 67 8,5 2 59 13

1 70 7 nB=10 ΣRB=198,5

1 75 6

1 80 5

1 87 4

1 88 3

1 110 2

1 200 1

nA=17 ΣRA=179,5

Valori (a)Medie

(b)Rang mic

(b)Rang mare

(c)Secvenţial

10 1 1 1 1

15 3 2 4 215 3 2 4 215 3 2 4 216 5 5 5 320 6 6 6 4

modul de obţinere a rangurilor ex-aequo

Masculin„Premiu”(mil. lei)

Rang„Primă”

Feminin„Premiu

”(mil. lei)

Rang„primă”

1 9 26 2 3 27

1 34 22 2 17 25

1 35 21 2 26 24

1 43 18,5 2 32 23

1 56 14 2 36 20

1 61 12 2 43 18,5

1 62 11 2 44 17

1 64 10 2 47 16

1 67 8,5 2 51 15

1 67 8,5 2 59 13

1 70 7 nB=10 ΣRB=198,5

1 75 6

1 80 5

1 87 4

1 88 3

1 110 2

1 200 1

nA=17 ΣRA=179,5

( )A

AA

BAAR

nnnnU Σ−

++=

2

1**

( )B

BB

BABR

nnnnU Σ−

++=

2

1**

( )A

AA

BAAR

nnnnU Σ−

++=

2

1**

( )B

BB

BABR

nnnnU Σ−

++=

2

1**

Decizia statistică:

� Se citeşte valoarea critică pentru U0.05;17:10

� Se acceptă H0 dacă valoarea U calculată este mai mare

decât valoarea critică tabelară.

� Se respinge H0 dacă valoarea U calculată este mai mică

sau egală cu valoarea critică tabelară.

Valoarea testului

5,1435,1791531705,1792

18171017 =−+=−

∗+∗=

AU

5,265,198551705,1982

11101017 =−+=−

∗+∗=

BU

nA/nB α 5 6 8 10 12 14 16 18 20

30.05 0 1 2 3 4 5 6 7 8

0.01 - - - 0 1 1 2 2 3

40.05 1 2 4 5 7 9 11 12 14

0.01 - 0 1 2 3 4 5 6 8

50.05 2 3 6 8 11 13 15 18 20

0.01 0 1 2 4 6 7 9 11 13

60.05 3 5 8 11 14 17 21 24 27

0.01 1 2 4 6 9 11 13 16 18

80.05 6 8 13 17 22 26 31 36 41

0.01 2 4 7 11 15 18 22 26 30

100.05 8 11 17 23 29 36 42 48 55

0.01 4 6 11 16 21 26 31 37 42

120.05 11 14 22 29 37 45 53 61 69

0.01 6 9 15 21 27 34 41 47 54

140.05 13 17 26 36 45 55 64 74 83

0.01 7 11 18 26 34 42 50 58 67

160.05 15 21 31 42 53 64 75 86 98

0.01 9 13 22 31 41 50 60 70 79

180.05 18 24 36 48 61 74 86 99 112

0.01 11 16 26 37 47 58 70 81 92

200.05 20 27 41 55 69 83 98 112 127

0.01 13 18 30 42 54 67 79 92 105

Decizia statistică:

• UB (26.5) mai mic decât U0.05;17:10=48

• Se respinge ipoteza de nul

• Concluzia cercetării:– Premiile acordate bărbaţilor sunt semnificativ

mai mari decât cele acordate femeilor (în respectiva instituţie)

– Este o dovadă de discriminare?

Pentru grupuri mai mari de 20

• Se calculează o valoare z, cu formula...

( )( ) 12/1**

1**5.0

+

+−Σ=

Nnn

NnRz

BA

AA

• Semnificaţia se citeşte în tabelul curbei normale, pentru:– un prag alfa ales

– unilateral sau bilateral

Publicarea rezultatului

• La publicarea rezultatului pentru testul Mann-Whitney U se vor indica:– volumul grupurilor comparate (nA şi nB)

– valoarea testului (U)

– pragul de semnificaţie (p).

Testul Kruskal-Wallis

pentru mai mult de două eşantioane

independente

• poate fi asimilat unei analize de varianţă pentru date ordinale

• Să presupunem că avem trei categorii de subiecţi (piloţi, controlori de trafic şi navigatori de bord) cărora le-a fost aplicat un test de reprezentare spaţială– Variabila independentă?– Variabila dependentă?

Grupprof.

Reprez. spaţială

rang

1 23 2

1 16 6

1 15 7

1 10 11

1 9 12

1 21 3

2 18 5

2 14 8

2 11 10

3 25 1

3 19 4

3 13 9

3 7 13

( )( )1*3*

1*

12

1

2

+−

+= ∑

=

Nn

T

NNH

k

i i

i

unde:� H este valoarea testului K-W� N este volumul total al eşantionului� n este volumul grupurilor (N=n1+n2+n3+...+nk)� K este numărul grupurilor independente� T este suma rangurilor care va fi calculată pentru fiecare grup

0,112142638,74*06593.014*34

27

3

23

6

41*

14*13

12 222

=−=−

++=H

Decizia statistică:

• Valorile H se distribuie pe curba chi-pătrat

cu k-1 grade de libertate

• H critic pentru alfa=0.05 şi 2 grade de libertate este 5.99

• H calculat=0.11 – Decizia statistică?

– Decizia cercetării?

– Concluzia cercetării?

Testul Wilcoxon

pentru două eşantioane perechi

• Condiţii:– Aceiaşi subiecţi evaluaţi de două ori, pe o scală

ordinală

– Aceiaşi subiecţi evaluaţi de două ori, pe o scală de interval

• variabilele nu întrunesc condiţiile pentru utilizarea testului t al diferenţelor pentru eşantioane dependente.

• deşi se aplică pe scale de interval/raport, utilizează proceduri de tip neparametric, apelând la diferenţele dintre valorile perechi şi la ordonarea lor. Este, din acest punct de vedere, un test de date ordinale.

exemplu

• Un psiholog doreşte să evalueze efectul stimulilor subliminali asupra conduitelor agresive

• Frecvenţa conduitelor agresive este măsurată înainte şi după vizionarea unui film în care au fost plasaţi stimuli subliminali agresivi

• Rezultatele sunt sintetizate în tabelul următor...

CodSubiect

„Înainte” „După” „după”-„înainte”Modululdiferenţei

Ranguldiferenţei

SemnulDiferenţei

1 9 8 -1 1 7.5 -

2 14 17 3 3 5.5 +

3 10 17 7 7 2.0 +

4 11 12 1 1 7.5 +

5 12 15 3 3 5.5 +

6 9 13 4 4 3.5 +

7 10 14 4 4 3.5 +

8 14 2 -12 12 1.0 -

Se calculează:

� T(-) suma rangurilor diferenţelor negative: T(-)=8.5� T(+) suma rangurilor diferenţelor pozitive: T(+)=28.5� Valoarea cea mai mică dintre ele este rezultatul testului Wilcoxon� Nivelul de semnificaţie se află prin compararea cu valorile critice dintr-o tabelă specială

� Dacă T calculat este mai mare decât T critic, se admite H0

� Dacă T calculat este mai mic decât T critic, se respinge H0

N

Nivel de semnificaţie pentru test unilateral

0.025 0.01 0.005

Nivel de semnificaţie pentru test bilateral

0.05 0.02 0.01

6 0 - -

7 2 0 -

8 4 2 0

9 6 3 2

10 8 5 3

... ... ... ...

Decizia statistică:

• Valoarea calculată (8.5) este mai mare decât valoarea critică (4) pentru N=8 şi alfa=0.5 bilateral. – Decizia statistică?

– Decizia cercetării?

– Concluzia cercetării?

Probleme...

• Enunţarea concluziei şi interpretarea rezultatului vor ţine cont de modul de atribuire a rangurilor

• Diferenţe egale cu zero între rangurile perechi (valori de rang egal). – Soluţii

a) se elimină cazurile care dau diferenţe egale cu zero şi, implicit, reducerea volumului eşantionului cu aceste cazuri, sau...

b) atribuirea arbitrară a semnului + la jumătate dintre ele şi semnul – la cealaltă jumătate.

c) dacă există un număr impar de diferenţe egale cu zero se va elimina una dintre ele (reducând N cu 1), după care se aplică regula b

Pentru eşantioane mai mari de 20

• distribuţia de nul a testului Wilcoxon poate fi aproximată prin distribuţia normală

• formula de calcul în acest caz este următoarea:

( )[ ]( ) ( ) 24/12*1*

4/1*

++

+−=

nnn

nnTZ

Testul Friedman

pentru măsurări repetate

(mai mult de două eşantioane perechi)

• Exemplu: un psiholog doreşte să studieze relaţia dintre stilurile de conducere (laissez-faire, democratic şi autoritar) asupra nivelului de satisfacţie profesională – Variabila independentă?

– Variabila dependentă?

Democratic Laissez-faire Autocratic

1 1 2 3

2 2 1 3

3 1 2 3

4 1 2 3

5 1 2 3

6 2 1 3

N=6 T1=8 T2=10 T3=18

( )( )∑

=

+−+

=c

i

ircNT

ccNF

1

2 1**3*1**

12

unde:c - numărul măsurărilor repetateN - volumul seturilor de evaluări

perechiTi - suma rangurilor

corespunzătoare fiecărui moment de măsurare

( ) 3.972-488*0,16664*6*318108*4*3*6

12 222 ==−++=rF

� Distribuţia de nul a testului Friedman urmează forma distribuţiei chi-pătrat pentru df=c-1.� Valoarea critică tabelară (chi-pătrat) pentru df=3-1=2, este 5.99� Fr calculat > Fr critic

� Decizia statistică?� Decizia cercetării?� Concluzia cercetării?

• Testul Friedman poate fi aplicat şi în cazul a doar două măsurări, situaţie în care devine similar testului semnului.

• La fel ca şi celelalte teste pentru date ordinale, el este afectat de existenţa rangurilor atribuite ex-aequo, pentru valori identice. – În astfel de cazuri este recomandabilă

aplicarea unei corecţii în formula de calcul (aplicată de programele automate de calcul)

Coeficientul de corelaţie pentru

date ordinale (Spearman) - rS

• Testele Wilcoxon şi Friedman sunt utilizate pentru a pune în evidenţă diferenţele dintre două sau mai multe eşantioane perechi.

• Atunci când avem două variabile ordinale şi suntem interesaţi în evaluarea gradului de asociere între ele, se utilizează un test de corelaţie a rangurilor (Spearman).

• Modalitatea de calcul a coeficientului de corelaţie Spearman se bazează pe poziţia relativă a unei valori faţă de celelalte.

• rS variază între -1/+1 şi se interpretează în acelaşi mod ca şi r (Pearson)

exemplu

• Într-un studiu cu privire la ameliorarea sistemului de evaluare a personalului, doi instructori urmează un program special de armonizare a evaluării.

• La sfârşitul programului ei sunt puşi să ierarhizeze personalul unui compartiment de muncă (N=10) din punctul de vedere al performanţei profesionale

• Ipoteza cercetării: (pentru test bilateral) Evaluările celor doi instructori vor fi concordante.

• Ipoteza de nul: Între evaluările celor doi instructori nu există nici o legătură

Criterii de decizie

• alfa=0.05

• bilateral

• rS critic se citeşte într-un tabel special pentru coeficientul Spearman (fără grade de libertate)

N

test unilateral

alfa=0.05 alfa=0.025 alfa=0.01 Alfa=0.005

test bilateral

alfa=0.10 alfa=0.05 alfa=0.02 alfa=0.01

5 0,900 - - -

6 0,829 0,886 0,943 -

7 0,714 0,786 0,893 -

8 0,643 0,738 0,833 0,881

9 0,600 0,683 0,783 0,833

10 0,564 0,648 0,745 0,794

11 0,523 0,623 0,736 0,818

12 0,497 0,591 0,703 0,780

13 0,475 0,566 0,673 0,745

... ... ... ... ...

AngajaţiRANG

Instructor IRANG

Instructor IIDiferenţa (D)

(R1-R2)D2

A 3 2 1 1

B 1 3 -2 4

C 7 5 2 4

D 6 4 2 4

E 10 10 0 0

F 5 8 -3 9

G 9 7 2 4

H 8 9 -1 1

I 4 6 -2 4

J 2 1 1 1

ΣD2=32

)1(*

*61

2

2

−−= ∑

NN

DrS

81.019.01990

1921

)1100(*10

32*61 =−=−=

−−=

Sr

� rS calculat (0.81) > rS critic (0.684)� Decizia statistică ?� Decizia cercetării?� Concluzia cercetării ?

rS= 0 Cele două variabile nu variază concomitent, deloc

0 > rS > 1Cele două variabile tind să crească sau să scadă concomitent,într-o anumită măsură

rS = 1.0 Corelaţie pozitivă perfectă

-1 > rS > 0În timp ce o variabilă tinde să crească, cealaltă tinde sădescrească

rS = -1.0 Corelaţie negativă perfectă

Interpretare...

Calcularea coeficientului de determinare (rS2) nu este recomandabilă,

deşi există autori care o acceptă.

Când se utilizează coeficientul

de corelaţie Spearman:

• ambele variabile sunt de tip ordinal • una dintre variabile este de tip ordinal şi cealaltă

este de tip interval/raport. – variabila interval/raport se transformă mai întâi în

valori de ordine de rang

• ambele variabile sunt de tip interval/raport dar una sau ambele, prezintă valori extreme. – prin transformarea în ordine de rang a celor două

distribuţii, valorile extreme sunt anihilate, ele urmând să participe la corelaţie prin simpla poziţie în distribuţie şi nu prin nivelul lor absolut.

Kendall tau

• Un test alternativ pentru asocierea variabilelor ordinale

• La fel ca şi rS, Kendal tau ia valori între -1 şi +1 şi se interpretează similar

• Statisticienii se află în dispută cu privire la cei doi coeficienţi

• Programele statistice le calculează pe amândouă

• Foarte rar se întâmplă să conducă la decizii diferite unul de altul...

Sinteza testelor neparametrice ordinale

2 eşantioaneindependente

3+ eşantioaneindependente

Mann-Whitney U

Kruskall-Wallis

2 eşantioanedependente

Corelaţia rangurilorSpearman (Kendall)

2 eşantioanedependente

Wilcoxon

3+ eşantioanedependente

Friedman

Diferenţa

Asocierea

tindependent

ANOVA

tdependent

ANOVAmăsurări repetate

rPearson

Echivalent parametric