a6

21
Statistică şi aplicaţii în ştiinţele sociale 93 Capitolul 9 TESTAREA IPOTEZELOR STATISTICE acă în capitolul anterior au fost expuse principalele aspecte ale teoriei selecţiei, în acest capitol vom trata modalitatea de aplicare a teoriei în testarea ipotezelor statistice. Este foarte important felul în care se formulează o problemă de testare a ipotezelor. Prezentăm în continuare un exemplu. În ţara noastră, învăţământul la distanţă a devenit învăţământ de masă. Studiind situaţiile rezultatelor la examenul de licenţă ne-am putea întreba dacă ar trebui ceva schimbat în politica acestui tip de învăţământ. În măsura în care rezultatele obţinute la examenul de licenţă de către studenţii de la ID nu diferă semnificativ de cele obţinute de studenţii care urmează cursurile în mod regulat, acest fapt ar putea fi de natură să acrediteze ideea că exigenţele la cele două tipuri de învăţământ nu diferă şi prin urmare ne putem aştepta la aceeaşi reuşită a absolvenţilor celor două forme de învăţământ pe piaţa muncii. Dacă da, atunci raţionamentul imediat ne-ar putea duce la concluzia că scopul învăţământului la distanţă nu este unul de a oferi şanse egale în reuşita pe piaţa muncii, urmărindu-se cu totul alte finalităţi. Să presupunem că media naţională de absolvire la examenul de licenţă este de 7,5. Emitem ipoteza că şi media absolvenţilor învăţământului la distanţă (ID) este de 7,5. Pot rezulta două situaţii posibile: acceptarea ipotezei lansate sau respingerea ei. 9.1 Ipotezele statistice Ipoteza nulă – notată cu H 0 susţine că toate măsurătorile pe care dorim să le comparăm sunt egale, iar eventualele diferenţe se datorează exclusiv întâmplării. Este ipoteza care se testează statistic. În funcţie de rezultatul testării se ia decizia de acceptare sau respingere a ei. Pentru exemplul de mai sus, ipoteza nulă se scrie: H 0 : μ = 7,5. Ipoteza alternativă – notată cu H 1 . În situaţia în care ipoteza este acceptată, decizia susţine faptul că variaţia fenomenului studiat nu se datorează doar întâmplării, ci şi unor factori manipulaţi. Cu alte cuvinte, diferenţele D

description

ase

Transcript of a6

Page 1: a6

Statistică şi aplicaţii în ştiinţele sociale

93

Capitolul 9

TESTAREA IPOTEZELOR STATISTICE

acă în capitolul anterior au fost expuse principalele aspecte ale teoriei selecţiei, în acest capitol vom trata modalitatea de aplicare a teoriei în testarea ipotezelor statistice. Este foarte important felul

în care se formulează o problemă de testare a ipotezelor. Prezentăm în continuare un exemplu.

În ţara noastră, învăţământul la distanţă a devenit învăţământ de masă. Studiind situaţiile rezultatelor la examenul de licenţă ne-am putea întreba dacă ar trebui ceva schimbat în politica acestui tip de învăţământ. În măsura în care rezultatele obţinute la examenul de licenţă de către studenţii de la ID nu diferă semnificativ de cele obţinute de studenţii care urmează cursurile în mod regulat, acest fapt ar putea fi de natură să acrediteze ideea că exigenţele la cele două tipuri de învăţământ nu diferă şi prin urmare ne putem aştepta la aceeaşi reuşită a absolvenţilor celor două forme de învăţământ pe piaţa muncii. Dacă da, atunci raţionamentul imediat ne-ar putea duce la concluzia că scopul învăţământului la distanţă nu este unul de a oferi şanse egale în reuşita pe piaţa muncii, urmărindu-se cu totul alte finalităţi.

Să presupunem că media naţională de absolvire la examenul de licenţă este de 7,5. Emitem ipoteza că şi media absolvenţilor învăţământului la distanţă (ID) este de 7,5. Pot rezulta două situaţii posibile: acceptarea ipotezei lansate sau respingerea ei.

9.1 Ipotezele statistice

Ipoteza nulă – notată cu H0 susţine că toate măsurătorile pe care dorim să le comparăm sunt egale, iar eventualele diferenţe se datorează exclusiv întâmplării. Este ipoteza care se testează statistic. În funcţie de rezultatul testării se ia decizia de acceptare sau respingere a ei. Pentru exemplul de mai sus, ipoteza nulă se scrie: H0: μ = 7,5.

Ipoteza alternativă – notată cu H1. În situaţia în care ipoteza este acceptată, decizia susţine faptul că variaţia fenomenului studiat nu se datorează doar întâmplării, ci şi unor factori manipulaţi. Cu alte cuvinte, diferenţele

D

Page 2: a6

Statistică şi aplicaţii în ştiinţele sociale

94

constatate sunt atât de mari încât nu pot fi explicate integral doar prin efectul întâmplării. Pentru exemplul dat, ipoteza alternativă se scrie: H1: μ ≠ 7,5.

Există o anumită legătură între acceptarea sau respingerea ipotezei nule şi riscul de eroare (pragul de semnificaţie) asumat de cercetător în luarea deciziei. În statistică riscul de eroare se fixează de obicei la 5 %.

Aşa cum se poate constata, ambele ipoteze se referă la populaţie şi parametru, şi nu la eşantioane şi statistică.

Să presupunem că am selectat aleator un eşantion de 100 studenţi care urmează cursurile ID. Parametrii rezultatelor naţionale la examenul de licenţă sunt: μ = 7,5 şi σ = 1,7. Media rezultatelor pentru cei 100 studenţi investigaţi este de 6,3. Cât de probabilă este media acestui eşantion dacă în realitate media populaţiei este de 7,5? Altfel spus, dacă eşantioane repetate de 100 studenţi sunt selectate aleator din „populaţia naţională” în care media absolvirii este de 7,5, ne întrebăm care sunt proporţiile mediilor care se abat de la media naţională?

Pentru a răspunde la această întrebare avem nevoie să determinăm poziţia relativă a mediei eşantionului între toate mediile eşantioanelor posibile dacă ipoteza H0 este adevărată. Cum σ = 1,7, putem determina uşor eroarea standard a mediei

x . Pentru distribuţia de selecţie se găseşte:

17,010

7,1

100

7,1

nx

În continuare, convertim media eşantionului de 6,3 în scor z.

059,717,0

2,1

17,0

5,73,60

x

xz

Numărătorul fracţiei ne arată că media eşantionului de 6,3 se situează la 1,2 puncte sub media aşteptată a tuturor mediilor eşantioanelor posibile, iar aceste 1,2 puncte sunt echivalente cu –7,059 erori standard. Având determinată cota z, putem localiza poziţia mediei eşantionului în distribuţia de selecţie şi mai mult, putem evalua probabilitatea asociată valorii z calculate.

Cunoscând probabilitatea asociată mediei de 6,3, se pune întrebarea dacă aceasta are vreun efect în ceea ce priveşte ipoteza H0. O medie de eşantion care se abate la fel de mult ca media eşantionului de 6,3 este extrem de puţin probabilă. Într-adevăr, având un număr infinit de mare de eşantioane obţinute din populaţia pentru care media naţională este de 7,5, un procent extrem de mic din mediile eşantioanelor se vor abate mai mult sau la fel de mult ca media de 6,3. Poate fi aceasta o sugestie că H0 este falsă? Pentru a da un răspuns la

Page 3: a6

Statistică şi aplicaţii în ştiinţele sociale

95

această întrebare avem nevoie, în sensul celor enunţate mai sus, de o cotă de risc cu care vom lua decizia. În esenţă, cota α arată cât de rare trebuie să fie rezultatele eşantioanelor pentru a susţine respingerea ipotezei nule. Să presupunem că se alege o cotă de risc de 5 %.

Fig. nr. 9.1 Regiunile de respingere pentru testul bilateral la valoarea critică α = 0,05

Media eşantionului de 6,3 se plasează în afara regiunii de acceptare

(7,5 ± 0,17 · 1,96). Decizia statistică se formulează în termenii respingerii ipotezei nule. Concluzia este că rezultatele obţinute de absolvenţii formei de învăţământ ID diferă semnificativ de media naţională, concluzie susţinută la o cotă de risc de 5 %.

9.2 Nivelul de semnificaţie şi eroarea deciziei

Decizia de acceptare sau respingere a ipotezei nule depinde de „criteriul de raritate a apariţiei” şi de faptul că nivelurile de semnificaţie de 0,05 şi 0,01 sunt valori comune în această privinţă. Într-un anumit sens aceste valori sunt arbitrare. Nivelul de semnificaţie α este de fapt riscul cercetătorului de a-şi asuma luarea unei decizii în privinţa ipotezei nule. În figura de mai jos se prezintă comportarea unui test bilateral în condiţiile unei cote de risc de 5 %. Dacă H0 este adevărată, acest lucru înseamnă că 5 % din mediile eşantioanelor posibile vor conduce la concluzia că H0 este falsă!

Page 4: a6

Statistică şi aplicaţii în ştiinţele sociale

96

Fig. nr. 9.2 Test bilateral pentru α = 0,05. 5% din rezultate stabilesc ca eronată decizia de respingere a ipotezei H0 când de fapt H0 este adevărată!

Când stabilim α = 0,05, ne asumăm de fapt riscul ca 5 % din rezultate să

cadă în zona de respingere a ipotezei nule. Respingerea unei ipoteze nule adevărate este o eroare de decizie şi, exceptând revelaţia divină, nu avem nicio idee când o asemenea eroare se produce. Toate aceste aspecte ne conduc la următoarea concluzie:

Nivelul de semnificaţie α dă probabilitatea de respingere a lui H0 când

în realitate aceasta este adevărată.

Pentru a reduce riscul luării unei decizii eronate, cercetătorul poate stabili α la un nivel mai scăzut, de pildă α = 0,01 sau 0,0001. Să presupunem că am obţinut un rezultat care se abate atât de mult de la medie încât probabilitatea de producere (apariţie) este doar de p = 0,002. În baza acestui criteriu putem spune că valoarea obţinută nu este suficient de rară încât să ne conducă la respingerea lui H0 (0,002 > 0,0001). De cele mai multe ori însă, admitem ipoteza nulă chiar dacă intuim că decizia este falsă. Deci coborârea lui α creşte probabilitatea de a face un alt gen de eroare; acceptarea ipotezei nule când de fapt aceasta este falsă. Nu este surprinzător faptul că acest „comportament decizional” este cunoscut ca un alt tip de eroare. Putem rezuma formularea acestei erori astfel: „Reţinerea unei ipoteze H0 false”.

Pentru a concretiza cele spuse într-un exemplu, să presupunem că ipoteza nulă (H0: μ = 150) este testată bilateral la un nivel de semnificaţie α = 0,05. Media eşantionului extras este de 152. Este însă posibil ca media reală a populaţiei să fie de 154. În figura de mai jos, repartiţia trasată prin linia continuă este repartiţia de selecţie corespunzătoare mediei de 150.

Page 5: a6

Statistică şi aplicaţii în ştiinţele sociale

97

Fig. nr. 9.3 Ipoteza nulă este falsă, dar x conduce la acceptarea ipotezei nule!

Repartiţia corectă este cea reprezentată punctat, având media de 154. În testarea ipotezei nule pentru care μ = 150, reprezentăm media eşantionului de 152 în repartiţia desenată cu linie îngroşată. Relativ la această distribuţie, valoarea 152x nu se abate atât de mult încât să se plaseze în zona de respingere a ipotezei H0. Vom fi deci în situaţia acceptării ipotezei nule. Dar acceptarea este o decizie eronată. Putem constata că nivelurile (pragurile) de semnificaţie α = 0,05 şi α = 0,001 sunt într-un anumit sens, valori compromise. Aceste valori tind să ne dea asigurarea că H0 nu va fi respinsă, când în realitate se respinge (primul tip de eroare) sau că ele nu sunt suficient de mici să ridice probabilitatea de acceptare a ipotezei nule (al doilea tip de eroare). Trebuie să fim conştienţi de faptul că în orice testare de ipoteză nulă nu putem şti dacă a fost făcută o eroare de decizie.

Probleme propuse: 1. Stabiliţi valorile critice pentru testarea ipotezei nule H0: μ = 450 şi a

ipotezei alternative H1: μ < 450: a) α = 0,01 b) α = 0,05 c) α = 0,1

Repartiţia de selecţie adevărată

Repartiţia de selecţie

H0: μ = 150 H1: μ ≠ 150

α = 0,05

Page 6: a6

Statistică şi aplicaţii în ştiinţele sociale

98

2. Stabiliţi valorile critice pentru testarea ipotezei nule H0: μ = 350 şi a ipotezei alternative H1: μ ≠ 350: a) α = 0,01 b) α = 0,05 c) α = 0,1

3. Explicaţi în termeni generali rolul lui H0 şi H1 în testarea ipotezelor. 4. Se cunoaşte μ = 55 şi σ = 17. Pentru fiecare din următoarele scenarii

evaluaţi zα, valoarea p şi decizia statistică.

a) 73, n=37, =0,05X

b) 73, n=100, =0,05X

c) 53, n=70, =0,01X

d) 83, n=150, =0,01X

e) 43, n=370, =0,01X

Page 7: a6

Statistică şi aplicaţii în ştiinţele sociale

99

Capitolul 10

ESTIMAREA STATISTICĂ

10.1 Testarea ipotezelor versus estimarea

nferenţa statistică este procesul de extrapolare a rezultatelor înregistrate, de la nivelul eşantioanelor selectate la nivelul întregii populaţii (din care au fost selectate eşantioanele). Pe lângă testarea

ipotezelor statistice, inferenţa statistică are în vedere estimarea statistică. Am văzut în subcapitolul anterior modul în care am testat o medie de eşantion pe ipoteza nulă H0: μ = 7,5. Cum media eşantionului a fost de 6,3, am respins ipoteza nulă la pragul de semnificaţie α = 0,05. Însă întrebările nu sunt epuizate. Ne-am putea întreba cât de mult s-ar putea abate media eşantionului de la media populaţiei pentru a accepta ipoteza nulă? Sau ar putea fi valoarea de 7,6 o valoare plauzibilă pentru media populaţiei? Ce putem spune despre valorile 8; 8,5; ...; ş.a.m.d.? Ce estimări rezonabile am putea da pentru media populaţiei? Cele mai multe din întrebările statisticii pentru care testările de ipoteze ar putea oferi soluţii mulţumitoare îşi găsesc răspuns şi prin tratarea estimării. Totuşi, există probleme pentru care testarea ipotezelor nu este indicată, iar singura abordare relevantă rămâne estimarea statistică.

Să presupunem că directorul unei biblioteci universitare doreşte să afle cât de mulţi bani pe cap de student, în medie, sunt necesari pentru cumpărarea cursurilor. Procedurile de estimare sunt mult mai potrivite pentru a răspunde acestei întrebări. Să încercăm să ne gândim asupra înţelesului pe care l-ar putea avea formularea următoarelor ipoteze nule: H0: μ = 50 € sau H0: μ = 100 €. De fapt interesul directorului de bibliotecă este mai mult unul de ordin explorator. El doreşte să estimeze media veniturilor studenţilor, pornind de la rezultatele eşantionului, şi nu testarea unei valori specifice mediei veniturilor indicată de H0.

I

Page 8: a6

Statistică şi aplicaţii în ştiinţele sociale

100

10.2 Estimarea caracteristicii versus estimarea intervalului

Am văzut anterior că o statistică este o estimare a unui parametru ( x estimează μ; s estimează σ; s2 estimează σ2şi r estimează ρ). Există numeroase exemple din viaţa cotidiană care solicită estimarea caracteristicilor. De exemplu, dacă în urma unui sondaj de opinie, vizând subiecţii care s-au drogat rezultă că 60 % dintre aceştia ar reveni la consumul de droguri, de fapt, dispunem de o estimare a caracteristicii „preferinţa celor care au consumat droguri”. O privire corectă asupra unei estimări trebuie să aibă în vedere şi alte aspecte, cum ar fi cele datorate variaţiei de selecţie. Este de acum un fapt bine cunoscut în statistică că eroarea de selecţie generează eroare în estimarea caracteristicii. Dar cât de mult afectează eroarea de selecţie estimarea caracteristicii? Am văzut că media de 6,3 nu este o estimare a mediei naţionale şi că, fără îndoială, aceasta se situează fie de o parte, fie de cealaltă parte a mediei populaţiei.

În esenţă, un interval estimat este o plajă de valori în interiorul cărora pot fi stabilite cu încredere rezonabilă poziţiile parametrilor populaţiei. De exemplu, am putea spune că media absolvenţilor ID la examenul de licenţă se situează între 5,8 şi 6,9.

Există un raport de inversă proporţionalitate între mărimea intervalului estimat şi riscul cu care facem această estimare. Cu cât intervalul estimat este mai strâns, cu atât şi riscul pe care ni-l asumăm în a afirma că o caracteristică va lua valori în acest interval este mai mare.

10.3 Estimarea intervalului de încredere pentru medie

În distribuţia normală a scorurilor individuale, 95 % din observaţii nu se situează la o distanţă mai mare de 1,96 deviaţii standard faţă de medie. Sau, cu alte cuvinte, media ±1,96 abateri standard cuprinde 95 % din toate scorurile. Examinând figura de mai jos, se constată că media se poziţionează în interiorul intervalului

xX 96,1 .

Page 9: a6

Statistică şi aplicaţii în ştiinţele sociale

101

Fig. nr. 10.1 Distribuţia mediilor eşantioanelor de volum n = 100

extrase de la o populaţie pentru care μ = 100 şi σ = 20 În figura de mai jos sunt prezentate intervalele

xX 96,1 pentru

fiecare din cele 10 posibile eşantioane aleatoare de volum n = 100, extrase din populaţia ale cărei caracteristici sunt menţionate în figura de mai sus.

Fig. nr. 10.2 Intervalul x

X 96,1 pentru fiecare din cele 10 eşantioane aleatoare

de volum n = 100 extrase dintr-o populaţia pentru care μ = 100

00,2100

20

x

Page 10: a6

Statistică şi aplicaţii în ştiinţele sociale

102

Revenind la exemplul cu media de absolvire a examenului de licenţă, se pune întrebarea care ar fi plaja de valori în interiorul căreia se apreciază cu o probabilitate de 95 % că se găseşte media populaţiei? Procedura este cea indicată mai jos.

Pasul I. Determinăm eroarea standard a mediei (x

):

...nx

Pasul II. Evaluăm relaţia: ...96,1

xx

Pasul III. Specificăm limitele intervalului:

...iL ...sL

Pentru o cotă de risc de 1 %, intervalul de încredere corespunzător este

xX 58,2 . În general, relaţia pentru calcularea intervalului de încredere al

mediei, relaţie corespunzătoare unui nivel de semnificaţie α = α0 este x

zX .

10.4 Estimarea intervalului de încredere şi testarea ipotezelor

Estimarea intervalului de încredere pentru medie şi testarea ipotezelor

statistice sunt două faţete ale aceleiaşi probleme. Să presupunem că pentru un set particular de date statistice am aplicat un

test bilateral ipotezei nule H0: μ = μ0 şi am construit un interval de încredere pentru medie cu o cotă de risc de 5 %. Două lucruri interesante rezultă din această practică:

1. Dacă media se situează în afara limitelor de încredere ale intervalului pentru valoarea specificată, atunci ipoteza nulă se respinge.

2. Dacă media se situează în interiorul intervalului de încredere pentru valoarea specificată, ipoteza nulă se acceptă.

Să revenim încă o dată la exemplul cu media de licenţă a absolvenţilor învăţământului la distanţă. Ipoteza testată a fost H0: μ = 7,5. Media eşantionului studiat 6, 3x corespunde unui z statistic de –7,059, ceea ce

conduce la respingerea ipotezei nule. Să comparăm această decizie cu intervalul de încredere de 95 % pentru media absolvenţilor ID, respectiv 6,3 ± 1,96 · 0,17. Observăm că intervalul construit nu cuprinde media naţională ceea ce ne plasează în situaţia primei observaţii menţionate mai sus.

Page 11: a6

Statistică şi aplicaţii în ştiinţele sociale

103

Fig. nr. 10.3 Testarea ipotezelor statistice şi estimarea intervalului de încredere pentru valoarea specificată; ipoteza nulă H0: μ = 7,5 este respinsă

Să presupunem acum că „media naţională” înregistrată la examenul de

licenţă este de 6,4. Ea se regăseşte în intervalul de încredere (5,96; 6,63) şi prin urmare putem concluziona că este o valoare rezonabilă pentru media absolvenţilor ID. Calculând din nou cota z, obţinem:

588,017,0

4,63,60

x

xz

Cum –0,588 > –1,96 ipoteza nulă se acceptă, ceea ce încadrează acest caz în cea de a doua observaţie menţionată.

Fig. nr. 10.4 Testarea ipotezei statistice şi estimarea intervalului de încredere pentru media absolvenţilor ID. Ipoteza nulă H0: μ = 6,4 este acceptată

3,6x z = –7,059

z0,05 = –1,96valoare critică

z0,05 = +1,96

3,6x z = –0,588 Ipoteza H0 se acceptă

6,4 0,17

x

Page 12: a6

Statistică şi aplicaţii în ştiinţele sociale

104

Probleme propuse: 1. Se cunosc următoarele date: 29, =6, X=39, n=50 .

a) Calculaţi X

b) Construiţi cu o verosimilitate de 95 % intervalul de încredere pentru media eşantionului

c) Construiţi cu o verosimilitate de 99 % intervalul de încredere pentru media eşantionului

2. Se cunosc următoarele date: 29, =6, X=39, n=10, n=100

a) Calculaţi X

b) Construiţi cu o verosimilitate de 95 % intervalul de încredere pentru media eşantionului

c) Construiţi cu o verosimilitate de 99 % intervalul de încredere pentru media eşantionului

d) Comparaţi rezultatele obţinute 3. Explicaţi termenul de verosimilitate.

Page 13: a6

Statistică şi aplicaţii în ştiinţele sociale

105

Capitolul 11

TESTAREA IPOTEZELOR STATISTICE PENTRU MEDIE CÂND ABATEREA MEDIE

PĂTRATICĂ ESTE NECUNOSCUTĂ

11.1 σ este rareori cunoscut

n subcapitolele anterioare au fost prezentate principalele aspecte referitoare la testarea ipotezelor statistice şi la estimare, luând în considerare o situaţie ideală în care abaterea standard a populaţiei (σ)

este cunoscută. Însă situaţia ideală este nerealistă pentru că în practică σ este necunoscut, mai ales în cazul aspectelor comportamentale explorate de cercetători. În cazul în care σ este necunoscut, procedurile pentru verificarea ipotezelor statistice se schimbă, dar secvenţa de etape este similară situaţiei când σ este cunoscut, respectiv:

– precizarea ipotezei nule, a celei alternative şi stabilirea nivelului de semnificaţie;

– construirea eşantionului şi calcularea statisticilor necesare; – stabilirea cotei de risc pentru analiza statisticii testului; – luarea deciziei referitoare la ipoteza nulă. Să presupunem că în urma unei examinări la scară naţională în care s-a

urmărit motivaţia pentru studiu a studenţilor, s-a constatat că în medie, studentul român dedică zilnic 4 ore pregătirii. Rectorul unei anumite universităţi este interesat de a avea un punct de vedere argumentat cu privire la motivarea studenţilor din universitatea sa. În acest scop el găseşte că fiecare student alocă din timpul său 3,2 ore studiului şi pornind de la această constatare doreşte să afle dacă motivarea manifestată se abate sau nu de la „motivarea naţională”.

Î

Page 14: a6

Statistică şi aplicaţii în ştiinţele sociale

106

Student Număr de ore dedicate studiului

X X2

1 3 9 2 5 25 3 2 4 4 1 1 5 4 16 6 6 36 7 3 9 8 3 9 9 1 1

10 4 16 n = 10 Σx = 32; (Σx)2 = 1024 Σx2 = 126

Media eşantionului este de 3,2 ore

11.2 Estimarea erorii standard a mediei

Dacă σ ar fi cunoscut, rectorul ar putea lua fără dificultate decizia cu privire la ipoteza nulă, folosind relaţia:

x

xz

0

Cum σ este necunoscut, rectorul nu poate calcula

nx

şi din

acest motiv nu poate determina cota z corespunzătoare. Însă o estimare a lui σ poate fi utilizată pentru estimarea lui

x .

Relaţia:

n

SS

n

xxs

2

unde SS este suma pătratelor abaterilor de la medie este o bună estimare a abaterii standard a populaţiei. Însă în general, abaterea standard a populaţiei se calculează din relaţia:

1

2

n

xxs

Page 15: a6

Statistică şi aplicaţii în ştiinţele sociale

107

Folosind datele exemplului prezentat mai sus, rezultă:

6,234,102126

10

1024126

222

n

xxxxSS

62,19

6,23

1

n

SSs

Estimarea erorii standard a mediei este în aceste condiţii:

512,010

62,1

n

ss

x

xs ca eroare standard a mediei este abaterea standard estimată a tuturor

mediilor eşantioanelor posibile de volum n = 10, extrase aleator din populaţie.

11.3 Testul statistic „t”

Când σ nu este cunoscut, trebuie utilizat un alt test statistic iar acest test este testul t. Relaţia corespunzătoare statisticii t este:

xs

xt 0

Folosind datele exemplului, obţinem pentru tcalculat valoarea:

563,1512,0

42,30

x

s

xt

Aşa cum se poate constata, singura diferenţă în calcularea lui t şi z este substituirea lui

x prin

xs . Din acest punct de vedere, ambele formule

(pentru z şi t) sunt aproape similare în sensul că fiecare reflectă diferenţa dintre media eşantionului ( x ) şi valoarea mediei populaţiei în unităţi de eroare standard a mediei (

xs sau

x ). Putem constata că t foloseşte două statistici

( x şi x

s ), în timp ce z foloseşte o singură statistică ( x ). Aceste aspecte ne

arată că repartiţia de selecţie a lui t se abate semnificativ de la distribuţia normală în cazul eşantioanelor mici. Repartiţia t este cunoscută şi sub numele de repartiţia Student.

Calculul prezentat anterior arată că diferenţa dintre media eşantionului de care dispune rectorul şi media populaţiei este de 1,563 erori standard.

Page 16: a6

Statistică şi aplicaţii în ştiinţele sociale

108

11.3.1 Grade de libertate

Înainte de a continua discuţia pe marginea distribuţiei Student este nevoie să clarificăm problema gradelor de libertate.

Gradele de libertate (gdl) indică numărul de informaţii independente dintr-un eşantion. În calcularea statisticii t trebuie utilizate informaţiile provenite din eşantion pentru evaluarea estimărilor s şi

xs . Câte informaţii

independente poate furniza eşantionul pentru acest scop? Răspunsul îl găsim în

faptul că s şi deci x

s se bazează pe abaterile observaţiilor de la media

eşantionului. Să presupunem că avem un eşantion constituit din trei observaţii 3; 3 şi 9.

Media eşantionului este egală cu 5 iar deviaţiile de la medie sunt –2; –2 şi 4. Sunt aceste deviaţii independente între ele? Răspunsul este negativ pentru că suma lor trebuie să fie întotdeauna egală cu zero. Cu alte cuvinte, în măsura în care cunoaştem două dintre abaterile scorurilor (–2 şi –2), a treia abatere trebuie să fie egală cu +4 pentru ca suma lor să fie nulă. Rezultă că ultima abatere este întotdeauna complet determinată de celelalte. În cazul nostru, din cele trei scoruri doar două sunt independente care sunt şi gradele de libertate pe care ne bazăm în estimarea lui s şi

xs .

Generalizând, gradele de libertate disponibile într-un eşantion de volum n sunt în număr de n – 1.

11.3.2 Repartiţia de selecţie student Când eşantioanele aleatoare sunt de volum mare, s este un bun estimator a

lui , x

s estimează bine pe x

şi în consecinţă, t este apropiat de z. În acest

caz, distribuţia t va avea o comportare foarte asemănătoare cu distribuţia normală. Pe de altă parte, când volumul eşantionului este mic, valoarea corespunzătoare

xs va diferi substanţial de

x , deci şi distribuţia lui t în

raport cu distribuţia normală. Pe măsură ce numărul gradelor de libertate scade, aplatizarea distribuţiei t este mai pronunţată (a se urmări graficul de mai jos).

Page 17: a6

Statistică şi aplicaţii în ştiinţele sociale

109

Fig. nr. 11.1 Trei distribuţii Student pentru 5, 11 şi ∞ grade de libertate Pentru volume de eşantion ≥ 200, distribuţia t nu se deosebeşte practic de

distribuţia normală iar pentru un volum nelimitat, distribuţia t şi distribuţia normală sunt una şi aceeaşi.

11.3.2.1 Obţinerea valorilor critice pentru statistica „t”

În anexa B este prezentată tabelat repartiţia lui Student utilizată pentru

obţinerea valorilor critice ale lui t. Tabelul cuprinde valorile critice dincolo de care se găsesc zonele de respingere atât în cazul unilateral, cât şi în cel bilateral. Prezentăm mai jos o secvenţă a acestui tabel, corespunzătoare unui număr de 8 grade de libertate.

Grade de libertate

BILATERAL 0,50 0,20 0,10 0,05 0,02 0,01

UNILATERAL 0,25 0,10 0,05 0,025 0,01 0,005

8 0,706 1,397 1,860 2,306 2,896 3,355 În figura de mai jos se poate constata că 2,5 % din aria plasată sub

distribuţia lui Student se află dincolo de cota t = 2,306 în cazul unilateral şi 5 % în cazul bilateral. Similar şi pentru cota t = 3,355.

gdl = 5

gdl = 11

gdl = ∞

Page 18: a6

Statistică şi aplicaţii în ştiinţele sociale

110

Fig. nr. 11.2 Zonele critice ale repartiţiei lui Student pentru un număr de 8 grade de libertate (gdl = 8).

Exemplu:

Presupunem că dorim să testăm ipoteza nulă H0: μ = 7,3 versus ipoteza alternativă H1: μ ≠ 7,3 în condiţiile în care media eşantionului este 01,7x ,

volumul eşantionului n = 10, eroarea standard estimată a mediei 1, 04x

s iar

tcalculat = –0,278. Cota de risc pentru luarea deciziei o fixăm la α = 0,05. În anexa B, valorile critice ale lui t pentru 9 grade de libertate sunt ±2,262. Aceste valori delimitează zonele de respingere de zona de acceptare.

Fig. nr. 11.3 Decizia asupra ipotezei nule H0 bazată pe distribuţia Student cu nouă grade de libertate

Page 19: a6

Statistică şi aplicaţii în ştiinţele sociale

111

Cum |tcalculat| < tcritic se acceptă ipoteza nulă, ceea ce înseamnă că media eşantionului ( 01,7x ) nu diferă semnificativ de media populaţiei (μ = 7,3).

11.4 Nivelurile de semnificaţie versus valorile probabilităţii „P”

Să admitem că ne aflăm într-un demers de testare a ipotezei nule

H0: μ = 100, iar pentru un eşantion de 25 observaţii obţinem un tcalculat de +2,00. Distribuţia t pentru 24 grade de libertate arată că un t de +2,00 este poziţionat între valorile 1,711 şi 2,064 (a se vedea figura de mai jos).

Fig. nr. 11.4 Determinarea valorii P pentru un tcalculat când gdl = 24

Prin urmare dacă adoptăm ipoteza alternativă H1: μ > 100, valoarea probabilităţii P se află undeva între 2,5 % şi 5 %. Pentru ipoteza H1: μ ≠ 100 valoarea P se situează între 5 % şi 10 %. Dacă un rezultat este semnificativ din punct de vedere statistic, valoarea P este plasată sub nivelul reperelor de semnificaţie (α = 0,05 sau 0,1) în timp ce dacă rezultatul este nesemnificativ, P-ul se plasează peste nivelul reperelor (a se vedea tabelul de mai jos).

VALOAREA „P” Cercetătorul consideră că rezultatul este:

Valoarea P Semnificativ statistic Nesemnificativ statistic

0,003 P < 0,05 sau P < 0,01 P > 0,001 0,02 P < 0,05 P > 0,01 0,08 P < 0,10 P > 0,05

0,15 – P > 0,10 sau P > 0,05

Page 20: a6

Statistică şi aplicaţii în ştiinţele sociale

112

Limbajul utilizat de anumiţi cercetători în descrierea rezultatelor poate fi confuz, tinzând să estompeze distincţia dintre valoarea P şi nivelul de semnificaţie. Spre exemplu, putem întâlni un cercetător care să afirme că primul set de rezultate a fost semnificativ la un nivel de 0,05, al doilea set a fost semnificativ la un nivel de 0,001 iar pentru al treilea set, datele nu au fost semnificative la un nivel de 0,10. Înseamnă oare acest lucru că α = 0,05 sau α = 0,10 au fost utilizate pentru evaluarea celor trei seturi de rezultate? Aproape sigur nu, mai degrabă aceasta este o modalitate de raportare a celor trei valori P: P < 0,05 sau P < 0,001 şi P > 0,10.

11.5 Construcţia unui interval de încredere pentru medie când σ nu este cunoscut

Dacă σ este cunoscut, intervalul de încredere pentru medie se construieşte

folosind formula x

zX . Această relaţie necesită două modificări când σ

nu este cunoscut; respectiv x

s care substituie pe x

şi t care substituie pe

z , aşa încât relaţia generală pentru construirea intervalului de încredere al

mediei devinex

stX .

Exemplu: Se cunosc următoarele date statistice: ;7X 3,1

xs ; 262,2t . Media

populaţiei se va găsi în intervalul 94,273,1262,27 x

stX la

un prag de semnificaţie α = 0,05.

Probleme propuse: 1. În ce condiţii S şi s sunt foarte apropiate? Dar foarte diferite? 2. Se selectează un eşantion aleator de 7 observaţii. Scorurile abatere ale

primelor 6 observaţii sunt: –6, –2, 3, 4, 5, –1. a) Care este al şaptelea scor abatere?

b) Calculaţi pentru eşantionul de 7 observaţii X, sSS .

3. Selectaţi aleator un eşantion de 20 de observaţii. Calculaţi s şi estimatorul lui σ. Chiar dacă există 20 de observaţii s, se calculează pe baza unui număr de 19 observaţii independente. Comentaţi.

Page 21: a6

Statistică şi aplicaţii în ştiinţele sociale

113

4. Pentru fiecare din următoarele cazuri, localizaţi regiunile de respingere: a) H0: μ = 15, μ ≠ 15, α = 0,1, eşantion: 16, 17, 14, 16, 16, 16, 15. b) H0: μ = 19, μ > 15, α = 0,1, eşantion: 18, 19, 17, 11, 24, 19, 20. c) H0: μ = 15, μ < 15, α = 0,1, eşantion: 16, 17, 14, 16, 16, 16, 15.

5. Calculaţi cea mai bună estimare a lui şi X pentru fiecare din

următoarele cazuri: a) 32, 34, 20, 36, 42, 34 b) 5, 6, 9, 11, 14, 12, 16, 17

6. Exprimaţi fiecare din următoarele afirmaţii în termeni de probabilitate, utilizând p: a) Rezultatele nu sunt semnificative la nivelul 0,05 b) Rezultatele au fost semnificativ sub 50 la un nivel de 0,01 c) Rezultatele au fost semnificative la nivelul 0,001