5_

9
Analiza datelor Testarea ipotezelor statistice În cazul cercetărilor statistice prin sondaj este necesară testarea ipotezei conform căreia media unei variabile determinată pe baza eşantionului diferă semnificativ faţă de media reală a variabilei respective determinată pe baza întregii populaţii. De exemplu, dacă dorim să studiem venitul mediu al gospodăriilor dintr-o populaţie se poate face acest lucru printr-o cercetare totală, aşa cum este de exemplu recensământul, caz în care se înregistrează toate valorile aferente veniturilor fiecărei gospodării din întreaga populaţie. Acest mod de determinare a venitului mediu este cel mai precis dar necesită un efort mare. Mai simplu, se poate realiza determinarea venitului mediu folosind o metodă de cercetare parţială, cum este de exemplu sondajul statistic, care necesită un efort mult mai mic şi asigură obţinerea unei precizii suficiente. În acest caz se pune o întrebare: Este venitul mediu determinat prin sondaj semnificativ diferit faţă de cel determinat prin studiul întregii populaţii de gospodării? Testul t este în esenţă o procedură de testare a semnificaţiei diferenţei dintre două medii. Altfel spus, testul poate da cu o certitudine cunoscută, o idee despre faptul că diferenţa dintre valoarea mediei determinată prin sondaj şi cea reală este fie una pur întâmplătoare (datorită faptului că în calculul mediei în eşantion intră doar valorile unităţilor statistice incluse), fie una reală. Ca urmare, el este potrivit atunci când variabila dependentă este măsurată pe scală cantitativă (interval-raport). Realizarea testului implică utilizarea unui model de referinţă, care este constituit din distribuţii teoretice bine cunoscute. Astfel, distribuţia teoretică folosită ca referinţă (distribuţia de nul) pentru eşantioane mai mari de 30 de unităţi statistice este distribuţia normală, iar pentru eşantioane mai mici de 30 de subiecţi se foloseşte distribuţia t (Student). Chiar dacă formulele de calcul sunt diferite, forma de prezentare a rezultatelor şi raţionamentul decizional sunt similare pentru ambele situaţii. Tipuri de teste t 1. Testul t pentru un eşantion. 2. Testul t pentru eşantioane independente 3. Testul t pentru eşantioane dependente Condiţii de aplicare Condiţia teoretică de bază pentru testele t este ca variabila a cărei medie este supusă testului să prezinte o distribuţie normală în eşantion. Rezultatul testului devine incert dacă distribuţia variabilei se abate de la forma normală, mai ales dacă volumul eşantionului este mai mic de 40 de subiecţi (Gardner, 1975, Moore, 1995). În temeiul teoremei limitei centrale, cu cât volumul eşantionului este mai mare, cu atât normalitatea distribuţiei de eşantionare este mai sigură, iar impactul unei eventuale anormalităţi a distribuţiei asupra testului t, mai mic. 1. Testul z (t) pentru media unui singur eşantion Utilizare Testul z pentru un singur eşantion este utilizat pentru se testa diferenţa dintre media unui eşantion faţă de media cunoscută a populaţiei din care face parte. Un posibil exemplu de utilizare a testului ar fi să determinăm dacă venitul gospodăriilor din regiunea Oltenia diferă semnificativ de venitul gospodăriilor din România. De asemenea, acest test poate fi utilizat pentru a testa diferenţa unei medii faţă de o constantă de referinţă, care prezintă interes pentru 1

description

xxxxxxxxxxxxxx

Transcript of 5_

  • Analiza datelor

    Testarea ipotezelor statistice

    n cazul cercetrilor statistice prin sondaj este necesar testarea ipotezei conform

    creia media unei variabile determinat pe baza eantionului difer semnificativ fa de media real a variabilei respective determinat pe baza ntregii populaii.

    De exemplu, dac dorim s studiem venitul mediu al gospodriilor dintr-o populaie se poate face acest lucru printr-o cercetare total, aa cum este de exemplu recensmntul, caz n care se nregistreaz toate valorile aferente veniturilor fiecrei gospodrii din ntreaga populaie. Acest mod de determinare a venitului mediu este cel mai precis dar necesit un efort mare. Mai simplu, se poate realiza determinarea venitului mediu folosind o metod de cercetare parial, cum este de exemplu sondajul statistic, care necesit un efort mult mai mic i asigur obinerea unei precizii suficiente.

    n acest caz se pune o ntrebare: Este venitul mediu determinat prin sondaj semnificativ diferit fa de cel determinat

    prin studiul ntregii populaii de gospodrii? Testul t este n esen o procedur de testare a semnificaiei diferenei dintre dou

    medii. Altfel spus, testul poate da cu o certitudine cunoscut, o idee despre faptul c diferena dintre valoarea mediei determinat prin sondaj i cea real este fie una pur ntmpltoare (datorit faptului c n calculul mediei n eantion intr doar valorile unitilor statistice incluse), fie una real. Ca urmare, el este potrivit atunci cnd variabila dependent este msurat pe scal cantitativ (interval-raport). Realizarea testului implic utilizarea unui model de referin, care este constituit din distribuii teoretice bine cunoscute. Astfel, distribuia teoretic folosit ca referin (distribuia de nul) pentru eantioane mai mari de 30 de uniti statistice este distribuia normal, iar pentru eantioane mai mici de 30 de subieci se folosete distribuia t (Student). Chiar dac formulele de calcul sunt diferite, forma de prezentare a rezultatelor i raionamentul decizional sunt similare pentru ambele situaii.

    Tipuri de teste t 1. Testul t pentru un eantion. 2. Testul t pentru eantioane independente 3. Testul t pentru eantioane dependente Condiii de aplicare Condiia teoretic de baz pentru testele t este ca variabila a crei medie este supus

    testului s prezinte o distribuie normal n eantion. Rezultatul testului devine incert dac distribuia variabilei se abate de la forma normal, mai ales dac volumul eantionului este mai mic de 40 de subieci (Gardner, 1975, Moore, 1995). n temeiul teoremei limitei centrale, cu ct volumul eantionului este mai mare, cu att normalitatea distribuiei de eantionare este mai sigur, iar impactul unei eventuale anormaliti a distribuiei asupra testului t, mai mic.

    1. Testul z (t) pentru media unui singur eantion Utilizare Testul z pentru un singur eantion este utilizat pentru se testa diferena dintre media

    unui eantion fa de media cunoscut a populaiei din care face parte. Un posibil exemplu de utilizare a testului ar fi s determinm dac venitul gospodriilor din regiunea Oltenia difer semnificativ de venitul gospodriilor din Romnia. De asemenea, acest test poate fi utilizat pentru a testa diferena unei medii fa de o constant de referin, care prezint interes pentru

    1

  • Analiza datelor

    cercettor (de exemplu, venitul mediu al gospodriilor din regiunea Oltenia din 2008 difer semnificativ de venitul mediu al gospodriilor din aceeai regiune determinat la ultimul recensmnt. Utilizarea acestui test statistic este condiionat de cunoaterea mediei reale a populaiei sau a valorii constantei ce va fi folosit ca referin. Dac populaia are o extindere mare, acest lucru este de multe ori dificil de realizat.

    Aplicarea testului cu SPSS Datele supuse testrii trebuie s fie incluse ntr-o variabil SPSS de tip numeric.

    Pentru exemplificare vom utiliza datele din fiierul employees data.sav i vom determina dac ntre salariul mediu ctigat de femei (grup definit prin variabilele salary i gender) i salariul mediu determinat la nivelul ntregii populaii exist diferene semnificative. Salariul mediu determinat printr-o alt cercetare la nivelul ntregii populaii este $34,419.57.

    Precizm faptul c pentru exemplul avut n vedere nu s-a testat normalitatea distribuiei. Pentru simplificarea prezentrii procedurii vom trece peste acest aspect.

    Procedura utilizat pentru testul t privind diferena dintre valoarea mediei pentru salariul mediu ctigat de femei i salariul mediu la nivelul ntregii populaii este Analyze-Compare Means-One Sample T Test...

    Rularea procedurii va deschide fereastra urmtoare:

    n caseta Test variable(s) se selecteaz variabila salary iar n caseta Test value se trece valoarea salariului mediu pentru ntreaga populaie 34419,57. Dac se apas butonul

    2

  • Analiza datelor

    Options... este posibil selectarea intervalului de ncredere sau a pragului de semnificaie (p). Uzual se folosete valoarea de 95% ceea ce corespunde unui prag de semnificaie p = 0.05.

    Rezultatul obinut dup rularea procedurii este reprezentat de cele dou tabele de mai

    jos:

    One-Sample Statistics

    N Mean Std. Deviation Std. Error Mean

    Current Salary 216 $26,031.92 $7,558.021 $514.258

    One-Sample Test

    Test Value = 34419.57 95% Confidence Interval of the

    Difference

    t df Sig. (2-tailed) Mean Difference Lower Upper

    Current Salary -16,310 215 ,000 $-8,387.649 $-9,401.28 $-7,374.02

    Primul este tabel descriptiv pentru variabila ce face subiectul testului i care prezint elementele uzuale: Numr de cazuri supuse analizei, media, abaterea standard respectiv eroarea standard a mediei. Al doilea tabel prezint efectiv rezultatele testului. Curent salary - numele variabilei (dac variabila este etichetat, este afiat eticheta); t - -16,310 valoarea calculat a testului t. Valoarea n sine nu se interpreteaz n nici un

    fel, iar cnd se raporteaz sunt suficiente primele dou zecimale; df - gradele de libertate (degrees of freedom), calculate ca N-1. Acestea trebuiesc

    raportate, dar acest lucru poate fi omis dac este menionat volumul eantionului, Sig. (2-tailed) - probabilitatea asociat valorii calculate a lui t (simbolizat n mod uzual cu

    p). n acest caz, p = 0,000 semnific faptul c pe distribuia teoretic t exist o probabilitate de 0,000 de a se obine din ntmplare o valoare a lui t egal sau mai mare de -16,310. Dac n situaia calculrii manuale comparam valoarea calculat a lui t cu o valoare critic, corespunztoare pragul alfa (0,05), n condiiile utilizrii SPSS se compar direct valoarea p = 0,000 cu pragul alfa=0,05 pentru a se lua decizia statistic.

    Atunci cnd p este mai mic sau cel mult egal cu alfa, ipoteza de nul (adic

    de medii egale) se respinge.

    3

  • Analiza datelor

    Altfel spus, n cazul nostru, salariul mediu ctigat de femei este diferit semnificativ de salariul mediu la nivelul populaiei.

    Dac p este mai mare dect alfa, ipoteza de nul se accept, altfel spus

    ntre medii nu exist o diferen semnificativ. Dac ar fi fost aa n exemplul nostru, concluzia testului ar fi fost c ntre

    salariul mediu ctigat de femei i salariul mediu la nivelul ntregii populaii nu exist diferene semnificative, iar aceste diferene dac ari fi existat pot fi considerate rezultatul ntmplrii. Raportul dintre p i alfa este invers dect cel dintre t calculat i t critic, dac avem n vedere c p este cu att mai mic cu ct t este mai mare.

    Mean difference- $-8,387.649 este diferena dintre media eantionului i valoarea de referin.

    95% Confidence interval of the difference - reprezint limitele intervalului de ncredere pentru diferena dintre media eantionului i valoarea de referin. n cazul nostru ea se situeaz ntre o limit inferioar de $-9,401.28 i o limit superioar $-7,374.02. Altfel spus, exist 95% anse ca diferena adevrat dintre valoarea obinut pe eantion (estimare) i valoarea de referin (media populaiei) s fie cuprins ntre [-9,401.28 ; -7,374.02].

    Concluzia testului Media eantionului de cercetare difer semnificativ de media populaiei.

    2. Testul t pentru eantioane independente Utilizare Testul t pentru eantioane independente este utilizat pentru testarea diferenei dintre

    mediile aceleiai variabile msurate pe dou grupuri, formate din subieci diferii. De exemplu, exist diferene ntre salariul ctigat de oameni din medii diferite (urban

    rural). Condiii Teoretic, testul t poate fi utilizat pentru eantioane orict de mici dac distribuia de

    eantionare pentru cele dou grupuri este normal i dac dispersia valorilor n cele dou grupuri nu difer semnificativ. n ce privete condiia egalitii dispersiei, ea este testat cu un test specific. Unul dintre acestea este testul Levene, iar n funcie de rezultatul su programul calculeaz testul t pe dou ci, aa cum vom vedea mai jos.

    Dac variabila dependent nu ntrunete condiiile pentru testul t, se poate apela la teste neparametrice, astfel:

    Testul z pentru proporii Testul Mann-Whitney U Aplicarea testului cu SPSS Tabela de date SPSS va conine variabila dependent, de tip numeric, i variabila

    independent, de tip nominal, cu dou valori, n funcie de apartenena la un grup sau altul. Variabila independent poate fi de tip string (codificnd cele dou grupuri cu valori de genul A i B) sau de tip numeric (cu codificarea convenional 1 i 2).

    De exemplu, dac testm existena diferenelor dintre salariile ctigate de populaia din mediul urban i cea din mediul rural, folosind fiierul Test.sav ce cuprinde date necesare folosim ca variabil independent variabila Mediul (1-urban, 2-rural) i ca variabil dependent Salariul.

    4

  • Analiza datelor

    Rularea testului se face utiliznd succesiunea de comenzi urmtoare: Analyze-Compare means-Indpendent Samples T Test... Aceasta va deschide fereastra urmtoare:

    n caseta principal Test variable(s) se trece variabila dependent (Salariu) (pot fi

    testate mai multe variabile simultan), iar variabila independent (Mediul) se trece n zona Grouping Variable. n acest moment programul ataeaz variabilei dependente dou semne de ntrebare, sugernd introducerea valorilor care definesc cele dou grupuri. Concomitent se activeaz butonul Define Groups... a crui acionare deschide fereastra secundar Define Groups, unde se introduc valorile care definesc cele dou grupuri comparate (ordinea lor nu este relevant). n cazul nostru valoarea 1 semnific mediul urban iar 2 mediul rural. Introducerea valorilor se face n cele dou casete din fereastr dup care se apas butonul Continue.

    5

  • Analiza datelor

    Dup acionarea butonului Continue, caseta principal devine complet i se poate aciona OK pentru efectuarea testului. Dac se apas n acea fereastra butonul Options se deschide fereastra de setare a pragului de semnificaie ca i la testul anterior.

    Rezultatele obinute arat astfel: Group Statistics

    Mediul de provenienta N Mean Std. Deviation Std. Error Mean

    urban 10 1435,0000 1029,23618 325,47306Venituri din

    salariu rural 10 1343,2000 1006,32807 318,22888

    Independent Samples Test

    Levene's Test for Equality of

    Variances t-test for Equality of Means

    95% Confidence Interval of the

    Difference

    F Sig. t df Sig. (2-

    tailed)

    Mean

    Difference

    Std. Error

    Difference Lower Upper

    Equal

    variances

    assumed

    ,030 ,865 ,202 18 ,842 91,80000 455,19483 -864,5288 1048,1288

    Venituri

    din salariu

    Equal

    variances not

    assumed

    ,202 17,991 ,842 91,80000 455,19483 -864,5635 1048,1635

    6

  • Analiza datelor

    n primul tabel Group Statistics avem statistica descriptiv a celor dou grupuri. Se va obse urile prin intermediul etichetelor valorilor. rva c programul descrie grup

    Al doilea tabel are dou linii: Pe prima linie avem rezultatele testului t pentru situaia n care dispersia celor dou grupuri comparate este egal. Egalitatea dispersiilor este testat cu testul Levene. Dac probabilitatea asociat testului Levene este mai mare de p=0.05, atunci nseamn c dispersiile sunt egale, iar rezultatul testului t se citete pe prima linie. n cazul nostru, avem p = 0.865, ceea ce nseamn c acceptm egalitatea dispersiilor i citim pe aceast linie rezultatul: t=0,202 , df=18, p = 0.842. Pe a doua linie avem rezultatele testului t pentru situaia n care nu s-ar ntruni condiia de omogenitate a dispersiilor celor dou grupuri. Dac semnificaia testului Levene ar fi fost mai mic sau egal cu 0.05, rezultatului testului t s-ar fi citit pe aceast linie. Concluzia testului

    Pentru exemplul nostru, rezultatul testului t permite acceptarea ipotezei cercetrii, conform creia salariul obinut de persoanele din mediul urban nu difer semnificativ de cel obinut de persoanele din mediul rural (salariul mediu din mediul urban=1435,0000, salariul mediu din mediul rural=1343,2000, t=0,202, df=18, p=0,842 > 0,05).

    3. Testul t pentru diferena dintre mediile a dou eantioane dependente (perechi) Utilizare Testul t al diferenei mediilor a dou eantioane dependente permite evaluarea

    semnificaiei variaiei unei anumite caracteristici, la aceeai subieci, n dou situaii diferite (de exemplu, nainte i dup aciunea unei anumite condiii), ori n dou contexte diferite, indiferent de momentul manifestrii acestora. Avantajul major al acestui model statistic este acela c surprinde variaia numit intrasubiect, prin faptul c baza de calcul este dif ou valori msurate pentru fiecare subiect n parte. erena dintre d

    De exemplu: - dac se dorete testarea eficacitii unui medicament pe un lot de voluntari, se testeaz

    valorile parametrilor care definesc starea acestora nainte i dup tratament; - eficacitatea unor msuri administrative care vizeaz obinerea unui anumit efect, se

    testeaz valorile variabilei care caracterizeaz efectul dori nainte i dup aplicarea respectivelor msuri, etc.

    - efectul mediului (linite sau zgomot) n care se desfoar un test n ipoteza c n condiii de zgomot performana este mai redus.

    Condiii i n acest caz condiia de aplicare a testului t este normalitatea distribuiei de

    diferene dintre mediile unui numr infinit de eantioane perechi. Din fericire, teorema limitei centrale garanteaz normalizarea distribuiei de eantionare pe msur ce volumul eantioanelor crete. n situaia n care condiia nu se ndeplinete, se pot utiliza teste neparametrice echivalente: testul semnului (pentru date nominale) sau testul Wilcoxon (pentru date ordinale).

    Aplicarea testului cu SPSS Vor fi create perechi de variabile distincte, ambele cantitative care primesc cte o

    valoare pentru fiecare subiect. Dac de exemplu, dorim s testm ipoteza c un tip de aliment influeneaz sau nu

    viteza de ngrare a mieilor dintr-o ferm zootehnic, vom lua n calcul un eantion din

    7

  • Analiza datelor

    populaia de miei a fermei pentru care vom msura sporul de greutate (n grame) dup 10 zile obinut cu alimentaie normal, dup care, sporul de greutate dup 10 zile obinut cu alimentaie pe baza noului aliment. Utilizm pentru exemplificare fiierul Miei.sav.

    Comenzile pentru rularea testului cu ajutorul SPSS sunt: Analyze-Compare Means-Paired Sample T Test... Se deschide fereastra urmtoare

    Din lista variabilelor se selecteaz perechi de dou variabile simultan (prin meninerea apsat a tastei CTRL i clic de stnga pe numele variabilelor dorite) i se transfer n lista Paired Variables. Pot fi testate simultan mai multe perechi de variabile.

    n cazul nostru cele dou variante de spor de greutate nainte i dup aplicarea alimentaiei noi.

    Butonul Options... permite stabilirea pragului de semnificaie, la fel ca i n cazul celorlalte forma ale testului.

    Rularea procedurii va gener a urmtoarele rezultate: Paired les Statistics Samp

    Mean N Std. Deviation Std. Error Mean

    Spor de greutate la 10 zile-

    alimentatie normala 281,3500 20 85,18233 19,04735

    Pair 1

    Spor de greutate la 10 zile -

    alimentatie noua 319,0500 20 63,88763 14,28571

    8

  • Analiza datelor

    9

    Paired Samples Co lationrre s

    N Correlation Sig.

    Pair 1 Spor de greutate la 10 zile-

    alimentatie normala & Spor

    de greutate la 10 zile -

    alimentatie noua

    20 ,791 ,000

    Paired Samples Test

    Paired Differences 9 5% Confidence

    Interval of the

    Difference

    Mean Std.

    Deviation

    Std. Error

    Mean Lower Upper t df

    Sig. (2-

    tailed)

    Pair

    1

    Spor de greutate la

    10 zile- alimentatie

    normala - Spor de

    greutate la 10 zile -

    alimentatie noua

    -37,700 52,27065 11,68807 -62,16342 -13,23658 -3,226 19 ,004

    n tabelul Paired Samples Statistics sunt afiate mediile celor dou grupuri comparate, numrul subiecilor din fiecare grup, abaterea standard pentru fiecare grup i eroarea standard a mediei fiecrui grup.

    Tabelul Paired Samples Correlations prezint corelaia dintre cele doua variabile: r=0,791, p=0.000, N=20. Evaluarea corelaiei liniare dintre cele dou variabile este legitim n acest context de date, dar ofer o informaie diferit de testul diferenei dintre medii i, n mod obinuit, este ignorat n acest context. Alegerea testului de corelaie sau a testului t se decide n care pen funcie de obiectivul cercetrii. Dac ne intereseaz msura rforman crete (sau scade) n funcie de condiia de zgomot, atunci testul t este cel potrivit.

    Tabelul Paired Samples Test prezint rezultatele testului t, astfel: - Diferena dintre medii (Mean)= -37 - Abaterea standard a diferenei (Std. Deviation)=52,27065 - Intervalul de ncredere al diferenie (95% Confidence Interval of the Difference):

    limita inferioar (Lower)=-62,16342, limita superioar (Upper)=-13,23658. Dat fiind numrul foarte mic al subiecilor (N=20), este de neles de ce intervalul de ncredere este att de mare, ceea ce nseamn c diferena real, la nivelul populaiei, este estimat cu precizie sczut de ctre cercetarea noastr.

    - Valoarea calculat a testului t: -3,226 - Gradele de libertate (df): 19 - Probabilitatea p (Sig. 2-tailed): 0,004. Concluzia testului Avnd n vedere c p = 0,004 < 0,05, se respinge ipoteza de nul. Altfel spus, noul

    aliment produce modificri semnificative ale sporului de greutate.