x4_Teste Statistice Parametrice

60
Testul z pentru un singur eşantion Situaţia de care ne-am servit pentru exemplul de mai sus este plauzibilă dar puţin probabilă pentru o cercetare reală. Procedura utilizată, însă, este una care defineşte unul dintre testele statistice de semnificaţie, numit „testul z pentru un singur eşantion”. Având în vedere faptul că una din condiţiile de aplicare ale acestuia este utilizarea unui eşantion de minim 30 de subiecţi (acceptat ca eşantion „mare”, în conformitate cu teorema limitei centrale), acest test este prezentat şi ca „testul z pentru eşantioane mari”. Testul z se poate utiliza atunci când cunoaştem media şi abaterea standard a unei populaţii 1[1] şi dorim să ştim dacă un eşantion experimental face parte din această populaţie sau nu. Dat fiind faptul că puţine variabile de interes pentru psihologie au medii şi abateri standard calculate la nivelul populaţiei, acest test statistic nu este printre cele frecvent utilizate în cercetarea psihologică. Utilitatea lui este dată, mai ales, de caracterul elementar, care permite introducerea unor noţiuni fundamentale de teorie a ipotezelor statistice. Cu toate acestea, testul z nu poate fi ignorat, existând destule situaţii în care îşi poate dovedi utilitatea, chiar dacă variabilele pentru care se cunosc parametrii populaţiei nu sunt numeroase. De exemplu, un psiholog clinician poate testa ipoteza conform căreia femeile cu depresie cronică sunt mai scunde decât media, comparând media unui eşantion de paciente cu media de înălţime e femeilor, preluată din studii antropometrice. De asemenea, sunt destule cazurile în care populaţia cercetării nu este atât de extinsă încât să nu i se poată afla parametrii. De exemplu, după o evaluare la statistică se poate observa că una dintre grupele unui an de studiu a obţinut o medie mai redusă decât celelalte. Pentru a testa ipoteza că această valoare este semnificativ mai mică faţă de rezultatul întregului an de studiu, este suficient să efectuăm testul z în raport cu media „populaţiei” care, în acest caz, este dată de media studenţilor participanţi la examen. Decizii statistice unilaterale şi bilaterale Să revenim, pentru moment, la exemplul nostru anterior. Ipoteza de la care am pornit a fost aceea că cineva poate identifica subiecţii cu inteligenţă peste medie . Ca urmare, ne-a interesat să vedem în ce măsură rezultatul nostru confirmă ipoteza pe direcţia valorilor din dreapta curbei normale (valori mari, cu z pozitiv). Am efectuat ceea ce se 1[1] Să ne amintim că, atunci când nu cunoaştem abaterea standard a populaţiei, putem utiliza în formula erorii standard a mediei, abaterea standard a eşantionului (s)

description

teste parametrice

Transcript of x4_Teste Statistice Parametrice

Testul z pentru un singur eantion

Testul z pentru un singur eantion

Situaia de care ne-am servit pentru exemplul de mai sus este plauzibil dar puin probabil pentru o cercetare real. Procedura utilizat, ns, este una care definete unul dintre testele statistice de semnificaie, numit testul z pentru un singur eantion. Avnd n vedere faptul c una din condiiile de aplicare ale acestuia este utilizarea unui eantion de minim 30 de subieci (acceptat ca eantion mare, n conformitate cu teorema limitei centrale), acest test este prezentat i ca testul z pentru eantioane mari.

Testul z se poate utiliza atunci cnd cunoatem media i abaterea standard a unei populaii[1] i dorim s tim dac un eantion experimental face parte din aceast populaie sau nu. Dat fiind faptul c puine variabile de interes pentru psihologie au medii i abateri standard calculate la nivelul populaiei, acest test statistic nu este printre cele frecvent utilizate n cercetarea psihologic. Utilitatea lui este dat, mai ales, de caracterul elementar, care permite introducerea unor noiuni fundamentale de teorie a ipotezelor statistice.

Cu toate acestea, testul z nu poate fi ignorat, existnd destule situaii n care i poate dovedi utilitatea, chiar dac variabilele pentru care se cunosc parametrii populaiei nu sunt numeroase. De exemplu, un psiholog clinician poate testa ipoteza conform creia femeile cu depresie cronic sunt mai scunde dect media, comparnd media unui eantion de paciente cu media de nlime e femeilor, preluat din studii antropometrice. De asemenea, sunt destule cazurile n care populaia cercetrii nu este att de extins nct s nu i se poat afla parametrii. De exemplu, dup o evaluare la statistic se poate observa c una dintre grupele unui an de studiu a obinut o medie mai redus dect celelalte. Pentru a testa ipoteza c aceast valoare este semnificativ mai mic fa de rezultatul ntregului an de studiu, este suficient s efectum testul z n raport cu media populaiei care, n acest caz, este dat de media studenilor participani la examen.

Decizii statistice unilaterale i bilaterale

S revenim, pentru moment, la exemplul nostru anterior. Ipoteza de la care am pornit a fost aceea c cineva poate identifica subiecii cu inteligen peste medie. Ca urmare, ne-a interesat s vedem n ce msur rezultatul nostru confirm ipoteza pe direcia valorilor din dreapta curbei normale (valori mari, cu z pozitiv). Am efectuat ceea ce se numete un test unilateral (one-tailed). Dac mediumul ar fi pretins c poate identifica subiecii cu inteligen sub medie am fi procedat tot la un test unilateral, dar n partea stng a curbei (valori mici, cu z negativ). n aceste dou situaii am fi avut acelai z critic (1.65) cu semnul + sau n funcie de zona scalei pentru care fceam testarea. Imaginea de mai jos ilustreaz grafic cele dou direcii de testare a ipotezelor statistice unilaterale i ariile valorilor semnificative/nesemnificative, n funcie de valoarea critic a lui z.

Ce s-ar fi ntmplat, ns, dac eantionul extras de medium ar fi obinut un scor QI=96, ceea ce ar fi corespuns unui scor z=-1.36? n acest caz, aplicnd un test unilateral, conform ipotezei, am fi verificat doar msura n care ar putea fi depistai cei cu inteligen peste medie, ignornd posibilitatea ca rezultatul s cad n zona extrem opus, a celor cu inteligen sub medie. Aceasta ar nsemna c mediumul, dei pretinde c poate indica persoanele inteligente, este de fapt sensibil la cele neinteligente.

Pentru a verifica ipoteza pe ambele laturi ale distribuiei se aplic ceea ce se numete testul z bilateral (two-tailed). n acest caz se pstreaz acelai nivel alfa (0.05), dar el se distribuie n mod egal pe ambele extreme ale curbei, astfel nct pentru 2.5% de fiecare parte, avem un z critic de 1.96 (cu semnul - sau +). Aceast valoare este luat din tabelul ariei de sub curb, n dreptul probabilitii 0.4750 care corespunde unei probabiliti complementare de 0.025 (echivalent cu 2.5%).

Figura de mai sus indic scorurile critice pentru testul z bilateral. Se observ c, n cazul alegerii unui test bilateral (z=1.96), nivelul ( de 5% se mparte n mod egal ntre cele dou laturi ale curbei. Este de la sine neles faptul c semnificaia statistic este mai greu de atins n cazul unui test bilateral dect n cazul unui test unilateral. Alegerea tipului de test, unilateral sau bilateral, este la latitudinea cercettorului. De regul ns, se prefer testul bilateral. Motivul l constituie necesitatea de a introduce mai mult rigoare i de a lsa mai puin loc hazardului. Se alege testul unilateral doar atunci cnd suntem interesai de evaluarea semnificaiei strict ntr-o anumit direcie a curbei, sau atunci cnd miza rezultatului este prea mare nct s fie justificat asumarea unui risc sporit de eroare. n mod uzual, ipotezele statistice sunt testate bilateral, chiar dac ipoteza cercetrii este formulat n termeni unilaterali. Testarea unilateral este utilizat numai n mod excepional, n cazuri bine justificate.

O scurt discuie pe tema nivelului alfa minim acceptabil (0.05) se impune, avnd n vedere faptul c ntregul eafodaj al deciziei statistice se sprijin pe acest prag. Vom sublinia, din nou, c p=0.05 este un prag de semnificaie convenional, impus prin consensul cercettorilor din toate domeniile, nu doar n psihologie. Faptul c scorul critic pentru atingerea pragului de semnificaie este 1.96 a jucat, de asemenea, un rol n impunerea acestei convenii. Practic, putem considera c orice ndeprtare mai mare de dou abateri standard de la media populaiei de referin este semnificativ. Chiar dac persist posibiliti de a ne nela, ele sunt suficient de mici pentru a le trece cu vederea.

Impunerea unui prag minim de semnificaie a testelor statistice are ns, mai ales, rolul de a garanta faptul c orice concluzie bazat pe date statistice rspunde aceluiai criteriu de exigen, nefiind influenat de subiectivitatea cercettorului. Nivelul alfa de 0.05 nu este dect pragul minim acceptat. Nimic nu mpiedic un cercettor s i impun un nivel mai exigent pentru testarea ipotezei de nul. n practic mai este utilizat pragul de 0.01 i, mai rar, cel de 0.001. Toate aceste praguri pot si exprimate i n procente, prin opusul lor. Astfel, printr-o probabilitate de 0.05 se poate nelege i un nivel de ncredere de 95% n rezultatul cercetrii (99%, pentru p=0.01 i, respectiv, 99.9% pentru p=0.001).

n fine, este bine s subliniem faptul c utilizarea acestor praguri vine din perioada n care nu existau calculatoare i programe de prelucrare statistic. Din acest motiv, cercettorii calculau valoarea testului statistic pe care apoi o comparau cu valori tabelare ale probabilitii de sub curba de referin. Pentru a face mai practice aceste tabele, ele nu cuprindeau toate valorile de sub curba ci doar o parte dintre acestea, printre ele, desigur, cele care marcau anumite praguri. Rezultatul cercetrii era raportat, de aceea, prin invocarea faptului de a fi sub pragul de semnificaie sau deasupra sa. Odat cu diseminarea pe scar larg a tehnicii de calcul i cu apariia programelor de prelucrri statistice, semnificaia valorilor testelor statistice nu mai este cutat n tabele ci este calculat direct i exact de ctre program, putnd fi afiat ca atare.

Testul t pentru un singur eantion

Aa cum am precizat mai sus, testul z poate fi utilizat doar atunci cnd cunoatem media populaiei de referin i avem la dispoziie un eantion mare (adic de minim 30 de subieci, n cazul unei variabile despre care avem motive s credem c se distribuie normal). Puine sunt variabilele utilizate n psihologie pentru care s dispunem de msurtori la nivelul populaiei. n plus, nu ntotdeauna putem avea eantioane mari (minim 30 de subieci). Pentru situaiile care nu corespund acestor condiii, testul z nu poate fi aplicat. i aceasta, pentru c distribuia mediei de eantionare urmeaz legea curbei normale standardizate doar pentru eantioane de minim 30 de subieci, conform teoremei limitei centrale.

La nceputul secolului XX, William Gosset, angajat al unei companii productoare de bere din SUA, trebuia s testeze calitatea unor eantioane de bere pentru a trage concluzii asupra ntregii arje. Din considerente practice, el nu putea utiliza dect eantioane (cantiti) mici de bere. Pentru a rezolva problema, a dezvoltat un model teoretic propriu, bazat pe un tip special de distribuie, denumit distribuie t, cunoscut ns i ca distribuia Student, dup pseudonimul cu care a semnat articolul n care i-a expus modelul.

n esen, distribuia t este o distribuie teoretic care are toate caracteristicile unei distribuii normale (este perfect simetric i are form de clopot). Specificul acestei distribuii const n faptul c forma ei (mai exact, nlimea) depinde de un parametru denumit grade de libertate (df sau degrees of freedom), care este egal cu N-1 (unde N este volumul eantionului). Acest parametru poate fi orice numr mai mare dect 0, iar mrimea lui este aceea care definete forma exact a curbei i, implicit, proporia valorilor de sub curb ntre diferite puncte ale acesteia. Imaginea de mai jos ilustreaz modul de variaie a nlimii distribuiei t, n funcie de gradele de libertate.

Aa cum se observ, curba devine din ce n ce mai aplatizat pe msur ce df (volumul eantionului) este mai mic. Acest fapt care are drept consecin existena unui numr mai mare de valori spre extremele distribuiei. Nu este ns greu de observat c, pe msur ce df este mai mare, distribuia t se apropie de o distribuie normal standard astfel nct, pentru valori ale lui N de peste 31 (df=30), aria de sub curba distribuiei t se apropie foarte mult de valorile de sub aria curbei normale standard (z) iar scorul critic pentru t este acelai ca i cel pentru z pe curba normal (1.96).

Din cele spuse rezult c, dac avem un eantion de volum mic (N(30), vom utiliza testul t n loc de testul z, pe baza unei formule asemntoare:

unde:

m este media eantionului

( este media populaiei

sm este eroarea standard a mediei

Interpretarea valorii lui t se face n mod similar cu cea pentru valorea z, cu deosebirea c se utilizeaz tabelul distribuiei t (Anexa 2). n acest caz valorile critice ale lui t vor fi diferite n funcie de numrul de grade de libertate. Se observ c pragurile critice ale lui t (subnelegnd alfa=0.05 pentru test bilateral) se plaseaz la valori diferite n funcie de nivelul df. n acelai timp, dac df este mare (peste 30), valorile tabelare ale lui t se apropie de cele ale lui z. La infinit, ele sunt identice (1.96, la fel ca i n cazul valorilor lui z).

Date fiind caracteristicile enunate, n practic, testul t se poate utiliza i pentru eantioane mari (N(30). n nici un caz, ns, nu poate fi utilizat testul z n cazul unor eantioane mici (N(30). Utilizarea testului bazat pe un singur eantion (fie z sau t) depinde ntr-o msur decisiv de asigurarea caracteristicii aleatoare a eantionului.

Publicarea rezultatelor testului z sau tPublicarea rezultatelor diferitelor proceduri statistice trebuie fcut astfel nct cititorii s i poat face o imagine corect i complet asupra rezultatelor. n acest scop la publicarea rezultatelor trebuie respectate anumite reguli la care vom face trimitere n continuare, n legtur cu fiecare nou test statistic ce va fi introdus.

n principiu, publicarea rezultatelor unui test statistic se poate face n dou moduri: sintetic (sub form tabelar), atunci cnd numrul variabilelor testate este relativ mare

narativ, atunci cnd se refer, s zicem, la o singur variabil.

n cazul testului pentru un singur eantion, se vor raporta: media eantionului, media populaiei, valoarea lui z (sau t), nivelul lui p, tipul de test (unilateral/bilateral).

Dac avem n vedere rezultatele obinute pe exemplul de mai sus, se apeleaz la o raportare de tip narativ, care poate utiliza o formulare n maniera urmtoare: Eantionul selectat prin metoda paranormal a obinut un scor (QI=104) peste media populaiei generale (QI=100). Testul z, cu alfa 0.05, a demonstrat c diferena nu este semnificativ statistic, z=1.36, p>0.05, unilateral.

n exemplu de mai sus nu formularea ca atare este esenial ci categoriile de informaii asociate publicrii testului z. Formularea ca atare poate diferi de cea prezentat mai sus, dar elementele informaionale trebuie s fie complete.

Aa cum am spus mai sus, utilizarea programelor statistice ofer pentru orice valoare a lui z (sau oricare alt test statistic) valoarea exact a lui p. Ea poate fi utilizat ca atare pstrnd, ns, raportarea acesteia la pragul de semnificaie. Orice valoare a lui p mai mare de 0.05 este considerat nesemnificativ[2], dac nu a fost fixat un alt prag, mai sever.

TEMA PENTRU ACAS[3]1. Un psihiatru testeaz eficiena unui nou medicament anxiolitic care pare s aib un posibil efect secundar negativ n scderea frecvenei cardiace. Pentru un eantion de 50 de subieci al crui puls a fost msurat dup 6 sptmni de la iniierea tratamentului, s-a obinut o frecvena cardiac medie de 70 de bti pe minut. Dac frecvena medie a populaiei generale este 72 bpm, cu o abatere standard de 12, se poate concluziona c noul medicament produce bradicardie? ((=0,05, se efectueaz test unilateral) 2. Reprimarea mniei conduce la creterea tensiunii arteriale? ntr-un studiu ipotetic, 16 studeni cu scor ridicat de reprimare a mniei (rezultat din chestionare specifice) au fost supui msurrii tensiunii arteriale. Media tensiunii pentru acest eantion a fost de 124 mm Hg (milimetri coloan de mercur). Dac media tensiunii la nivelul populaiei este 120 mm Hg cu o abatere standard de 10, se poate accepta ipoteza c reprimarea mniei conduce la creterea tensiunii? ((=0,05, test bilateral) 3. S presupunem c avem o scal care msoar anxietatea n note T ((=50, (=10). Dup un cutremur puternic se obin urmtoarele scoruri pe un eantion de subieci care se adreseaz unui cabinet de psihologie clinic: 72, 59, 54, 56, 48, 52, 57, 51, 64, 67. Testai ipoteza de nul care afirm c nivelul anxietii nu este influenat de cutremur. ((=0,05, unilateral i bilateral)Testul t pentru eantioane independente

Testul z (t) pentru un singur eantion sunt utile ntr-un model de cercetare n care ne propunem compararea valorii msurate pe un eantion cu media populaiei din care acesta provine. Aa cum am precizat deja, acest tip de cercetare este destul de rar ntlnit, ca urmare a dificultii de a avea acces la parametrii populaiei.

Unul dintre modelele de cercetare frecvente, ns, este acela care vizeaz punerea n eviden a diferenelor care exist ntre dou categorii de subieci (diferena asumrii riscului ntre brbai i femei, diferena dintre timpul de reacie al celor care au consumat o anumit cantitate de alcool fa de al celor care nu au consumat alcool, etc.). n situaii de acest gen psihologul compar mediile unei variabile (preferina pentru risc, timpul de reacie, etc.), msurat pe dou eantioane compuse din subieci care difer sub aspectul unei alte variabile (sexul, consumul de alcool, etc.). Variabila supus comparaiei este variabila dependent, deoarece presupunem c suport efectul variabilei sub care se disting cele dou eantioane i care, din acest motiv, este variabil independent[1]. n situaii de acest gen, eantioanele supuse cercetrii se numesc independente, deoarece sunt constituite, fiecare, din subieci diferii.

Distribuia ipotezei de nul pentru diferena dintre medii independente

S ne imaginm c dorim s vedem dac un lot de sportivi, trgtori la int, care practic trainingul autogen[2] (variabila independent) obin o performan (variabila dependent) mai bun dect un lot de sportivi care nu practic aceast tehnic de autocontrol psihic. n acest caz, variabila dependent ia valori prin evaluarea performanei de tragere, iar variabila independent ia valori convenionale, pe o scal nominal categorial, dihotomic (practicani i nepracticani de edine de relaxare).

n acest exemplu avem dou eantioane de cercetare, unul format din sportivi practicani ai trainingului autogen (TA) i altul format din sportivi nepracticani ai TA. Trebuie s admitem c fiecare dintre cele dou eantioane provine dintr-o populaie distinct: populaia sportivilor practicani de TA i, respectiv, cea a nepracticanilor de TA. De asemenea, este evident faptul c perechea de eantioane studiate nu este dect una din perechile posibile.

S privim figura de mai jos, care ne sugereaz ce se ntmpl dac, teoretic, am extrage (selecta) n mod repetat de eantioane perechi din cele dou populaii:

Imaginea arat faptul c, pe msur ce constituim perechi de eantioane (m11-m21, etc.) cu valori ale performanei la int, diferena dintre mediile devine o distribuie n sine, format din valorile acestor diferene. Dac am reui constituirea tuturor perechilor posibile de eantioane, aceast distribuie, la rndul ei, ar reprezenta o nou populaie, populaia diferenei dintre mediile practicanilor i nepracticanilor de training autogen. i, fapt important de reinut, curba diferenelor dintre medii urmeaz legea distribuiei t. Cu alte cuvinte, la un numr mare (tinznd spre infinit) de eantioane perechi, trebuie s ne ateptm ca cele mai multe medii perechi sa fie apropiate ca valoare, diferena dintre mediile fiind, ca urmare, mic, tinznd spre 0 i ocupnd partea central a curbei. Diferenele din ce n ce mai mari fiind din ce n ce mai puin probabile, vor ocupa marginile distribuiei (vezi figura de mai jos). Aceasta este ceea ce se numete distribuia ipotezei de nul pentru diferena dintre mediile a dou eantioane independente.

n acest moment este bine s accentum, din nou, semnificaia statistic a noiunii de populaie. Dup cum se observ, aceasta nu face referire neaprat la indivizi ci la totalitatea valorilor posibile care descriu o anumit caracteristic (psihologic, biologic sau de alt natur). n cazul nostru, diferenele dintre mediile eantioanelor perechi (fiecare provenind dintr-o populaie fizic distinct) devin o nou populaie, de aceast dat statistic, compus din totalitatea diferenelor posibile, i a crei distribuie se supune modelului curbei t.

Procedura statistic pentru testarea semnificaiei diferenei dintre mediile a dou eantioane

Problema pe care trebuie s o rezolvm este urmtoarea: Este diferena dintre cele dou eantioane suficient de mare pentru a o putea considera ca determinat de variabila independent, sau este doar una dintre diferenele probabile, generat de jocul hazardului la constituirea perechii de eantioane? Vom observa c sarcina noastr se reduce, de fapt, la ceea ce am realizat anterior n cazul testului z sau t pentru un singur eantion. Va trebui s vedem dac diferena dintre dou eantioane reale se distaneaz semnificativ de diferena la care ne putem atepta n cazul extragerii absolut aleatoare a unor perechi de eantioane, pentru care distribuia diferenelor este normal. Mai departe, dac probabilitatea de a obine din ntmplare un astfel de rezultat (diferen) este prea mic (maxim 5%) o putem neglija i accepta ipoteza c ntre cele dou variabile este o relaie semnificativ.

Dac avem valoarea diferenei dintre cele dou eantioane cercetate, ne mai sunt necesare doar media populaiei (de diferene ale mediilor) i abaterea standard a acesteia, pentru a calcula testul z (n cazul eantioanelor mari) sau cel t (n cazul eantioanelor mici). n final, nu ne rmne dect s citim valoarea tabelar pentru a vedea care este probabilitatea de a se obine un rezultat mai bun (o diferen mai mare ) pe o baz strict ntmpltoare.

Media populaiei de diferene. Diferena dintre mediile celor dou eantioane ale cercetrii face parte, aa cum am spus, dintr-o populaie compus din toate diferenele posibile de eantioane perechi. Media acestei populaii este 0 (zero). Atunci cnd extragem un eantion aleator dintr-o populaie, valoarea sa tinde sa se plaseze n zona centrala cea mai probabil). Dar aceeai tendin o va avea i media oricrui eantion extras din populaia pereche. Ca urmare, la calcularea diferenei dintre mediile a dou eantioane, cel mai probabile sunt diferenele mici, tinznd spre zero. Astfel, ele vor ocupa partea central a distribuiei, conturnd o medie tot mai aproape de zero cu ct numrul eantioanelor extrase va fi mai mare.

Eroarea standard a diferenei (mprtierea), pe care o vom nota cu (m1-m2, se calculeaz pornind de la formula de calcul a erorii standard:

(formula 3.5)

Din raiuni practice, pentru a obine o formul care s sugereze diferena dintre medii (m1-m2), formula de mai sus este supus unor transformri succesive. Prin ridicarea la ptrat a ambilor termeni i dup extragerea radicalului din noua expresie, se obine:

(formula 3.6)

Dac am utiliza-o pentru calcule, aceast ultim formul ar produce acelai rezultat ca i formula originar.

Formula erorii standard a distribuiei diferenei dintre medii ne arat ct de mare este mprtierea diferenei tipice ntre dou medii independente atunci cnd eantioanele sunt extrase la ntmplare

(formula 3.7)

Formula de mai sus indic faptul c eroarea standard a diferenei dintre medii este dat de suma erorii standard a celor dou eantioane. Unul dintre eantioane are N1 subieci i o dispersie 12 iar cellalt eantion, N2 subieci i dispersia 22. Faptul c obinem eroarea standard a diferenei dintre medii ca sum a erorilor standard a celor dou eantioane este fundamentat pe o lege statistica a crei demonstraie nu se justific aici.

Pentru a calcula scorul z al diferenei, vom utiliza o formul asemntoare cu formula notei z pe care o cunoatem deja:

Aceasta va fi: (formula 3.8)Numrtorul exprim diferena dintre diferena obinut de noi (m1-m2) i diferena dintre mediile populaiilor ((1-(2). Dac ne amintim c distribuia ipotezei de nul ((1-(2) are media 0, atunci deducem c expresia ((1-(2) poate lipsi. De altfel, dac am cunoate mediile celor dou populaii nici nu ar mai fi necesar calcularea semnificaiei diferenei dintre eantioanele care le reprezint.

Numitorul descrie eroarea standard a diferenei, calculat cu formula 8.1, adic mprtierea diferenei tipice pentru extrageri aleatoare.

n conformitate cu cele spuse pn acum, formula final pentru scorul z al diferenei dintre dou eantioane devine :

(formula 3.9)

Se observ c am eliminat ((1-(2) de la numrtor, care este ntotdeauna 0 i am nlocuit (m1-m2 cu expresia echivalent din formula 3.7. Aceast formul ne d ceea ce se numete valoarea testului z pentru eantioane mari-independente.

Valoarea astfel obinut urmeaz a fi verificat cu ajutorul tabelei z pentru curba normal, iar decizia statistic se ia n acelai mod ca i n cazul testului z pentru un singur eantion.

n formula 3.8 eroarea standard a diferenelor este calculat pe baza erorii standard a distribuiei de eantionare pentru populaia din care sunt extrase cele dou eantioane (practicani i nepracticani de training autogen). n realitate nu cunoatem cele dou dispersii. Din fericire, dac volumul nsumat (N1+N2) al eantioanelor care dau diferena noastr (m1-m2) este suficient de mare ((30 dar, de preferat, ct mai aproape de 100) atunci ne amintim c putem folosi abaterea standard a fiecrui eantion (s1 respectiv s2), care aproximeaz suficient de bine abaterile standard ale celor dou populaii.

Atunci cnd eantioanele nu sunt suficient de mari, trebuie s ne ateptm la erori considerabile n estimarea mprtierii populaiei pe baza mprtierii eantionului. ntr-o astfel de situaie vom apela, desigur, la un test t, avnd dou opiuni de calcularea acestuia:

a. Testul t pentru dispersii diferite

Acesta se bazeaz pe considerarea separat a dispersiilor celor dou populaii (estimate prin dispersiile eantioanelor). Formula este foarte asemntoare cu formula anterioar pentru testul z. Vom reine aceast formul ca testul t pentru dispersii diferite:

(formula 3.10)

Se observ nlocuirea lui ( (pentru populaie) cu s (pentru eantion). Utilizarea ei este destul de controversat, deoarece rezultatul nu urmeaz cu exactitate distribuia t aa cum am introdus-o anterior. Pentru eliminarea acestui neajuns, se utilizeaz o variant de calcul care ia n considerare dispersia cumulat a celor dou eantioane.

b. Testul t pentru dispersia cumulat

Dispersiile celor dou eantioane pot fi considerate mpreun pentru a forma o singur estimare a dispersiei populaiei ((2). Obinem astfel ceea ce se numete dispersia cumulat, pe care o vom nota cu s2c i o vom calcula cu formula urmtoare:

(formula 3.11)

La numrtor, formula conine suma dispersiilor multiplicate fiecare cu volumul eantionului respectiv (de fapt, gradele de libertate, N-1). n acest fel vom avea o contribuie proporional cu numrul de valori ale mprtierii fiecrui eantion la rezultatul final.

La numitor, avem gradele de libertate (df) pentru cele dou eantioane luate mpreun (N1+N2-2).

nlocuind-o n formula 3.10, obinem formula de calcul a testului t pentru dispersii cumulate

(formula 3.12):

Formula 3.12 este formula uzual pentru calcularea diferenei dintre medii pentru dou eantioane independente. Chiar dac a fost introdus ca utilizabil pentru eantioane mici, caracteristicile distribuiei t ne permit utilizarea ei i pentru eantioane mari, deoarece distribuia t tinde spre cea normal la valori din ce n ce mai mari ale gradelor de libertate.

EXEMPLU DE CALCUL:

S presupunem c vrem s vedem dac practicarea trainingului autogen (variabila independent) determin o cretere a performanei n tragerea la int, manifestat printr-un numr mai mare de lovituri n centru intei (variabil dependent). Pentru aceasta selectm un eantion de 6 sportivi care practic trainingul autogen i un eantion de 6 sportivi care nu l practic. Pentru fiecare eantion msurm performana de tragere.

Formularea ipotezei cercetrii, a ipotezei de nul, i a criteriilor deciziei statistice

Pentru exemplul de mai sus:

Problema cercetrii: Are practicarea trainingului autogen un efect asupra performanei la tirul cu arcul?

Ipoteza cercetrii (H1): Practicarea trainingului autogen determin un numr mai mare de puncte la edinele de tragere.

Ipoteza de nul (statistic) (H0): Numrul punctelor la edinele de tragere nu este mai mare la cei care practic trainingul autogen. Aceast variant este potrivit cu o testare unilateral a ipotezei (nu avem n vedere dect eventualitatea ca trainingul autogen s creasc performana sportiv).

Dac, ns, am dori s testm n ambele direcii, bilateral, atunci am avea urmtoarele versiuni ale ipotezelor:

Ipoteza cercetrii: Performana sportiv este diferit la subiecii care practic trainig autogen fa de cei care nu practic

Ipoteza de nul (statistic): Performana nu difer semnificativ n funcie de practicarea trainingului autogen.

Fixarea lui t critic. Alegem efectuarea unui test bilateral, pentru c nu putem ti dinainte dac TA nu are un efect negativ asupra performanei sportive a trgtorilor la int. Alegem nivelul: (=0,05. Stabilim gradele de libertate: df=N1+N2-2=10

Utiliznd tabelul distribuiei t pentru 10 grade de libertate (adic 12-2) i (=0,05, bilateral, gsim t critic=(2.228, la intersecia coloanei 0.025 i cu linia pentru 10 grade de libertate.

Valoarea t calculat va trebui s fie cel puin egal sau mai mare dect t critic, pentru a putea respinge ipoteza de nul i a accepta ipoteza cercetrii (vezi imaginea de mai jos).

Variabila independent (calitatea de practicant-nepracticant Training Autogen) ia dou valori, s zicem: 1 pentru practicanii trainingului autogen i 2 pentru nepracticani. Valorile 1 i 2 sunt convenionale i ne indic faptul c variabila independent a cercetrii noastre este msurat pe o scal nominal, categorial (dihotomic). Variabila dependent (performana de tragere la int) ia valori cantitative, exprimat n numr de lovituri n centrul intei, fiind de tip cantitativ (raport).

Datele cercetrii

practicani TA (1)ne-practicani TA (2)

X1(X1-m1)2X2(X2-m2)2

152.78102.78

918.7480,10

121.76117.12

130.10511.08

167.1271.76

152,7890.44

(8033.285023.28

N66

M13.338.33

= 6.67 = 4.66

S = 2.582.16

Calculm t pentru dispersii cumulate:

Mai nti, eroarea standard a diferenei (numitorul formulei):

SDif = = = 1.34

Iar apoi:

t = ==3.73

Comparm t calculat cu t critic din tabelul distribuiei t: 3.73 > 2.228

Decizia statistic: Se respinge ipoteza de nul

Concluzia cercetrii: Se admite ipoteza cercetrii. Practicarea trainingului autogen influeneaz performana n tirul cu arcul

Publicarea rezultatului

La publicarea testului t pentru diferena dintre mediile a dou eantioane independente vor fi menionate: mediile i abaterile standard ale fiecrui eantion, volumul eantioanelor sau gradele de libertate, valoarea testului, nivelul lui p.

n form narativ, rezultatul pentru exemplul de mai sus poate fi formulat astfel: Sportivii care practic trainingul autogen au fost comparai cu cei care nu practic. Primii au realizat o performan mai bun (m=13.33, (=2.58) fa de ceilali (m=8.33, (=2.16), t(10)=3.65, p0.01, pentru (=0.01 bilateral.

Limitele de ncredere pentru diferena dintre medii

La fel ca i n cazul testului t pentru eantioane independente, se pune problema generalizrii rezultatului la nivelul populaiei, cu alte cuvinte, care este intervalul n care ne putem atepta s se afle diferena dintre medii, pentru variabilele studiate. Pentru o estimare cu o precizie de 99%, conform cu nivelul alfa ales, limitele critice pentru diferena dintre medii sunt cele care corespund valorilor lui p=0,005, de o parte i de alta a curbei t (3.4998). Formula de calcul pentru intervalul de ncredere deriv, i n acest caz, din formula testului:

de unde rezult formula pentru calculul limitelor de ncredere ale mediei diferenei:

n condiiile studiului nostru, decizia statistic de acceptare a ipotezei de nul a infirmat ipoteza cercetrii dar analiza intervalului de ncredere poate ajuta la nelegerea mai bun a situaiei. nlocuind valorile corespunztoare studiului nostru, obinem urmtoarele limite de ncredere:

Limita inferioar: = -0,5-(-3.4998)*0.26=+0.40

Limita superioar = -0,5+(-3.4998)*0.26=-0.90

Rezultatul arat c dac media diferenei n condiiile eantionului de cercetare este de 0.5, atunci media adevrat a diferenie, la nivelul populaiei, se afl, cu o probabilitate p=0.99 (sau 99%), ntre o limit inferioar de +0.40 i o alta superioar de -0.90.

Not: n acest caz, +0.40 este limita inferioar deoarece t critic este negativ, iar o diferen mai aproape de zero, nseamn o valoare mai mic n raport cu extrema negativ a curbei.

Imaginea ilustreaz faptul c n, condiiile estimate pe eantionul de diferene cercetat, diferena real la nivelul populaiei de perechi de eantioane ar fi undeva ntre o valoare minim de +0.40 i una maxim de -0.90. Ceea ce ne atrage atenia este faptul c intervalul de ncredere include i valoarea zero, care corespunde diferenei nule dintre mediile eantioanelor comparate. Acest lucru corespunde faptului c testul t a avut o valoare nesemnificativ.O analiz a datelor ar putea s i arate cercettorului c unul dintre subieci a obinut un scor mai mare al anxietii dup terapie, fapt care este nefiresc i trebuie luat n discuie. Acest caz se pare ca a fost decisiv n neatingerea pragului de semnificaie. O discuie cu subiectul n cauz poate conduce la concluzia c problemele lui sunt de alt natur i c, n cazul su, terapia respectiv nu este eficient pentru c nu este adecvat suferinei pe care o are. Dac se constat c aa stau lucrurile n realitate, psihologul poate elimina din calcul valoarea acelui subiect, i poate reface calculele, situaie n care testul t ar putea deveni semnificativ iar metoda terapeutic, validat. Atenie, ns, dac n acest exemplul am recomandat eliminarea cazului atipic, am fcut-o bazai pe presupunerea c inadecvarea respectiv a fost dovedit convingtor i indubitabil. Eliminarea nejustificat a valorilor neconvenabile dintr-o cercetare este interzis.

Nu trebuie s omitem faptul nici faptul c, n exemplul nostru, este vorba de un eantion foarte mic iar eantioanele de acest gen conduc la valori mari ale erorii standard a mediei i, prin aceasta, la intervale de ncredere mai largi. Chiar atunci cnd obinem rezultate semnificative pe eantioane mici, ele pot prezenta un interval de ncredere mai mare dect rezultatele obinute pe eantioane mari. n acelai timp, trebuie s reinem c distribuia de eantionare a mediilor obinute pe eantioane mici este instabil, fapt care impune cel puin replicarea cercetrii, pentru mai mult siguran.

***

TEMA PENTRU ACAS

Ne propunem s scoatem n eviden efectul stresului temporal (criza de timp) asupra performanei de operare numeric. n acest scop, selectm un eantion de subieci crora le cerem s efectueze un test de calcule aritmetice n dou condiii experimentale diferite: prima, n condiii de timp nelimitat, cu recomandarea de a lucra ct mai corect; a doua, n condiii de timp limitat, cu condiia de a lucra ct mai repede i mai corect n acelai timp.

Rezultatele celor dou reprize sunt cele din tabelul alturat. S se rezolve urmtoarele sarcini:

Fr

criz de timpCu

criz de timp

6765

7973

8370

8085

9993

9588

8072

10069

1. Formularea ipotezei cercetrii i a ipotezei de nul

2. Stabilirea valorii t critic pentru =0,05 bilateral

3. Calcularea testului t

4. Decizia statistic

5. Decizia cercetrii

6. Formularea concluziei n raportul de cercetare (format APA)

Coeficientul de corelaie liniar (Pearson)

Introducere Testul t pentru eantioane dependente se aplic n situaia n care avem o variabil dependent msurat n dou situaii diferite. n practica cercetrii, ns, exist i situaia n care avem dou variabile dependente, msurate pentru aceiai subieci. Cu alte cuvinte, avem dou msurri pentru aceiai subieci, dar efectuate cu instrumente diferite. Acest gen de situaie este ntlnit n cercetri a cror problem se exprim n maniera: exist o legtur ntre numrul atitudini pozitive pe care le manifest oamenii i numrul atitudinilor pozitive pe care le primesc din partea celor din jur?. Sau: exist o legtur ntre timpul de reacie i nivelul extraversiunii ca trstur de personalitate?. n aceste cazuri avem dou variabile dependente cu valori perechi pentru fiecare subiect i nici o variabil independent.Pentru situaii de acest gen, problema care se pune este existena unei relaii variaia reciproc a acelor dou variabile. Testul statistic utilizat este testul de corelaie (coeficientul de corelaie). Termenul de corelaie, nainte de a fi un concept statistic este un cuvnt uzual n limbajul cotidian. n esen, el exprim o legtur ntre anumite aspecte ale realitii aa cum este ea reflectat n plan observaiei directe. (O parcare plin cu maini ne sugereaz c magazinul alturat este plin cu cumprtori, ntre numrul de maini din parcare i numrul de cumprtori existnd o anumit corelare). La nivel statistic, corelaia exprim o legtur cantitativ sistematic ntre valorile a dou variabile perechi, msurate pe subieci aparinnd aceluiai eantion de cercetare. S presupunem c un grup de studeni au efectuat un test de inteligen bazat pe raionament abstract/figurativ i unul altul, bazat pe raionament verbal/logic. Dac pe msur ce performana la unul dintre teste crete concomitent cu performana la cellalt test, avem ceea ce se numete o corelaie pozitiv. Dac, dimpotriv, creterea performanei la un test este asociat cu scderea performanei la celalalt test, ne aflm n faa unei corelaii negative. Este evident c exist i posibilitatea ca variaia performanei la unul din teste s nu aib nici o legtur cu variaia performanei la al doilea test.Intensitatea legturii dintre cele dou valorile celor dou distribuii se exprim prin coeficientul de corelaie liniar, notat cu simbolul r. Introdus de Karl Pearson[1], el mai este cunoscut i sub numele de coeficientul de corelaie Pearson, sau al moment-produsului, dup expresia uneia din formulele de calcul.n exemplul de mai sus am presupus valori care se refer la dou teste de inteligen, msurate, ambele, prin numrul de rspunsuri corecte. Cum am putea corela ns, dou variabile msurate fiecare cu alt unitate de msur, de exemplu, timpul de reacie n sutimi de secund, cu extraversiunea, exprimat prin scorul la un test? Soluia cea mai simpl este aceea de a transforma ambele variabile n distribuii standardizate z, care sunt independente de unitatea de msur. Pe aceast transformare se bazeaz i formula de calcul a coeficientului de corelaie:

(formula 3.21)

unde zx respectiv zy sunt scorurile z ale variabilelor x i y iar N este volumul eantionuluiDac presupunem c cele dou variabile au valori identice, atunci zx ar fi egali cu zy iar formula ar deveni:

(formula 3.22)

n continuare, prin nlocuirea expresiei de calcul a lui z am ajunge la formula deja cunoscut a dispersiei. Ori, tim c dispersia unei distribuii z este ntotdeauna egal cu +1. Am obinut astfel valoarea maxim pe care o poate atinge coeficientul de corelaie n cazul unei corelaii pozitive perfecte (rmax=+1). n cazul unei corelaii negative perfecte, conform aceluiai raionament, obinem valoarea minim a coeficientului de corelaie (rmin= 1).Reprezentarea grafic a corelaieiPlasarea valorilor celor dou variabile pe un grafic produce o imagine intuitiv a relaiei dintre valori. Acest tip de grafic se numete scatterplot.n cazul unei corelaii pozitive, reprezentrile scatterplot pot arta astfel:

Tendina este aceea ca valorilor mari de pe axa orizontal s le corespund valori mari pe axa vertical. n cazul unei corelaii pozitive perfecte (r=+1), punctele de intersecie ale perechilor de valori se plaseaz pe o linie. Cu ct corelaia este mai mic, cu att norul de puncte este mai larg dar forma elipsei indic relaia pozitiv dintre cele dou variabile.

n imaginea de mai jos avem reprezentri scatterplot caracteristice pentru corelaii liniare negative.

Tendina este aceea ca valorilor mari de pe axa orizontal s le corespund valori mici pe axa vertical. Ca urmare, att linia corelaiei negative perfecte (r=-1) ct i diagonala mare a elipsei norului de puncte al corelaiei imperfecte se orienteaz din stnga sus spre dreapta jos a sistemului de coordonate.

Atunci cnd corelaia dintre cele dou variabile este inexistent, norul punctelor de intersecie are o form circular, care nu contureaz nici o tendin (r=0).

Calcularea coeficientului de corelaie liniar (Pearson)De obicei, pentru a uura calcularea manual a coeficientului de corelaie, atunci cnd avem date numeroase, formula 3.21 este transformat prin nlocuirea expresiilor pentru scorul z. Se obine astfel o formul cu aparen mai complicat, dar mai uor de pus n practic, deoarece se bazeaz pe valori care se obin prin calcule simple:

de unde obinem: (formula 3.23)

unde: X i Y reprezint valorile individuale ale distribuiilor X i Y mx i my reprezint mediile distribuiilor X i Y sx i sy reprezint abaterile standard ale distribuiilor X i Y N este volumul eantionului Formula 3.23, numit i a momentului produselor poate fi utilizat pentru calcule, la fel de bine ca i formula 3.22, obinndu-se rezultate identice. EXEMPLU DE CALCUL Vom lua n considerare cazul aplicrii celor dou teste de raionament de tip diferit. n acest caz, ipoteza cercetrii se exprima n maniera: exist o legtur (corelaie) ntre cele dou tipuri de raionament, cei care obin rezultate bune la unul din teste, vot tinde sa obin rezultate bune i la celalalt. Desigur, ipoteza poate fi formulat i corespunztor unei corelaii negative, dac avem motive s presupunem acest lucru.Scorul la un test de calcul aritmeticScorul la un test de raionament verbalProdusulZ

XZXYZYZX*ZY

25= -.6828= -.27(-.68)(-.27) = .18

32.3527- .41- .14

401.53411.592.43

29- .0934.59- .05

31.2025-.70- .14

16-2.0219-1.553.13

28- .2426- .55.13

36.94391.301.23

X = 237Y = 239

mX= 29.63mY = 29.88 zX*zY = 6.77

sX = 6.76sY = 7.01

Graficul scatterplot exprim o asociere pozitiv ntre cele dou variabile:

Pentru calcularea coeficientului de corelaie am ales formula de definiie (11.1), care se preteaz la distribuii cu numr mic de valori. nlocuind valorile n formul, obinem coeficientului de corelaie:

Semnificaia coeficientului de corelaie La fel ca i n cazul celorlalte teste statistice, i coeficientul r se raporteaz la o distribuie teoretic, derivat din distribuia t. Indiferent ct de mare este r calculat, nu putem avea ncredere n acesta atta timp ct nu tim n ce msur este diferit de un r care ar rezulta prin jocul ntmplrii. Pentru aceasta se utilizeaz distribuia t i o formul care deriv din testul t. Pentru uurarea evalurii semnificaiei, a fost creat un tabel special cu praguri de semnificaie ale coeficientului de corelaie r i care poate fi folosit fr a mai fi necesar utilizarea formulei (Anexa 4). Practic, se caut n tabel care este nivelul lui r pentru numrul gradelor de libertate (df=N-2) i pragul ales n prealabil. Dac valoarea tabelar este cel puin egal cu valoarea calculat a lui r, atunci ipoteza de nul se respinge, coeficientul de corelaie fiind considerat semnificativ.n cazul exemplului de mai sus, pentru test unilateral, =0.05 i df=6 (8-2), citirea tabelului se face ca n figura alturat.Valoarea din tabel a lui r este 0.62. n timp ce valoarea calculat de noi este 0.85. Aceasta nseamn c am obinut un coeficient de corelaie mai mare dect cel care ar fi rezultat prin jocul ntmplrii[2].

Ca urmare, respingem ipoteza de nul (ntre cele dou variabile nu este nici o legtur) i acceptm ipoteza cercetrii (performana aritmetic i cea verbal logic sunt corelate, variaz concomitent, n acelai sens ) Interpretarea coeficientului de corelaieAa cum am spus deja, avem o corelaie perfect atunci cnd r este egal cu +1 sau 1. Valoarea obinut de noi (+0.85) este apropiat de +1 ceea ce ne sugereaz c ntre cele dou tipuri de performan exist o legtur. Desigur, +0.85 este mai puin dect +1 dar i mai mult dect, s zicem, +0.32. O asemenea interpretare, dei absolut corect, nu poate fi satisfctoare. Se simte necesitatea de a avea un criteriu de valorizare a cuantificrii numerice a corelaiei. De-a lungul timpului au fost propuse diverse astfel de scale de valorizare, prin atribuirea unor calificative coeficienilor de corelaie, n funcie de mrimea lor. Aceast problem comport multe discuii iar soluiile oferite de diferii autori sunt deseori diferite. Ca regul general, toi autorii sunt de acord c valorile sub 0,1 ale coeficienilor de corelaie trebuie s fie considerate neglijabile, chiar i atunci cnd ating pragul de semnificaie statistic. Mai departe, oferim, cu caracter orientativ, modelul de descriere sugerat de Hopkins[3] cu privire la interpretarea valorilor coeficienilor de corelaie: Coeficientul de corelaieDescriptor

0.0-0.1Foarte mic, neglijabil, nesubstanial

0.1-0.3Mic, minor

0.3-0.5Moderat, mediu

0.5-0.7Mare, ridicat, major

0.7-0.9Foarte mare, foarte ridicat

0.9-1Aproape perfect, descrie relaia dintre dou variabile practic indistincte

naintea oricrui calificativ ns, prima condiie pentru a lua n considerare existena unei corelaii ntre dou variabile rmne atingerea pragului de semnificaie (alfa). Dac valoarea lui r corespunde unui nivel alfa mai mare de 0.05, sau dect alt prag legitim decis de cercettor, existena unei corelaii este de neluat n seam, indiferent de mrimea coeficientului Pearson. Aceasta, deoarece nu avem temei pentru a accepta c se ndeprteaz suficient de o valoare care ar fi putut decurge din jocul hazardului. n cele din urm, ce trebuie s lum n considerare, semnificaia sau intensitatea asocierii? Desigur, rspunsul este unul relativ. Dac finalitatea studiului este aceea de a lua decizii, ca n cazul seleciei de personal, de exemplu, se vor cuta valori ct mai mari ale coeficientului de corelaie (r), implicit ale celui de determinare (r2). Dar, dac obiectivul este preponderent teoretic, de a pune n eviden relaii ascunse ntre variabile, atunci indiferent de mrimea lor, coeficienii de corelaie vor fi luai n considerare (dar numai dac sunt mai mari de 0.1). Limitele de ncredere pentru coeficientul de corelaieAtunci cnd calculm coeficientul de corelaie pentru valorile msurate pe un eantion o facem, desigur, cu scopul de a avea o estimare asupra gradului n care cele dou variabile au o variaie comun la nivelul ntregii populaii. Deoarece calcularea corelaiei pe valorile populaiei este practic imposibil, tot ce putem face este s o estimm, cu o anumit marj de eroare, prin utilizarea eantionului. Astfel, n termeni formali, r (calculat pentru eantion) este o estimare pentru (ro), corelaia adevrat la nivelul populaiei.Calcularea limitelor de ncredere Construirea intervalelor de ncredere pentru coeficientul de corelaie la nivelul populaiei () nu este la fel de simpl ca n cazul altor valori statistice. Atunci cnd =0, valorile rs (cele care ar fi calculate pe eantioanele extrase din aceeai populaie) ar forma o distribuie simetric, n jurul lui zero (normal, dac volumul eantionului este suficient de mare). Dar dac =+0.7 distribuia lui rs are o mprtiere asimetric n jurul lui acestei valori. Motivul este simplu: este mai mult loc pentru valori sub +0.7 dect peste aceast valoare (deoarece tim c r ia valori ntre -1 i +1). Cu ct estimarea pentru este mai aproape de limitele teoretice ale lui r, cu att distribuia rs este mai asimetric spre partea opus. Aceast particularitate creeaz o piedic n transformarea coeficienilor rs n scoruri Z (cu majuscul, pentru a se evita confuzia cu scorurile z clasice), necesare construirii limitelor intervalului de ncredere pentru . Problema a fost rezolvat de Fisher, care a elaborat un algoritm pe baza cruia valorile rs sunt transformate n valori Z, a cror arie de distribuie sub curba normal este cunoscut:

Z=0.5log[(1+r)/(1-r)]

Pentru a se evita aplicarea acestei formule relativ greoaie, se poate utiliza un tabel (vezi Anexa 5) care, chiar dac nu conine toate valorile intermediare, este suficient pentru a acoperi nevoile practice. S lum ca exemplu valoarea coeficientului de corelaie parial obinut de noi mai sus: r=0.85. Ne propunem s aflm care sunt limitele de ncredere ale acestei valori, adic s definim intervalul n care se poate afla o astfel de valoare, cu o probabilitate asumat. De regul, aa cum tim, aceast probabilitate asumat este de 0.05 sau, exprimat altfel, un nivel de ncredere de 95%. Practic, aflarea limitelor se face astfel:- Se transform r calculat n valoare Z, citind tabela Fisher: n cazul nostru, pentru r=0.85 avem o valoare Z=1.2561 (facem o medie ntre valorile tabelare apropiate). Pe o distribuie normal, cum este distribuia de eantionare Z, tim c aproximativ 95% dintre valori se ntind ntre -1.96 i +1.96. Adic, pe o distan de aproximativ dou abateri standard n jurul mediei (abaterea standard a valorilor Z fiind 1). - Se calculeaz eroarea standard a transformrii Z, cu formula:

unde N este volumul eantionului - Se calculeaz limitele superioar i inferioar a intervalului:, adic:

Limita superioar (exprimat n uniti Z): 1.2562+1.96*0.447=+2.132Limita inferioar (exprimat n uniti Z): 1.2562-1.96*0.447=+0.380 Limitele astfel calculate sunt exprimate n valori transformate Z, ori noi avem nevoie s tim limitele n valori ale lui r. Pentru aceasta, facem acum transformarea invers, citind valorile lui Z n tabela Fisher, corespunztoare celor dou limite de mai sus:

Limita superioara de ncredere pentru r=+0.97 Limita inferioar de ncredere pentru r=+0.36 Utilizarea limitelor de ncredereDac analizm limitele intervalului de ncredere obinute, pentru exemplul nostru, trebuie s constatm c ele sunt foarte mari, n zona valorilor pozitive, dar avnd limita inferioar extrem de aproape de valoarea zero. Acest fapt conduce la concluzia c, dei este att mare i semnificativ statistic, coeficientul obinut are o valoare mic de generalizare. Situaia este generat de volumul extrem de mic al eantionului. Amplitudinea intervalului de ncredere este direct dependent de volumul eantionului. Cu ct N este mai mare, cu att valoarea erorii standard tinde s scad, ceea ce aduce limitele intervalului de ncredere mai aproape de valoarea calculat a lui r.S ne imaginm c am efectuat un calcul de corelaie pe 30 de subieci i am obinut r=0.30. Limitele de ncredere pentru acesta sunt ntre -0.07 i +0.60, ceea ce arat c este nesemnificativ, dat fiind faptul c ntre cele dou limite este i valoarea zero, aceea care este vizat de ipoteza de nul. Dar, dat fiind faptul c n formula erorii standard a lui r volumul eantionului de afl la numitor, cu ct N va fi mai mare, cu att valoarea lui re va fi mai mic iar limitele intervalului de ncredere pentru r, mai aproape de r. Pentru exemplul anterior, calculele ne arat c, dac am crete volumul eantionului la 50 de subieci, limita inferioar trece deja peste valoarea zero. Celelalte linii din tabel prezint efectul de mrime al eantionului n cazul creterii lui N pn la 100 de subieci. NPearsonrNiv. de ncredere(%)Limite de ncredere

inferioarsuperioar

300,3095-0,070,60

400,3095-0,010,56

500,30950,020,53

600,30950,050,51

700,30950,070,50

800,30950,090,49

900,30950,100,48

1000,30950,110,47

Corelaie i cauzalitateCoeficientul de corelaie ne ofer infirmaii despre modul n care variaz valorile a dou variabile una n raport cu cealalt. Ca urmare, nu i se poate atribui o semnificaie de cauzalitate ntre variabile dect atunci cnd cele dou variabile au fost msurate ntr-un context care probeaz cauzalitatea. Iar acest lucru se petrece numai n situaii de experiment. Coeficientul de determinareValorile lui r trebuie considerate pe o scal ordinal. Cu alte cuvinte, nu este permis s afirmm c un coeficient de corelaie de 0.40 este de dou ori mai mare dect un altul de 0.20. Dac dorim s comparm n mod direct doi coeficieni de corelaie trebuie s ridicm valorile lui r la ptrat (r2) obinnd astfel ceea ce se numete coeficient de determinare (prezentat n programele statistice i ca r squared). Pentru exemplificare, 0.852 = 0.72. Dac citim n procente rezultatul obinut, putem spune c 72% din variaia (mprtierea) uneia dintre cele dou variabile este concomitent cu variaia celeilalte variabile. Sau, pentru a fi i mai coreci, cele dou variabile au in comun 72% din variaia care le caracterizeaz.Caracterul liniar al corelaiei PearsonTrebuie s reinem c ceea ce exprim r este nivelul corelaiei liniare, adic msura n care linia care unete valorile perechi este rectilinie. Aceasta este o form de aproximare a legturii dintre variabile. n realitate, uneori, corelaia dintre dou variabile are o form care se abate de la modelul rectiliniu (este o curb). Dac privim imaginile de mai jos, vom vedea cteva tipuri posibile de curbe de corelaie. Figurile a i b exprim corelaii perfecte dar care se supun unui model curbiliniu, n timp ce figura c reprezint o corelaie perfect dar rectilinie.

Exist i proceduri de calculare a coeficientului de corelaie curbilinie dar acestea nu fac obiectul unei introduceri n statistica aplicat. Calcularea corelaiei Pearson pentru variabilele reprezentate in figurile a i b, ar conduce la valori mici ale acesteia, n ciuda asocierii grafice evidente a valorilor lor. Iat i un exemplu concret n acest sens. Am introdus valorile lui z i probabilitile corespunztoare de pe curba normal, ntr-un program de prelucrri statistice. Coeficientul de corelaie i curba de distribuie pentru cele dou variabile sunt prezentate n imaginea de mai jos[4]:

Aa cum se observ, n timp ce r=0 indic absena oricrei corelaii liniare ntre variabile, dei curba de distribuie arat o corelaie curbilinie perfect.

Din fericire, astfel de situaii sunt rare n realitate, modelul corelaiei liniare fiind adecvat pentru un mare numr de relaii dintre variabilele naturale, incluzndu-le i pe cele psihologice. Atunci cnd exist suspiciuni consistente cu privire la natura liniar a legturii dintre variabile, se pot efectua anumite transformri care s le aduc n cadrul unei variaii liniare (de exemplu, extragerea radicalului sau logaritmarea variabilelor). Atunci cnd se raporteaz un coeficient de corelaie fr a se preciza caracterul liniar sau curbiliniu, vom considera c acesta se refer la corelaia liniar. Oricum, graficul scatterplot ofer informaii suplimentare semnificative i, din acest motiv, este recomandabil analizarea acestuia de fiecare dat cnd utilizm testul de corelaie Pearson. Condiii pentru calcularea coeficientului de corelaie PearsonPentru a putea utiliza n mod legitim calculul de corelaie, eantionul trebuie s fie aleator iar cele dou variabile (ambele msurate pe scale de interval/raport) trebuie s aib o distribuie care s nu se abat grav de la distribuia normal. Aceast condiie este cu att mai important cu ct eantionul este mai mic.Utilizarea coeficientul de corelaieAnaliza de corelaie este una dintre cele mai uzuale proceduri statistice n cercetarea psihologic. Printre utilizrile cele mai comune menionm analiza consistenei i validitii testelor psihologice. Consistena se refer la gradul n care un instrument de evaluare se concentreaz asupra unei anumite realiti psihice. Validitatea, se refer la faptul dac ceea ce presupune c msoar un instrument psihologic este msurat cu adevrat (de exemplu, o scal de anxietate msoar cu adevrat anxietatea?). Din cele prezentate, rezult c putem utiliza coeficientul atunci cnd avem serii perechi de distribuii. Pentru o mai bun nelegere, se cuvine s facem cteva aprecieri comparative cu testul t pentru eantioane dependente. Testul t pentru eantioane dependente, se aplic atunci cnd msurm o anumit variabil n dou situaii diferite (de ex. nainte/dup), ceea ce presupune aceeai unitate de msur. Coeficientul de corelaie poate fi aplicat att pentru variabile msurate cu aceeai unitate de msur ct i pentru variabile exprimate n uniti de msur diferite. Aceasta deoarece formula de calcul ia n considerare expresia standardizat a valorilor (corurile z). ntrebarea este, cnd utilizm unul sau altul dintre cele dou teste? Rspunsul ine de scopul pe care ni-l propunem. Dac dorim s punem n eviden diferena dintre valorile medii ale variabilelor, vom aplica testul t pentru eantioane dependente. Dac ne intereseaz intensitatea variaiei concomitente a variabilelor, vom utiliza coeficientul de corelaie.

Publicarea rezultatului corelaiei (APA style)A fost evaluat performana la un test de calcul aritmetic i la unul de raionament verbal logic. Scorurile mari se refer la performane ridicate. Media scorului la primul test a fost de m=29.63 (s=6.76) iar la al doilea m=29.88 (s=7.01). Am obinut o corelaie semnificativ ntre cele dou performane, r(6)=0.85, p