Statistica aplicata in stiintele socio umane. Volumul II

372
STATISTICĂ APLICATĂ ÎN ŞTIINŢELE SOCIO-UMANE Analiza asocierilor şi a diferenţelor statistice Cristian Opariuc-Dan Constanţa, august 2011

description

 

Transcript of Statistica aplicata in stiintele socio umane. Volumul II

SSTTAATTIISSTTIICCĂĂ AAPPLLIICCAATTĂĂ ÎÎNN

ŞŞTTIIIINNŢŢEELLEE SSOOCCIIOO--UUMMAANNEE Analiza asocierilor şi a diferenţelor statistice

Cristian Opariuc-Dan

Constanţa, august 2011

Cristian Opariuc-Dan

3

Fiicei mele, Riana-Ingrid

Statistică aplicată în ştiinţele socio-umane

4

Cuprins

Cuprins ............................................................................................................. 4

Prefață .............................................................................................................. 7

Cuvântul autorului ......................................................................................... 11

I. Relaţii între variabile ............................................................................. 13

I.1 Coeficienţi de corelaţie neparametrici ............................................ 18

I.1.1 Coeficientul de corelaţie a rangurilor ρ (rho) Spearman ......... 19

I.1.2 Coeficientul de corelaţie a rangurilor τ (tau) Kendall ............. 26

I.1.3 Coeficientul de contingenţă χ2 (chi pătrat) .............................. 36

I.1.4 Coeficientul de asociere φ (phi), coeficientul V Cramer şi

coeficientul de contingenţă (cc), derivaţi din χ2 .................................... 42

I.1.5 Coeficientul de asociere λ (lambda) Goodman şi Kruskal ...... 48

I.1.6 Coeficientul de asociere γ (gamma) ........................................ 53

I.1.7 Coeficientul tetrachoric şi polichoric ....................................... 56

I.1.8 Coeficientul de concordanţă W Kendall .................................. 58

I.1.9 Coeficientul de corelaţie rang biserială ................................... 62

I.2 Coeficienţi de corelaţie parametrici ................................................ 64

I.2.1 Coeficientul de corelaţie r Bravais-Pearson ............................ 64

I.2.2 Coeficientul de corelaţie biserial, punct biserial şi triserial ..... 78

I.2.3 Coeficientul de corelaţie eneahoric ......................................... 87

I.3 Corelaţii parţiale .............................................................................. 90

I.3.1 Corelaţii semi-parţiale ............................................................. 95

I.3.2 Corelaţii parţiale pentru date neparametrice ............................ 96

I.3.3 Semnificaţia corelaţiilor parţiale ............................................ 100

I.4 Interpretarea coeficienţilor de corelaţie ........................................ 102

Cristian Opariuc-Dan

5

I.4.1 Grade de libertate ................................................................... 106

I.4.2 Efecte exercitate şi varianţă ................................................... 107

I.4.3 Strategii de analiză şi interpretare a corelaţiilor .................... 109

I.5 Obţinerea coeficienţilor de corelaţie în SPSS ............................... 117

I.5.1 Coeficienţi de corelaţie bazaţi pe date parametrice ............... 117

I.5.2 Coeficienţi de corelaţie bazaţi pe date neparametrice ........... 134

I.5.3 Raportarea studiilor corelaţionale .......................................... 155

II. Diferenţe statistice bivariate ................................................................ 160

II.1 Planuri de cercetare ....................................................................... 161

II.1.1 Planuri de cercetare de bază .................................................. 165

II.1.2 Planuri de cercetare complexe ............................................... 174

II.2 Teste statistice pentru date neparametrice .................................... 182

II.2.1 Diferența dintre frecvențe. Testul χ2 ...................................... 182

II.2.2 Teste pentru eșantioane independente ................................... 188

II.2.3 Teste pentru eșantioane dependente ...................................... 200

II.3 Teste statistice pentru date parametrice ........................................ 205

II.3.1 Teste pentru un singur eșantion ............................................. 206

II.3.2 Teste pentru două eșantioane independente .......................... 212

II.3.3 Teste pentru două eșantioane perechi .................................... 216

II.4 Teste statistice de normalitate și teste pentru valori aberante ....... 220

II.4.1 Teste pentru valori aberante ................................................... 221

II.4.2 Teste de normalitate ............................................................... 226

II.5 Interpretarea testelor statistice ...................................................... 234

II.5.1 Puterea testului și mărimea efectului ..................................... 238

II.6 Realizarea testelor statistice în SPSS ............................................ 253

II.6.1 Procedee neparametrice ......................................................... 254

Statistică aplicată în ştiinţele socio-umane

6

II.6.2 Procedee parametrice ............................................................. 267

II.6.3 Analiza normalității și a scorurilor aberante .......................... 274

III. Analiza fidelităţii .............................................................................. 283

III.1 Metode de analiză a fidelităţii ................................................... 288

III.1.1 Metoda test-retest ................................................................... 290

III.1.2 Metoda înjumătăţirii .............................................................. 291

III.1.3 Metoda consistenţei interne ................................................... 298

III.1.4 Metoda formelor paralele ...................................................... 306

III.1.5 Metoda acordului între evaluatori .......................................... 307

III.1.6 Interpretarea coeficienţilor de fidelitate ................................. 310

III.2 Analiza fidelităţii în SPSS for Windows ................................... 312

III.2.1 Analiza consistenţei interne ................................................... 318

III.2.2 Analiza fidelităţii prin metoda înjumătăţirii .......................... 337

III.2.3 Analiza fidelităţii prin metoda formelor paralele .................. 341

III.2.4 Analiza fidelităţii inter-evaluatori .......................................... 343

III.2.5 Analiza fidelităţii test-retest (stabilităţii) ............................... 346

III.2.6 Consideraţii finale .................................................................. 347

Bibliografie .................................................................................................. 350

Anexe ........................................................................................................... 352

Cristian Opariuc-Dan

7

Prefață

Cartea domnului Cristian Opariuc-Dan, intitulată „Statistică aplicată

în ştiinţele socio-umane. Analiza asocierilor şi diferenţelor statistice” este o

continuare firească a primului volum apărut, nu cu mult timp în urmă, la edi-

tura ASCR din Cluj-Napoca. Continuarea realizată în lucrarea de faţă este

semnului unei perseverenţe lăudabile, dovadă a pasiunii domniei sale faţă de

conţinutul acestei onorabile discipline. Continuitatea se manifestă şi în partea

stilului năvalnic, care parcă vrea să spună totul dintr-o suflare, care vrea să

epuizeze ultimele rezerve faţă de disciplina statisticii din sufletul cititorului

dornic de iniţiere. Ca atare, exemplele sunt foarte numeroase şi cât se poate

de adecvate.

Nu sunt aşa de îndepărtate vremurile în care cunoştinţele statistice

erau o raritate în arealul specialiştilor din domeniul ştiinţelor socio-umane. În

rândul psihologilor, acestea erau păstrate şi răspândite de o elită intelectuală,

din care amintim numele lui Nicolae Mărgineanu ca fiind cel mai reprezenta-

tiv. Între 1950 şi 1989, pregătirea în sfera metodelor cantitative din domeniul

psihologiei era destul de sumară, delimitată strict la prezentarea câtorva noţi-

uni fundamentale şi, mai ales, a distribuţiei normale Gauss – Laplace, în as-

pectul figurativ, nu de conţinut. O bună parte dintre psihologii practicieni nu

au terminat sau aprofundat studii de psihologie, ca atare, chiar construcţia

etaloanelor li se părea o taină de nepătruns. Analizele multivariate păreau

realităţi galactice, greu accesibile pentru psihologul practician care nu avea o

ambianţă profesională de pregătire continuă. Încercarea de lichidare a psiho-

logiei din ultimii ani ai dictaturii comuniste părea să extindă ignoranţa în pri-

vinţa metodelor ştiinţifice de abordare a acestui domeniu.

După anul de cotitură 1989, învăţământul românesc de psihologie s-a

revigorat şi a evoluat rapid, cred eu mai mult extensiv, situaţie care s-a reper-

Statistică aplicată în ştiinţele socio-umane

8

cutat şi asupra domeniul statisticii aplicate. Au apărut o serie de autori com-

petenţi, cu deosebit potenţial, cu stagii de pregătire în străinătate, care au ela-

borat lucrări în domeniu comparabile cu cele din ţările cu tradiţie în cerceta-

rea psihologică. Dintre aceşti autori amintim pe Ilie Puiu Vasilescu, practic

un deschizător de drumuri în domeniu, după 1989, Florin Sava, Mihai Hohn,

Filaret Sîntion, regretatul coleg Horia Pitariu, Dragoş Iliescu, Marian Popa,

Adrian Vicenţiu Labăr, Monica Albu. În acest cerc select cred că a reuşit să

intre şi Cristian Opariuc-Dan.

Ne putem întreba: care este motivul pentru care autorul dă dovadă de

pedantism în cursul lucrării, care face conţinutul comprehensibil și pentru

persoane cu o slabă pregătire academică? Pentru cineva care nu lucrează în

domeniul pe care l-a îmbrăţişat autorul cărţii, suprasaturarea cu explicaţii

pare de neînţeles. Adevărul este că statistica se prezintă ca o disciplină greu

asimilabilă de către studenţii de la psihologie. Venind să studieze psihologia,

o disciplină prin excelenţă umanistă, o parte dintre ei cred că au scăpat defini-

tiv de tabelele, ecuaţiile şi demonstraţiile din anii de liceu, dar, constată că,

chiar din primul an, reîncep o disciplină matematizată pentru care nu au pasi-

une şi înclinaţii. În ţările cu tradiţie în studiul psihologiei au apărut articole

care explică de ce studenţii au aversiune faţă de statistică şi tratamente mate-

matice. Strict vorbind, statistica nu este chiar matematică, ci mai mult o co-

lecţie de metode şi teorii care vizează modul de gestionare a ansamblurilor

de date rezultate din cercetarea şi practica profesională, care implică parţial

tratament matematic. În plus, să nu uităm, există în psihologie şi în varii do-

menii un curent de gândire anti-statistic care exagerează în ideea inadecvării

metodelor cantitative în abordarea unor areale ale preocupărilor academice

caracterizate de hiper-complexitate structurală şi supleţe funcţională. Un ex-

ponent al unui astfel de mod de gândire este cuprins în bestsellerul libanezu-

lui Nassim Nicholas Taleb, intitulat „Lebăda Neagră. Impactul foarte puţin

probabilului”, apărut la Curtea Veche Publishing în 2010. La pagina 265 a

acestei cărţi, el spune: „Uitaţi tot ce aţi auzit în facultate despre statistică sau

Cristian Opariuc-Dan

9

teoria probabilităţilor. Dacă nu aţi urmat niciodată astfel de cursuri, e foarte

bine”. Ce putem să spunem despre astfel de reacţii? A constata inadecvarea

modelului gaussian, cum a făcut-o Taleb, nu îţi dă dreptul să negi importanţa

unei discipline ştiinţifice aflată în extindere rapidă în aproape toate îndeletni-

cirile omeneşti.

Pentru psihologi, absenţa disciplinei Statistică din programul de pre-

gătire universitară de bază ar înseamnă lipsirea de un instrument absolut ne-

cesar de comunicare şi de verificare a cercetărilor ştiinţifice. Conştientizând

importanţa predării acestei discipline pentru viitorul cercetător sau profesio-

nist practician, cei care au proiectat curriculumul facultăţilor de psihologie au

înregistrat statistica în rândul disciplinelor fundamentale, alături de introdu-

cere în psihologie, psihologia dezvoltării, psihologia socială, fundamentele

ştiinţifice ale psihoterapiei, psihodiagnostic, metodele de cercetare şi psiho-

logia diferenţială. O anchetă efectuată în Statele Unite ale Americii în rândul

foştilor absolvenţi de psihologie, referitoare la importanţa disciplinelor ştiin-

ţifice predate în facultate asupra succesului profesional, indică statistica pe

locul al treilea, după psihologia socială şi psihoterapie.

Lucrarea domnului Opariuc-Dan are ca bază de pornire dificultăţile

întâmpinate de studenţi în înţelegerea statisticii. Experienţa în predarea disci-

plinei Statistică aplicată în psihologie, m-a ajutat să detectez două puncte

esenţiale ale acestor dificultăţi: clara înţelegere a noţiunilor predate şi apli-

carea robotică a unor formule pentru a evidenţia semnificaţia rezultatelor

cercetării. Insuficienta insistare asupra acestor două aspecte duce la formarea

unor deprinderi procustiene, care vor avea drept consecinţă simplismul inter-

pretativ. La aceiaşi concluzie pare să fi ajuns şi autorul cărţii atunci când in-

sistă, precum Cato în senatul Romei, asupra combaterii proastelor deprinderi

în practicarea statisticii.

Imensa maşinărie statistică numită SPSS este o invenţie minunată, ca-

re ajută studenţii, cercetătorii şi practicienii să scurteze la minimum timpul

Statistică aplicată în ştiinţele socio-umane

10

acordat pentru realizarea unor activităţi rutiniere, însă care nu poate fi utiliza-

tă fără cunoaşterea suficientă specificului aplicativ al unor proceduri. Nu în-

tâmplător, autorul insistă atât de mult pe corectitudinea unor aplicaţii statisti-

ce şi pe oportunitatea lor. În aplicarea unor tipuri de analize factoriale, reali-

zatorii unor studii trebuie să cunoască bine exigenţe referitoare dimensiunea

scalară a datelor, la liniaritatea relaţiilor între variabile şi la numărul minim

de subiecţi care trebuie să fie prezenţi în cercetare. Dacă nu suntem atenţi la

astfel de aspecte, riscăm să fim catalogaţi drept creatori de artefacte în activi-

tatea ştiinţifică şi de folosire abuzivă, incompetentă a unor creaţii tehnice de

excepţie. Cristian Opariuc-Dan a relevat bine deficienţele de înţelegere ale

statisticii de către studenţi, şi ne oferă o lucrare de un impresionant efort ana-

litic şi sintetic.

Conf. univ. dr. Aurel Stan

Universitatea Al. I. Cuza Iași

Facultatea de Psihologie și Științe ale Educației

Cristian Opariuc-Dan

11

Cuvântul autorului

Bine v-am regăsit! După ce am aprofundat aspectele referitoare la

analiza unei singure variabile – statistici pe care le-am numit statistici

univariate –, a venit timpul să ne concentrăm asupra analizei relaţiilor dintre

două sau mai multe variabile. Lucrurile nu sunt deloc complicate, în compa-

raţie cu cele prezentate în prima lucrare. Avem şi aici algoritmi clari de lucru,

şi ne ajută acelaşi pachet binecunoscut de programe, SPSS.

De data aceasta, nu vom mai analiza în detaliu o singură variabilă, ci

ne vom concentra asupra legăturilor care există între variabile. Vom încerca

să aflăm care este legătura dintre lungimea părului şi coeficientul de inteli-

genţă, sau dacă pletoşii sunt, ori nu sunt, mai inteligenţi în comparaţie cu cei

care au părul scurt. De asemenea, vom încerca să vedem în ce mod o variabi-

lă poate fi influenţată de alte variabile; dacă inteligenţa unui copil poate fi

apreciată în baza notelor pe care acesta le are la matematică, fizică, chimie,

limba română ori alte discipline. Pornind tot de la relaţiile dintre variabile,

vom încerca să aflăm dacă din răspunsurile la întrebările unui chestionar pu-

tem afla un element comun, şi cât de precis este acesta.

În limbaj „tehnic”, vom studia elemente legate de corelaţii, diferenţe

şi studiul fidelităţii, toate cu referire la date parametrice şi neparametrice.

Unii vor spune că analiza fidelităţii prezintă un grad mai ridicat de di-

ficultate, iar aceste elemente nu trebuie tratate împreună. Să vedem dacă este

chiar aşa.

Nu-i voi uita pe cei care m-au ajutat să scriu acest volum și care au

contribuit, într-o formă sau alta, la apariția cărții.

Îi mulțumesc soției mele, Iulia-Laura, pentru răbdarea pe care a avut-o

cu mine, în lungile zile în care nu m-am despărțit de computer, scriind aceste

Statistică aplicată în ştiinţele socio-umane

12

rânduri. Scutindu-mă, de multe ori, de treburile casnice, încurajându-mă să

scriu, soția mea a accelerat în mod semnificativ apariția acestui volum.

Recunoștința mea se îndreaptă către profesorul universitar Ilie Puiu

Vasilescu de la universitatea Wise din Virginia, Statele Unite, din ale cărui

cărți am învățat statistică, și care a binevoit să analizeze critic documentul,

corectându-mă atunci când am greșit. De asemenea, profesorul universitar

Corneliu Eugen Havârneanu și-a adus o importantă contribuție, fiind atât cel

de la care am învățat elementele de bază ale analizei de date, cât și cel care a

avut răbdarea de a citi documentul, a-mi face observații pertinente și a furni-

za impresiile sale referitoare la carte.

Ca întotdeauna, profesorul Aurel Stan s-a ocupat și de această carte,

de la impresii și corectură la procesul redacțional, lucru pentru care îi sunt

profund recunoscător.

De asemenea, țin să aduc mulțumiri profesorului Filaret Sîntion, de la

universitatea Ovidius Constanța, pentru numeroasele seri petrecute împreună,

momente în care discuțiile noastre pe această temă au contribuit la consolida-

rea și sistematizarea acestui volum. Mulțumiri speciale aș dori să aduc doam-

nei profesor Monica Albu. Observațiile și criticile constructive aduse de

domnia sa au contribuit, sper, la o calitate superioară a acestei lucrări. Exi-

gența de care a dat dovadă mă ajută să mă perfecționez și să pot, la un mo-

ment dat, să ating standardele la care doamna profesor se raportează.

Nu în ultimul rând, vă mulțumesc dumneavoastră, celor care ați cum-

părat această carte, onorându-mă astfel cu dorința de a învăța.

V-am promis în primul volum că vă voi scoate la lumină, în ceea ce

priveşte metoda statistică, aplicată în ştiinţele socio-umane. Consider că am

făcut-o. Acum haideţi să schimbăm becul de 60 de waţi, pe care l-am aprins

în primul volum, cu un bec de 100 de waţi, şi să facem şi mai multă lumină…

Constanţa, 9 august 2011

Cristian Opariuc-Dan

13

II.. RREELLAAŢŢIIII ÎÎNNTTRREE VVAARRIIAABBIILLEE În acest capitol se va discuta despre:

Conceptul de covarianţă şi corelaţie;

Calculul coeficienţilor de corelaţie parametrici

şi neparametrici;

Analiza şi interpretarea coeficienţilor de corela-

ţie;

Reprezentarea grafică şi analiza graficelor core-

laţiilor;

După parcurgerea capitolului, cititorii vor fi capabili să:

Înţeleagă diferenţa dintre covarianţă şi corela-

ţie;

Calculeze coeficienţii de corelaţie parametrici şi

neparametrici;

Analizeze şi să interpreteze coeficienţii de core-

laţie;

Utilizeze SPSS în calculul coeficienţilor de core-

laţie.

În general, într-o cercetare ştiinţifică, nu ne putem rezuma doar la stu-

diul unei singure variabile, deşi acest pas este important pentru stabilirea

normalităţii distribuţiei. Faptul că notele obţinute de către candidaţi la un

examen de admitere la facultate sunt sau nu sunt distribuite normal, este de

mare importanţă, atât pentru aflarea nivelului candidaţilor respectivi, cât şi în

vederea stabilirii procedurilor ulterioare de analiză. Nu ne putem, însă, rezu-

ma doar la acest lucru. Ne-ar interesa, poate, să aflăm dacă există vreo legătu-

ră între aceste note şi coeficientul de inteligenţă, să vedem dacă, într-adevăr,

cei cu medii mari la admitere au şi un coeficient de inteligenţă ridicat, sau din

contra.

Aceasta este o problemă specifică, ce poate fi abordată printr-un stu-

diu corelaţional. Ca în orice studiu ştiinţific, începem de la un fapt de obser-

vaţie. De exemplu, constatăm în ultimii ani o reducere a calităţii sistemului

de învăţământ universitar. Problema poate fi la nivelul cadrelor didactice, al

Statistică aplicată în ştiinţele socio-umane

14

studenţilor, sau poate reprezenta o combinaţie a acestor elemente. După ce

am citit „o sută” de articole referitoare la această temă, după ce am studiat

cercetările existente, putem ajunge la concluzia investigării relaţiei dintre

mediile anilor de studiu din liceu, media de la bacalaureat şi coeficientul de

inteligenţă. Putem, aşadar, formula obiectivul studiului: investigarea relaţiei

dintre media de admitere la universitate şi coeficientul de inteligenţă. În mod

cert, după stabilirea obiectivului, va trebui să formulăm ipoteza sau ipotezele

cercetării. În cazul nostru, ipoteza de cercetare devine:

H1: Există o relaţie între nivelul de inteligenţă şi media de admitere a

candidaţilor în învăţământul superior.

Această ipoteză este evident o ipoteză bidirecţională, şi ne duce cu

gândul la un studiu corelaţional. După cum ştim, ipoteza de cercetare nu poa-

te fi confirmată sau infirmată. Toate analizele se fac pe baza ipotezei nule. În

situaţia de faţă, ipoteza nulă va fi:

H0: Nu există nicio relaţie între nivelul de inteligenţă şi media de ad-

mitere a candidaţilor în învăţământul superior.

Din simpla parcurgere a ipotezei, putem identifica foarte uşor atât

planul de cercetare – evident un plan corelaţional cu două variabile continui –

cât şi variabilele – coeficientul de inteligenţă şi media de admitere. Nu ne

rămâne decât să colectăm datele prin administrarea unui test de inteligenţă şi

prin înregistrarea mediilor de admitere ale candidaţilor şi astfel obţinem baza

de date a cercetării noastre. Ambele variabile fiind scalare, în următoarea

etapă vom proceda la analiza normalităţii distribuţiei acestora. Dar după ace-

ea, ce facem? Bineînţeles, intenţionăm să studiem relaţia dintre aceste două

variabile.

Relaţiile stabilite din analiza a două variabile se numesc analize biva-

riate, deoarece este posibil să studiem relaţiile dintre mai multe variabile,

Cristian Opariuc-Dan

15

metode reunite sub numele de analize multivariate. Aţi observat că prefer

folosirea termenului de relaţie şi nu a celui de corelaţie. Care ar fi diferenţa?

Întregul concept al investigării gradului de asociere între două variabi-

le se bazează pe covarianţă. Ce este, însă, covarianţa? Vă mai amintiţi de

termenul de varianţă folosit în prima lucrare? Am definit atunci acest element

ca fiind media abaterilor scorurilor faţă de tendinţa centrală (Opariuc-Dan,

2009). Lucram atunci doar cu o singură variabilă. Dacă am include încă o

variabilă, am spune că cele două covariază dacă scorurile celei de-a doua se

abat în acelaşi sens de la medie, chiar dacă magnitudinile abaterilor pot fi

altele.

Var. X

+1,4

+0,4 +0,4

-0,6

-1,6

Figura 1.1 – Diferenţele dintre scorul observat şi

medie pentru două variabile, în cazul unui singur

subiect examinat

Var Y

+2,3

+0,8 +0,5

-0,2

-0,6

Statistică aplicată în ştiinţele socio-umane

16

Urmăriţi figura 1.1. Am reprezentat aici două variabile, variabila X şi

variabila Y. Observăm că scorurile primei variabile se abat negativ faţă de

medie în primele două cazuri şi pozitiv faţă de medie în ultimele trei cazuri.

Acelaşi model este urmat şi de cea de-a doua variabilă, deşi magnitudinea

abaterilor este diferită. Putem suspecta faptul că cele două variabile

covariază, adică subiecţii care au scoruri mici la prima variabilă, au scoruri

mici şi la a doua variabilă. Cei care au scoruri mari la prima variabilă, au sco-

ruri mari şi la a doua variabilă. Acesta este principiul covarianţei. Problema

care se pune este să stabilim magnitudinea acestei covarianţe, în acelaşi mod

în care am aflat magnitudinea varianţei pentru fiecare variabilă luată separat.

Cu alte cuvinte, se poate da un indicator unic, numeric, al covarianţei, în mod

similar coeficientului de varianţă (s2)? Răspunsul este, din fericire, pozitiv.

Vă aduceţi aminte că, în cazul calculării varianţei unei singure varia-

bile, am ridicat la pătrat fiecare abatere de la medie, pentru a compensa pro-

blemele legate de semn. Este necesar să facem acest lucru şi aici? Gândiţi-vă

înainte de a răspunde! Ei bine, nu. Fiind două variabile, înmulţind, pentru

fiecare subiect, abaterile de la medie ale fiecărei variabile, rezolvăm această

problemă. Dacă ambele abateri sunt ori pozitive, ori negative, vom obţine un

produs pozitiv, arătând faptul că variabilele covariază în acelaşi sens (se aba-

te pozitiv de la medie una, se abate pozitiv de la medie şi cealaltă; se abate

negativ una, se abate negativ şi cealaltă). Dacă o abatere este pozitivă şi cea-

laltă este negativă, vom obţine un produs negativ, arătând faptul că variabile-

le covariază invers (dacă una se abate pozitiv de la medie, cealaltă se abate

negativ). Mai simplu nici nu se putea.

Cum obţinem însă o valoare numerică unică a acestor abateri? Nu este

deloc complicat. Adunăm toate produsele şi împărţim la numărul de cazuri

minus unu (efectuând corecția cunoscută pentru lucrul cu eșantioane). Iată ce

greu e:

Cristian Opariuc-Dan

17

(formula 1.1)

Am obţinut, astfel, formula covarianţei pe care o putem acum aplica

datelor noastre.

Cele două variabile din exemplul de mai sus covariază pozitiv (adică

dacă scorul la o variabilă se află peste medie, scorul la cealaltă variabilă se

află şi el peste medie şi invers), valoarea acestei covariaţii fiind de 1,20.

Marea problemă a covarianţei este aceea că relaţiile dintre cele două

variabile depind de scala de măsură. Dacă avem două instrumente ce măsoa-

ră, fiecare, o singură variabilă, unul cu 100 de itemi şi unul cu 10 itemi, în

condițiile în care itemii sunt cotați la fel, modul în care se vor abate scorurile

individuale de la medie diferă extrem de mult, coeficientul de covarianţă fi-

ind foarte mare în comparaţie cu situaţia analogă în care cele două instrumen-

te ar avea, fiecare, 10 itemi. În realitate acest coeficient nu ne spune, practic,

nimic. Avem nevoie, aşadar, de o măsură standardizată a covarianţei, iar

această măsură o regăsim sub denumirea de corelaţie.

Corelaţia exprimă, practic, sub formă numerică, gradul de asociere

dintre variabile. Două variabile sunt asociate, în situaţia în care comporta-

mentul uneia este legat de comportamentul celeilalte, cu alte cuvinte, dacă nu

sunt independente. Două variabile independente arată că modificarea valori-

lor într-o variabilă nu are niciun efect asupra valorilor din cealaltă variabilă.

(Gibbons, 1993).

În teorie e simplu. În practica ştiinţifică din domeniul socio-uman, am

arătat că variabilele pot fi dificil măsurate la un nivel de interval, majoritatea

lor fiind, strict vorbind, la o scală de măsură ordinală. Este greu să găsim o

Statistică aplicată în ştiinţele socio-umane

18

relaţie matematică între două variabile. Ar fi mai degrabă vorba de covarianţe

decât de corelaţii.

Un alt aspect important, pe care mulţi îl ignoră, este acela că nu putem

stabili legături cauzale în urma studiilor corelaţionale. Din corelaţii nu se pot

face inferenţe cauzale, nu putem stabili care este cauza şi care este efectul.

Dacă în urma unui studiu ajungem la concluzia că există o legătură puternică

între anxietate şi depresie, care este cauza şi care este efectul? Anxietatea

determină depresia sau depresia produce anxietate? Studiile corelaţionale

permit stabilirea intensităţii şi a sensului unei legături între variabile, nu şi

stabilirea relaţiei cauză-efect. Accentuez asupra acestui aspect, deoarece am

întâlnit multe asemenea confuzii în care se vorbea despre relaţii cauzale, fapt

complet eronat din punct de vedere ştiinţific.

Relaţiile dintre două variabile se studiază în baza a două categorii de

indici de corelaţie. Vorbim de indici de corelaţie parametrici şi indici de

corelaţie neparametrici, în funcţie de condiţiile îndeplinite de variabile – şi

anume dacă îndeplinesc sau nu cerinţele de administrare ale statisticilor pa-

rametrice.

I.1 Coeficienţi de corelaţie neparametrici

Aceşti coeficienţi de corelaţie se utilizează în cazul în care cel puţin

una dintre cele două variabile nu îndeplineşte condiţiile unei distribuţii nor-

male, fie din cauza specificului datelor, fie din aceea a nivelului de măsură la

care se situează. Numiţi şi coeficienţi de asociere pentru distribuţii libere,

coeficienţii de corelaţie neparametrici pot fi folosiţi atât în cazul în care dis-

tribuţia este cunoscută, de obicei normală, dar mai ales în cazul în care distri-

buţia nu se cunoaşte, nu este normală sau datele nu pot fi asociate unui nivel

de măsură cel puţin de interval. Motivul este acela că, datele aflate la un nivel

de interval ori de raport, pot fi uşor convertite în ranguri sau în frecvenţe (la

nivel ordinal ori nominal). Invers nu este, însă, posibil.

Cristian Opariuc-Dan

19

În acest sens, există mai mulţi indici ai relaţiilor dintre variabile, utili-

zabili în funcţie de tipul variabilelor.

I.1.1 Coeficientul de corelaţie a rangurilor ρ (rho) Spearman

Este un coeficient bazat pe ranguri, nu este influenţat de reprezentati-

vitatea mediei şi se utilizează, în general,

atunci când lotul de cercetare are dimensiuni

mici (sub 30 de cazuri), sau când cel puţin

una dintre variabile nu îndeplineşte condiţiile

de administrare ale testelor parametrice. A

fost dezvoltat de psihologul englez Charles

Spearman şi, datorită similarităţii sale cu coe-

ficientul r Bravais-Pearson, acest indicator

este frecvent utilizat în ştiinţele socio-umane.

De fiecare dată când aveţi de calculat coefici-

entul de corelaţie bivariată, iar datele dum-

neavoastră nu se distribuie normal pentru cel puţin una dintre variabile, ape-

laţi cu încredere la acest coeficient.

Coeficientul nu face altceva decât să transforme scorurile originale în

ranguri şi să analizeze relaţia dintre acestea. Formula de calcul nu este com-

plicată şi poate fi rezumată la:

(formula 1.2)

unde d reprezintă diferenţa dintre rangurile valorilor măsurate la un

subiect, iar n se referă la numărul de subiecţi

Să considerăm un exemplu în care avem un număr de 10 elevi de cla-

sa a XI-a care obţin următoarele rezultate la matematică şi la fizică (tabelul

1.1).

Tabelul 1.1 – Rezultate obţinute

de 10 elevi la matematică şi fizică

Nr. Matematică Fizică

1 2 3

2 3 4

3 4 4

4 5 5

5 6 6

6 6 7

7 7 7

8 8 7

9 9 8

10 10 9

Statistică aplicată în ştiinţele socio-umane

20

După cum observăm, cele două variabile se află la un nivel de măsură

scalar, însă numărul mic de subiecţi (n=10) nu permite analiza distribuţiei

rezultatelor, fiind sub 30 de cazuri. În această situaţie, nu putem folosi coefi-

cienţi de corelaţie parametrici. Pentru a uşura lucrurile, notele la matematică

şi la fizică au fost ordonate astfel încât să puteţi înţelege mai uşor algoritmul.

Vom decide să folosim coeficientul de corelaţie a rangurilor ρ Spearman.

Evident, primul pas este acela al calculării rangurilor. Nu intram în amănunte

asupra acestei proceduri, deoarece a fost tratată în lucrarea anterioară, capito-

lul referitor la mediană şi ranguri.

După calculul rangurilor, facem diferenţa dintre rangul primei variabi-

le (matematică) şi rangul celei de-a doua variabile (fizică). Valoarea d va fi,

aşadar, d=RangMatematică – RangFizică.

În următoarea etapă, ridicăm la pătrat diferenţa rangurilor, pentru a

elimina problemele generate de semnul diferenţelor, şi facem suma pătratelor

diferenţelor.

Rezultatele acestor etape sunt prezentate în tabelul 1.2. Avem acum

toate datele necesare înlocuirii în formulă.

Tabelul 1.2 – Calculul coeficientului de corelaţie ρ Spearman

Nr. Matematică Fizică Rang Matematică Rang Fizică d d2

1 2 3 1 1 0 0

2 3 4 2 2,5 -0,5 0,25

3 4 4 3 2,5 0,5 0,25

4 5 5 4 4 0 0

5 6 6 5,5 5 0,5 0,25

6 6 7 5,5 6 -0,5 0,25

7 7 7 7 6 1 1

8 8 7 8 6 2 4

9 9 8 9 9 0 0

10 10 9 10 10 0 0

∑d2 6

Cristian Opariuc-Dan

21

Iată şi coeficientul de corelaţie a rangurilor, în valoare de 0,96. Am

obţinut o corelaţie pozitivă şi puternică între notele obţinute de către cei 10

elevi la matematică şi fizică. Putem spune că cei care obţin note mari la ma-

tematică, obţin note mari şi la fizică; cei cu note mici la matematică au note

mici şi la fizică.

Calculul după această formulă poate fi efectuat numai în situaţia în

care nu există ranguri egale. Atunci când apar ranguri egale (cum se poate

observa şi în cazul nostru), se foloseşte o formulă uşor diferită, formulă de

corecţie pentru ranguri egale. Această formulă se aplică în cazul în care am-

bele variabile au ranguri egale, sau atunci când întâlnim ranguri egale doar în

situația unei singure variabile.

(∑ ) ∑ ∑

√ ∑ ∑ √ ∑

∑ (formula 1.3)

unde rx şi ry reprezintă rangurile celor două variabile

Revenind la exemplul nostru, vom avea un alt tip de tabel, ceva mai

complex.

Tabelul 1.3 – Calculul coeficientului de corelaţie ρ Spearman

Nr. Mate Fizică Rang Mate Rang Fizică RMxRF RM2 RF

2

1 2 3 1 1 1 1 1

2 3 4 2 2,5 5 4 6,25

3 4 4 3 2,5 7,5 9 6,25

4 5 5 4 4 16 16 16

5 6 6 5,5 5 27,5 30,25 25

6 6 7 5,5 6 33 30,25 36

7 7 7 7 6 42 49 36

8 8 7 8 6 48 64 36

9 9 8 9 9 81 81 81

10 10 9 10 10 100 100 100

∑=55 ∑=52 ∑=361 ∑=384,5 ∑=343,5

Statistică aplicată în ştiinţele socio-umane

22

După calculul rangurilor, am efectuat produsul rangurilor şi ridicarea

la pătrat a fiecărui rang. Apoi, am calculat sumele necesare. Nu rămâne, în

final, decât înlocuirea în formulă. Rezultatul va fi, în acest caz, foarte apropi-

at cu cel de mai sus. Evident, numărul foarte mic de cazuri, face ca efectul

corecţiei pentru ranguri egale să fie, și el, foarte mic.

(∑ ) ∑ ∑

√ ∑ ∑

√ ∑ ∑

√ √

√ √

Acest coeficient de corelaţie, foarte uşor de calculat, are, însă, o pro-

blemă. Aţi observat că cele două variabile utilizate se situează la un nivel

scalar de măsură. După unii autori (Vasilescu, 1992, apud Yule şi Kendall,

1969; Lohse, Kudwig şi Rohr, 1986), acest coeficient de corelaţie este ina-

decvat pentru ranguri, deoarece presupune că datele au, toate, proprietăţile

necesare pentru calcularea coeficienţilor parametrici. Indicatorul reduce, de

fapt, datele de la un nivel scalar la un nivel ordinal. În acest sens, mai adecva-

tă ar fi calcularea altor coeficienţi, specifici pentru rang (Vasilescu, 1992).

Totuşi, datorită uşurinţei calculării acestui coeficient şi a faptului că

poate fi folosit pentru date parametrice care nu îndeplinesc condiţiile aplicării

de teste parametrice, coeficientul ρ Spearman are o largă utilizare. În general,

folosim acest coeficient de corelaţie atunci când ambele variabile se află la un

nivel de măsură ordinal, când o variabilă se află la un nivel ordinal, iar cealal-

tă la un nivel scalar, ori când ambele se află la nivel scalar, dar cel puţin una

dintre ele nu prezintă o distribuţie normală.

I.1.1.1 Semnificaţia coeficientului de corelaţie ρ Spearman

În cazul studiilor corelaţionale, şi nu numai, nu este suficientă obţine-

rea coeficientului de corelaţie pentru a respinge sau nu ipoteza nulă. Ştim

foarte bine că avem nevoie şi de pragul de semnificaţie care ne arată, practic,

Cristian Opariuc-Dan

23

ce şanse avem ca indicatorul obţinut să rezulte în urma unor erori de eşantio-

nare. Putem accepta semnificaţia acestui indicator şi respinge ipoteza nulă,

doar dacă această şansă este mai mică de 5%, cu alte cuvinte, dacă ne situăm

la un prag de semnificaţie mai mic de 0,05.

Cea mai simplă metodă de a determina semnificaţia coeficientului de

corelaţie a rangurilor ρ este aceea în care putem compara valoarea acestuia cu

valoarea de referinţă pentru nivelul de semnificaţie dorit, valoare publicată în

tabele speciale. Stabilirea modului în care au fost construite aceste tabele nu

face obiectul prezentei lucrări, deoarece calculele sunt mai complicate şi s-au

realizat în decursul anilor pe eşantioane de diferite dimensiuni, folosindu-se

distribuţii teoretice de probabilităţi. În anexa 1 am furnizat un asemenea ta-

bel. Dacă reluăm exemplul nostru, am obţinut un coeficient de corelaţie a

rangurilor de 0,96, studiind un lot de cercetare de 10 elevi. În prima coloană

avem mărimea eşantionului. Dacă nu găsim numărul exact de cazuri, vom lua

valoarea inferioară cea mai apropiată. În situaţia noastră, avem 10 subiecţi,

iar rândul care ne interesează este al şaselea rând din acel tabel, unde avem

numărul 10 pe coloana n. Observăm că pentru a fi semnificativ la un prag de

semnificaţie mai mic de 0,05, coeficientul ρ trebuie să aibă cel puţin valoarea

0,64. Dacă dorim să fim mai riguroşi, la un prag de semnificaţie mai mic de

0,02, valoarea acestui coeficient trebuie să fie mai mare de 0,74 iar la un prag

mai mic de 0,01, coeficientul trebuie să depăşească valoarea 0,794. Coefici-

entul nostru de corelaţie a rangurilor este de 0,96 şi constatăm că ne aflăm la

un prag de semnificaţie mai mic de 0,01. Putem spune că există o legătură

puternică între cele două variabile, la un prag de semnificaţie mai mic de

0,01.

În condiţiile în care numărul de subiecţi este mai mare de 10, putem

testa semnificaţia coeficientului de corelaţie a rangurilor ρ Spearman şi în alt

mod, folosind distribuţia t, deoarece am arătat faptul că acest coeficient nu

Statistică aplicată în ştiinţele socio-umane

24

este altceva decât o variantă ordinală a coeficientului r Bravais-Pearson, de-

spre care vom discuta mai târziu.

(formula 1.4)

În situaţia noastră, am obţinut un coeficient de corelaţie a rangurilor ρ

de 0,96 pentru un număr de 10 subiecţi. Valoarea testului t va fi:

În tabelul din anexa 4 referitor la distribuţia t, vom căuta semnificaţia

valorii testului t pentru un număr de 10-2=8 grade de libertate. La un număr

de 8 grade de libertate, pentru a fi semnificativă corelaţia, valoarea testului t

trebuie să depăşească 1,86 la un prag de semnificaţie mai mic de 0,05 şi 2,89

la un prag de semnificaţie mai mic de 0,01. Rezultatul obţinut, 9,60, este mai

mare de 2,89, rezultând că acest coeficient de corelaţie ρ = 0,96 este semnifi-

cativ la un prag de semnificaţie p < 0,01.

O altă variantă prin care putem testa semnificaţia acestui coeficient de

corelaţie, are în vedere faptul că pentru eşantioane mari, distribuţia se apropie

de o distribuţie normală şi putem calcula statistica z, după formula:

√ (formula 1.5)

În situaţia noastră, statistica z va fi 2,88. Raportat la distribuţia z, coe-

ficientul arată o valoare puternic semnificativă a corelaţiei, la un prag de

semnificaţie mai mic de 0,01.

√ √

Coeficientul de corelaţie a rangurilor ρ Spearman este un coeficient de

corelaţie direcţional şi poate avea valori cuprinse între -1 şi +1. Valorile

apropiate de +1 indică existenţa unei asocieri directe (pozitive) între cele do-

Cristian Opariuc-Dan

25

uă variabile, în timp ce valorile apropiate de -1 indică existenţa unei asocieri

inverse (negative). Cu cât valorile se apropie mai mult de 1 (indiferent de

semn), cu atât asocierea este mai puternică, variabilele fiind mai „legate”

între ele.

Un coeficient de corelaţie care are exact valoarea +1 arată că

în cele două variabile există exact aceleaşi ranguri ale scoruri-

lor. Dacă Ionel obţine rangul 5 la matematică, obţine tot rangul

5 şi la fizică; Viorel are rangul 7 la matematică şi rangul 7 la

fizică; Viorica are rangul 3 la matematică şi rangul 3 la fizică

şi aşa mai departe.

Un coeficient de corelaţie care are exact valoarea -1 arată că

rangurile dintr-o variabilă sunt inversul perfect al rangurilor

din cealaltă variabilă. Dacă Dan are rangul 8 la matematică,

are rangul 3 la fizică; Mioara are rangul 6 la matematică şi

rangul 4 la fizică; Costel are rangul 9 la matematică şi rangul 2

la fizică.

Un coeficient de corelaţie cu valoarea 0 semnifică lipsa orică-

rei legături între cele două variabile şi spunem că cele două

variabile sunt necorelate liniar între ele.

În practică nu găsim aproape niciodată aceste extreme (-1; 0; +1), de-

cât în cazul în care copiem, pur şi simplu, datele dintr-o variabilă într-o altă

variabilă şi apoi calculăm coeficientul de corelaţie, ceea ce, fiind vorba între

noi, s-a mai văzut pe la unii studenţi în lucrările lor „ştiinţifice”. Cu cât valo-

rile coeficientului de corelaţie se apropie mai mult de zero, cu atât variabilele

sunt necorelate, fără legătură între ele; cu cât sunt mai apropiate de 1, cu atât

sunt mai asociate, mai strâns legate, au elemente comune. Între aceste două

extreme, independenţă şi covarianţă, se situează întreaga filozofie şi întrea-

ga putere a coeficienţilor de corelaţie.

Statistică aplicată în ştiinţele socio-umane

26

Există o legătură logică între mărimea coeficientului ce corelaţie şi

semnificaţia acestuia. Nu trebuie demonstrat faptul că în cazul în care coefi-

cienţii de corelaţie se apropie de valoarea ±1, deci variabilele sunt puternic

asociate, această asociere este şi semnificativă, pragul de semnificaţie

apropiindu-se de zero, în timp ce la apropierea coeficientului de corelaţie de

valoarea zero, pragul de semnificaţie se apropie şi el de 1, legătura nefiind

semnificativă.

Am făcut aceste precizări în cadrul primului coeficient de corelaţie

studiat, coeficientul de corelaţie ρ Spearman. Informaţiile prezentate mai sus

se aplică tuturor coeficienţilor direcţionali, astfel încât nu le vom mai repeta

în cazul altor coeficienţi de corelaţie, ci ne vom axa doar asupra posibilelor

completări şi proceduri speciale de calcul.

Un ultim aspect care merită a fi menţionat: coeficientul de corelaţie

al rangurilor ρ Spearman este, alături de marea majoritate a coeficienţilor de

acest tip, adimensional şi situat la un nivel ordinal. Adică nu are o unitate de

măsură şi permite comparaţii directe. Putem compara un coeficient ρ cu un

alt coeficient de corelaţie, putem lucra cu mediana coeficienţilor de corelaţie,

etc. Bineînţeles, fiind situat la un nivel de măsură ordinal, nu putem calcula

statistici metrice, nu putem vorbi de media coeficienţilor de corelaţie.

I.1.2 Coeficientul de corelaţie a rangurilor τ (tau) Kendall

Este un alt coeficient de corelaţie

pentru date neparametrice, dezvoltat de

statisticianul englez Maurice Kendall în

anul 1938, fiind mai precis decât ρ

Spearman în cazul variabilelor ce se situ-

ează într-un mod real la un nivel pur or-

dinal. Procedurile de calcul ale acestui

coeficient diferă între ele, însă toate se

Tabelul 1.4 – Rezultate obţinute de 4

elevi la română şi chimie

Nr. Română Chimie

1 Satisfăcător

(2)

Nesatisfăcător

(1)

2 Bine

(3)

Foarte bine

(4)

3 Nesatisfăcător

(1)

Bine

(3)

4 Foarte bine

(4)

Satisfăcător

(2)

Cristian Opariuc-Dan

27

bazează pe numărarea inversiunilor (cazul în care un element care are un

rang mai mare pentru o variabilă, se situează în faţa unui element cu un rang

mai mic, datele fiind ordonate după cealaltă variabilă) şi a opusului acestora,

numit şi proversiuni (Vasilescu, 1992).

Ca să înţelegem mai bine cum stau lucrurile, să luăm un exemplu. Să

presupunem că într-o clasă au fost evaluaţi un număr de patru elevi la limba

română şi la chimie, obţinându-se rezultatele din tabelul 1.4. Aceste date nu

pot fi asociate unor date la un nivel scalar, fiind în mod cert date ordinale.

Dacă notăm calificativul nesatisfăcător cu 1, satisfăcător cu 2, bine cu

3, foarte bine cu 4 şi excepţional cu 5, putem obţine expresia numerică a

acestor evaluări. Vă reamintesc faptul că aceste cifre nu reprezintă decât nişte

coduri asociate calificativelor şi nu au valoare în sine. La acest nivel putem

doar ordona elevii în funcţie de calificative (de la nesatisfăcător la excepţio-

nal) şi nu putem preciza cu cât un elev este mai bun decât celălalt (vezi refe-

rinţele la scale de măsură din lucrarea anterioară).

Calcularea numărului de inversiuni se face prin ordonarea datelor du-

pă prima variabilă. Ordonând datele, tabelul se prezintă în felul următor (ta-

belul 1.5).

Inversiunile vor fi calculate în ba-

za celei de-a doua variabile (chimie)

urmărindu-se, pe rând, ordinea naturală a

rangurilor. Pentru prima linie, subiectul

are rangul 3 la chimie. Acest rang este

mai mare decât rangul la chimie pentru a

doua linie (1), deci avem de-a face cu o

inversiune. Prima inversiune găsită este (3 – 1). Comparând prima linie cu a

treia (rangul 3 cu rangul 4, tot pe coloana „chimie”), observăm că cele două

ranguri sunt în ordine naturală, deci nu apare o inversiune în acest caz. O altă

inversiune apare la compararea primei linii cu ultima (inversiunea 3 – 2).

Tabelul 1.5 – Ordonarea după variabi-

la Română

Nr. Română Chimie

3 Nesatisfăcător

(1)

Bine

(3)

1 Satisfăcător

(2)

Nesatisfăcător

(1)

2 Bine

(3)

Foarte bine

(4)

4 Foarte bine

(4)

Satisfăcător

(2)

Statistică aplicată în ştiinţele socio-umane

28

A doua linie nu presupune inversiuni, toate comparaţiile fiind în ordi-

nea naturală (atât comparaţia rangului 1 cu rangului 4 cât şi comparaţia ran-

gului 1 cu rangului 2), lucru evident, deoarece rangul acestei linii este 1 şi nu

există nici un rang mai mic decât 1. A treia linie presupune compararea ran-

gului 4 cu rangul 2 (liniile 3 şi 4). Observăm, în sfârşit, o ultimă inversiune

sub forma perechii 4 – 2.

Aşadar, în şirul determinat de variabila „chimie”, avem un număr de 3

inversiuni (perechile 3 – 1, 3 – 2 şi 4 – 2) şi un număr de 3 proversiuni (pere-

chile 3 – 4, 1 – 4 şi 1 – 2). Calculul coeficientului τ Kendall se face diferit, în

funcţie de existenţa sau inexistenţa elementelor cu acelaşi rang. În cazul nos-

tru, observăm că nu există elemente cu acelaşi rang, situaţie în care putem

aplica prima formulă de calcul a coeficientului τ Kendall:

(formula 1.6)

unde I reprezintă numărul de inversiuni, iar n numărul de subiecţi

Înlocuind în formula noastră, un-

de au fost 3 inversiuni şi 4 subiecţi, obţi-

nem următorul coeficient de corelaţie a

rangurilor:

Iată o primă situaţie în care nu

există nici o legătură între cele două va-

riabile. Acest lucru se datorează, evident,

numărului extrem de mic de subiecţi luaţi în calcul, faptului că informaţia

este insuficientă pentru a ne permite formularea unor concluzii utile. Acest

coeficient de corelaţie se mai numeşte coeficientul de corelaţie τa. Există şi

alte variante ale acestui coeficient, având exact aceeaşi semnificaţie, (τb şi τc),

Tabelul 1.6 – Ordonarea după variabi-

la Română

Nr. Română Chimie

1 Nesatisfăcător

(1)

Bine

(3)

2 Satisfăcător

(2)

Nesatisfăcător

(1)

3 Bine

(3)

Foarte bine

(4,5)

4 Foarte bine

(4)

Satisfăcător

(2)

5 Excepţional

(5)

Foarte bine

(4,5)

Cristian Opariuc-Dan

29

pe care nu le vom discuta aici. Menţionăm numai ca τb se foloseşte în cazul

variabilelor cu un număr egal de modalităţi de realizare (tabele pătratice), iar

τc se foloseşte în cazul variabilelor cu un număr inegal de modalităţi de reali-

zare (tabele rectangulare).

Dacă există elemente cu acelaşi rang în cazul celei de-a doua variabi-

le, lucrurile se complică puţin. Vom relua exemplul anterior pentru 5 subiecţi,

la aceleaşi discipline (tabelul 1.6).

Observăm că în cazul primei variabile nu avem ranguri care se repetă,

în timp ce pentru variabila chimie avem două cazuri în care se repetă califica-

tivul foarte bine. În aceste situaţii, ordonăm datele după variabila care nu are

elemente cu acelaşi rang – în cazul nostru, după variabila română. Ştim că

dacă două sau mai multe elemente ocupă aceeaşi poziţie, rangul lor devine

media poziţiilor pe care se află. Cele două elemente cu calificativul foarte

bine ocupă poziţiile 4 şi 5, rangul lor fiind acelaşi, 4,5. Aceste elemente poar-

tă numele de ambiversiuni şi reprezintă un nou concept în calculul coefici-

entului de corelaţie, alături de inversiuni şi proversiuni.

În condiţiile în care nu sunt elemente cu ranguri egale, atunci putem

spune că numărul inversiunilor şi cel al proversiunilor este egal cu suma pri-

melor n-1 numere naturale. Adică

. Din acest lucru putem de-

duce un alt element, numit suma lui Kendall şi notat cu S. Suma lui Kendall

se defineşte după formula

. Dacă nu ar exista inversiuni,

adică I=0, atunci s-ar obţine valoarea maximă a acestei sume, astfel încât

În baza acestor sume, formula generalizată a coeficientului de corela-

ţie a rangurilor τ Kendall devine:

(formula 1.7)

Statistică aplicată în ştiinţele socio-umane

30

Practic nu am făcut decât să generalizăm formula anterioară de calcul

a acestui coeficient, pentru a include un alt element şi anume cel de corecţie

a ambiversiunilor. Dacă apar ambiversiuni, suma maximă se reduce cu acest

element de corecţie, după formula următoare:

(formula 1.8)

unde fp este numărul de asocieri de p elemente şi p se referă la numă-

rul elementelor.

În exemplul nostru, avem o singură pereche de elemente, şi anume ce-

le cu rangurile 4,5. Astfel, valoarea A devine

.

Pentru o clarificare mai bună a modalităţii de calcul al acestui element, să

luăm un alt exemplu de ranguri:

Note: 2; 3; 5; 5; 5; 6; 7; 7; 8; 9; 10; 10; 11; 12

Poziţie: 1; 2; 3; 4; 5; 6; 7; 8; 9; 10; 11; 12; 13; 14

Rang 1; 2; 4; 4; 4; 6; 7,5; 7,5, 9; 10; 11,5; 11,5; 13; 14

Observăm că avem două perechi de elemente (7 cu rangurile 7,5 şi 10

cu rangurile 11,5) şi o asociere cu 3 elemente (5 cu rangurile 4). Aplicând

formula pentru ambiversiune, obţinem (

) (

)

.

Existenţa acestor ambiversiuni reduce atât numărul maxim de legături

ierarhice, cât şi suma lui Kendall, cu valoarea inversiunilor (Vasilescu, 1992).

Astfel,

şi, de asemenea, (

) . Cu-

noscând acum aceste date şi formula generalizată pentru coeficientul τ Ken-

dall de corelaţie a rangurilor, putem deduce cu uşurinţă noua formulă pentru

cazul în care una dintre variabile are elemente de acelaşi rang.

Cristian Opariuc-Dan

31

(

)

(formula 1.9)

Reluând exemplul de mai sus, avem un număr de 3 inversiuni (3 – 1;

3 – 2; 4,5 – 2) şi o ambiversiune (4,5 – 4,5). Toate datele sunt cunoscute şi nu

ne rămâne decât să înlocuim în formulă, obţinând coeficientul τ Kendall de

0,55.

Deşi este puţin mai complicat şi

presupune calculul unui indicator supli-

mentar, algoritmul nu pune probleme

deosebite.

Să vedem în continuare modul de

calcul al acestui coeficient în condiţiile în

care ambele variabile au elemente de

acelaşi rang. De data aceasta, algoritmul

implică mai multe etape, deoarece avem

ambiversiuni atât în cazul primei variabi-

le, cât şi în cazul celei de-a doua variabi-

le. Suma Kendall va deveni

iar suma maximă se calculează în baza

formulei

√(

) (

), unde Ax şi Ay sunt ambiversiunile din

cele două variabile, iar S- şi S+ sunt sumele calculate numai din rangurile ce-

Tabelul 1.7 – Calificativele obţinute la

limba română şi la chimie

Nr. Română Chimie

1 Satisfăcător

(2)

Bine

(3)

2 Satisfăcător

(2)

Nesatisfăcător

(1)

3 Bine

(3)

Bine

(3)

4 Foarte bine

(4)

Satisfăcător

(2)

5 Excepţional

(5)

Foarte bine

(4)

6 Foarte bine

(4)

Bine

(3)

7 Nesatisfăcător

(1)

Satisfăcător

(2)

8 Bine

(3)

Foarte bine

(4)

Statistică aplicată în ştiinţele socio-umane

32

lei de-a doua variabile. Nu va speriaţi. Clarificăm imediat aceste concepte

abstracte.

Având în vedere formula generalizată pentru coeficientul de corelaţie

τ Kendall şi cunoscând sumele, putem da expresia formulei de calcul a coefi-

cientului, în condiţiile în care găsim ambiversiuni atât în prima, cât şi în a

doua variabilă:

√(

)(

)

(formula 1.10)

Pentru a nu intra în detalii teoretice inutile, să considerăm că un nu-

măr de 8 elevi au obţinut următoarele calificative la limba română şi la chi-

mie (tabelul 1.7).

Datele din tabelul 1.7 nu sunt ordonate după nicio variabilă şi putem

observa cu uşurinţă că atât calificativele la limba română, cât şi cele de la

chimie, vor conţine elemente cu ranguri egale.

Pentru a calcula S+, se ordonează crescător elementele după prima va-

riabilă (română). În cazul în care întâlnim ranguri egale ale primei variabile

(română), elementele vor fi aranjate crescător, în funcţie de a doua variabilă

(chimie). Obţinem, astfel, un nou şir numit în termeni de specialitate Y+, pe

baza căruia calculăm ambiversiunile Ay şi inversiunile, după care putem afla

suma S+, în mod similar sumei prezentate în capitolul anterior. Vom rearanja

tabelul de mai sus pentru a putea calcula mai uşor aceste elemente.

Tabelul 1.8 – Rearanjarea rangurilor în vederea calculului S+

Număr elev 7 2 1 3 8 4 6 5

Calificativ română 1 NS 2 S 2 S 3 B 3 B 4 FB 4 FB 5 E

Poziţie 1 2 3 4 5 6 7 8

Rang română 1 2,5 2,5 4,5 4,5 6,5 6,5 8

Calificativ chimie 2 S 1 NS 3 B 3 B 4 FB 2 S 3 B 4 FB

Rang chimie 2,5 1 5 5 7,5 2,5 5 7,5

Cristian Opariuc-Dan

33

Suma S+ se va calcula ţinând cont doar de rangurile celei de-a doua

variabile, în cazul nostru, chimia. Din tabelul 1.8 observăm că apare de două

ori rangul 2,5, de trei ori rangul 5 şi de 2 ori rangul 7,5. Numărul de legături

ambiverte (Ay) va fi, prin urmare, ∑

(

)

(

) , deoarece avem două legături cu 2 elemente şi o singură

legătură cu 3 elemente.

Perechile de inversiuni în variabila chimie vor fi (2,5 – 1), (5 – 2,5),

(5 – 2,5), (7,5 – 2,5), (7,5 – 5), (5 – 7,5), vorbind, astfel, de un număr de 6

inversiuni. Cu toate aceste elemente putem acum calcula suma S+, aplicând

formula de mai sus şi obţinem valoarea 11.

(

) (

)

Calcului sumei S- se face în mod similar, singura diferenţă este că la

ranguri egale ale primei variabile, elementele celei de-a doua variabile se

ordonează descrescător, obţinându-se şirul Y-, restul algoritmului rămânând

neschimbat.

Fiind acelaşi număr de ranguri egale în cea de-a doua variabilă, indi-

cele legăturilor ambiverte nu se schimbă. Se modifică doar numărul de inver-

siuni în acest caz, astfel (2,5 – 1), (5 – 1), (5 – 2,5), (7,5 – 5), (7,5 – 5), (7,5 –

2,5), (5 – 2,5), (5 – 2,5), rezultând un număr de 8 inversiuni. Înlocuind în

formulă, vom avea S- în valoare de 7.

Tabelul 1.9 – Rearanjarea rangurilor în vederea calculului S-

Număr elev 7 1 2 8 3 6 7 5

Calificativ română 1 NS 2 S 2 S 3 B 3 B 4 FB 4 FB 5 E

Poziţie 1 2 3 4 5 6 7 8

Rang română 1 2,5 2,5 4,5 4,5 6,5 6,5 8

Calificativ chimie 2 S 3 B 1 NS 4 FB 3 B 3 B 2 S 4 FB

Rang chimie 2,5 5 1 7,5 5 5 2,5 7,5

Statistică aplicată în ştiinţele socio-umane

34

(

) (

)

Având valorile pentru S+ şi S-, putem acum calcula suma lui Kendall

Pentru a putea calcula Smax ,va trebui să aflăm doar numărul de legă-

turi ambiverte din prima variabilă (Ax), în cazul nostru limba română. Avem

trei legături de câte 2 elemente, 2,5 4,5 şi 6,5. Ştim acum formula de calcul şi

putem afla uşor această valoare. ∑

(

)

Nu ne rămâne decât să completăm formula de calcul şi obţinem valoarea

23,97.

√(

) (

) √(

) (

)

√ √

Coeficientul de corelaţie τ Kendall, în acest caz ca raport al celor două

sume, devine

.

Se pare că v-aţi obişnuit cu mai puţine calcule în lucrarea anterioară.

Aceasta este situaţia. În definitiv, am trecut la stabilirea relaţiilor dintre vari-

abile, nu mai lucrăm cu una, ci cu două variabile în acelaşi timp şi este nor-

mal să se complice puţin şi calculele. Din fericire, aveţi ceva mai mult de

adunat, scăzut sau înmulţit iar formulele vă pot speria doar la prima vedere.

În definitiv, algoritmii de calcul sunt destul de simpli. Singura problemă este

aceea că la un număr mare de subiecţi trebuie să fiţi extrem de atenţi, altfel vă

puteţi încurca uşor. Bine că avem, însă, computerele care ne scot din impas.

Imaginaţi-vă doar cum lucrau cercetătorii prin anii `30 ai secolului XX şi veţi

putea înţelege ce norocoşi suntem noi acum.

Cristian Opariuc-Dan

35

Acest coeficient de corelaţie se poate utiliza în condiţiile în care am-

bele variabile sunt ordinale sau o variabilă este ordinală, iar cealaltă este sca-

lară.

I.1.2.1 Semnificaţia coeficientului τ Kendall

Care este semnificaţia coeficientului de corelaţie τ Kendall? Deoarece

acest coeficient se bazează practic pe numărarea perechilor diferite provenite

din două şiruri ordonate de date, ea nu reprezintă altceva decât o diferenţă

dintre probabilitatea elementelor de a fi în aceeaşi ordine şi probabilitatea

elementelor de a fi într-o altă ordine (Kenny, 1987).

Coeficientul τ Kendall este un coeficient direcţional, având aceeaşi

semnificaţie interpretativă ca şi coeficientul ρ Spearman. În anexa 2 am fur-

nizat tabelele de referinţă ale valorilor acestui coeficient pentru diferite pra-

guri de semnificaţie.

Deoarece la valori mari ale numărului de subiecţi, distribuţia τ Ken-

dall se apropie de distribuţia normală, este posibil, atunci când numărul de

subiecţi este mai mare de 30, să se calculeze statistica z pentru coeficientul

de corelaţie τ Kendall, după formula următoare:

(formula 1.11)

Dacă am obţine un coeficient de corelaţie τ Kendall de 0,42 pe un

număr de 34 de subiecţi, atunci statistica z a acestui coeficient devine 5,25,

valoare puternic semnificativă ce indică legătura dintre cele două variabile

analizate.

Statistică aplicată în ştiinţele socio-umane

36

Statistica z a coeficientului de corelaţie τ Kendall se raportează la dis-

tribuţia z, pe baza tabelelor de distribuţie z prezentate în anexa 8.

I.1.3 Coeficientul de contingenţă χ2 (chi pătrat)

Este greu de definit χ2. A fost conceput de Pearson şi putem afirma,

fără să ne înşelăm prea tare, că statisticile neparametrice încep şi se termină

cu χ2, atât de mare este importanţa acestui indicator utilizat în studii corelaţi-

onale şi factoriale cu date nominale. Rolul său este esenţial în analiza datelor

nominale, coeficientul putând fi folosit în stabilirea relaţiilor dintre două va-

riabile dihotomice, ale unei variabile dihotomice cu una nominală, şi ale celor

în care intervin o variabilă nominală şi una ordinală, sau o variabilă nominală

şi una scalară. Practic, atunci când avem de a face cu o variabilă nominală,

cel mai pertinent indicator este acest χ2.

χ2 este un coeficient de asociere între două variabile nominale. El mă-

soară gradul de contingență al celor două variabile, verificând dacă sunt sau

nu sunt asociate în vreun fel. În realitate, acest coeficient pare mai degrabă un

test statistic decât un indicator al gradului de asociere. Spre exemplu, avem o

cercetare în care dorim să stabilim în ce măsură se asociază genul biologic al

unor subiecţi şi calitatea de fumător. Suntem în situaţia unei variabile nomi-

nale şi a unei variabile dihotomice. În acest caz vom utiliza aşa-numitele ta-

bele de contingenţă, pe baza cărora vom calcula χ2.

Tabelul 1.10 – Tabelul de contingenţă cu frecvenţele estimate pentru χ2

Calitate fumător

Da Nu

Gen biologic

Bărbaţi 35

(27,87)

64

(71,12) Bărbaţi

99

Femei 23

(30,12)

84

(76,87) Femei

107

Fumători

58

Nefumători

148

Total

206

Cristian Opariuc-Dan

37

La această cercetare au participat un număr de 206 persoane, 99 băr-

baţi şi 107 femei. Dintre aceştia, 58 sunt fumători, iar 148 nefumători.

Ipoteza nulă de la care pleacă χ2 este aceea conform căreia nu există

nicio asociere între aceste două variabile. Cu alte cuvinte, frecvenţele de apa-

riţie ale cazurilor nu sunt diferite de situaţia în care toate cele patru variante

ar avea o frecvenţă de apariţie teoretică (frecvența corespunzătoare situației

în care cele două variabile ar fi independente). Datorită acestui fapt, atunci

când lucrăm cu χ2, ne putem exprima în frecvenţe relative sau în frecvenţe

absolute. Ideea testului χ2 este aceea a comparării acestor frecvenţe observate

cu situaţia în care celulele ar avea frecvenţele teoretice estimate, prin frecven-

țe teoretice estimate înțelegând frecvențele pentru cazul în care cele două

variabile ar fi independente. Dacă diferenţele între frecvenţele observate şi

cele estimate (teoretice) sunt mari, atunci vorbim de un χ2 semnificativ, fapt

care indică existenţa unei asocieri între cele două variabile. Dar cum se obţi-

ne practic acest lucru? Primul pas este acela al calculării frecvenţelor estimate

pentru fiecare dintre cele patru celule care ne interesează. Acest lucru se face

foarte simplu pe baza formulei:

(formula 1.12)

Pentru prima coloană (bărbaţi fumători) vom avea o frecvenţă estima-

tă de

. Pentru bărbaţi nefumători avem

, pentru femeile fumătoare frecvenţa aşteptată devine

, iar pentru femeile nefumătoare vom avea

.

Odată stabilite frecvenţele teoretice (estimate), urmează calcularea

coeficientului χ2. La acest nivel putem distinge două situaţii.

În cazul în care cel puţin una dintre cele două variabile are mai

mult de două categorii (de exemplu o variabilă de tipul ocupa-

Statistică aplicată în ştiinţele socio-umane

38

ţiei cu variantele muncitor, maistru şi inginer), se aplică for-

mula generală a coeficientului χ2.

(formula 1.13)

Dacă cele două variabile au exact câte două categorii fiecare,

atunci se aplică o formulă de corecţie pentru continuitate.

∑ | |

(formula 1.14)

Noi ne aflăm în cea de-a doua situaţie, astfel încât vom aplica, pentru

fiecare dintre cele patru celule, formula corectată şi vom obţine valoarea 4,2

pentru coeficientul de contingenţă χ2.

∑ | |

| |

| |

| |

| |

Ce facem acum cu acest coeficient obţinut? Va trebui să-l verificăm la

un prag de semnificaţie stabilit, pentru a vedea dacă putem sau nu respinge

ipoteza nulă. Dar înainte de aceasta vom stabili gradele de libertate. Ştiu că

nu aveţi o idee prea clară referitoare la acest concept. Aveţi răbdare, o vom

discuta imediat. În cazul nostru, gradele de libertate se calculează înmulţind

numărul categoriilor fiecărei variabile din care se scade unu. Adică,

df=(CatX-1)(CatY-1). Noi avem două variabile cu două categorii şi rezultă (2-

1)(2-1)=1 grad de libertate. În acest moment avem toate informaţiile pentru a

stabili dacă acest coeficient de contingenţă este sau nu este semnificativ.

Cristian Opariuc-Dan

39

Coeficientul de contingenţă χ2, după cum aţi putut constata, este sim-

plu de înţeles şi de calculat. De aceea, voi „risca” să abordez, în cele ce ur-

mează, o perspectivă ceva mai „matematizată” asupra datelor neparametrice,

deoarece un stil asemănător îl puteţi întâlni în cele mai multe lucrări din acest

domeniu.

Tabelele de contingenţă (asociere) sunt intens folosite atunci când lu-

crăm cu date discrete. În momentul în care reprezentăm, folosind un aseme-

nea tabel, doar două variabile, vorbim de tabele de contingenţă bidimensio-

nale, deoarece există posibilitatea reprezentării mai multor variabile în ace-

laşi tabel, caz în care ne vom referi la tabele de contingenţă multidimensio-

nale.

În tabelul 1.11 v-am furnizat reprezentarea generală a unui tabel de

contingenţă bidimensional. Putem observa că variabila X are un număr de i

categorii (unde, spre exemplu, i poate fi 2, în cazul variabilei sex – masculin

şi feminin, ori 4 în cazul culorii ochilor – albastru, verde, negru, căprui), iar

variabila Y are un număr de j categorii. Prin însumarea datelor, la nivelul

fiecărei categorii, obţinem un nou tip de rubrică, numită secţiunea datelor

marginale. Coloana „Total X”, respectiv linia „Total Y” se referă exact la

acest tip de date.

Tabelul 1.11 – Reprezentarea generală a unui tabel de contingenţă bidimensional

Variabila Y

Categorie 1 Categorie 2 … Categorie j Total X

Variabila

X

Categorie 1 n11

e11

n12

e12

n1j

e1j ∑nX1

∑eX1

Categorie 2 n21

e21

n22

e22

n2j

e2j ∑nX2

∑eX1

.

.

.

.

.

.

.

. .

.

Categorie i ni1

ei1

ni2

ei2

nij

eij ∑nXi

∑eX1

Total Y ∑nY1

∑eY1

∑nY2

∑eY2

∑nYj

∑eYj

n

e

Statistică aplicată în ştiinţele socio-umane

40

Numărul de cazuri din fiecare categorie îl notăm, aşa cum ştim deja,

cu litera n, căreia i se adaugă indici arătând numărul liniei și numărul coloa-

nei. Astfel, subiecţii din categoria 1 pentru variabila X şi categoria 1 pentru

variabila Y, se notează cu n11 (spre exemplu, bărbaţii cu ochi albaştri). Sub-

iecţii din categoria 2 pentru variabila X şi din categoria 1 pentru variabila Y

se notează cu n21 (de exemplu femeile cu ochi albaştri) şi aşa mai departe.

Generalizând parţial, vom spune că subiecţii din categoria 1 pentru variabila

X şi din categoria j pentru variabila Y se notează n1j; similar, subiecţii din

categoria 1 pentru variabila Y şi din categoria i pentru variabila X se notează

ni1. Înţelegând acest stil de notare, vom spune că numărul de subiecţi din ca-

tegoria i în cazul variabilei X şi din categoria j în cazul variabilei Y se poate

nota nij.

Rezultatele marginale urmează aceeaşi logică. Toţi subiecţii aflaţi în

categoria 1 a variabilei X sunt reprezentaţi de ∑nX1 (de exemplu, toţi bărbaţii,

indiferent de culoarea ochilor). Toţi subiecţii aflaţi în categoria 1 a variabilei

Y sunt reprezentaţi de ∑nY1 (de exemplu, toţi subiecţii cu ochi albaştri, indi-

ferent de sex). În general, toţi subiecţii din categoria i a unei variabile şi din

categoria j a celeilalte variabile sunt reprezentaţi de ∑nij.

Referindu-de strict la χ2, putem raţiona în acelaşi mod atunci când

vorbim despre frecvenţele estimate, notate în cazul nostru cu e. Nu vom deta-

lia raţionamentul, vă lăsăm pe dumneavoastră să o faceţi.

Cunoscând toate aceste date, să revedem formula pentru χ2, în condiţii

de maximă generalitate. Vă reamintim formula iniţială, apoi vom proceda la

deducerea noii formule.

∑ ∑

(formula 1.15)

Cristian Opariuc-Dan

41

Nu s-a schimbat nimic în logica aplicării formulei. S-a schimbat doar

notaţia şi modul în care s-au abstractizat conceptele. Formula 1.15 este vala-

bilă doar dacă cel puțin una dintre variabile are mai mult de două categorii.

Desigur, intuiesc întrebarea care vă vine în minte în acest moment.

Probabil că vă gândiţi la ce foloseşte complicarea lucrurilor. Nu era suficientă

o singură formulă? Nu ajunge prezentarea modalităţii efective de calcul? De

ce avem nevoie de formule generalizate şi alte asemenea lucruri care ţin mai

mult de o abordare matematică? Răspunsul comportă o serie de aspecte. În

primul rând, formule de acest tip, şi altele, mult mai complexe, găsiţi în lu-

crări de specialitate, comunicări ştiinţifice şi articole. Este bine să le puteţi

înţelege şi să puteţi lucra cu ele. În al doilea rând, cel mai probabil că în cari-

eră veţi fi pus în situaţia de a redacta un articol ştiinţific. Normele de accepta-

re şi de publicare ale unor asemenea lucrări impun prezentarea formulelor

generalizate, folosindu-se notaţii universale. În al treilea rând, vă dezvoltaţi,

pas cu pas, gândirea matematică şi vă familiarizaţi cu limbajul. Vrem nu

vrem, statistica este totuşi o ramură a matematicii, iar noi nu putem face abs-

tracţie de acest lucru.

I.1.3.1 Semnificaţia coeficientului de contingenţă χ2

Acest coeficient este unul nedirecţional şi dimensional; nu putem

compara acest coeficient cu alţi coeficienţi de asociere. Această ultimă situa-

ţie creează probleme în interpretare, probleme legate de magnitudinea asocie-

rii dintre cele două variabile.

După stabilirea gradelor de libertate, comparăm coeficientul obţinut

cu valoarea de referinţă a distribuţiei χ2 pentru numărul de grade de libertate

găsit. Tabelul distribuţiei χ2 pentru diferite grade de libertate este prezentat în

anexa 3.

În cazul nostru, avem o valoare χ2 de 4,2 la un număr de 1 grade de li-

bertate. Parcurgând prima linie, corespunzătoare unui singur grad de libertate,

Statistică aplicată în ştiinţele socio-umane

42

observăm că acest coeficient este semnificativ la un prag de semnificaţie mai

mic de 0,05, deoarece valoarea este mai mare de 3,84146, valoarea de refe-

rinţă pentru acest prag. Coeficientul nu este semnificativ la un prag de semni-

ficaţie mai mic de 0,02 sau mai mic de 0,01, deoarece 4,2, pe care l-am obţi-

nut, este mai mic decât valoarea de referinţă pentru pragul de semnificaţie

0,02 sau 0,01 (5,02389, respectiv 6,63490). Nu putem deocamdată spune care

este intensitatea, magnitudinea acestei asocieri, din motivele expuse mai sus.

Coeficientul de contingenţă χ2 permite doar identificarea unei contingenţe

între variabile. Nu putem fi siguri, însă, de intensitatea acesteia.

Observăm că acest coeficient este sensibil la mărimea lotului de cer-

cetare. Dacă lotul de cercetare este prea mic, χ2 va fi supraestimat; dacă lotul

de cercetare este prea mare, χ2 poate fi subestimat. Va fi necesară, aşadar,

găsirea unei soluţii de standardizare, soluţie prin care să evităm aceste supra

sau subestimări şi să găsim magnitudinea contingenţei. Pentru a se elimina

aceste dezavantaje, au fost calculaţi alţi coeficienţi derivaţi din χ2, şi anume

coeficientul de asociere φ, coeficientul V Cramer, coeficientul de contingenţă

(cc) şi alţii.

I.1.4 Coeficientul de asociere φ (phi), coeficientul V Cramer şi coeficientul de contingenţă (cc), derivaţi din χ2

Coeficientul de asociere φ este un coeficient foarte simplu, derivat

din χ2 şi se calculează pentru două variabile dihotomice, care înregistrează, în

special, prezenţa sau absenţa unei caracteristici. Dacă ne interesează relaţia

dintre ochii albaştri şi părul blond, vom putea concepe două variabile prin

care să stocăm prezenţa şi absenţa ochilor albaştri, respectiv prezenţa şi ab-

senţa părului blond. Evident, ambele variabile sunt la un nivel nominal de

măsură, şi se bazează pe un tip special de distribuţie discretă, astfel încât coe-

ficientul φ este un coeficient ce lucrează cu frecvenţe absolute sau relative.

La modul general, tabelul de lucru se prezintă sub forma unei structuri

cu 4 celule.

Cristian Opariuc-Dan

43

Tabelul 1.12 – Schema generală de calcul a coeficientului φ

Variabila X

Prezenţă X Absenţă X

Variabila Y

Prezenţă Y Prezent X

Prezent Y

Absent X

Prezent Y

Absenţă Y Prezent X

Absent Y

Absent X

Absent Y

În calculul acestui coeficient suntem interesaţi doar de câteva cazuri:

cazul în care sunt prezente caracteristicile pentru ambele variabile (celula

Prezent X şi Prezent Y), cazul în care este prezentă doar variabila X (suma

celulelor Prezent X, Prezent Y şi Prezent X, Absent Y) şi cazul în care este

prezentă doar variabila Y (suma celulelor Prezent X, Prezent Y şi Absent X,

Prezent Y). Formula de calcul a acestui coeficient este:

√ (formula 1.16)

Această formulă nu este, practic, altceva decât rădăcina pătrată din ra-

portul dintre χ2 şi numărul de cazuri. Putem spune că √

.

Să reluăm exemplul legăturii dintre prezenţa părului blond şi prezenţa

ochilor albaştri.

Tabelul 1.13 – Coeficientul φ pentru relaţia dintre părul blond şi ochii

albaştri

Ochi albaştri

Da Nu

Păr blond

Da Blond cu ochi

albaştri

(n=80)

Blond fără ochi

albaştri

(n=54)

Total blonzi

(80+54)

(n=134)

Nu

Fără blond cu

ochi albaştri

(n=33)

Fără blond, fără

ochi albaştri

(n=48)

Total albaştri

(80+33)

(n=113)

Statistică aplicată în ştiinţele socio-umane

44

Avem următoarele date: un număr de 80 de blonzi cu ochi albaştri

(PXY), un număr total de 134 de blonzi (PX) şi un număr total de 113 persoane

cu ochi albaştri (PY). Sigur că posedăm toate datele necesare pentru a calcula

coeficientul φ. Putem înlocui în formulă aceste frecvenţe absolute sau putem

converti frecvenţele absolute în proporţii, pentru evitarea numerelor kilome-

trice. În definitiv, rezultatul va fi acelaşi. La cercetarea noastră au participat

un număr de 80+54+33+48=215 persoane. Proporţia blonzilor cu ochi albaş-

tri este PXY=80/215=0,37, proporţia blonzilor PX=134/215=0,62 şi proporţia

celor cu ochi albaştri este de PY=113/215=0,52. Aceste date pot fi acum in-

troduse în formulă, obţinându-se valoarea 0,21 pentru coeficientul de corela-

ţie φ.

Acest coeficient de corelaţie se foloseşte doar într-un singur caz, res-

pectiv cel în care ambele variabile sunt dihotomice. În cazul în care una din-

tre variabile nu mai este dihotomică, acest coeficient devine nerelevant.

Pearson, autorul acestui coeficient, a sesizat această dificultate în uti-

lizarea lui; dacă dimensiunea tabelului de contingenţă creşte (dacă una dintre

variabile nu mai este dihotomică), amplitudinea acestui coeficient creşte şi ea

(Liebetrau, 1983). Pentru a contracara acest efect, s-a propus o variantă ajus-

tată, numită ajustarea Sakoda, rezultând coeficientul de contingenţă Pearson.

Coeficientul de contingenţă Pearson reprezintă o altă variantă deri-

vată din χ2, de fapt fiind vorba despre coeficientul φ ajustat, şi se calculează

în baza formulei următoare:

(formula 1.17)

Cristian Opariuc-Dan

45

Nu intrăm în detalii legate de acest coeficient, simplitatea lui exclu-

zând orice fel de comentarii. Vom înlocui doar în formulă datele utilizate în

exemplul anterior.

Coeficientul de contingenţă nu este altceva decât o formă ajustată a

coeficientului de asociere φ, putând fi utilizat pentru orice tip de variabile

neparametrice. Dacă nu mă credeţi, aplicaţi a doua formulă a coeficientului

de asociere φ, bazată pe valoarea lui χ2, şi veţi obţine acelaşi rezultat.

Coeficientul de contingenţă Tschuprow se notează cu t (nu este ace-

laşi lucru cu testul de diferenţă semnificativă între mediile eșantioanelor,

Student t) şi are, la bază, de această dată, coeficientul φ.

A fost propus în anul 1919 de către matematicianul rus Alexander

Alexandrovici Tschuprow, formula de calcul fiind:

√ (formula 1.18)

Acest coeficient ţine seama doar de numărul de categorii din cadrul

fiecărei variabile şi de valoarea lui φ, fiind vorba, de fapt, de o ajustare a

acestui coeficient, similară celei efectuate de Pearson.

Dacă reluăm exemplul relaţiei dintre ochii albaştri şi părul blond, în

care am obţinut φ=0,21, observăm că fiecare variabilă are doar două catego-

rii. În acest caz, coeficientul de contingenţă Tschuprow devine:

√ √

√ √

√ √

Desigur, am obţinut valoarea iniţială a coeficientului φ. În realitate,

acest coeficient ajustează valoarea lui φ în condiţiile în care cel puţin una

Statistică aplicată în ştiinţele socio-umane

46

dintre variabile prezintă mai mult de două categorii, fiind o versiune mai pre-

cisă a coeficientului de contingenţă Pearson.

Coeficientul de asociere v Cramer se foloseşte în cazul în care cel

puţin una dintre variabile are mai mult de două modalităţi de realizare şi poa-

te fi definit după formula următoare:

(formula 1.19)

unde l reprezintă minimum dintre numărul liniilor şi numărul coloa-

nelor, iar n numărul subiecților.

Dacă o variabilă are 3 categorii şi una 2 categorii, atunci l va lua va-

loarea 2, valoarea variabilei cu cele mai puţine categorii.

Reluând exemplul utilizat la analiza coeficientului ce contingenţă χ2,

am avut fumătorii şi genul biologic, variabile cu două categorii fiecare, deci l

va avea valoarea 2. În acelaşi timp, numărul total a fost de 206 subiecţi pen-

tru care am obţinut valoarea 4,2 pentru χ2. Înlocuind în formulă, obţinem 0,14

valoarea coeficientului de asociere v Cramer.

I.1.4.1 Semnificaţia coeficienţilor de asociere

Aceşti coeficienţi de asociere au fost stabiliţi în ideea compensării

dezavantajelor coeficientului de contingenţă χ2. Prin urmare, toate interpretă-

rile legate de semnificaţia acestora se bazează pe interpretarea coeficientului

χ2, de aceea nu vom intra în detalii. Practic, întâi se interpretează semnificaţia

lui χ2 la un prag de semnificaţie stabilit şi apoi intensitatea asocierii în baza

unuia dintre coeficienţi.

Cristian Opariuc-Dan

47

Dacă luăm exemplul coeficientului de contingenţă, acesta are valoarea

0,14. Am arătat deja că această valoare este semnificativă la un prag de sem-

nificaţie mai mic de 0,05 (χ2 avea valoarea 4,2; pragul de semnificaţie la un

număr de 1 grade de libertate fiind mai mic de 0,05). Din coeficientul de con-

tingenţă putem deduce faptul că asocierea dintre cele două variabile este sla-

bă (vom vedea imediat ce înseamnă acest lucru), însă semnificativă. Iată că

pe baza acestor coeficienţi derivaţi, putem stabili acum şi intensitatea contin-

genţei.

Toţi coeficienţii sunt nedirecţionali. Aceasta înseamnă că pot lua va-

lori cuprinse între 0 şi 1, unde apropierea de zero indică lipsa asocierii dintre

variabile, iar valorile apropiate de 1 arată puterea asocierii acestora.

O singură observaţie se mai impune la acest capitol. Mă veţi întreba,

desigur, cum stabilesc semnificaţia pentru coeficientul φ, dacă aplic direct

prima formulă de calcul, fără să mai ajung la χ2? Nu întâmplător am dat a

doua formulă. Dacă ştiţi puţină matematică, veţi descoperi că:

Putem, practic, extrage valoarea lui χ2, dacă ştim numărul de subiecţi

şi valoarea lui φ. În exemplul nostru, φ avea valoarea 0,21, cercetare realizată

pe 215 persoane. Atunci . Fiind un

singur grad de libertate, observăm că această valoare este semnificativă, la un

prag de semnificaţie mai mic de 0,01. Putem spune că există o asociere slabă

între părul blond şi ochii albaştri. Adică, în majoritatea cazurilor, persoanele

cu păr blond au şi ochii albaştri, restul situaţiilor fiind excepţii.

Statistică aplicată în ştiinţele socio-umane

48

I.1.5 Coeficientul de asociere λ (lambda) Goodman şi Kruskal

Coeficientul λ a fost stabilit de Goodman şi Kruskal, prin anul 1980,

alături de un alt coeficient similar, coeficientul de asociere τ Goodman şi

Kruskal, pe care nu-l vom aborda în această lucrare, deoarece se referă apro-

ximativ la acelaşi lucru. Se calculează în situaţia asocierii unei variabile no-

minale cu o variabilă dihotomică, cu o altă variabilă nominală, cu o variabilă

ordinală sau cu o variabilă scalară, în condiţiile în care aceasta este grupată în

clase.

Practic, acest coeficient se referă la cantitatea de cunoştinţe cuprinsă

într-o variabilă, ce poate acoperi informaţiile din cealaltă variabilă. Sau, cu

alte cuvinte, având o anumită cantitate de informaţie în variabila X, cât din

variabila Y putem prezice? Formula de calcul este următoarea:

( )

( ) (formula 1.20)

unde nMi este cea mai mare frecvenţă de pe rândul i şi Max(Cj) este

frecvența cea mai mare dintre frecvențele coloanelor, iar n se referă la nu-

mărul subiecților.

Ştiţi ce mă bucură acum cel mai tare? Faptul că nu vă mai speriaţi de

formule. Aţi observat că ele devin din ce în ce mai stufoase şi, totuşi, în reali-

tate, aplicarea lor este foarte simplă. Să luăm un nou exemplu. Presupunem

că am desfăşurat o cercetare în cadrul căreia dorim să studiem asocierea între

două variabile: preferinţa pentru un partid politic (1 – PSD; 2 – PNL; 3 –

PDL; 4 – PC şi 5 – PRM) şi nivelul de stres al subiecţilor pe o scală Likert de

la 1 la 5 (1 – Foarte slab; 2 – Slab; 3 – Mediu; 4 – Ridicat; 5 – Foarte ridicat).

Suntem în situaţia asocierii dintre o variabilă nominală (preferinţa pentru

partide) şi o variabilă ordinală (nivelul de stres). Vom construi tabelul de

contingenţă pentru cele două variabile.

Cristian Opariuc-Dan

49

Structura tabelului este clară. Dintre cei care preferă PSD, 12 persoa-

ne au un nivel de stres foarte scăzut, 9 un nivel de stres scăzut, 7 un nivel de

stres mediu, 4 ridicat şi o persoană prezintă nivelul stresului foarte ridicat.

Situaţia este analogă în cazul celorlalte partide.

Avem partidele afişate pe linii şi nivelul de stres pe coloane. În primul

rând, va trebui să stabilim, pentru fiecare linie, celula cu frecvenţa cea mai

mare. Pentru PSD, categoria cu frecvenţa cea mai mare este reprezentată de

nivelul de stres foarte scăzut (12 persoane). Pentru PNL întâlnim categoria cu

nivelul de stres scăzut (45 de persoane), pentru PDL nivelul de stres mediu

(42 de persoane), pentru PC tot nivelul de stres mediu (10 persoane), iar pen-

tru PRM nivelul de stres scăzut (5 persoane).

Efectuăm acum totalul pe coloane. În mod clar, categoria cu frecvenţa

cea mai mare este cea a stresului scăzut (82 de persoane), în timp ce numărul

total de participanţi la studiu a fost de 244 de persoane. În acest moment,

informaţiile sunt suficiente pentru a putea completa formula.

( )

( )

Am obţinut acum valoarea 0,19 pentru acest coeficient, valoare pe ca-

re o vom analiza din punctul de vedere al semnificaţiei.

Tabelul 1.14 – Tabelul de contingenţă pentru calculul coeficientului λ

Nivelul de stres

1

Foarte

scăzut

2

Scăzut

3

Mediu

4

Ridicat

5

Foarte

ridicat

Partidul

1 – PSD 12 9 7 4 1

2 – PNL 8 45 21 6 5

3 – PDL 7 19 42 13 1

4 – PC 8 4 10 7 3

5 - PRM 1 5 1 3 2

Total coloane 36 82 81 33 12

Statistică aplicată în ştiinţele socio-umane

50

I.1.5.1 Semnificaţia coeficientului λ

Coeficientul λ este un alt coeficient nedirecţional. Aceasta înseamnă

că poate lua valori între 0 şi 1, unde apropierile de zero ne arată că informaţii-

le conţinute într-o variabilă nu pot prezice cealaltă variabilă, variabilele nea-

vând nimic în comun, iar apropierile de 1 sunt semnificative pentru gradul de

predicţie a evoluţiei unei variabile, în baza informaţiilor conţinute în cealaltă

variabilă.

Analiza semnificaţiei acestui coeficient se face în baza statisticilor z,

iar valorile vor fi raportate la distribuţia z. Prin urmare, va trebui să definim

formula de calcul pentru statistica z a coeficientului λ şi apoi să comparăm

această valoare cu valorile de referinţă z la diferite praguri de semnificaţie.

Pentru a vă reaminti de semnificaţia notelor z, parcurgeţi capitolul referitor la

distribuţia normală din lucrarea anterioară. Formula de transformare a coefi-

cientului λ în statistica z este următoarea:

√ (formula 1.21)

unde λref înseamnă valoarea de referinţă λ, iar sλ reprezintă valoarea

varianţei acestui coeficient.

Deoarece acest coeficient măsoară cât dintr-o variabilă se poate găsi

într-o altă variabilă, valoarea de referinţă se exprimă sub formă de proporţii.

Dacă presupunem că nivelul de stres influenţează preferinţele pentru partide-

le politice, sau cu alte cuvinte putem prezice preferinţa pentru partide în baza

analizei nivelului de stres, atunci plecăm de la o bază, de la o referinţă, în

care presupunem, de exemplu, că 10% din nivelul de stres poate prezice pre-

ferinţa pentru partide. Această valoare de referinţă este aleasă în funcţie de

necesităţile cercetării. Soluţia pesimistă este aceea conform căreia valoarea

de referinţă se apropie de zero. Altfel spus, nu avem niciun motiv să presu-

punem că cele două variabile sunt legate în vreun fel. În acest caz, vom alege

Cristian Opariuc-Dan

51

valori mici de referinţă, de 10%, 5%, 3% sau 1%. Exprimat sub formă de

proporţii, valori de 0,10, 0,05, 0,03 sau 0,01 pentru λref.

Dacă avem motive suficiente să credem că există legături între cele

două variabile, atunci putem aborda soluţii optimiste, în sensul că vom consi-

dera o mare parte dintre informaţiile unei variabile ca fiind dependente de

informaţiile din cealaltă variabilă. În acest sens, putem alege valori de 50%,

60%, 70% pentru λref.

Nu există o regulă de atribuire în acest sens. Personal, vă recomand să

fiţi sceptici şi să nu consideraţi valori mai mari de 0,10 – 0,15 pentru λref.

Evident, cu cât valorile lui λref se apropie cu zero, cu atât legătura trebuie să

fie mai puternică pentru a fi semnificativă.

În exemplul nostru, am plecat de la presupunerea că doar 10% din ni-

velul de stres poate determina preferinţe pentru un anumit partid politic. Va-

loarea pentru λref va fi, aşadar, 0,10 şi vom analiza dacă la acest nivel putem

vorbi despre o legătură semnificativă.

Următorul aspect din formula 1.21 se referă la varianţa coeficientului

λ. Această varianţă poate fi calculată în baza relației următoare:

( ∑

)(∑

( ) ∑

)

( ( )) (formula 1.22)

unde nMi este cea mai mare frecvenţă de pe rândul i, Max(Cj) cea mai

mare frecvență dintre frecvențele calculate pe coloane şi ∑

este suma

tuturor frecvenţelor maxime asociate coloanei cu frecvenţa cea mai mare, m

reprezentând numărul de rânduri.

Aceasta este chiar complicată, nu-i aşa? Oare cum o calculăm? Poate

vă gândiţi să o învăţaţi pe de rost pentru examene. Sau poate o memoraţi să

impresionaţi prietenul ori prietena. Nu are rost. În condiţii de examen, ar tre-

bui să vi se dea formula, iar dumneavoastră să ştiţi să o aplicaţi. Pentru prie-

Statistică aplicată în ştiinţele socio-umane

52

ten ori prietenă, cred că puteţi să impresionaţi şi altfel. Dacă veţi scrie formu-

la asta într-o scrisoare de amor, în mod sigur nu veţi reuşi decât să îndepărtaţi

partenerul. Haideţi totuşi să vedem ce ne cere formula şi dacă e atât de com-

plicat calculul. Vom relua tabelul de contingenţă.

Numărul total de persoane este 244. Îl avem, aşadar, pe n. Suma celor

mai mari frecvenţe de pe rânduri o ştim deja. Este 114 şi nu reprezintă altce-

va decât valoarea ∑

. Cea mai mare frecvență dintre frecvențele calcu-

late pe coloane este situată în a doua coloană şi are valoarea 82. Iată că avem

şi rezultatul pentru ( ).

Ce trebuie să mai facem? Trebuie să calculăm suma tuturor frecvenţe-

lor maxime asociate coloanei cu frecvenţa cea mai mare. Am stabilit deja

care este aceasta. Este a doua coloană. Care sunt frecvenţele maxime din

această coloană? Pe primul rând avem frecvenţa 9, pe al doilea rând frecvenţa

45, pe al treilea rând frecvenţa 19, pe al patrulea rând frecvenţa 4 şi pe al cin-

cilea rând frecvenţa 5. Care este frecvenţa cea mai mare? Evident, cea de pe

al doilea rând, frecvenţa 45. Mai vedeţi şi alte cifre de 45 acolo? Nu. Ei bine,

aceasta este şi suma mult căutată. Dacă aveaţi 45 pe rândul 2 şi 45 pe rândul

4, atunci suma frecvenţelor maxime ar fi fost 90 (45+45). În cazul nostru,

avem o singură frecvenţă maximă, 45, şi aceea reprezintă valoarea pentru

. Relaxaţi-vă. V-am spus că formulele mai mult sperie prin aspect

Tabelul 1.15 – Tabelul de contingenţă pentru calculul coeficientului λ

Nivelul de stres

1

Foarte

scăzut

2

Scăzut

3

Mediu

4

Ridicat

5

Foarte

ridicat

Partidul

1 – PSD 12 9 7 4 1

2 – PNL 8 45 21 6 5

3 – PDL 7 19 42 13 1

4 – PC 8 4 10 7 3

5 - PRM 1 5 1 3 2

Total coloane 36 82 81 33 12

Cristian Opariuc-Dan

53

decât prin modalitatea de calcul. Acum haideţi să înlocuim şi să găsim vari-

anţa coeficientului λ.

( ∑

)(∑

( ) ∑

)

( ( ))

Am găsit varianţa coeficientului. Nu trebuie decât să calculăm statisti-

ca z după formula de mai sus şi obţinem scorul z de 1,5.

Acest scor îl vom compara cu valoarea de referinţă z pentru pragul de

semnificaţie ales. Pentru un prag de semnificaţie de 0,05, valoarea z este de

1,96. Valoarea noastră (1,5) este mai mică decât valoarea prag. Prin urmare,

nu există nicio legătură între nivelul de stres şi preferinţa pentru partide poli-

tice, în condiţiile în care 10% dintr-o variabilă ar explica cealaltă variabilă.

Drept exerciţiu, calculaţi valoarea z pentru situaţia în care presupu-

nem că 50% din preferinţa pentru partide politice este influenţată de nivelul

de stres. Este această legătură semnificativă sau nu? Argumentaţi.

I.1.6 Coeficientul de asociere γ (gamma)

Un alt coeficient de asociere este coeficientul de asociere γ Goodman

– Kruskal. La fel ca şi coeficientul de corelaţie a rangurilor τ Kendall, şi acest

coeficient se bazează pe numărul de inversiuni şi proversiuni, adică pe numă-

rul de perechi concordante şi discordante. Coeficientul se calculează foarte

simplu pe baza formulei:

Statistică aplicată în ştiinţele socio-umane

54

(formula 1.23)

în care Pc reprezintă numărul perechilor concordante, iar Pd numărul

perechilor discordante.

Vom considera un exemplu, astfel încât să lămurim rapid bazele aces-

tui coeficient. Să presupunem că efectuăm un studiu în mai multe oraşe, pen-

tru a vedea dacă există o legătură între nivelul intelectual al primarilor şi mă-

rimea oraşelor. Cele două variabile au fost operaţionalizate astfel: oraşele pot

fi considerate oraşe mici, medii şi mari – în funcţie de numărul de locuitori,

iar nivelul intelectual al primarilor poate fi considerat superior sau inferior.

Ambele variabile se află la un nivel ordinal de măsură şi pot fi ierarhizate.

Menţionez faptul că toate datele din lucrări sunt date fictive şi nu au

nicio legătură cu fapte sau persoane reale. De aceea, nimeni nu are niciun

motiv să se simtă lezat în vreun fel. Exemplele au fost alese astfel încât să se

refere la fapte sociale de actualitate, în vederea unei însuşiri mai bune a in-

formaţiei. Fac această precizare deoarece mi s-a sugerat că prin demersul

meu îmi exprim preferinţe politice sau de altă natură. Departe de mine acest

gând. Nu intenţionez decât să redactez o lucrare pe înţelesul tuturor, indife-

rent de specificul formării iniţiale – umanist sau realist. Şi, ca să folosesc un

stereotip verbal, orice asemănare cu realitatea este pur întâmplătoare. Cine se

simte lezat de aceste exemple, îl asigur că nu a fost intenţia mea, iar concluzi-

ile care decurg sunt rezultatul unor date absolut fictive şi nu au nicio legătură

cu vreo realitate politică, economică sau socială.

Tabelul 1.16 – Tabelul de contingenţă pentru calculul coeficientului γ

Dimensiune oraş

Mic Mediu Mare

Intelect

primari

Superior A

10

B

15

C

20

Inferior D

10

E

5

F

3

Cristian Opariuc-Dan

55

Acum să revenim. Convenim să reprezentăm rezultatul acestei cerce-

tări sub forma unui nou tabel de contingenţă.

Avem 10 primari cu un intelect superior în oraşele mici, 15 în oraşele

medii şi 20 în oraşele mari. De asemenea, avem 10 primari cu un intelect

inferior în oraşele mici, 5 în oraşele medii şi 3 în oraşele mari. În total cerce-

tarea a cuprins un număr de 63 de oraşe. Cum calculăm perechile? Vă voi

prezenta o procedură foarte simplă, fără a mai intra în detalii matematice,

deoarece acestea implică anumite cunoştinţe de combinatorică. În cazul nos-

tru, perechile reprezintă suma produselor înmulţirii frecvenței unei celule de

la un nivel superior cu suma frecvențelor celulelor succesive de la un nivel

inferior, datele fiind ordonate ascendent pentru perechile concordante şi des-

cendent pentru perechile discordante. Aşa-i că nu aţi înţeles nimic? Iată, poa-

te, prima situaţie în care lucrurile transpar mult mai clar din formule.

Pc=A(E+F)+BF; Pd=C(D+E)+BD

Am notat cu litere mari celulele din tabelul de mai sus. Nu-i aşa că

acum lucrurile sunt clare? Avem toate datele necesare. Să le înlocuim în for-

mulă.

[ ] [ ]

[ ] [ ]

Am obţinut valoarea -0,56 pentru coeficientul de asociere γ. Această

valoare va trebui să o analizăm apoi din punctul de vedere al semnificaţiei.

I.1.6.1 Semnificaţia coeficientului γ

Coeficientul γ reprezintă un raport al diferenţelor dintre perechile

concordante şi cele discordante, bazat pe numărul total de perechi, fără a se

lua în calcul perechile cu rangurile egale. Coeficientul γ este un coeficient

direcţional şi poate lua valori cuprinse între -1 şi +1, la fel ca şi coeficientul ρ

Spearman sau τ Kendall, având aceeaşi semnificaţie. În termenii coeficientu-

Statistică aplicată în ştiinţele socio-umane

56

lui anterior (şi aici vorbim de coeficientul λ propus de aceiaşi savanţi), un

coeficient λ de 0,56 înseamnă că avem 56% şanse să prezicem o variabilă,

cunoscând rangul (nu valoarea) celeilalte variabile. Analiza semnificaţiei

acestui coeficient se face similar coeficientului τ Kendall.

I.1.7 Coeficientul tetrachoric şi polichoric

Coeficientul de corelaţie tetrachoric este notat, în general, sub forma

rtet , fiind definit de Pearson în anul 1901 şi se foloseşte atunci când ambele

variabile sunt dihotomice, la fel ca şi coeficientul φ, însă aceste variabile tre-

buie să provină din variabile continui şi normal distribuite (spre exemplu,

prin gruparea vârstei subiecţilor în subiecţi tineri şi vârstnici). Dacă variabile-

le sunt situate la un nivel ordinal, au mai multe grade de intensitate şi pot

respecta caracteristica provenienţei din variabile continui, se foloseşte un alt

coeficient de corelaţie, şi anume coeficientul polichoric. Ambii coeficienţi se

bazează pe acelaşi principiu. Vom relua tabelul explicativ al coeficientului φ

pentru a stabili formula de calcul în cazul coeficientului de corelaţie

tetrachoric.

Tabelul 1.17 – Schema generală de calcul a coeficientului tetrachoric

Variabila X

Absent X Prezent X

Variabila Y

Prezenţă Y

Absent X

Prezent Y

A

Prezent X

Prezent Y

B

Absenţă Y

Absent X

Absent Y

C

Prezent X

Absent Y

D

Formula coeficientului de corelaţie tetrachoric se bazează pe calculul

cosinusului, după următoarea expresie:

(

) (formula 1.24)

Cristian Opariuc-Dan

57

În cadrul acestei formule, coloanele A, B, C, D reprezintă proporţii şi

nu frecvenţe absolute. Coeficientul este folosit mai ales în situaţiile în care se

doreşte măsurarea gradului de acord între doi evaluatori. Să presupunem că

doi psihologi evaluează un lot de subiecţi în vederea depistării prezenţei sau

absenţei anxietăţii. Rezultatele pot fi sistematizate în tabelul de mai jos:

Tabelul 1.18 – Tabelul de calcul a coeficientului tetrachoric

Psiholog X

Absentă Prezentă

Psiholog Y

Prezentă A

40%

B

10%

Absentă C

20%

D

30%

Analizând acest tabel, constatăm că 40% dintre subiecţi (în proporţie

de 0,4) au fost consideraţi non-anxioşi de psihologul X şi anxioşi de psiholo-

gul Y – situaţie de dezacord între cei doi -, 20% dintre subiecţi (în proporţie

de 0,2) au fost consideraţi non-anxioşi de ambii psihologi – situaţie de acord

pe non-anxietate -, 10% dintre subiecţi (proporţie de 0,10) sunt consideraţi

anxioşi de ambii psihologi – situaţie de acord pe anxietate - şi 30% dintre

subiecţi sunt consideraţi anxioşi de psihologul X şi non-anxioşi de psihologul

Y – din nou situaţie de dezacord. Se pune acum problema în ce măsură cei

doi psihologi au căzut sau nu de acord în privinţa anxietăţii subiecţilor evalu-

aţi. Iată o situaţie tipică în care vom folosi coeficientul tetrachoric.

(

√ )

(

√ )

(

√ )

(

)

Observăm, în primul rând, o corelaţie negativă, ceea ce ne duce cu

gândul la un dezacord puternic între cei doi psihologi, fapt indicat de valoa-

rea ridicată a coeficientului de corelaţie.

Statistică aplicată în ştiinţele socio-umane

58

În cazul în care anxietatea ar fi fost evaluată, să presupunem, pe o sca-

lă de la 1 la 5, unde 1 ar însemna foarte puţin anxios iar 5 foarte anxios, coe-

ficientul tetrachoric nu poate fi folosit. În acest scop se utilizează coeficientul

polichoric, bazat pe acelaşi principiu. Din nefericire, algoritmul de calcul este

unul iterativ, presupune mai multe etape şi are un grad ridicat de complexita-

te, motiv pentru care nu-l vom prezenta aici. Pachetul de programe SPSS for

Windows nu conţine aceşti doi coeficienţi. Dacă doriţi să efectuaţi analize

bazate pe coeficienţii de corelaţie tetrachoric, polichoric sau poliserial (o va-

riantă a coeficientului polichoric în care se asociază o variabilă scalară şi o

variabilă ordinală), vă recomand utilizarea pachetului LISREL şi a compo-

nentei PRELIS, pachet software produs de SSI – Scientific Software Interna-

ţional (http://www.ssicentral.com).

În general, analizele bazate pe aceşti coeficienţi intră în componenţa

ecuaţiilor structurale şi a modelelor de ecuaţii structurale (SEM).

I.1.8 Coeficientul de concordanţă W Kendall

Coeficientul de concordanţă W Kendall se bazează pe ranguri, fiind

folosit, de obicei, la stabilirea acordului dintre evaluatori. Fiind mult mai

simplu de calculat în

comparaţie cu procedeul

tetrachoric sau

polichoric, tehnica este

larg răspândită printre

specialişti. Pentru a înţe-

lege exact semnificaţia

acestui coeficient, să

presupunem că un număr de 6 studenţi sunt evaluaţi de către o comisie de

licenţă formată din trei evaluatori. Rezultatele vor fi trecute într-un tabel si-

milar tabelului 1.19.

Tabelul 1.19 – Notele obţinute de 6 studenţi evaluaţi de 3

profesori

Evaluator 1 Evaluator 2 Evaluator 3

Student 1 7 8 7

Student 2 6 5 8

Student 3 9 10 8

Student 4 8 8 7

Student 5 6 7 6

Student 6 7 8 9

Cristian Opariuc-Dan

59

Nu putem lucra direct cu aceste note, fiind necesare, pentru calculul

acordului dintre evaluatori, rangurile la care se situează notările fiecărui eva-

luator. Notele acordate de către fiecare evaluator vor fi transformate în ran-

guri şi introduse într-un

tabel asemănător cu tabe-

lul 1.20. Nu trebuie să

uităm faptul că ne refe-

rim la evaluatori şi nu la

studenţi.

Despre modul în

care putem calcula ran-

gurile nu mai discutăm, subiectul fiind epuizat cu altă ocazie. În urma stabili-

rii rangurilor, vom obţine tabelul 1.20. Se poate observa că profesorii au

acordat aceeaşi notă mai multor studenţi, fapt obişnuit. Ne amintim că rangul

pe care îl ocupă două scoruri identice este reprezentat de media poziţiilor pe

care se află scorurile respective.

În următoarea etapă vom calcula suma rangurilor pentru fiecare dintre

cei şase studenţi şi vom ridica la pătrat fiecare sumă.

Tabelul 1.21 – Calculul coeficientului de concordanţă W Kendall

Evaluator 1 Evaluator 2 Evaluator 3 ∑rang SR2

Student 1 3,5 4 2,5 10 100

Student 2 1,5 1 4,5 7 49

Student 3 6 6 4,5 16,5 272,25

Student 4 5 4 2,5 11,5 132,25

Student 5 1,5 2 1 4,5 20,25

Student 6 3,5 4 6 13,5 182,25

63 ∑SR2=756

Operaţiile finale impun calculul totalului atât pentru suma rangurilor,

cât şi pentru pătratul acesteia. În final, pentru calculul coeficientului de con-

cordanţă W Kendall, va trebui să avem un tabel similar tabelului 1.21

Tabelul 1.20 – Rangurile acordate celor 6 studenţi de

către fiecare evaluator

Evaluator 1 Evaluator 2 Evaluator 3

Student 1 3,5 4 2,5

Student 2 1,5 1 4,5

Student 3 6 6 4,5

Student 4 5 4 2,5

Student 5 1,5 2 1

Student 6 3,5 4 6

Statistică aplicată în ştiinţele socio-umane

60

Coeficientul de concordanţă W Kendall poate fi obţinut prin aplicarea

formulei:

(formula 1.25)

unde k reprezintă numărul de evaluatori, n numărul de persoane eva-

luate, iar S reprezintă suma pătratelor abaterilor dintre suma rangurilor

relative la fiecare subiect şi media acestor sume.

În situaţia de faţă, avem majoritatea elementelor. Numărul de evalua-

tori este 3 (k=3), numărul de studenţi este 6 (n=6), singurul lucru care ne

lipseşte este suma pătratelor abaterilor, S. Din fericire, există o formulă de

calcul şi pentru acest coeficient, astfel:

∑ (

)

(formula 1.22)

unde SR2 se referă la totalul pătratelor sumelor rangurilor, toate ce-

lelalte elemente fiind cunoscute.

De fapt, am putea scrie cel mai simplu formula coeficientului de con-

cordanţă W Kendall astfel:

∑ (

)

(formula 1.26)

De data aceasta avem toate elementele şi putem înlocui în formulă,

obţinând coeficientul de concordanţă W Kendall, în valoare de 0,60.

∑ (

)

(

)

Cristian Opariuc-Dan

61

I.1.8.1 Semnificaţia coeficientului de concordanţă W Kendall

Coeficientul de concordanţă W Kendall verifică gradul de acord din-

tre evaluatori şi poate lua valori cuprinse între 0 şi 1, fiind un coeficient nedi-

recţional. Valorile apropiate de 0 indică lipsa acordului, în timp ce valorile

apropiate de 1 arată acordul perfect. Între cei trei profesori evaluatori din

exemplul precedent am obţinut un acord de 0,60, sub forma coeficientului de

concordanţă W Kendall. Putem suspecta existenţa unui acord destul de ridicat

între cei 3 evaluatori. Problema care se pune este aceea a semnificaţiei acestui

acord. Putem spune că acordul dintre cei trei evaluatori este semnificativ sau

nu? În acest sens, există două cazuri speciale (Radu, și alții, 1993):

Prima situaţie este aceea în care numărul de subiecţi evaluaţi

se situează între 3 şi 7, iar numărul de evaluatori între 3 şi 20.

Este exact situaţia de faţă;

În al doilea caz se are în vedere un număr de subiecţi evaluaţi

peste 7, nefiind important numărul de evaluatori.

Pentru prima situaţie se poate folosi direct valoarea sumei pătratelor

abaterilor (S), ori coeficientul de concordanţă (W), utilizând tabelele propuse

de Kendall şi prezentate în anexa 5. Avem 3 evaluatori şi 6 subiecţi, s-a obţi-

nut un coeficient de concordanţă W de 0,60, iar suma pătratelor abaterilor

este de 94,5. Privind în tabel pe linia k=3 şi coloana n=6, obţinem valoarea

critică pentru S de 103,6 iar pentru W, de 0,66. În ambele cazuri, nu putem

vorbi despre un acord semnificativ între cei trei profesori. Suma pătratelor

(94,5) este mai mică decât valoarea de referinţă (103,6) la un prag de semni-

ficaţie p<0,05. La fel, coeficientul de concordanţă obţinut (0,60) este mai mic

decât valoarea de referinţă (0,66). Prin urmare, nu putem spune că cei trei

profesori au ajuns la un acord în privinţa celor şase studenţi evaluaţi.

Statistică aplicată în ştiinţele socio-umane

62

În cea de-a doua situaţie, se va transforma coeficientul de concordanţă

W Kendall în χ2 şi se vor folosi tabelele pentru χ

2 la un număr de n-1 grade de

libertate. Transformarea în χ2 se face după formula următoare:

(formula 1.27)

Aplicând această formulă (deşi situaţia nu o impune pentru că avem

doar şase subiecţi), putem obţine

. Folosind tabelul χ2 pentru un număr de 5 grade de libertate (anexa 3), vom

observa că valoarea de referinţă pentru un prag de semnificaţie mai mic de

0,05 este de 11,07. Cum valoarea noastră este 9, inferioară lui 11,7, gradul de

acord între cei trei profesori nu este semnificativ. Se acceptă, aşadar, ipoteza

nulă.

I.1.9 Coeficientul de corelaţie rang biserială

Corelaţiile biseriale vor fi expuse pe larg în subcapitolul destinat date-

lor parametrice. Tot ceea ce trebuie să ştiţi dumneavoastră este că atunci când

vorbim de corelaţii biseriale, punem în legătură o variabilă dihotomică şi o

variabilă scalară ori ordinală. Coeficientul de corelaţie rang biserială ne dă

expresia numerică a legăturii dintre o variabilă dihotomică şi o variabilă or-

dinală, calculându-se după formula următoare:

(formula 1.28)

unde mr1 reprezintă media rangurilor pentru situaţia prezenţei carac-

teristicii la nivelul variabilei dihotomice, mr0 se referă la media rangurilor în

cazul absenţei acestei caracteristici, iar n reprezintă numărul de cazuri ana-

lizate.

Să presupunem că suntem interesaţi de relaţia care există între genul

biologic (0 – femeie și 1 – bărbat) şi gradele militare la nivelul cadrelor dintr-

o unitate a ministerului apărării. Suntem în situaţia unei variabile nominale ce

Cristian Opariuc-Dan

63

poate fi asociată unei variabile dihotomice (este sau nu este bărbat), în relaţie

cu o variabilă ordinală (gradele militare cu valorile 1 – locotenent; 2 – căpi-

tan; 3 – maior; 4 – locotenent colonel; 5 – colonel; 6 – general). Colectăm

datele de la un număr de 15 persoane din unitatea militară respectivă,

centralizându-le într-un tabel.

Tabelul 1.22 – Calculul coeficientului rang biserial

Cadre militare

mr 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Sex 0 1 3 4 2 2 4 1 2,42

1 1 5 4 1 6 3 1 5 3,25

Observăm că primul subiect este femeie locotenent, al doilea subiect

bărbat locotenent, al treilea femeie maior, al patrulea femeie locotenent colo-

nel, al cincilea femeie căpitan, al şaselea bărbat colonel şi aşa mai departe.

Avem un număr de 15 perechi (n=15). Ne interesează media valorilor pentru

femei şi pentru bărbaţi, date pe care le includem în ultima coloană. Media

pentru femei este de 2,42, iar pentru bărbaţi 3,25. Avem acum toate datele

pentru a înlocui în formulă.

Am obţinut un coeficient de corelaţie rang biserial de 0,11, ceea ce

indică o corelaţie slabă sau inexistentă între cele două variabile. Despre pro-

blema semnificaţiei acestui coeficient vom discuta la corelaţiile biseriale şi

punct biseriale, deoarece situaţiile sunt analoage.

Ne vom opri aici cu prezentarea coeficienţilor de corelaţie pentru date

neparametrice. Desigur, nu am epuizat subiectul, ar fi încă multe de spus.

Considerăm, totuşi, că aveţi deja suficiente informaţii pentru a face faţă soli-

citărilor din cadrul studiilor corelaţionale care implică date neparametrice.

Puteţi găsi în literatura de specialitate descrieri complexe ale acestor tehnici.

Probabil că v-am sufocat prezentându-vă o mulţime de coeficienţi de corela-

Statistică aplicată în ştiinţele socio-umane

64

ţie pentru asemenea date. Credeţi-mă, toţi sunt importanţi şi se folosesc în

situaţii bine precizate. Când şi cum îi folosiţi, sunt aspecte ce nu pot fi tratate

aici, deoarece se referă la metodologia cercetării pe care o vom aborda în alte

lucrări. Nu vă panicaţi. Cu răbdare şi puţin exerciţiu veţi reuşi să stăpâniţi

toate aceste informaţii şi să decideţi metoda statistică adecvată fiecărui caz

particular.

I.2 Coeficienţi de corelaţie parametrici

Coeficienţii de corelaţie parametrici se calculează, cu unele excepţii,

într-o singură situaţie şi anume atunci când cele două variabile respectă cerin-

ţele parametrice de calcul. Adică, în situaţia în care se află la un nivel de mă-

sură cel puţin de interval şi prezintă o distribuţie normală. Bazându-se pe

medie ca indicator al tendinţei centrale, coeficienţii de corelaţie parametrici

trebuie să îndeplinească, aşadar, condiţiile de reprezentativitate a mediei.

I.2.1 Coeficientul de corelaţie r Bravais-Pearson

Iată tartorul studiilor corelaţionale, Zeus al relaţiilor dintre două vari-

abile, dictatorul absolut şi incontestabil. Coeficientul de corelaţie r Bravais-

Pearson reprezintă dezideratul ştiinţific al oricărui cercetător. Se mai numeşte

coeficientul de corelaţie „produs-moment”, una dintre cele mai reprezentative

măsuri ale relaţiei dintre două variabile.

Am să încep descrierea acestui coeficient prin a vă povesti o serie de

întâmplări. Două dintre multele mele defecte, care cred că sunt şi cele mai

importante, se referă la faptul că nu pot sta prea mult într-un loc şi că am

probleme cu subordonarea faţă de şefi. Acestea cred că sunt şi motivele pen-

tru care am schimbat până acum mai multe locuri de muncă, îndeosebi uni-

versităţi. Oricum, m-am trezit, la un moment dat, într-o universitate, predând

statistică şi analiza datelor, psihodiagnostic şi cam atât. Ei bine, chiar de la

început am rămas oarecum surprins să aflu că acolo, toată lumea, profesori,

studenţi, toţi, ştiau una şi bună. Coeficientul de corelaţie r Bravais-Pearson.

Cristian Opariuc-Dan

65

Nu conta că variabilele erau la nivel ordinal, uneori chiar nominal, sau că

analiza univariată scotea în evidenţă asimetrii evidente. Se aplica, peste tot,

coeficientul de corelaţie r Bravais-Pearson. Când, timid şi cu prietenie, am

încercat să explic că acest coeficient se foloseşte numai în anumite condiţii,

că există şi alţi coeficienţi ce pot fi utilizaţi, că statisticile neparametrice sunt

şi ele, acolo, un capitol de studiu, am fost privit cu neîncredere, cu ostilitate

chiar. Deşi majoritatea cărţilor de statistică încep studiul corelaţiilor cu acest

coeficient, eu am preferat să nu procedez aşa. Nu de alta, dar poate dacă scriu

la început despre statistici neparametrice, vor înţelege unii că şi acestea au un

rol. Dacă prezenta carte va ajunge în mâinile profesorilor şi ale foştilor stu-

denţi la care mă refer, sper că vor şti să se identifice perfect cu situaţia. Aveţi

dreptate, am fost rău aici şi am profitat de situaţie pentru a plăti o poliţă. Vă

rog să nu mă judecaţi prea aspru, însă diletantismul nu cred că are ce căuta în

lumea ştiinţifică şi universitară. Acum, să trecem la treabă.

Având două variabile, X şi Y, distribuite normal şi, evident, aflate cel

puţin la un nivel de interval, putem analiza relaţia dintre ele pe baza coefici-

entului de corelaţie r Bravais-Pearson, după formula:

√∑ ∑

(formula 1.29)

unde x barat reprezintă media scorurilor pentru variabila X, iar y ba-

rat reprezintă media scorurilor pentru variabila y.

Sunt deja convins că formula nu vă mai sperie deloc. Acum priviţi la

ea ca la un tablou de Picasso şi aşteptaţi cu mult drag exemplele concrete de

calcul. Vom prezenta, în cele ce urmează, câteva modalităţi de calcul ale

acestui coeficient, pentru date luate ca atare sau grupate în interval, folosind

atât formula de definiţie (formula 1.29), cât şi alte formule derivate.

Să considerăm că un psiholog a evaluat un număr de 10 subiecţi cu

două inventare de personalitate, reţinând scorurile pentru scala anxietate şi

Statistică aplicată în ştiinţele socio-umane

66

pentru scala depresie. Menţionăm că întotdeauna veţi lucra cu note brute şi

nu cu notele standard obţinute după raportarea la etalon. Spun acest lucru,

deoarece la aceeaşi instituţie la care am activat o perioadă a vieţii mele mi s-a

întâmplat să văd şi o asemenea minunăţie. Rezultatele obţinute de către cei

10 subiecţi au fost trecute într-un tabel prezentat în continuare.

Tabelul 1.23 – Calculul coeficientului de corelaţie r după formula de definiţie

Subiect Anxietate Depresie xanx-manx xdep-mdep (xanx-manx)( xdep-mdep) (xanx-manx)2 (xdep-mdep)

2

DD 22 24 8,5 10,3 87,55 72,25 106,09

AS 12 9 -1,5 -4,7 7,05 2,25 22,09

BS 6 5 -7,5 -8,7 65,25 56,25 75,69

EA 21 18 7,5 4,3 32,25 56,25 18,49

FS 16 20 2,5 6,3 15,75 6,25 39,69

AZ 15 16 1,5 2,3 3,45 2,25 5,29

MN 13 11 -0,5 -2,7 1,35 0,25 7,29

TG 10 10 -3,5 -3,7 12,95 12,25 13,69

RM 6 7 -7,5 -6,7 50,25 56,25 44,89

MA 14 17 0,5 3,3 1,65 0,25 10,89

∑=277,5 ∑=264,5 ∑=344,1

Dacă vă uitaţi cu atenţie la formula de definiţie, ce observaţi? Nu

cumva ceva asemănător cu „scorul minus media supra abaterea standard”?

Chiar aşa şi este. În realitate, coeficientul de corelaţie r Bravais-Pearson asta

şi face. Transformă totul în scoruri z şi stabileşte relaţia dintre două variabile

care conțin scoruri z. Iată de ce putem analiza liniştiţi relația liniară dintre

rezultatele obţinute în urma administrării a două instrumente complet diferite.

Nu contează că un instrument are 20 de itemi şi altul are 2000 de itemi, că o

scală are o amplitudine teoretică între 0 şi 20 de puncte, iar alta între 23 şi

190 de puncte. Ştim deja că statisticile z reprezintă numitorul comun ce per-

mite analiza relațiilor dintre două variabile.

Desigur, prima etapă o reprezintă verificarea normalităţii distribuţiei

celor două variabile; să presupunem că cele două variabile se distribuie nor-

mal. Urmează să calculăm mediile celor zece scoruri la anxietate şi depresie

şi obţinem manxietate=13,5 şi mdepresie=13,7. Ce ne spune formula? În primul

rând, să scădem fiecare scor din medie, apoi să facem produsul acestor dife-

Cristian Opariuc-Dan

67

renţe şi în final să le adunăm. Numărătorul fracţiei din formulă va avea valoa-

rea 277,5. Pentru numitor, va trebui să ridicăm diferenţele la pătrat, să facem

suma acestor pătrate pentru fiecare variabilă, să înmulţim aceste sume şi apoi

să extragem radicalul din rezultat. Cele două sume sunt de 264,5 pentru anxi-

etate şi 344,1 pentru depresie. Produsul lor este 91014,45 iar rădăcina pătrată

din acest produs devine 301,68, valoarea numitorului. Nu avem acum decât

să calculăm fracţia pentru a obţine coeficientul de corelaţie r Bravais-

Pearson. Prin urmare, r=277,5

/301,68=0,91, un coeficient de corelaţie ridicat,

care indică o relaţie puternică şi pozitivă între cele două variabile. Dacă este

sau nu semnificativă, vom vedea imediat.

Dacă avem un volum mare de date, formula de definiţie devine inefi-

cientă. Ne-a fost destul de dificil să lucrăm cu 10 subiecţi, darămite cu 100

sau 1000. Pentru volume mari de date, lucrurile sunt mai simple decât credeţi

şi se rezumă la a efectua 3-4 clicuri de maus în SPSS for Windows. Dar pro-

babil că sunteţi, totuşi, curioşi să aflaţi cum am face pe hârtie o asemenea

corelaţie. Sper că vă mai aduceţi aminte de datele grupate în interval. Vom

relua exemplul, de data aceasta cu intervale de grupare.

Metoda se bazează pe aşa-numita operaţie de codare, fiind descrisă de

Ioan Radu şi colaboratorii (Radu, și alții, 1993), drept pentru care o vom pre-

lua cu adăugirile noastre. Cele două variabile vor fi grupate în intervale, fiind

prezentate simultan în tabelul de analiză.

Prima etapă în operaţia de codare este stabilirea mediei de lucru, va-

loare situată de obicei în mijlocul şirului. Dacă numărul de clase este par (ca

în situaţia noastră), vom alege media de lucru din clasa cu frecvenţa cea mai

mare. În general, media de lucru o vom nota prin ml. Având două variabile,

evident, vom avea două medii de lucru: mla şi mld.

Statistică aplicată în ştiinţele socio-umane

68

Tabelul 1.24 – Calculul coeficientului de corelaţie r pentru variabile grupate pe intervale

Anx. Depresie Valori de calcul

5-8 9-12 13-16 17-20 21-24 25-28 uanx fanx fanx uanx fanxxuanx2

8-11 - 2 - 3 - 7 -2 12 -24 48

12-15 - 5 8 3 3 9 -1 28 -28 28

16-19 - 10 3 17 2 9 0 41 0 0

20-23 3 11 2 5 2 6 1 29 29 29

24-27 1 13 1 1 1 3 2 20 40 80

28-31 2 12 1 2 7 1 3 25 75 225

udep -3 -2 -1 0 1 2

fdep 6 53 15 31 15 35 n=155

fdep udep -18 -106 -15 0 15 70

∑anx=92

∑dep=-54

fdepx udep2 54 212 15 0 15 280

∑fu2anx=410

∑fu2dep=576

G -33 -128 1 0 22 -16 ∑g -154

Concret, media de lucru pentru anxietate se poate situa undeva în cele

două intervale centrale, intervalele 16-19 sau 20-23. Vom alege media de

lucru din intervalul care are frecvenţa cea mai mare. Primul interval (16-19)

are valorile 10, 3, 17, 2 şi 9 pentru anxietate. Frecvenţa totală va fi aşadar 41.

Al doilea interval (23-23) are valorile 3, 11, 2, 5, 2, 6 cu frecvenţa totală 29.

Intervalul cu frecvenţa cea mai mare va fi intervalul 16-19, din care vom ex-

trage media de lucru. În mod analog, stabilim intervalul din care vom extrage

media de lucru pentru depresie. Avem de ales între intervalul 13-16 şi inter-

valul 17-20. Primul interval are o frecvenţă totală de 15 iar al doilea de 31.

Evident, media de lucru va fi aleasă din intervalul 17-20. Odată stabilite in-

tervalele, extragerea mediei de lucru este un fapt banal. În cazul variabilei

anxietate, media de lucru va fi în intervalul 16-19, adică media valorilor 16,

17, 18, 19 rezultând mla=17,5. Similar, pentru depresie rezultă mld=18,5. Va-

lorile codate sunt notate de către autorii mai sus menţionaţi, folosind litera u,

codarea făcându-se după formula:

Cristian Opariuc-Dan

69

(formula 1.30)

unde x reprezintă valoarea, ml se referă la media de lucru, iar i este

intervalul de clasă

Vom avea, în mod evident, două variabile codate: variabila anxietate

şi variabila depresie. Codarea este foarte simplă. Pentru fiecare dintre variabi-

le se acordă valoarea 0 în dreptul intervalului care conţine media de lucru.

Apoi, succesiv, se scade sau se adaugă o unitate pentru intervalele situate

sub, respectiv peste intervalul care conţine media de lucru. Intervalul care

conţine media de lucru în cazul variabilei „anxietate” este intervalul 16-19.

Acesta va primi valoarea 0 pentru coloana u. Intervalul 12-15 primeşte valoa-

rea -1 şi intervalul 8-11 primeşte valoarea -2. Similar, intervalul 20-23 pri-

meşte valoarea 1, intervalul 24-27 primeşte valoarea 2, iar intervalul 28-31

primeşte valoarea 3. Analog, se procedează şi în cazul celeilalte variabile.

Următorul pas este reprezentat de calculul frecvenţei absolute pentru

fiecare dintre cele două variabile. Pentru intervalul 8-11 al variabilei anxieta-

te, avem 2 subiecţi care au depresia în intervalul 9-12, 3 subiecţi cu depresia

în intervalul 17-20, 7 subiecţi cu depresia în intervalul 25-28. În total avem

12 subiecţi, noua valoare pentru frecvenţa absolută a acestui interval. Proce-

dăm similar pentru celelalte intervale ale anxietăţii şi pentru intervalele de-

presiei. În final, suma frecvenţelor absolute pentru variabila depresie trebuie

să fie egală cu suma frecvenţelor absolute pentru variabila anxietate şi repre-

zintă, practic, numărul total de subiecţi. Avem, în cazul nostru, un număr de

155 de subiecţi evaluaţi cu cele două probe (n=155).

Următorul pas este reprezentat de înmulţirea valorii codate u cu frec-

venţa absolută pentru fiecare dintre cele două variabile analizate şi efectuarea

sumelor acestor produse. Suma pentru anxietate va fi de 92, iar suma pentru

depresie va fi de -54.

Statistică aplicată în ştiinţele socio-umane

70

În continuare, vom face produsul dintre frecvenţa absolută a variabilei

şi pătratul codării acesteia. Atenţie, întâi ridicăm la pătrat valoarea codată şi

apoi înmulţim cu frecvenţa absolută. Sursa citată mai sus a fost folosită şi de

mine atunci când eram student. Îmi aduc aminte că nu înţelegeam deloc cum

au ieşit valorile de acolo. Bineînţeles că întâi făceam produsul frecvenţei ab-

solute cu valoarea codată şi apoi încercam să ridic la pătrat. M-am prins, până

la urmă, şi de aceea nu doresc să faceţi şi dumneavoastră aceeaşi eroare. Pen-

tru intervalul 8-11 al variabilei anxietate, avem frecvenţa absolută 12 şi va-

loarea codată -2. Întâi ridicăm la pătrat valoarea codată şi obţinem 4, apoi

înmulţim 4 cu 12 şi obţinem 48, cifră pe care o trecem în ultima coloană a

tabelului. Similar procedăm cu toate intervalele celor două variabile şi în fi-

nal însumăm rezultatele.

Ultimul lucru pe care îl mai avem de făcut este reprezentat de obţine-

rea valorii g, valoare al cărei calcul necesită puţină atenţie şi concentrare. Ea

rezultă din intersecţia celor două variabile, ţinându-se cont de numărul de

subiecţi şi de valoarea codată. Pentru intervalul 5-8 al variabilei depresie,

avem valoarea codată -3. Pe acest interval, găsim 3 subiecţi aflaţi în interva-

lul 20-23 pentru anxietate (cu valoarea codată 1), 1 subiect aflat în intervalul

24-27 pentru anxietate (cu valoarea codată 2) şi 2 subiecţi aflaţi în intervalul

28-31 pentru anxietate (cu valoarea codată 3). Valoarea g este dată de suma

produselor parţiale, astfel: (-3)x3x1=-9 pentru intervalul 20-23 anxietate şi 5-

8 depresie, (-3)x1x2=-6 pentru intervalul 24-27 anxietate şi 5-8 depresie şi, în

final, (-3)x2x3=-18 pentru intervalul 28-31 anxietate şi 5-8 depresie. Aşadar,

valoarea g pentru intervalul 5-8 depresie devine -9-6-18=-33, cifră pe care o

scriem în prima coloană. A doua coloană corespunde intervalului 9-12 pentru

depresie, iar algoritmul este asemănător. Avem 2 subiecţi la intersecţia inter-

valului 9-12 depresie cu 8-11 anxietate, prin urmare (-2)x2x(-2)=8; 5 subiecţi

la intersecţia intervalului 9-12 depresie cu 12-15 anxietate, atunci (-2)x5x(-1)

rezultă 10. Similar, 10 subiecţi la intersecţia intervalului 9-12 depresie cu 16-

19 anxietate şi, deci, (-2)x10x0=0, 11 subiecţi la intersecţia intervalului 9-12

Cristian Opariuc-Dan

71

depresie cu 20-23 anxietate generând (-2)x11x1=-22, 13 subiecţi la intersec-

ţia intervalului 9-12 depresie cu 24-27 anxietate şi (-2)x13x2=-52. În final, 12

subiecţi la intersecţia intervalului 9-12 depresie cu 28-31 anxietate, calculul

fiind (-2)x12x3=-72. Valoarea g pentru această coloană va deveni 8+10+0-

22-52-72=-128. Cred că aţi prins deja ideea. Desigur, intervalul în care varia-

bila codată are valoarea 0, va avea şi aici tot valoarea 0. În restul intervalelor,

vom proceda ca mai sus. La sfârşit, efectuăm suma acestor valori obţinute.

Finalizând tabelul necesar calculului coeficientului de corelaţie r

Bravais-Pearson, probabil că vă întrebaţi acum ce formulă aplicăm. Iată, mai

jos, formula necesară în acest caz:

∑ ∑

√(∑

)(∑

)

(formula 1.31)

Toate datele sunt cunoscute şi au fost deja tratate. Nu rămâne decât să

înlocuim în formulă, obţinând un coeficient de corelaţie de -0,41.

∑ ∑

√(∑

) (∑

)

√(

) (

)

Constatăm că cele două variabile corelează negativ. Nimic mai firesc,

având în vedere faptul că am folosit date absolut fictive. Având coeficientul

de corelaţie, se pune din nou problema semnificaţiei acestuia.

Puteţi observa că acest calcul este, poate, cel mai elaborat de până

acum. Este şi normal să fie aşa, deoarece am lucrat cu o serie de convenţii şi

ne-am bazat pe câteva proprietăţi ale datelor grupate în intervale. După câte-

va exersări, procedura va deveni familiară. Nu este foarte greu, însă necesită

Statistică aplicată în ştiinţele socio-umane

72

ceva concentrare. Iată motivul pentru care s-au inventat programele de anali-

ză statistică.

În cazul în care doriţi să calculaţi direct coeficientul de corelaţie r

Bravais-Pearson, fără a mai calcula, în prealabil, mediile, puteţi aplica urmă-

toarea formulă:

∑ ∑ ∑

√[ ∑ (∑

)

][ ∑

(∑ )

]

(formula 1.32)

Formula este foarte simplă şi nu comportă explicaţii suplimentare.

Vom relua exemplul celor 10 subiecţi evaluaţi cu inventarele de anxietate şi

depresie pentru a verifica, prin această metodă, dacă ajungem la acelaşi rezul-

tat. În tabelul 1.25 am reluat

exemplul.

Operaţiile nu sunt

complicate deloc. Trebuie

să efectuăm ridicarea la

pătrat a valorilor celor două

variabile şi apoi înmulţirea

valorilor celor două variabi-

le (nu a valorilor variabile-

lor ridicate la pătrat). În final, efectuăm suma scorurilor pentru valorile cele

două variabile, pentru pătratul acestora, şi suma produsului lor. Acestea sunt

toate datele necesare aplicării formulei.

∑ ∑ ∑

√[ ∑ ∑

][ ∑ ∑

]

Tabelul 1.25 – Calculul coeficientului de corelaţie r Subiect Anxietate Depresie Anx2 Dep2 AnxDep

DD 22 24 484 576 528

AS 12 9 144 81 108

BS 6 5 36 25 30

EA 21 18 441 324 378

FS 16 20 256 400 320

AZ 15 16 225 256 240

MN 13 11 169 121 143

TG 10 10 100 100 100

RM 6 7 36 49 42

MA 14 17 196 289 238

Total 135 137 2087 2221 2127

Cristian Opariuc-Dan

73

Observăm că am obţinut exact acelaşi coeficient de corelaţie Bravais-

Pearson, 0,91, cele două formule fiind echivalente.

Vă lăsăm dumneavoastră plăcerea de a alege între cele trei metode de

calcul propuse. Metoda a doua, deşi mai complicată la prima vedere, vă asi-

gură posibilitatea calculării acestui coeficient pentru volume mari de date.

Aceasta este situaţia. Analiza statistică a datelor nu este complicată, însă pre-

supune calcule laborioase şi multă atenţie. Iar dacă acestea vi se par calcule

complexe, staţi să vedeţi analiza factorială cum se prezintă. Glumeam! Nu vă

speriaţi şi nu aruncaţi cartea din mână. Vom discuta acum despre semnificaţia

acestui coeficient.

I.2.1.1 Semnificaţia coeficientului de corelaţie r Bravais-

Pearson

Acest coeficient de corelaţie este un coeficient direcţional şi poate lua

valori între -1 şi +1, cu o semnificație analoagă coeficientului de corelaţie a

rangurilor ρ Spearman sau ca a oricărui coeficient direcţional.

Fiind bazat pe date scalare, pragul de semnificaţie se poate raporta la

distribuţia t, în funcţie de valoarea testului t pentru un număr de n-2 grade de

libertate, după relaţia:

| |

√ √ (formula 1.33)

În primul exemplu am obţinut un coeficient de corelaţie r Bravais-

Pearson de 0,91 pe un lot de 10 subiecţi. Valoarea testului de semnificaţie t

va fi de 6,198

| |

√ √

√ √

√ √

Vom compara această valoare cu valoarea critică a testului t din anexa

4 pentru un număr de 10-2=8 grade de liberate. Observăm că pentru a fi

Statistică aplicată în ştiinţele socio-umane

74

semnificativă la un prag de semnificaţie mai mic de 0,05, valoarea testului t

trebuie să fie mai mare de 1,860, şi la un prag de semnificaţie mai mic de

0,01 va trebui să fie mai mare de 2,89 (pentru o ipoteză bidirecţională). Va-

loarea noastră, 6,198, este mult mai mare decât aceste praguri critice, ceea ce

înseamnă că acest coeficient de corelaţie obţinut este semnificativ la un prag

de semnificaţie mai mic de 0,01.

Această analiză are doar un rol de exemplu. Numărul de subiecţi nu

permite generalizarea rezultatelor. În realitate, după cum ştim, valoarea unui

studiu efectuat pe doar 10 persoane este extrem de limitată, concluziile nepu-

tând fi extinse la nivelul populaţiei.

În al doilea exemplu, am obţinut un coeficient de corelaţie de -0,41,

studiind un număr de 155 de persoane. În mod cert, vom dori să ştim dacă

această corelaţie inversă este sau nu este semnificativă. Vom folosi din nou

testul t.

√ √

√ √

√ √

Nu suntem interesaţi de semnul testului t. Este normal să fie negativ,

deoarece şi corelaţia este negativă. Ne interesează doar să comparăm această

valoare (12,33) cu valoarea de referinţă pentru un prag de semnificaţie mai

mic de 0,05 sau mai mic de 0,01 la un număr de 155-2=153 grade de liberta-

te. În tabelul din anexa 4 nu avem exact valorile pentru 153 grade de liberta-

te. Valoarea inferioară cea mai apropiată este 150 de grade de libertate, va-

loare cu care vom efectua comparaţia. Pentru un prag de semnificaţie mai

mic de 0,05, valoarea de referinţă este 1,96 iar pentru un prag de semnificaţie

mai mic de 0,01 este 2,57. Încercaţi să memoraţi aceste valori deoarece le

veţi folosi frecvent. Ce constatăm? Ceea ce am obţinut (12,33) este mult mai

mare în comparaţie cu 2,57, valoarea de referinţă pentru un prag de semnifi-

Cristian Opariuc-Dan

75

caţie mai mic de 0,01. Aşadar, coeficientul de corelaţie este semnificativ la

un prag de semnificaţie mai mic de 0,01.

Sigur că cea mai simplă metodă este aceea de a compara valoarea coe-

ficientului de corelaţie Bravais-Pearson cu pragurile critice din tabelul special

(anexa 6). Coeficientul de corelaţie -0,41 obţinut în urma studiului unui eşan-

tion de 155 de subiecţi va fi comparat cu pragul critic pentru un număr de

155-2=153 grade de libertate. Tabelul conţine valori doar pentru 100 de grade

de libertate, acesta fiind şi rândul pe care-l vom lua în calcul. Pentru a fi

semnificativ la un prag de semnificaţie mai mic de 0,05, coeficientul de core-

laţie trebuie să depăşească valoarea 0,195, iar la un prag de semnificaţie mai

mic de 0,01 trebuie să depăşească valoarea 0,25. Desigur, valoarea noastră

(0,41) este mai mare decât aceste praguri critice, corelaţia fiind semnificativă.

M-am tot gândit dacă să mă opresc aici sau să vă mai prezint un ele-

ment important referitor la acest coeficient de corelaţie. Până la urmă am de-

cis să vă mai „bombardez” cu o informaţie. Ştim deja că scopul unei cercetări

efectuate pe un eşantion este acela de a extinde cunoştinţele dobândite la ni-

velul întregii populaţii. Stabilind că între anxietate şi depresie există un coefi-

cient de corelaţie de 0,411 şi observând că această corelaţie este semnificativă

lucrând pe un eşantion de 155 de persoane (presupunând că vorbim de un

eşantion şi nu de un lot de cercetare), am putea extinde această informaţie la

nivelul întregii populaţii, spunând că între nivelul de anxietate şi cel al depre-

siei există o corelaţie pozitivă, semnificativă şi de nivel mediu. Luând un alt

eşantion de 150 sau 200 de persoane, vom obţine cam aceleaşi rezultate, coe-

ficientul de corelaţie fiind, să spunem, de 0,51. Pe un alt eşantion am obţine

un coeficient de corelaţie de 0,38 şi aşa mai departe. Ideea este aceea dacă

putem găsi o măsură a acestei corelaţii la nivelul populaţiei. Care ar fi oare

1 Nu am mai menţionat că este negativă. În realitate corelaţia există, într-adevăr, şi este pozi-

tivă. Noi am obţinut o corelaţie negativă, deoarece am lucrat cu date la întâmplare care nu au

rezultat din cercetări. Mă şi mir că a rezultat o corelaţie semnificativă.

Statistică aplicată în ştiinţele socio-umane

76

coeficientul de corelaţie dacă, presupunând prin absurd, am investiga întreaga

populaţie a globului? În mod normal, acest parametru îl notăm cu litera gre-

cească ρ şi nu are nici o legătură cu notaţia folosită pentru a desemna coefici-

entul de corelaţie a rangurilor Spearman. Ei bine, valoarea exactă a acestui

parametru nu o vom putea şti niciodată. În mod sigur însă, valorile obţinute

prin studiul eşantionului se pot apropia mai mult sau mai puţin de acest pa-

rametru. În realitate, valoarea parametrului este situată într-un interval, numit

interval de încredere. Putem spune că [rinf < ρ < rsup], adică valoarea exactă

a parametrului la nivelul populaţiei este situată undeva între o limită inferioa-

ră şi o limită superioară a unui interval de încredere. Din fericire, deşi nu pu-

tem calcula valoarea exactă a parametrului, putem însă calcula, cu o anumită

probabilitate, acest interval de încredere.

Reluând exemplul cu cei 155 de subiecţi examinaţi, pentru care am

obţinut un coeficient de corelaţie de 0,41, demonstrând că această corelaţie

este semnificativă, să vedem care este intervalul de încredere, între ce limite

putem găsi valoarea reală a acestei corelaţii la nivelul întregii populaţii. În

acest sens, Fisher a introdus o variabilă teoretică, având o distribuţie aproxi-

mativ normală, numită variabila u (Vasilescu, 1992) şi calculată după formu-

la:

(formula 1.34)

unde prin ln am desemnat logaritmul natural, iar r reprezintă coefici-

entul de corelaţie care ia valori între -1 şi +1.

Cunoscând această relaţie generală, putem stabili variabilele u necesa-

re limitelor inferioare şi superioare ale intervalului de încredere, astfel:

√ ș

√ (formula 1.35)

unde n este numărul de subiecţi, iar z1-α reprezintă valoarea distribu-

ţiei z la pragul 1-α ales.

Cristian Opariuc-Dan

77

În baza acestor formule putem acum stabili modalităţile de calcul ale

limitelor intervalului de încredere:

ș

(formula 1.36)

unde e este o constantă matematică, numită şi numărul lui Euler, şi

are valoarea 2,71828. 

Nu vă speriaţi, că nu este greu deloc. Calculăm imediat intervalul de

încredere pentru coeficientul de corelaţie din exemplul de mai sus. Desigur,

întâi vom calcula variabila u.

Am obţinut valoarea 0,435 pentru variabila u. Obţinerea logaritmului

natural se face cu ajutorul unui calculator ştiinţific. Nu vă pune nimeni să-l

calculaţi cu creionul pe hârtie. Desigur, va trebui să stabilim acum probabili-

tatea intervalului de încredere. La o probabilitate de 95% (α=0,05), valoarea z

va fi de 1,645, valoare extrasă din tabele (tabelul distribuţiei t din anexa 4, în

general ultima linie a tabelului). Folosind aceste date, vom putea calcula va-

riabilele u pentru limitele inferioare şi superioare.

Putem acum stabili limitele inferioare şi superioare ale intervalului de

încredere, aplicând ultimele formule:

Statistică aplicată în ştiinţele socio-umane

78

Am obţinut, cu o probabilitate de 95%, intervalul în care se regăseşte

acest parametru la nivelul populaţiei. Coeficientul de corelaţie dintre anxieta-

te şi depresie se găseşte, la nivelul populaţiei, cu o probabilitate de 95%, între

un coeficient de corelaţie de 0,293 şi un coeficient de corelaţie 0,513.

Îmi exprim speranţa că acum aveţi o imagine clară asupra coeficientu-

lui de corelaţie r Bravais-Pearson şi veţi şti să-l folosiţi în mod corect. Indife-

rent dacă efectuaţi calculele manual sau folosind un program computer, este

absolut necesar să înţelegeţi semnificaţia acestui indicator şi condiţiile în care

îl puteţi folosi. Altminteri, riscaţi obţinerea de date şi interpretări incorecte.

Şi, ca să parafrazez un mare statistician, nu statistica minte ci oamenii mint

folosindu-se de statistică.

I.2.2 Coeficientul de corelaţie biserial, punct biserial şi triserial

Avem deja o idee asupra corelaţiei biseriale din capitolul destinat co-

relaţiilor neparametrice, unde am vorbit despre corelaţia rang biserială şi am

promis, tot atunci, că vom reveni. Într-adevăr, corelaţia biserială presupune

analiza relaţiei existente între o variabilă scalară şi o variabilă nominală, de

obicei dihotomică. Metoda este frecvent folosită la validarea testelor psiholo-

gice. De exemplu, construim un test de inteligenţă pe care îl administrăm

unor candidaţi la şcoala de aviaţie militară. Evident, dintre aceşti candidaţi,

unii vor fi admişi, iar alţii respinşi. Ne interesează să ştim dacă există vreo

legătură între admiterea sau respingerea candidaţilor şi rezultatele la test. Cu

alte cuvinte, dacă testul construit poate sau nu poate prezice admiterea la

şcoala de aviaţie. Desigur, „a prezice” este grosier folosit, mai degrabă prefe-

răm termenul „a diferenția”. Pentru predicţii, avem tehnici diferite şi mult

mai sensibile, pe care le vom studia în alt volum. De fapt, această corelaţie

seamănă mai mult cu un test statistic decât cu o corelaţie reală.

Cristian Opariuc-Dan

79

Încă de la început, menţionăm faptul că acest coeficient de corelaţie

(biserial) are un „frate” geamăn. Este vorba despre coeficientul de corelaţie

punct biserial care face exact acelaşi lucru, diferenţa dintre ele fiind una de

nuanţă subtilă şi ţinând de variabila dihotomică. În cazul coeficientului de

corelaţie punct biserial, variabila dihotomică are o aşa numită dihotomie dis-

cretă, în timp ce coeficientul de corelaţie biserial prezintă o variabilă cu o

dihotomie continuă (Field, 2000). Ce înseamnă acest lucru?

Reluând exemplul candidaţilor la şcoala de aviaţie, statutul de admis

şi respins reprezintă o dihotomie continuă. De ce? Foarte simplu, deoarece

variabila dihotomică provine dintr-o variabilă continuă (media de admitere).

În definitiv, există o „continuitate” în categoria admişilor şi a respinşilor,

aceştia având medii diferite. Eşecul unui candidat poate fi la câteva sutimi de

ultima medie de admitere sau la câteva puncte. Un alt exemplu ar fi dihoto-

mia bătrâni-tineri sau dihotomia gras-slab. Toate aceste variabile, deşi evi-

dent dihotomice şi nominale, provin din variabile continui, de aceea se folo-

seşte termenul de dihotomie continuă.

În cazul dihotomiei discrete, această continuitate nu mai este prezentă.

Dihotomia bărbat-femeie este o dihotomie discretă, deoarece între bărbaţi nu

se poate spune că unii sunt mai mult bărbaţi, iar alţii mai puţin, unii sunt mai

„bărbaţi”, iar alţii mai „femei” (decât, eventual, din punct de vedere compor-

tamental, ar spune unii mai mucaliţi). Deşi transsexualul X se dă femeie, într-

o asemenea clasificare, strict pe criterii biologice, X este în definitiv bărbat.

Alte exemple ar fi: dihotomia viu-mort, nu poţi fi mai mort sau mai puţin

mort, dihotomia însărcinată-neînsărcinată şi lista poate continua.

Sper că aţi înţeles aceste două tipuri de dihotomii. În condiţiile în care

avem o dihotomie continuă, se foloseşte coeficientul de corelaţie biserial, iar

pentru variabila cu o dihotomie discretă, utilizăm coeficientul de corelaţie

punct biserial. Aceasta este diferenţa subtilă dintre cei doi coeficienţi de core-

laţie.

Statistică aplicată în ştiinţele socio-umane

80

Mă gândesc acum să compar statistica şi analiza datelor cu o pereche

de pantofi noi şi foarte frumoşi. Îi încalţi, te mândreşti cu ei, deşi de cele mai

multe ori, la început, te rod teribil şi faci răni la picioare. Comparaţia se po-

triveşte de minune cu aceşti doi coeficienţi. Ştii analiză de date, eşti invidiat

de mulţi, se uită la tine, te apreciază, deşi numai tu înţelegi câte răni ai făcut

la creier să pricepi, de exemplu, dihotomia continuă şi dihotomia discretă.

Din moment ce am clarificat aceste elemente, să mergem mai departe

şi să vedem cum se calculează coeficientul de corelaţie biserial, coeficientul

de corelaţie punct biserial şi să discutăm câteva lucruri despre coeficientul de

corelaţie triserial care face parte din aceeaşi familie.

Coeficientul de corelaţie biserial se notează rbis şi se poate calcula du-

pă formula:

(formula 1.37)

în care cu x barat s-au notat mediile valorilor variabilei continui în

situaţia de prezenţă a caracteristicii dihotomice, respectiv în situaţia de ab-

senţă a acestei caracteristici, cu p s-a notat proporţia subiecţilor care prezin-

tă caracteristica, cu q proporţia subiecţilor care nu prezintă caracteristica,

iar z reprezintă ordonata punctului de separaţie. Sigma se referă la abaterea

standard a datelor variabilei continui.

Să considerăm că testul de inteligenţă are un număr de 10 itemi. Un

item primeşte 1 punct dacă subiectul răspunde corect şi 0 puncte dacă răs-

punde greşit. Prin urmare, amplitudinea teoretică este cuprinsă între 0 şi 10

puncte. Rezultatele obţinute de candidaţi la acest test, grupate după calitatea

lor de admişi ori respinşi, sunt următoarele:

Cristian Opariuc-Dan

81

Tabelul 1.26 – Calculul coeficientului de corelaţie biserial

Rezultat Test inteligenţă (punctaj total)

Total 0 1 2 3 4 5 6 7 8 9 10

Admis 0 0 1 2 4 6 0 9 7 6 8 43

Respins 0 0 3 5 8 5 4 5 2 4 1 37

Total 0 0 4 7 12 11 4 14 9 10 9 80

Structura tabelului este clară. Un punctaj de 0 puncte şi de 1 punct nu

a fost realizat de niciun candidat. 2 puncte au făcut 3 candidaţi respinşi şi 1

singur candidat admis, 3 puncte au avut 2 candidaţi admişi şi 5 candidaţi res-

pinşi şi aşa mai departe. În total, avem 80 de candidaţi, dintre care 43 de can-

didaţi admişi şi 37 respinşi.

Vom stabili acum proporţiile candidaţilor admişi şi respinşi raportând

numărul de candidaţi admişi, respectiv numărul de candidaţi respinşi, la nu-

mărul total de candidaţi. Astfel,

şi

. În reali-

tate, avem 53,7% candidaţi admişi şi 46,3% candidaţi respinşi. Adunând pro-

centele (53,7+46,3=100%), obţinem expresia întregului volum de subiecţi

studiat.

Singurul lucru care ne lipseşte este ordonata punctului de separaţie

(z). De fapt nici nu avem nevoie de această valoare, deoarece raportul

se

citeşte dintr-un tabel special (tabel prezentat în anexa 7), luând ca referinţă

valoarea p sau valoarea q. Nu contează dacă ne raportăm la proporţia candi-

daţilor admişi sau la proporţia candidaţilor respinşi, deoarece întotdeauna

p=1-q şi q=1-p, fapt evident. De obicei se ia în considerare valoarea cea mai

mică, tabelul fiind conceput până la o proporţie de 0,500, altminteri ar fi fost

redundant.

În tabelul din anexa 7, luând ca referinţă q=0,463, obţinem valoarea

raportului 0,6259. Urmează calculul mediilor pentru subiecţii admişi şi pen-

tru subiecţii respinşi. Media se calculează însumând produsele obţinute prin

Statistică aplicată în ştiinţele socio-umane

82

înmulţirea numărului de subiecţi cu scorul fiecărei categorii şi împărţind la

numărul total al subiecţilor admişi, respectiv respinşi. În cazul subiecţilor

admişi vom avea (1x2)+(2x3)+(4x4)+(6x5)+(9x7)+(7x8)+(6x9)+(8x10)=307.

Împărţind suma la 43, rezultă media admişilor de 7,139. Procedăm similar şi

în cazul respinşilor. Suma rezultată va fi 199, împărţită la 37, ne dă media

respinşilor, care are valoarea 5,378. Nu ne trebuie acum decât abaterea stan-

dard a întregului lot de cercetare pentru a putea calcula coeficientul de corela-

ţie biserial. Nu intrăm în amănunte referitoare la calculul abaterii standard,

aceste elemente fiind tratate în lucrarea anterioară. Revedeţi capitolul referi-

tor la calculul abaterii standard pentru date grupate pe interval. Abaterea

standard pentru întregul set de date (variabila test de inteligenţă) este 2,0.

Având acum toate informaţiile necesare, putem cu uşurinţă completa

formula de calcul şi obţinem valoarea coeficientului de corelaţie biserial:

Coeficientul de corelaţie biserial are valoarea 0,55, lucru care ne indi-

că posibilitatea ca testul de inteligenţă să prevadă succesul sau eşecul la exa-

menul de admitere. Urmează doar să verificăm semnificaţia acestui coeficient

de corelaţie.

În cazul unei variabile dihotomice discrete, coeficientul de corelaţie

biserial devine inadecvat. Situaţia impune calculul coeficientului de corelaţie

punct biserial după relaţia:

(formula 1.38)

în care cu x barat s-au notat mediile valorilor variabilei continui în

situaţia de prezenţă a caracteristicii dihotomice, respectiv în situaţia de ab-

senţă a acestei caracteristici, cu n1 și n2 s-au notat frecvenţele absolute în

Cristian Opariuc-Dan

83

cele două situaţii, iar sigma se referă la abaterea standard a datelor variabi-

lei continui.

Formula nu se mai bazează pe proporţii, ci pe frecvenţe absolute, fiind

mai uşor de calculat în comparaţie cu coeficientul biserial. Vom relua exem-

plul anterior, considerând de data aceasta că testul de inteligenţă doreşte să

prezică diferenţa, sub acest aspect, dintre bărbaţi şi femei.

Variabila dihotomică are acum o dihotomie discretă, calculul coefici-

entului biserial nu mai are sens, prin urmare vom aplica formula coeficientu-

lui de corelaţie punct biserial.

Tabelul 1.27 – Calculul coeficientului de corelaţie punct biserial

Sex Test inteligenţă (punctaj total)

Total 0 1 2 3 4 5 6 7 8 9 10

Bărbaţi 0 0 1 2 4 6 0 9 7 6 8 43

Femei 0 0 3 5 8 5 4 5 2 4 1 37

Total 0 0 4 7 12 11 4 14 9 10 9 80

În mod absolut evident, există o diferenţă între cei doi coeficienţi de

corelaţie, cel punct biserial fiind întotdeauna mai mic în comparaţie cu vari-

anta biserial. Dacă nu sunteţi sigur de natura variabilei dihotomice, vă învăţ

un truc. Luaţi-vă o măsură de precauţie, calculând întotdeauna coeficientul de

corelaţie punct biserial. Dacă, ulterior, vă daţi seama că aveţi de a face cu o

variabilă cu dihotomie continuă, puteţi transforma uşor coeficientul de core-

laţie punct biserial în coeficient de corelaţie biserial, după formula:

(formula 1.39)

Statistică aplicată în ştiinţele socio-umane

84

Valoarea raportului √

se citeşte în acelaşi tabel ca şi raportul

,

luându-se ca referinţă proporţia cea mai mică. În exemplul nostru, am luat ca

referinţă q=0,463. Găsisem, anterior, că raportul

. În acelaşi ta-

bel, raportul √

. Obţinând coeficientul de corelaţie punct biserial de

0,438, putem deduce coeficientul de corelaţie biserial.

Valoarea obţinută se apropie foarte mult de cea rezultată prin calcul

direct, diferenţele fiind datorate rotunjirilor.

S-ar putea să întâlniţi în practică situaţii în care va trebui să puneţi în

relaţie o variabilă continuă cu o variabilă trihotomică, de tipul aceleia care

împarte un grup de subiecţi în slabi, medii şi buni. În acest caz, se foloseşte

un alt coeficient de corelaţie, numit coeficientul de corelaţie triserial, care

ţine cont doar de extremele variabilei trihotomice, nu şi de clasa din mijloc.

Este, dacă doriţi, o variantă a coeficientului de corelaţie biserial, având apro-

ximativ aceeaşi structură.

Relaţia de calcul a acestui coeficient este dată de următoarea formulă:

(formula 1.40)

Expresia de mai sus nu presupune un tratament special, semnificaţia

acesteia fiind deja cunoscută. Menţionăm doar că raportul

se citeşte din

acelaşi tabel, conţinut în anexa 7, pentru proporţia clasei inferioare, respectiv

superioare.

Am reluat exemplul anterior, modificând puţin datele, astfel încât să

păstrăm acelaşi număr de subiecţi şi aceeaşi abatere standard. De data aceas-

Cristian Opariuc-Dan

85

ta, avem o variabilă trihotomică derivată dintr-o variabilă continuă (vârsta),

care împarte subiecţii în subiecţi tineri, maturi şi vârstnici.

Tabelul 1.28 – Calculul coeficientului de corelaţie triserial

Vârsta Test inteligenţă (punctaj total)

Total 0 1 2 3 4 5 6 7 8 9 10

Tineri 0 0 1 2 4 3 0 7 3 4 5 29

Maturi 0 0 2 3 2 3 2 5 4 2 3 26

Vârstnici 0 0 1 2 6 5 2 2 2 4 1 25

Total 0 0 4 7 12 11 4 14 9 10 9 80

Abaterea standard are tot valoarea 2, media scorurilor obţinute de ti-

neri este 6,82, media scorurilor obţinute de vârstnici este de 5,80, proporţia

clasei tineri este de 0,362 (36,2%) iar proporţia clasei vârstnice este de 0,312

(31,2%). Nu am intrat în detalii legate de calculul acestor valori, noţiunile

fiind bine cunoscute.

În tabelul din anexă, pentru proporţia clasei tinere (0,362) găsim ra-

portul

, iar pentru proporţia clasei vârstnice (0,312) găsim rapor-

tul 1,0583, primul raport întâlnit, corespunzător proporţiei de 0,350, deoarece

tabelul nu furnizează o valoare explicită pentru proporţia calculată de 0,312.

Având acum toate aceste informaţii, să calculăm coeficientul de core-

laţie triserial.

Obţinem o corelaţie slabă între cele două variabile. Desigur, se pune,

şi în acest caz, problema semnificaţiei acestei corelaţii, aspecte pe care le

vom trata în continuare.

Statistică aplicată în ştiinţele socio-umane

86

I.2.2.1 Semnificaţia coeficienţilor de tip serial

Coeficienţii studiaţi în acest capitol sunt de tip direcţional, luând va-

lori cuprinse între -1 şi +1. Semnificaţia interpretativă a acestora o ştiţi deja,

însă va trebui să facem menţiunea că lotul de cercetare trebuie că aibă un

volum de minim 50 de cazuri pentru ca aceste statistici să poată fi calculate.

Fiind coeficienţi de corelaţie parametrici, pragul de semnificaţie se

obţine, după cum v-aţi obişnuit deja, prin raportarea la distribuţia t pentru un

număr de ninf+nsup-2 grade de libertate. Testul t de semnificaţie poate fi calcu-

lat după formula:

(formula 1.41)

unde r reprezintă coeficientul de corelaţie (biserial, punct biserial,

triserial, iar ninf și nsup frecvenţele absolute ale celor două categorii, inferioa-

ră și superioară.

Să verificăm acum dacă acei coeficienţi obţinuţi mai sus sunt sau nu

semnificativi. Am obţinut un coeficient de corelaţie biserial de 0,55 şi un

coeficient de corelaţie punct biserial de 0,43, pe un lot de cercetare de 80 de

subiecţi, precum şi un coeficient de corelaţie triserial de 0,24, pe un volum de

54 de subiecţi. Înlocuind în formulă, vom obţine:

Cristian Opariuc-Dan

87

Valorile testului t vor fi verificate în tabelul din anexa 4, la pragul de

semnificaţie de 0,05 şi 0,01, pentru un număr de 78 grade de libertate în cazul

coeficienţilor biserial şi punct biserial şi 52 de grade de libertate pentru coefi-

cientul triserial.

Nu avem o valoare exactă pentru 78 de grade de libertate şi vom lua

valoarea imediat inferioară, cea de 60 de grade de libertate. Pentru a fi semni-

ficativ la un prag de semnificaţie mai mic de 0,05, testul t trebuie să fie mai

mare de 2,00, iar pentru a fi semnificativ la un prag de semnificaţie mai mic

de 0,01, va fi mai mare de 2,66. Valorile testului t pentru coeficienţii biserial

şi punct biserial sunt mai mari decât această valoare, prin urmare corelaţia

este semnificativă la un prag de semnificaţie mai mic de 0,01.

Pragurile critice pentru 52 de grade de libertate le găsim, analog, la 50

de grade de libertate. Semnificaţia pentru un p<0,05 este de 2,00, iar pentru

un p<0,01 este de 2,67. Valoarea testului t în cazul coeficientului de corelaţie

triserial este de 1,78, valoare situată sub valoarea prag, aşadar coeficientul de

corelaţie triserial nu este semnificativ.

I.2.3 Coeficientul de corelaţie eneahoric

Ultima situaţie discutată în acest subcapitol este aceea în care veţi dori

să asociaţi două variabile, cel puţin trihotomice, trihotomia fiind una conti-

nuă. Acest coeficient, propus de Coumetou (Radu, și alții, 1993), reprezintă o

extensie a coeficientului r Bravais-Pearson, mai exact a coeficientului

triserial, singura excepţie constând în faptul că nu mai avem de-a face cu va-

riabile continui, ci cu o variabile continui reduse la forma lor continuu-

categorială.

Să clarificăm puţin lucrurile printr-un exemplu. Ne interesează să sta-

bilim relaţia dintre vârsta subiecţilor şi coeficientul de inteligenţă, variabilele

fiind categorizate în patru grupe: inteligenţă foarte slabă, slabă, bună şi foarte

bună, respectiv foarte tineri, tineri, vârstnici şi foarte vârstnici. Nu am folosit

Statistică aplicată în ştiinţele socio-umane

88

o clasificare trihotomică, deoarece am vrut să vă prezint posibilităţile acestui

coeficient de a se extinde la un număr oricât de mare de clase. Singura condi-

ţie este aceea a provenienţei variabilelor din variabile continui. După colecta-

rea datelor, rezultă următorul tabel:

Tabelul 1.29 – Calculul coeficientului de corelaţie eneahoric

Inteligenţă

TOTAL

Foarte

slabă Slabă Bună

Foarte

bună

Vârstă

Foarte tineri 1

T4 2 10

7

T1

8

TD

Tineri 1 3 12 9

Vârstnici 2 5 11 3

Foarte vârstnici 4

T3 8 9

1

T2

5

TC

TOTAL 5

TB

8

TA

88

n

Datele indică un total de 20 de persoane foarte tinere, 25 de persoane

tinere, 21 de persoane vârstnice şi 22 de persoane foarte vârstnice. În acelaşi

timp, avem 8 persoane cu un intelect foarte slab, 18 persoane cu intelect slab,

42 de persoane cu un nivel bun al inteligenţei şi 20 de persoane cu inteligenţă

superioară. Întregul lot de cercetare (n) este format din 88 de persoane.

Nu suntem interesaţi de toate datele din tabel. Referitor la cele două

variabile, vom avea în vedere totalurile marginale ale grupelor extreme. Mai

precis, grupa celor foarte tineri cu inteligenţă foarte slabă şi foarte bună

(TD=8 subiecţi), grupa celor foarte vârstnici cu o inteligenţă foarte slabă şi

foarte bună (TC=5 subiecţi), respectiv grupa celor cu inteligenţă foarte slabă,

foarte tineri şi foarte vârstnici (TB=5 subiecţi) şi grupa celor cu inteligenţă

foarte bună, foarte tineri şi foarte vârstnici (TA=8 cazuri).

Cristian Opariuc-Dan

89

Un alt element este reprezentat de frecvenţa extremelor. Subiecţii

foarte tineri cu inteligenţă foarte slabă (T4=1 subiect), subiecţii foarte tineri

cu o inteligenţă foarte bună (T1=7 subiecţi), subiecţii foarte vârstnici cu o

inteligenţă foarte slabă (T3=4 subiecţi) şi subiecţii foarte vârstnici cu o inteli-

genţă foarte bună (T2=1 subiect). Bineînţeles, ultimul aspect considerat are în

vedere volumul lotului de cercetare (n=88 subiecţi).

Toate aceste informaţii rezultă din tabelul de distribuţie în baza unor

simple adunări. Calculul coeficientului eneahoric nu mai presupune decât

aplicarea formulei:

( )( )

√( ( )

)(

( )

)

(formula 1.42)

Se poate constata cu uşurinţă că absolut toate informaţiile se regăsesc

în tabel. Nu va trebui decât să înlocuim în formulă şi vom obţine un coefici-

ent de corelaţie de 0,689.

√(

) (

)

√(

) (

)

√(

) (

)

I.2.3.1 Semnificaţia coeficientului eneahoric

Coeficientul eneahoric este un coeficient direcţional, iar analiza sem-

nificaţiei acestuia se face în mod analog analizei coeficientului de corelaţie r

Bravais-Pearson, motiv pentru care nu vom detalia, lăsându-vă dumneavoas-

tră, ca exerciţiu, stabilirea semnificaţiei coeficientului de corelaţie eneahoric.

Statistică aplicată în ştiinţele socio-umane

90

I.3 Corelaţii parţiale

Corelaţiile parţiale reprezintă un tip particular de analiză a relaţiilor

dintre două variabile, în condiţiile în care ambele variabile sunt influenţate de

o a treia variabilă, iar efectul acesteia este menţinut constant. Generalizând, o

corelaţie între două varia-

bile în care efectul posibil

al altor variabile este men-

ţinut constant, poartă nu-

mele de corelaţie parţială.

(Field, 2000).

Fiecare dintre dum-

neavoastră a susţinut cel pu-

ţin un examen. Chiar dacă

unii vor spune că niciodată

nu au avut emoţii, eu consi-

der că la unele examene,

emoţiile sunt inevitabile. În acest moment, am şi eu emoţii, gândindu-mă la

modul în care veţi citi şi interpreta această carte. Fiind, de acum, „cercetă-

tori” cu experienţă, ne şi vine

ideea studierii relaţiei dintre

notele obţinute la examen şi

emoţiile din timpul acestuia.

Excelent, vom spune! Efec-

tuăm rapid un studiu corela-

ţional şi obţinem o corelaţie

negativă între emoţiile din

timpul examenului şi per-

formanţă, fapt absolut nor-

mal. Mândri de realizare, ne

Emoţii examen

Notă examen

Varianţa expli-

cată de emoţii

Figura 1.2 – Varianţa din nota de examen explicată de

emoţii

Varianţa explicată de

timpul de studiu

Figura 1.3 – Varianţa din nota de examen explicată de

timpul de studiu

Timp studiu

Notă examen

Cristian Opariuc-Dan

91

şi grăbim să publicăm rezultatele, ba chiar desenăm şi grafic relaţia găsită.

Ştiu că v-aţi fi aşteptat la un tip de grafic mai serios. Conţinutul figurii

1.2, explică, de fapt, printr-un coeficient de corelaţie, cantitatea de varianţă

din nota obţinută la examen, care se poate regăsi în emotivitate. Grosier vor-

bind2, dacă am fi obţinut un coeficient de corelaţie de – 0,342 între nota obţi-

nută la examen şi emoţiile din timpul acestuia, practic 11,6% din varianța

contra-performanţei de la examen se poate explica prin varianța emotivității

(zona de intersecţie a celor două figuri). Suntem, aşadar, în pragul unei de-

scoperiri epocale: 11,6% din varianța notelor la examen este reprezentată, de

fapt, de varianța emotivităţii. În sfârşit am găsit – şi demonstrat statistic –

motivul pentru care se obţin note proaste. Iată-l! Emoţiile de la examen.

Când credeaţi şi dumneavoastră că veţi obţine premiul Nobel, iată că

apare cineva şi face o afirmaţie: „Excelent, însă aţi luat în calcul relaţia dintre

timpul de studiu la o disciplină

şi performanţa la examen?”.

Ce-aţi mai putea spune? „Nu,

însă promitem că vom efectua

o altă cercetare.”. Pentru că

sunteţi oameni de cuvânt, aţi şi

demarat un studiu analog. De

această dată obţineţi o corela-

ţie pozitivă între timpul de

studiu şi nota de la examen,

coeficientul de corelaţie fiind

de 0,651. Desigur că veţi ilus-

2 Varianţa se calculează ridicând la pătrat coeficientul de corelaţie. În acest caz, varianţa ar fi

0,3422, adică 0,116 sau 11,6%. Despre coeficientul de corelaţie multiplă şi varianţă explicată

vom discuta într-un alt volum. Unii autori numesc această varianţă prin termenul de varianţă

comună.

Emoţii examen

Timp studiu

Varianţa explicată de

timpul de studiu

Figura 1.4 – Varianţa din emoţiile de examen explicată

de timpul de studiu

Statistică aplicată în ştiinţele socio-umane

92

tra acest lucru folosind un grafic asemănător celui din figura 1.3. Am răs-

puns, iată, la întrebarea anterioară. Tipul de studiu explică 42,3% din varianţa

notei obţinute la examen. Mult mai mult în comparaţie cu emotivitatea. Do-

rind să fim şi mai riguroşi, putem acum asocia chiar timpul de studiu cu emo-

ţiile din timpul examenului. Desigur, surpriza nu va întârzia să apară. Obţi-

nem un coeficient de corelaţie negativ, să spunem – 0,410. Iată că timpul de

studiu se regăseşte, şi el, în procent de 16,8%, în varianța emoţiilor din tim-

pul examenului. Cu cât un student alocă mai mult timp studiului unei disci-

pline, cu atât performanţa sa la examen va fi mai mare şi emoţiile din timpul

examenului mai mici. Nu prea vă convine. Când credeaţi şi dumneavoastră că

vă veţi putea justifica notele mici la examene prin emoţii, iată că vi se spulbe-

ră teoria.

Cu un oarecare sentiment de tristeţe, veţi reprezenta acest lucru în fi-

gura 1.4.

Problema, totuşi, nu s-a rezolvat. Nu am arătat decât că timpul de stu-

diu contribuie la scăderea emoţiilor din timpul examenelor şi la creşterea no-

telor obţinute la

examene. După o

logică simplă,

emoţiile duc la

scăderea notei

obţinute la exa-

men, iar timpul de

studiu determină

creşterea acestora.

Totuşi, cum ară-

tăm relaţia dintre

emoţii şi perfor-

manţa în timpul

Emoţii examen

Timp de studiu

Notă examen

Varianţa comună explicată de

timpul de studiu şi emoţii Varianţa „pură”

explicată de emoţii

Varianţa „pură” explicată

de timpul de studiu

Figura 1.5 – Varianţa comună explicată de timpul de studiu şi emoţii

Cristian Opariuc-Dan

93

examenului? Lucrurile ar fi simple în condiţiile în care varianţele explicate de

timpul de studiu şi de emoţiile din timpul examenului ar fi independente. Am

arătat că, totuşi, o parte din varianţa emoţiilor din timpul examenului este

explicată şi de timpul de studiu. Logic, această varianţă comună va influenţa

performanţa de la examene. De fapt, ne interesează cât din varianţa pură a

performanţei de la examene poate fi regăsită în emoţiile din timpul acestora.

Răspunsul poate fi găsit intuitiv în figura 1.5. Practic, dacă menţinem con-

stant timpul de studiu, putem stabili care este legătura „pură” dintre nota ob-

ţinută la un examen şi emoţiile din timpul examenului. Observaţi deja că va-

rianţa acoperită este mult mai mică, cea mai mare parte fiind explicată prin

intermediul timpului de studiu. Soluţia unui asemenea design de cercetare

poate să rezulte numai în baza corelaţiilor parţiale.

Am prezentat acest exemplu, pe care l-am dezvoltat după A. Fields

(Field, 2000), din două motive. Pe de o parte, am dorit să aveţi o imagine

clară asupra corelaţiilor parţiale şi să vă introduc în problema complexă a

corelaţiilor multiple, iar pe de altă parte, să înţelegeţi la ce poate duce un plan

de cercetare greşit conceput. De cele mai multe ori, o asemenea eroare se

plăteşte destul de scump, cu invalidarea întregii cercetări.

Coeficientul de corelaţie parţială nu este altceva decât o variantă a co-

eficientului de corelaţie r Bravais-Pearson şi poate fi obţinut după formula:

√( )(

) (formula 1.43)

unde r12.3 este coeficientul de corelaţie parţială între variabilele 1 şi

2, cu menţinerea constantă (controlând) variabila 3, r12 este coeficientul de

corelaţie r Bravais-Pearson între variabilele 1 şi 2, r13 este coeficientul de

corelaţie r Bravais-Pearson între variabilele 1 şi 3, iar r23 se referă la ace-

laşi coeficient, între variabilele 2 şi 3.

Statistică aplicată în ştiinţele socio-umane

94

Nu cred că mai rămâne ceva de explicat în această formulă. Tot calcu-

lul se rezumă la aflarea unui număr de 3 coeficienţi de corelaţie r Bravais-

Pearson. Modalitatea de realizare efectivă a acestui lucru a fost tratată pe larg

anterior şi nu vom reveni.

Având datele fictive din exemplul de mai sus, să procedăm la aflarea

corelaţiei dintre performanţa la examen şi emoţiile din timpul examenului, în

condiţiile în care ţinem sub control timpul alocat studiului. Prima variabilă va

fi performanţa la examen, a doua variabilă emoţiile din timpul examenului,

iar variabila controlată, timpul alocat examenului. Coeficientul de corelaţie

dintre performanţa la examen şi emoţiile în timpului examenului (r12) este de

– 0,342. Coeficientul de corelaţie dintre performanţa la examen şi timpul alo-

cat studiului (r13) este de 0,651 iar coeficientul de corelaţie dintre emoţiile

din timpul examenului şi timpul alocat studiului este de – 0,410 (r23). Coefi-

cientul de corelaţie parţială r12.3 va fi – 0,109.

Iată că, menţinând sub control timpul de studiu, corelaţia dintre per-

formanţa la examen şi emoţiile din timpul examenului este una negativă, de

doar 0,109. Varianţa performanţei la examen nu este acoperită în procent de

11,6%, cum credeam iniţial, ci într-un procent de doar 1,18%.

Un asemenea tip de corelaţie parţială poartă numele de corelaţie par-

ţială de rang I, deoarece există o singură variabilă pe care dorim să o contro-

lăm din punctul de vedere al efectului. Putem să controlăm efectul unui nu-

măr de două variabile, caz în care vorbim despre corelaţie parţială de rang

II, efectul a trei variabile – corelaţie parţială de rang III şi aşa mai departe.

Coeficientul de corelaţie se va scrie r12.3 în cazul unei corelaţii parţiale de

Cristian Opariuc-Dan

95

ordin I, r12.34 pentru o corelaţie parţială de rang II, r12.345 pentru corelaţiile

parţiale de ordin III şi aşa mai departe.

Algoritmul de lucru este unul analog, bazat pe formula anterioară, ex-

tinsă pentru un ordin mai mare. Calculele pot deveni însă laborioase, de aceea

pentru corelaţii parţiale de ranguri mari se preferă utilizarea unui computer şi

a unui program specializat.

I.3.1 Corelaţii semi-parţiale

Atunci când calculăm coeficientul de corelaţie parţială între două va-

riabile, controlăm efectul exercitat de o a treia variabilă asupra ambelor vari-

abile. În exemplul de mai sus, se controlează efectul exercitat de variabila

timp de studiu atât asupra variabilei performanţă la examen, cât şi asupra

variabilei emoţii din timpul examenului. Sunt cazuri în care dorim să contro-

lăm efectul exercitat de a treia variabilă doar asupra unei variabile, în timp ce

vom ignora efectul exercitat asupra celeilalte. De exemplu, dorim să contro-

lăm efectul exercitat de variabila timp de studiu doar asupra emoţiilor din

timpul examenului, şi să-l ignorăm în cazul variabilei performanţă la examen.

O astfel de corelaţie poartă numele de corelaţie semi-parţială.

Formulele de calcul, derivate din cea a corelaţiilor parţiale, vor fi:

(formula 1.44) sau

(formula 1.45)

În primul caz avem de a face cu o corelaţie semi-parţială în care con-

trolăm doar efectul exercitat de a treia variabilă asupra primei variabile, în

timp ce efectul exercitat asupra celei de-a doua variabile este ignorat, iar în al

doilea caz, controlăm efectul exercitat de a treia variabilă asupra celei de-a

doua, ignorând efectul asupra primei.

Statistică aplicată în ştiinţele socio-umane

96

Pentru a fixa cunoştinţele, vă invit să aplicaţi dumneavoastră cele do-

uă formule, folosind datele din exemplul anterior, şi să calculaţi cei doi coefi-

cienţi de corelaţie semi-parţială.

I.3.2 Corelaţii parţiale pentru date neparametrice

Conceptul de corelaţie parţială este mai uşor de înţeles în cazul în care

utilizăm date parametrice. Pentru date neparametrice, situate la un nivel ordi-

nal, se poate calcula coeficientul de corelaţie parţială, în baza coeficientului

de corelaţie τ Kendall. Logica analizei ţine atât de modalitatea de calcul a

coeficientului τ Kendall, cât şi de specificul corelaţiilor parţiale.

Tabelul 1.30 – Logica de calcul a coeficientului de corelaţie parţială pentru date neparame-

trice

Perechi concordante între

variabila Y şi variabila Z

Perechi discordante între

variabila Y şi variabila Z

Perechi concordante între

variabila X şi variabila Z A B

Perechi discordante între

variabila X şi variabila Z C D

În tabelul 1.30, am reprezentat modalitatea de lucru. Ne interesează

corelaţia parţială între două variabile, X şi Y, în condiţiile în care menţinem

sub control variabila Z. Pentru a putea calcula acest coeficient de corelaţie,

trebuie să analizăm numărul perechilor concordante şi discordante, între X şi

Y pe de o parte, între Y şi variabila Z pe de altă parte, apoi putem utiliza

formula:

√ (formula 1.47)

Se poate observa că acest coeficient de corelaţie nu face decât diferen-

ţa dintre perechile concordante şi cele discordante, în condiţiile în care se

elimină orice influenţă a celei de-a treia variabile. Similar datelor parametri-

ce, şi acest coeficient se rezumă la calcului unui număr de coeficienţi de core-

laţie τ Kendall, aşa cum rezultă şi din formula detaliată:

Cristian Opariuc-Dan

97

√ √

(formula 1.48)

Să presupunem că la un examen psihologic, un număr de 10 subiecţi

au fost evaluaţi cu trei teste: un test de atenţie, unul de inteligenţă şi unul de

memorie. Problema care se pune este aceea a calculării coeficientului de co-

relaţie parţială între inteligenţă şi memorie, în condiţiile în care menţinem

constantă influenţa atenţiei.

Tabelul 1.31 – Scoruri obţinute de subiecţi

Atenţie (Z) Inteligenţă (X) Memorie (Y)

1 7 0

3 15 1

7 25 2

4 26 3

5 20 4

6 19 4,1

8 22 4,5

8,5 17 5

8,8 10 7

9 27 8

În mod absolut evident, chiar dacă datele sunt la un nivel parametric,

numărul mic de cazuri nu permite utilizarea coeficientului de corelaţie parţia-

lă r şi va trebui să folosim corelaţia parţială pentru date neparametrice. Tre-

buie, întâi, să calculăm trei coeficienţi de corelaţie: τxy, τxz şi τyz, după metoda

expusă anterior în acest capitol.

Vă lăsăm pe dumneavoastră să faceţi calculele şi sperăm că veţi ajun-

ge la următoarele rezultate: τxy=0,155, τxz=0,200 iar τyz=0,866. Înlocuind în

formulă, se obţine:

√ √

√ √

Pentru corelaţii parţiale de ordin doi, folosindu-se date neparametrice,

există o formulă derivată din coeficientul de corelaţie parţială Kendall, pe

Statistică aplicată în ştiinţele socio-umane

98

care ne vom rezuma doar să o prezentăm, fără vreun exemplu, deoarece cal-

culul se realizează identic, lăsându-vă dumneavoastră plăcerea găsirii şi re-

zolvării unui exerciţiu în baza acestei relaţii.

( )(

) (formula 1.49)

Un alt coeficient de corelaţie parţială a rangurilor, din păcate foarte

puţin folosit, este coeficientul φ12.3 Johnson. Coeficientul a fost lansat în anul

1966, se bazează tot pe ranguri, ca şi coeficientul τxy.z, însă nu mai presupune

ordonarea rangurilor, ca în cazul coeficientului Kendall.

Tabelul 1.32 – Scoruri obţinute de subiecţi

Rang Var. 2 < Rang Var. 3 Rang

Var. 2 > Rang Var. 3 ∑

Rang

Var. 1 > Rang Var. 3 A B ∑AB

Rang

Var. 1 < Rang Var. 3 C D ∑CD

∑ ∑AC ∑BD

Relaţia de calcul a coeficientului de corelaţie parţială a rangurilor

Johnson este următoarea:

√ (formula 1.50)

Formula 1.50 nu mai presupune lucrul efectiv cu ranguri, ci vizează

compararea acestora, prin includerea numărului de cazuri care satisfac inecu-

aţiile de mai sus. În plus, nu se mai compară rangurile variabilei 1 cu ranguri-

le variabile 2. Ce ne facem însă dacă rangul variabilei 1 este egal cu rangul

variabilei 3, sau în cazuri asemănătoare? Regula este foarte simplă - elemen-

tele respective se exclud din calcul.

Cristian Opariuc-Dan

99

Tabelul 1.33 – Scorurile şi rangurile obţinute de subiecţi

Atenţie (Z) Inteligenţă (X) Memorie (Y) Clasa

1 - 1 7 -1 0 -1 -

3 - 2 15 - 3 1 - 2 -

7 - 6 25 - 8 2 - 3 A

4 - 3 26 - 9 3 - 4 B

5 - 4 20 - 6 4 - 5 B

6 - 5 19 - 5 4,1 - 6 -

8 - 7 22 - 7 4,5 - 7 -

8,5 - 8 17 - 4 5 - 8 -

8,8 - 9 10 – 2 7 - 9 -

9 - 10 27 - 10 8 - 10 -

Am reluat exemplul celor 10 subiecţi de mai sus, în acest caz inclu-

zând, alături de scoruri, şi rangurile (cele scrise îngroşat în tabelul 1.33). Mo-

dalitatea de calcul este de o simplitate uluitoare. Ne interesează corelaţia par-

ţială între inteligenţă şi memorie, în condiţiile în care menţinem constant

efectul atenţiei. Prima variabilă este „inteligenţa” iar a doua variabilă este

„memoria”. Comparând scorurile la probele de inteligență și memorie, pentru

primul subiect, observăm că au ranguri egale, deci cazul va fi exclus din ana-

liză. Şi al doilea subiect va fi exclus din analiză, deoarece rangul scorului la

proba de memorie este egal cu rangul scorului la atenţiei. Pentru al treilea

subiect, rangul scorului la proba de inteligenţă este mai mare decât rangul

scorului la proba de atenţiei (X1>X3) şi rangul scorului la proba de memorie

este mai mic decât rangul scorului la proba de atenţie (X2<X3), fiind inclus în

categoria A. Al patrulea subiect prezintă ambele variabile – memoria şi inte-

ligenţa – la un rang mai mare decât atenţia şi va fi inclus în categoria B. Al

cincilea subiect este inclus tot în categoria B, în timp ce toţi ceilalţi subiecţi

sunt excluşi din cauza egalităţii. În final, avem un singur caz în categoria A şi

2 cazuri în categoria B, restul categoriilor neavând nicio valoare.

Statistică aplicată în ştiinţele socio-umane

100

Iată un caz în care obţinem coeficientul de corelaţie al rangurilor ne-

definit. Desigur, nici coeficientul τxy.z Kendall nu a indicat o corelaţie parţială

între cele două variabile, însă… chiar să nu obținem nimic? Care ar fi expli-

caţia? Nu este greu să vă daţi seama că acest coeficient se bazează pe un nu-

măr de doar trei cazuri din zece, un volum de date extrem de mic. Poate şi

acesta este un motiv pentru care popularitatea coeficientului Johnson este atât

de redusă. Dacă volumul de date este mare iar numărul de ranguri egale rela-

tiv mic, se poate apela cu încredere la indicatorul de mai sus.

I.3.3 Semnificaţia corelaţiilor parţiale

Corelaţiile parţiale derivă din coeficientul de corelaţie r Bravais-

Pearson, ori din coeficientul τ Kendall, pe care se şi bazează. Ele sunt, aşadar,

corelaţii direcţionale şi pot lua valori cuprinse între -1 şi +1, ca orice alt coe-

ficient de corelaţie direcţional.

Verificarea semnificaţiei corelaţiilor parţiale se poate face în baza tes-

tului t, rezultatul fiind raportat la distribuţia t, folosindu-se formula:

(formula 1.51)

unde rjk.x este coeficientul de corelaţie parţială, k reprezintă numărul

de variabile corelate, iar n se referă la numărul de cazuri.

Valoarea testului t se raportează la distribuţia t din anexa 4 pentru un

număr de n-2-k grade de libertate.

În cazul nostru, am obţinut un coeficient de corelaţie parţială între

performanţa la examen şi emoţiile din timpul examenului, în condiţii de con-

trol al timpului de examen de r12.3=-0,109, studiind un lot de cercetare de 103

persoane. Avem două variabile corelate – performanţa la examen şi emoţiile

din timpul examenului. Valoarea testului t va fi de – 1,09.

Cristian Opariuc-Dan

101

Raportând valoarea testului t (- 1,09) la un număr de 103-2-2=99 gra-

de de libertate, observăm că acest coeficient de corelaţie obţinut nu este sem-

nificativ (pentru a fi semnificativ la un prag de semnificaţie mai mare de

0,05, testul t trebuie să depăşească valoarea 1,990). Aşadar, nu există nicio

legătură între performanţa la examen şi emotivitatea din timpul examenului.

V-aţi făcut iluzii degeaba.

Pentru a vă veni în ajutor, am furnizat în anexa 9 tabelul pragurilor de

semnificaţie pentru coeficientul de corelaţie parţială τ Kendall, în cazul în

care vă este mai comod să priviţi un tabel decât să efectuaţi propriile calcule.

În privinţa coeficientului de corelaţie parţială Johnson, analiza semni-

ficaţiei se face în funcţie de estimatorul χ2, după relaţia următoare:

(formula 1.52)

În această situaţie, semnificaţia coeficientului de corelaţie este dată de

semnificaţia lui χ2. Acest estimator poate fi folosit numai dacă numărul total

de cazuri este mai mare de 40, iar frecvenţa minimă într-o categorie (A, B, C

sau D) este de 10.

Cea de-a treia variabilă, variabila controlată, o veţi putea întâlni în li-

teratura de specialitate şi sub numele de variabilă supresoare deoarece efec-

tul controlului acesteia determină, după cum aţi văzut deja, reducerea coefici-

entului de corelaţie bivariată între cele două variabile (numit, în general, coe-

ficient de corelaţie de rang zero). Din aceleaşi motive – rezultate în urma

faptului că a treia variabilă mediază coeficientul de corelaţie de rang zero –,

această variabilă se mai poate numi şi variabilă mediatoare. Totuşi, cel mai

frecvent, această variabilă se numeşte variabilă de control.

Statistică aplicată în ştiinţele socio-umane

102

Capitolul referitor la corelaţiile parţiale încheie secţiunea referitoare la

analiza relaţiilor dintre două variabile şi deschide drumul către studiul corela-

ţiilor multiple şi al regresiilor.

I.4 Interpretarea coeficienţilor de corelaţie

Îmi veţi pune întrebarea dacă trebuie sau nu trebuie memorate toate

aceste relaţii. Formulele, desigur, nu trebuie memorate, iar la examen este

prea puţin probabil să vi se dea un subiect de genul: „Explicaţi coeficientul

de corelaţie tetrachoric”. S-ar putea, însă, ca la „examenul profesional al vie-

ţii”, să vă confruntaţi cu o problemă de cercetare. În funcţie de tipurile de

variabile cuprinse în planul de cercetare, va fi nevoie să calculaţi un anumit

coeficient. Alegerea unui coeficient de corelaţie inadecvat vă poate crea mari

probleme la interpretarea rezultatelor.

Pentru a vă veni în ajutor, aveţi mai jos un tabel (tabelul 1.34) care vă

indică ce coeficienţi de corelaţie puteţi folosi pentru analiza corelaţională

bivariată, în funcţie de nivelul de măsură al variabilelor.

Referitor la corelaţii, există trei elemente esenţiale în interpretarea

unui coeficient de corelaţie, şi anume: sensul, valoarea şi semnificaţia.

Sensul unei corelaţii este dat de semnul coeficientului de corelaţie în

cazul coeficienţilor de corelaţie direcţionali. O corelaţie pozitivă arată că di-

recţia în care evoluează o variabilă este şi direcţia de evoluţie a celeilalte va-

riabile.

Dacă rezultă o corelaţie pozitivă între notele obţinute la matematică şi

notele obţinute la fizică, înseamnă că, elevii care au note mari la matematică,

au note mari şi la fizică. Cei cu note mici la matematică, obţin note mici şi la

fizică. Corelaţiile negative sunt cele ale căror coeficienţi de corelaţie au sem-

nul minus, şi indică faptul că, direcţia de evoluţie a unei variabile reprezintă

evoluţia inversă a celeilalte variabile. O corelaţie negativă între vârstă şi ca-

pacitatea de asimilare a cunoştinţelor indică faptul că subiecţii tineri pot asi-

Cristian Opariuc-Dan

103

mila mai multe cunoştinţe, în timp ce subiecţii în vârstă vor asimila cunoştin-

ţe mai puţine.

Tabelul 1.34 – Utilizarea coeficienţilor de corelaţie

Variabila Y

Dihotomic Nominal Ordinal Scalar

Variabila X

Dihotomic

- χ2

- φ - cc

- tetrachoric

- χ2

- V Cramer - cc

- λ

- polichoric - rang biserial

- poliserial

- biserial

- punct biserial

Nominal

- χ2

- V Cramer

- cc - λ

- χ2

- V Cramer

- cc - λ

- χ2

- V Cramer

- cc - λ

- χ2

- V Cramer - cc

- λ (grupată în

clase) - triserial (provi-

ne din variabila

continuă)

Ordinal - polichoric - rang biserial

- χ2

- V Cramer - cc

- λ

- ρ Spearman - τ Kendall

- γ

- polichoric - W Kendall

- ρ Spearman

(dacă lotul este

mai mic de 30 sau dacă cel

puţin o variabilă

nu se distribuie normal)

- τ Kendall (dacă

cel puţin o una dintre variabile

nu se distribuie

normal) - γ (date grupate

în clase ierarhice)

- poliserial

Scalar

- poliserial

- biserial - punct biserial

- χ2

- V Cramer

- cc - λ (grupată în

clase)

- triserial (provine

din variabila

continuă)

- ρ Spearman

(dacă lotul este

mai mic de 30 sau dacă cel

puţin o variabilă

nu se distribuie normal)

- τ Kendall

(dacă cel puţin o una dintre

variabile nu se

distribuie normal)

- γ (date grupate

în clase ierarhi-ce)

- poliserial

- r Pearson - eneahoric (vari-

abile categori-

zate)

Statistică aplicată în ştiinţele socio-umane

104

Sensul unei corelaţii nu contează în cazul coeficienţilor de corelaţie

nedirecţionali. În această situaţie, accentul cade doar pe interpretarea semni-

ficaţiei şi a valorii.

Faptul că o corelaţie poate fi sau nu poate fi semnificativă este deter-

minat de raportarea la pragul de semnificaţie. Nu intrăm în amănunte, deoa-

rece analiza semnificaţiei s-a realizat la fiecare coeficient de corelaţie studi-

at. Precizăm doar că, în domeniul ştiinţelor socio-umane, limita maximă a

pragului de semnificaţie este de 0,05. Cu alte cuvinte, putem accepta ca cel

mult 5% dintre rezultatele obţinute să se datoreze unei erori de eşantionare.

În 95% din cazuri relaţia există, cu adevărat, la nivelul populaţiei. Desigur,

pragul de semnificaţie nu garantează reprezentativitatea eşantionului, aceasta

fiind o altă problemă. Probabil că, vă veţi întreba, în ce bază stabilim pragul

de semnificaţie. Ideea este că, pe măsură ce pragul de semnificaţie este mai

mic, rezultatele sunt mai precise, mai valoroase. Stabilirea pragului se face în

funcţie de importanţa cercetării. În domeniul ştiinţelor sociale, putem accepta

faptul că 5% dintre rezultate se pot datora erorilor de eşantionare. Dacă însă

desfăşurăm un studiu în industria farmaceutică, la lansarea unui nou medica-

ment, s-ar putea ca acest prag să fie mult prea mare, preferându-se un prag de

semnificaţie de 0,01 sau chiar mai mic. Oricum, alegerea pragului de semni-

ficaţie influenţează probabilitatea de producere a erorilor de tip I sau a erori-

lor de tip II – respingerea ipotezei nule în condiţiile în care nu ar trebui res-

pinsă sau, din contra, acceptarea ipotezei nule în condiţiile în care ar trebui

respinsă. Pentru detalii suplimentare, consultaţi lucrarea anterioară.

Valoarea coeficientului de corelaţie indică puterea corelaţiei. Fie că

vorbim despre coeficienţi de corelaţie direcţionali sau nedirecţionali, analiza

valorii acestora se supune unor repere, după cum urmează:

Coeficienţii de corelaţie cu valori absolute situate între 0,00 şi

0,20 indică absenţa unei corelaţii reale sau o corelaţie foarte

slabă;

Cristian Opariuc-Dan

105

Valorile absolute situate între 0,21 şi 0,40 arată o corelaţie sla-

bă între cele două variabile;

O corelaţie moderată se obţine atunci când valorile absolute

sunt cuprinse între 0,41 şi 0,60;

Dacă un coeficient de corelaţie are valoarea absolută cuprinsă

între 0,61 şi 0,80, vorbim despre o corelaţie puternică;

În sfârşit, coeficienţi de corelaţie cu valori absolute situate în-

tre 0,81 şi 1,00 arată existenţa unei legături foarte puternice în-

tre cele două variabile;

Desigur, aceste repere sunt orientative. Coeficienţii de corelaţie de-

pind de volumul eşantionului sau a lotului de cercetare studiat, dar şi de alţi

factori, după cum vom vedea în continuare. Este mult mai uşor să obţinem

coeficienţi de corelaţie ridicaţi atunci când studiem 10 persoane, în compara-

ţie cu situaţia analizei unui număr de 1000 de persoane.

Trebuie, de asemenea, să ştiţi că, nu întotdeauna valoarea unei cerce-

tări este dată de respingerea ipotezei nule. Există o tendinţă printre studenţi,

şi chiar printre anumiţi cercetători, de a respinge, prin orice mijloace, ipoteza

nulă. Unii merg până acolo încât afirmă că dacă un studiu nu respinge ipoteza

nulă, şi dacă nu se acceptă una dintre ipotezele alternative, acel studiu nu are

valoare. Complet fals! Aceasta este o stereotipie a cercetării ştiinţifice, întâl-

nită frecvent printre debutanţi. De multe ori, lipsa de respingere a ipotezei

nule are o valoare la fel de mare ca şi respingerea acesteia. Dacă, de exemplu,

se realizează un studiu în care se verifică relaţia dintre puterea maşinii şi ris-

cul de accident, credeţi că lipsa de respingere a ipotezei nule înseamnă un

studiu invalid? În nici un caz. Faptul că nu există nicio legătură între puterea

maşinii şi riscul de accident nu reprezintă o invalidare a studiului, din contra,

oferă informaţii preţioase. Probabil că nu maşina puternică creşte riscul acci-

dentului de circulaţie, ci lipsa de experienţă sau teribilismul şoferului. Se cre-

Statistică aplicată în ştiinţele socio-umane

106

ează astfel premisele unei noi cercetări pe alte teme. Să nu vă mai fie frică,

aşadar, de ne-respingerea ipotezei nule. Valoarea unui studiu ştiinţific nu este

dată de respingerea sau nu a ipotezei nule, ci de informaţiile noi pe care le

aduce cercetarea. Am făcut această menţiune, deoarece mi s-a întâmplat să

cunosc studenţi în licenţă, disperaţi că nu obţineau corelaţii semnificative, şi

cărora profesorii coordonatori le spuneau că dacă nu se obţine o corelaţie

semnificativă, lucrarea de licenţă nu este bună. Dincolo de tragi-comicul situ-

aţiei, a trebuit să petrec ceva timp lămurind persoanele în cauză că lucrurile

nu stau chiar aşa.

I.4.1 Grade de libertate

Am întâlnit, deseori, expresia „grade de libertate”. Cred că aveţi deja

o imagine asupra semnificaţiei acestui termen. În principiu, gradele de liber-

tate arată numărul valorilor (al cazurilor) luate în calcul pentru un indicator

statistic, şi diferă de numărul total (n) al lotului de cercetare. Dacă efectuăm

un studiu corelaţional simplu, bazat pe 137 de subiecţi, coeficientul de core-

laţie obţinut se raportează la un număr de 136 (n-1) grade de libertate. Prin

urmare, se pierde un subiect. De ce se întâmplă acest lucru? Care este moti-

vul pentru care nu lucrăm cu întregul efectiv, ci cu efectivul minus un sub-

iect? Pentru a înţelege logica, vom considera un exemplu.

Să presupunem că lucraţi la o fabrică de confecţii, iar pentru a stimula

angajaţii unui birou, aveţi la dispoziţie un număr de zece premii, în obiecte de

îmbrăcăminte, dintre care aceştia vor putea să aleagă obiectul de îmbrăcămin-

te dorit. Dacă biroul are exact 10 angajaţi, primul angajat poate alege un

premiu dintre cele zece expuse. Al doilea angajat alege un premiu dintre cele

nouă rămase, al treilea unul dintre cele opt şi aşa mai departe. Cel din urmă

angajat mai alege? Evident că nu. El trebuie să se mulţumească luând ultimul

obiect rămas. Ultima persoană mai face vreo alegere? Ei bine, nu. În această

situaţie, nu mai putem vorbi de probabilităţi, nu există nicio posibilitate de

alegere. Ca să putem folosi principii statistice, trebuie să existe cel puţin o

Cristian Opariuc-Dan

107

şansă de a alege. În cazul ultimului angajat, această şansă nu mai există. Care

a fi, aşadar, soluţia? Fie mărim numărul de premii (11), caz în care şi cel de-

al zecelea angajat poate alege între două obiecte de îmbrăcăminte, fie renun-

ţăm la al zecelea angajat şi ne limităm la ultimul care a putut să facă o alegere

(al nouălea, care a ales unul dintre cele două obiecte rămase). Această ultimă

situaţie reflectă exact principiul gradelor de libertate.

Să nuanţăm puţin lucrurile. Presupunem că cele 10 articole de îmbră-

căminte sunt formate din 5 rochii şi 5 costume bărbăteşti. Întrebarea care se

pune este câte persoane pot accesa aceste articole, în condiţia în care fiecare

persoană va trebui să aibă o şansă de a alege? Probabil că cele 5 rochii vor fi

alese de femei. Ca să poată alege, vom avea nevoie de cel mult 4 femei. Simi-

lar, cele 5 costume bărbăteşti pot fi alese de maximum 4 bărbaţi, ultimul

având posibilitatea de a alege între două costume. Aşadar, putem lua în calcul

maximum 8 persoane, şi nu 10 câte aveam iniţial.

În orice analiză multivariată, numărul total de subiecţi se reduce în

funcţie de nivelurile unei variabile. Gradele de libertate exprimă numărul de

cazuri luat în calcul pentru a obţine indicatorul statistic dorit, în condiţiile în

care se poate vorbi de probabilităţi.

I.4.2 Efecte exercitate şi varianţă

Mulţi începători consideră că un coeficient de corelaţie poate să ex-

prime şi procentual puterea legăturii dintre două variabile. Dacă obţinem un

coeficient de corelaţie de 0,34, acesta ar exprima faptul că 34% din varianţa

unei variabile se regăseşte (poate fi explicată) prin varianţa celeilalte variabi-

le (vezi figurile 1.2 – 1.5). În realitate nu este chiar aşa.

Mărimea efectului reprezintă o măsură obiectivă şi standardizată a

magnitudinii relaţiei dintre două variabile, şi se obţine, foarte simplu, prin

ridicarea la pătrat a coeficientului de corelaţie. La un coeficient de corelaţie

de 0,34, mărimea defectului va fi de 0,129, adică varianţa explicată este de

Statistică aplicată în ştiinţele socio-umane

108

12,9% şi nu de 34% aşa cum am crezut iniţial. Motivele care stau în spatele

acestei operaţii se regăsesc în suportul teoretic al varianţei şi nu le vom mai

trata aici. Alături de coeficientul de corelaţie, mărimea efectului este o altă

măsură, mai versatilă, mai intuitivă, a puterii statistice a unei cercetări. Ex-

primarea procentuală este mai uşor de înţeles în comparaţie cu expresia sim-

plă a unui coeficient de corelaţie. Este bine ca în orice studiu de acest tip,

alături de coeficientul de corelaţie, să indicaţi şi mărimea efectului pe care îl

generează, în termeni de varianţă explicată.

Strict orientativ, Andy Fields (Field, 2000) oferă o serie de repere în

interpretarea mărimii efectului, în funcție de valorile absolute ale coeficientu-

lui de corelație liniară (notat generic cu r):

0,00 < r < 0,10 – efecte reduse, explicând până la 1% din vari-

anţa totală;

0,11 < r < 0,30 – efecte medii, explicând între 1% şi 9% din

varianţa totală;

0,31 < r < 0,50 – efecte mari, explicând între 9% şi 25% din

varianţa totală;

r > 0,51 – efecte foarte mari, explicând peste 25% din varianţa

totală.

Ar fi destul de multe lucruri de discutat aici, inclusiv aspecte referi-

toare la puterea indicatorilor statistici. Nu le vom aborda acum. Acestea vor fi

tratate pe larg în capitolul dedicat statisticilor inferenţiale. Cunoştinţele dum-

neavoastră în domeniul planurilor de cercetare de tip corelaţional sunt, deo-

camdată, suficiente.

Cristian Opariuc-Dan

109

I.4.3 Strategii de analiză şi interpretare a corelaţiilor

Înainte de a începe un studiu corelaţional, de a ne apuca de calculat şi

de interpretat coeficienţi, este bine să ne punem o serie de întrebări, pentru a

evita eventualele surprize neplăcute.

1. Ce fel de date vom colecta?

Aceasta este o întrebare pe cât de evidentă, pe atât de mult ignorată.

Dacă datele colectate sunt situate la un nivel nominal, evident, nu există nicio

posibilitate de ierarhizare, ca să nu mai vorbim de medii şi de abateri stan-

dard. În acest caz, utilizarea unor metode care implică ordinea (cum ar fi coe-

ficienţii Spearman sau Kendall) ori, mai grav, a coeficienţilor parametrici (r

Pearson) pot duce la erori serioase de interpretare şi riscaţi să vă faceţi de râs.

În acest caz, puteţi folosi χ2 şi coeficienţii derivaţi din acesta.

Datele ordinale sunt ceva mai flexibile. Dacă se pot ierarhiza categori-

ile variabilei, pe lângă metodele specific nominale (pe care nu are sens să le

mai utilizaţi acum, fiind prea slabe), putem aborda corelaţii bazate pe ranguri.

Măsurarea datelor la nivel ordinal depinde de ordinea categoriilor, ignorarea

acestui lucru ducând la pierderi semnificative de informaţie. Dacă folosim

corelaţii pentru date nominale, evident că vom pierde informaţie. Unii cerce-

tători proiectează cercetarea în aşa fel încât grupează, de la început, subiecţii

în categorii. Un exemplu excelent în acest sens este variabila „vârsta”. Sunt

unii care în loc să solicite subiecţilor vârsta în ani, realizează, pentru acest

lucru, categorii de vârstă (între 20 şi 25 de ani, peste 40 de ani şi aşa mai de-

parte). Iată că, la proiectarea cercetării, această variabilă, în mod natural con-

tinuă, este transformată într-o variabilă ordinală. Se pierde, prin urmare, foar-

te multă informaţie. Nu mai putem vorbi de media de vârstă, nu mai putem

efectua corelaţii parametrice cu această variabilă şi va trebui să ne rezumăm

doar la analize de date neparametrice. În mod evident, pierderea informaţiilor

este cu atât mai mare, cu cât numărul categoriilor este mai mic.

Statistică aplicată în ştiinţele socio-umane

110

Cea mai fericită situaţie este aceea în care colectăm date aflate la un

nivel scalar (sau asimilate unui nivel scalar). Dar, şi în acest caz, se pun anu-

mite probleme. În primul rând, existenţa unui număr suficient de cazuri. Nu

are sens că calculăm coeficientul de corelaţie r Pearson sau corelaţii seriale

ori parţiale dacă numărul de cazuri este foarte mic, în general sub 50 de sco-

ruri. În această situaţie, o măsură mai stabilă ar fi calculul coeficientului de

corelaţie ρ Spearman. În al doilea rând, datele sunt distribuite normal? Iată un

motiv foarte serios pentru a proceda la analiza normalităţii distribuţiei. Dacă

numărul de subiecţi este mare, iar datele nu se distribuie normal, nu putem

lucra cu un coeficient de corelaţie bazat pe medii, cum este r Pearson. Se pre-

feră, în acest caz, ρ Spearman sau τ Kendall. Unii autori (Liebetrau, 1983)

interzic chiar utilizarea coeficientului ρ Spearman în aceste situaţii, recoman-

dând doar analizele bazate pe τ Kendall.

2. Ce tip de ipoteze au fost formulate?

Tipul ipotezei formulate are o mare importanţă, îndeosebi sub aspec-

tul distincţiei între ipotezele unilaterale şi bilaterale. Stabilirea semnificaţiei

unui coeficient se va face doar în strictă concordanţă cu acest aspect. Rapor-

tarea pragului de semnificaţie bilateral în condiţiile unei ipoteze unilaterale şi

invers, constituie o eroare. Din fericire, acest lucru poate fi uşor remediat.

3. Care este motivul pentru care s-a analizat relaţia dintre două va-

riabile?

Iată o întrebare care, la prima vedere, s-ar putea să vă surprindă. De-

sigur, răspunsul îl puteţi găsi studiind obiectivele şi ipotezele cercetării. Cer-

cetarea urmăreşte analiza legăturii (corelaţiei) dintre două variabile? Ori, poa-

te, doreşte să precizeze gradul de acord între mai multe persoane referitor la o

anumită problemă sau la un anumit grup de subiecţi. Sau, de ce nu, pentru a

efectua o predicţie şi a stabili o relaţie cauzală.

Cristian Opariuc-Dan

111

Datele nu pot fi tratate „mecanic”, fără referire la scopul cercetării.

Dacă se urmăreşte simpla legătură între variabile (măsurători numite şi anali-

ze simetrice), se pot folosi coeficienţi de corelaţie cum ar fi r Pearson, ρ

Spearman, τ Kendall şi alţii. Gradul de acord între mai multe persoane (ana-

lize asimetrice) se poate investiga, mai curând, prin coeficienţi de concor-

danţă. Predicţiile sunt mai adecvate pentru coeficienţii de asociere, cum ar fi

cei Goodman-Kruskal ori coeficientul d Somers.

4. Dorim să facem inferenţe pe baza datelor analizate?

Desigur! Altfel pentru ce mai cercetăm ceva, dacă nu pentru a extinde

cunoştinţele la nivelul populaţiei. Doar că, acest lucru nu este chiar atât de

simplu cum pare la prima vedere. Ne-ar interesa, în acest sens, să ştim cum se

distribuie parametrul la nivelul populaţiei. Din fericire, majoritatea parametri-

lor se distribuie normal la nivelul unei populaţii (sau cel puțin așa se presu-

pune matematic), însă, şi în acest caz, se pune problema unei corecte estimări

a varianţei. Nu ne mai putem rezuma doar la analiza coeficientului şi a pragu-

lui de semnificaţie. Suntem obligaţi să furnizăm intervalele de încredere ale

estimărilor, erorile de estimare şi alte date care pot da valoare şi pertinenţă

inferenţei.

Tehnic, în analiza şi interpretarea corelaţiilor sunt importante trei as-

pecte (Urdan, 2005):

Analiza grafică a legăturii dintre două variabile;

Calculul coeficientului de corelaţie, a semnificaţiei acestuia şi

a mărimii efectului determinat;

Calculul intervalelor de încredere

I.4.3.1 Analiza grafică a relaţiei dintre două variabile

Ştiţi, probabil, că nu agreez, în mod deosebit, analizele statistice fun-

damentate pe poze şi pe alte elemente grafice, deoarece consider că statistica

Statistică aplicată în ştiinţele socio-umane

112

se bazează pe cifre. Iată, însă, un domeniu în care fac excepţie de la regulă, şi

recomand începerea analizei corelaţionale prin inspectarea grafică a legăturii

dintre două variabile.

Asocierea dintre două variabile măsurate

pe o scală parametrică se reprezintă grafic

printr-o diagramă numită „nor de puncte” (scat-

terplot în limba engleză) sau diagramă de core-

laţie. Aceasta se prezintă sub forma unui grafic

cu două axe, pe fiecare dintre ele regăsindu-se o

variabilă. Nu există nicio regulă după care re-

prezentăm variabilele, pe abscisă sau pe ordonată.

(Sava, 2004).

Orice corelaţie presupune existenţa unei relaţii între cele două varia-

bile, fie pozitivă, fie negativă, monotonă, liniară, etc.

În figura 1.6 este reprezentată diagrama

de corelaţie în cazul unei corelaţii pozitive

între variabilele X şi Y. Observăm liniaritatea

relaţiei şi traseul ascendent (pozitiv) al acesteia.

Subiecţii cu scoruri mici la variabila X, au sco-

ruri mici şi la variabila Y. Pe măsură ce scoru-

rile subiecţilor cresc la variabila X, cresc şi la

variabila Y. Intuiţi deja existenţa unui coefici-

ent de corelaţie ridicat între cele două variabile,

corelaţia fiind, de asemenea, semnificativă.

În figura 1.7 aveţi norul de puncte în cazul unei corelaţii negative în-

tre variabilele X şi Y. Asocierea dintre variabile este, de asemenea, liniară,

însă subiecţii care au scoruri mici la variabila X, au scoruri mari la variabila

Y. Pe măsură ce scorurile subiecţilor cresc la variabila X, scad la variabila Y.

Figura 1.6 – Corelaţie pozitivă

puternică între două variabile

Figura 1.7 – Corelaţie negativă

puternică între două variabile

Cristian Opariuc-Dan

113

În acest caz, putem anticipa existenţa unui coeficient de corelaţie ridicat,

semnificativ şi negativ.

Figura 1.8 indică lipsa legăturii dintre

cele două variabile, X şi Y. După cum se poate

observa, nu există nicio relaţie liniară între cele

două variabile. Nu putem afirma că scorurile

sunt legate în vreun fel. În acest caz, valoarea

unui eventual coeficient de corelaţie va fi foarte

mică, şi, în mod cert, corelaţia nu este

semnificativă. Spunem, în această situaţie, că

cele două variabile nu sunt relaționate.

Analiza norului de puncte, ne permite să apreciem forma relaţiei din-

tre două variabile (relaţia liniară, neliniară sau absenţa relaţiei), direcţia aces-

tei relaţii (ascendentă sau pozitivă, ori descendentă, negativă) şi intensitatea

legăturii dintre variabile (legătură puternică, punctele fiind apropiate de

dreapta de evoluţie liniară sau legătură slabă, punctele fiind mai depărtate de

această dreaptă).

Analiza formei norului de puncte poate

releva aspecte importante, îndeosebi în situaţia

în care coeficientul de corelaţie are valori mici.

Să nu ne grăbim să afirmăm că nu există nicio

legătură între variabile, ci să analizăm grafic

semnificaţia acestei valori. Să presupunem că,

într-un studiu, am obţinut un coeficient de core-

laţie r Bravais-Pearson de 0,15, corelaţia nefiind

semnificativă. Cei mai mulţi se vor grăbi să afirme că nu există nicio legătură

între cele două variabile. Desigur, acest lucru poate fi valabil dacă norul de

puncte arată ca în figura 1.8.

Figura 1.8 – Lipsa legăturii

dintre două variabile

Figura 1.9 – Existenţa unui scor

extrem

Statistică aplicată în ştiinţele socio-umane

114

Acelaşi coeficient de corelaţie se poate obţine şi în cazul datelor re-

prezentate în figura 1.9. Putem spune că nu există nicio legătură între cele

două variabile? Sigur că nu. Legătura există, este pozitivă şi puternică. Ele-

mentul care conduce la scăderea valorii coeficientului de corelaţie este toc-

mai scorul extrem, pe care îl puteţi remarca

foarte uşor. Iată că, în absenţa analizei grafice,

ne putem păcăli. Nu ne rămâne decât să elimi-

năm acel scor extrem, şi vom observa modifica-

rea radicală a coeficientului de corelaţie.

Un alt element important, se referă la

constanţa grosimii norului de puncte. În studiile

de tip corelaţional, plecăm de la presupunerea că

norul de puncte are o grosime constantă pe în-

treaga distribuţie. Această grosime constantă poartă numele de

homoscedasticitate, şi se poate observa în figura 1.10.

Într-o corelaţie homoscedastică, un coe-

ficient de corelaţie are valori mari. Semnificaţia

este aceea că, pe întreaga amplitudine a distribu-

ţiei celor două variabile, relaţia liniară se păs-

trează.

Un coeficient de corelaţie mic, poate fi

obţinut şi pe baza unei relaţii heteroscedastice,

ca în figura 1.11. Acest caz ne poate induce în

eroare, ne poate face să considerăm că nu există nicio legătură între cele două

variabile. În realitate, legătura există, însă norul de puncte nu mai este omo-

gen, ca în primul caz, ci eterogen. În figura 1.11 observăm existenţa unei co-

relaţii pozitive între cele două variabile. Corelaţia este, însă, mai puternică în

cazul scorurilor mici, şi mai slabă sau inexistentă la scorurile mari. Per an-

samblu, coeficientul de corelaţie va avea valori mici, fapt care nu reflectă nici

Figura 1.10 – Relaţie

homoscedastică între variabile

Figura 1.11 – Relaţie

heteroscedastică între variabile

Cristian Opariuc-Dan

115

pe departe realitatea. De exemplu (Sava, 2004), dacă vom studia relaţia dintre

coeficientul de inteligenţă şi creativitate, vom obţine un nor de puncte

heteroscedastic. Corelaţia dintre aceste două dimensiuni este puternică la

valori mici ale inteligenţei şi creativităţii. Pe măsură ce coeficientul de inteli-

genţă creşte, intensitatea legăturii scade, datorită

intervenţiei unor factori intelectuali şi non-

intelectuali. Problema care se pune este aceea a

stabilirii punctului până la care relaţia se păs-

trează, iar interpretarea va ţine seama de aceste

aspecte.

Dacă vom studia relaţia dintre venituri şi

cheltuieli pe articole de îmbrăcăminte, s-ar putea

să aveţi surpriza obţinerii unui coeficient de core-

laţie mic. Acceptarea ipotezei conform căreia nu există nicio legătură între

venituri şi cheltuieli pe articole de îmbrăcăminte s-ar putea să fie eronată, în

condiţiile în care norul de puncte arată ca în figura 1.12.

Remarcăm, în acest caz, existenţa a două seturi distincte de date.

Putem suspecta existenţa unei variabile moderatoare, în acest caz genul bio-

logic al persoanei. Relaţia poate exista în cazul femeilor (norul de puncte

compact din partea de stânga-sus a graficului), pentru bărbaţi nefiind semni-

ficativă (norul de puncte din dreapta-jos). Dacă

vom trata compact lotul de cercetare, sigur că

vom obţine un coeficient de corelaţie foarte mic.

În acest caz, analiza se realizează separat pentru

bărbaţi şi pentru femei, rezultatele raportându-se

în consecinţă.

Ultimul element pe care îl remarcăm, din

punctul de vedere al formei distribuţiei, se referă

la relaţiile neliniare. Cei dintre dumneavoastră care au studiat psihologie,

Figura 1.12 – Existenţa seturi-

lor de date

Figura 1.13 – Relaţiile nelinia-

re între variabile

Statistică aplicată în ştiinţele socio-umane

116

cunosc relaţia dintre motivaţie şi performanţă. Performanţa creşte pe măsură

ce creşte motivaţia, însă doar până la un punct, numit optim motivaţional.

Dincolo de acest punct, supra-motivarea conduce la scăderea performanţei.

Norul de puncte, într-o asemenea situaţie, ar arăta ca în figura 1.13.

Desigur, studiind legătura dintre motivaţie şi per-

formanţă, am obţine un coeficient de corelaţie foar-

te mic. Să ne rezumăm la interpretarea strictă a

acestui coeficient, ar fi o eroare. În realitate, există

o corelaţie pozitivă puternică pentru prima jumătate

a graficului şi o corelaţie negativă puternică pentru

a doua jumătate. Nici vorbă de absenţa corelaţiei.

Lucrurile se rezolvă simplu, prin depistarea punctu-

lui de optim motivaţional, şi prin tratarea datelor ca

două seturi distincte de date. Cercetarea devine valoroasă tocmai prin această

particularitate.

Puterea legăturii dintre două variabile este dată, evident, de coeficien-

tul de corelaţie. Cu cât acesta se apropie de valoarea ±1, în cazul unei corela-

ții liniare, cu atât legătura este mai puternică, da-

tele sunt mai grupate în jurul unei drepte de evo-

luţie imaginare. Valorile apropiate de zero conduc

la un nor de puncte împrăştiat în jurul acestei

drepte imaginare.

În figura 1.14 este reprezentat norul de

puncte al unui coeficient de corelaţie pozitivă de

0,91. Observaţi modul în care se grupează datele.

Este cazul unui studiu referitor la vârsta soţului şi a soţiei. Desigur, în condi-

ţii normale, vârsta soţilor este apropiată, legătura dintre cele două variabile

fiind puternică (excepţiile de la această regulă le puteţi găsi şi singuri studiind

viaţa mondenă din România).

Figura 1.14 – Corelaţie puter-

nică între două variabile

Figura 1.15 – Corelaţie slabă

între două variabile

Cristian Opariuc-Dan

117

Figura 1.15 arată norul de puncte al unei corelaţii negative slabe de

0,28. Putem intui dreapta de evoluţie a celor două variabile, însă observaţi că

datele sunt mult mai împrăştiate în jurul acesteia. Legătura, evident, există,

însă nu are puterea celeia din figura 1.14. Variabilitatea datelor în acest caz

este mult mai mare.

Făcând această incursiune prin analiza graficelor, am dorit să sublini-

em importanţa studiului diagramei de corelaţie. Interpretarea exclusivă pe

baza coeficientului de corelaţie nu se recomandă, deoarece, foarte uşor putem

cădea în capcana unei relaţii neliniare sau specifice. Primul pas în interpreta-

rea coeficientului de corelaţie este analiza diagramei de corelaţie. În funcţie

de aspectul datelor, se ajustează procedurile de calcul şi de raportare.

Analiza datelor prin utilizarea creionului şi a hârtiei reprezintă un pro-

ces laborios, care presupune o importantă investiţie de timp şi este susceptibil

de a genera erori. Din fericire, programele specializate de analiză statistică

pot face aceste operaţii în câteva fracţiuni de secundă. Iată că a venit timpul

să studiem corelaţiile folosind cunoscutul pachet de programe, SPSS for

Windows.

I.5 Obţinerea coeficienţilor de corelaţie în SPSS

Nu-i aşa că v-aţi săturat de atâtea calcule? Aşa-i că vă este dor de câ-

teva clicuri? Sigur că vorbim despre o diferenţă enormă. Pe un lot de cerceta-

re de 200 de persoane, pentru a calcula pe hârtie coeficientul de corelaţie r

Bravais-Pearson, probabil că vă va lua jumătate de zi. Folosind SPSS for

Windows şi presupunând că aveţi deja datele introduse, vă va lua sub un mi-

nut.

I.5.1 Coeficienţi de corelaţie bazaţi pe date parametrice

SPSS for Windows, în acest moment, a ajuns la versiunea 17, versiu-

ne cu multe îmbunătăţiri şi facilităţi în comparaţie cu variantele anterioare.

Înainte de a începe, vom crea o bază de date nouă, reluând exemplul din capi-

Statistică aplicată în ştiinţele socio-umane

118

tolul destinat studiului corelaţiilor parţiale. Vă reamintesc faptul că am dorit,

atunci, să aflăm legătura dintre performanţa la examen şi emoţiile din timpul

examenului. Realizăm, prin urmare, o bază de date cu următoarea structură:

Tabelul 1.35 – Structura bazei de date

Variabila Eticheta Nivel de măsură Tip Caractere

Timp Timp de studiu Scalar Numeric 2

Emotii Emotii examen Scalar Numeric 3.2

Gen Gen biologic Nominal Numeric 1

Nota Nota examen Scalar Numeric 3.2

Probabil că vă mai amintiţi cum se creează o bază de date în SPSS.

Detalii despre aceste procedee puteţi găsi în lucrarea anterioară sau în alte

cărţi de specialitate. Observăm că avem un număr de patru variabile, toate

elementele necesare realizării bazei de date găsindu-se în

tabelul 1.29. Variabila „Gen” este o variabilă nominală,

cu asocierile din tabelul alăturat.

După realizarea structurii bazei de date, în fereastra principală SPSS,

secţiunea „Data view” veţi avea următoarea structură, prezentată în figura

1.16.

Această bază de date o vom folosi doar pen-

tru studiul coeficienţilor de corelaţie parametrici,

aprofundarea corelaţiilor neparametrice făcându-

se pe baza altor date.

Pentru acest studiu, am investigat un număr de 103 subiecţi, înregis-

trând timpul de studiu (în ore) necesar susţinerii examenului de statistică,

media obţinută la examenul de statistică (nota la examen şi activitatea de se-

Valoare Etichetă

Gen 1 Masculin

2 Feminin

Figura 1.16 – Structura bazei

de date

Cristian Opariuc-Dan

119

minar), genul biologic şi scorul obţinut la un instrument de evaluare a emoti-

vităţii în condiţii de examen3.

Nu este cazul să vă mai explic modul în care veţi introduce datele în

SPSS. Mai jos aveţi întreaga bază de date, pe care vă invit să o realizaţi. Nu

vă speriaţi, nu vă ia mai mult de 10 minute. După ce aţi introdus datele, sal-

vaţi fişierul sub numele de „Corelaţii parametrice”.

Tabelul 1.36 – Baza de date „Corelaţii parametrice”

Timp Emotii Gen Nota Timp Emotii Gen Nota

4 86,30 1 4,00 42 68,57 2 7,00

11 88,72 2 6,50 4 93,55 1 4,00

27 70,18 1 8,00 8 84,69 2 8,00

53 61,31 1 8,00 6 82,27 1 1,00

4 89,52 1 4,00 11 81,46 2 2,00

22 60,51 2 7,00 7 82,27 1 4,00

16 81,46 2 2,00 15 91,13 1 4,00

21 75,82 2 5,50 4 91,94 2 7,00

25 69,37 2 5,00 28 86,30 2 5,20

18 82,27 2 4,00 22 72,60 1 5,00

18 79,04 1 4,50 29 63,73 2 6,00

16 80,66 1 8,50 2 63,73 1 8,00

13 70,18 1 7,00 16 71,79 2 6,00

18 75,01 2 5,00 59 57,28 1 6,50

98 34,71 1 9,50 10 84,69 2 1,50

1 95,16 1 7,00 13 84,69 1 8,50

14 75,82 1 9,50 8 77,43 2 2,00

29 79,04 2 9,50 5 82,27 2 8,00

4 91,13 2 5,00 2 10,00 1 10,00

23 64,54 1 6,00 38 50,83 2 10,00

14 80,66 1 8,00 4 87,91 1 8,00

12 77,43 1 7,50 10 83,88 1 1,00

22 65,34 2 8,50 6 84,69 2 7,00

84 0,06 2 9,00 68 20,21 2 10,00

23 71,79 2 3,00 8 87,10 1 7,00

26 81,46 2 6,00 1 83,88 2 7,00

24 63,73 1 7,50 14 67,76 1 6,50

72 27,46 2 7,50 42 95,97 2 7,50

37 73,40 2 2,70 13 62,12 2 8,50

10 89,52 1 2,00 1 84,69 1 3,00

3 89,52 2 7,50 3 92,75 1 0,50

36 75,01 2 9,00 5 84,69 2 1,00

43 43,58 1 6,00 12 83,07 2 9,00

3 Datele sunt fictive şi nu corespund unui studiu real. Ele au fost manipulate în aşa fel încât

să corespundă necesităţilor didactice.

Statistică aplicată în ştiinţele socio-umane

120

19 82,27 1 3,00 19 73,40 1 7,00

12 79,04 1 8,00 2 87,91 2 2,00

9 79,04 2 1,00 19 71,79 1 8,50

72 37,13 1 8,50 11 86,30 1 3,50

10 81,46 1 0,70 15 84,69 2 3,00

12 83,07 2 0,50 23 75,82 1 7,00

30 50,83 1 8,50 13 70,98 2 5,50

15 82,27 1 2,00 14 78,24 2 7,50

8 78,24 2 4,50 1 82,27 1 0,20

34 72,60 1 6,00 9 79,04 1 4,00

22 74,21 2 7,00 20 91,13 2 5,00

21 75,82 2 5,00 0 93,55 2 3,50

27 70,98 1 2,50 52 58,89 2 8,00

6 97,58 1 5,00 38 53,25 2 5,00

18 67,76 1 4,00 19 84,69 1 4,90

8 75,01 1 8,00 23 89,52 2 7,50

19 73,40 2 5,00 11 71,79 2 2,50

13 62,12 1

27 82,27 1 6,50

17 69,37 1 8,00

În primul rând, să începem cu începutul. Dorim

să aflăm dacă există vreo legătură între nota obţinută la

examen şi emoţiile din timpul examenului. Înainte de a

ne grăbi să calculăm coeficientul de corelaţie r Bravais-

Pearson, trebuie să ne asigurăm că cele două variabile

îndeplinesc condiţiile de calcul ale statisticilor parame-

trice. Vom presu-

pune că ambele variabile au o distribu-

ţie normală, deoarece este evident fap-

tul că se situează la un nivel scalar de

măsură.

Lansarea procedurilor de calcul

ale corelaţiilor se realizează prin acce-

sarea meniului „Analyze”, apoi din

submeniul „Correlate” vom alege op-

ţiunea „Bivariate…”. Imediat se va

deschide o fereastră similară celei din

Figura 1.17 – Lansarea

procedurii de calcul ale

corelaţiilor

Figura 1.18 – Fereastra corelaţiilor

bivariate

Cristian Opariuc-Dan

121

figura 1.18.

Formularul conţine două liste, separate prin butonul de transfer în

formă de săgeată. Cu ajutorul acestuia, putem transfera variabilele din baza

de date (fereastra din stânga) în lista variabilelor supuse analizei (fereastra

din dreapta). În cazul nostru, am inclus spre analiză, variabilele „Nota exa-

men” şi „Emoţii examen”, în conformitate cu planul de cercetare.

Sub aceste două liste se află secţiunea „Correlation Coefficients”, ca-

re conţine trei casete de bifare, corespunzătoare celor trei coeficienţi de core-

laţie ce pot fi calculaţi: coeficientul de corelaţie r Bravais-Pearson (Pearson),

coeficientul de corelaţie τ Kendall (Kendall’s tau-b) şi coeficientul de corela-

ţie a rangurilor ρ Spearman (Spearman). Situaţia noastră este clară; vom cal-

cula coeficientul de corelaţie r Bravais-Pearson.

Următoarea secţiune, „Test of Significance” are în vedere stabilirea

tipului de ipoteză cu care lucrăm. Putem alege între o ipoteză nedirecţională

(Two-tailed) şi o ipoteză direcţională (One-tailed). Presupunem că ipoteza

noastră vizează stabilirea unei relaţii între performanţa la examen şi emoţiile

din timpul examenului. Ştiţi deja că aceasta este o ipoteză nedirecţională,

corelaţia fiind semnificativă atât în cazul unei legături pozitive, cât şi în cazul

unei legături negative.

Întrebare

Cum aţi formula o ipoteză direcţională în acest design de cercetare?

Ce opţiune aţi alege în secţiunea testelor de semnificaţie?

Caseta de bifare „Flag significant

correlations” comunică programului SPSS să marche-

ze, în mod distinct, corelaţiile semnificative. Aplicaţia

va marca, folosind un asterisc pentru corelaţiile semni-

ficative la un prag de semnificaţie mai mic de 0,05, şi

Figura 1.19 – Fereastra

opţiunilor avansate

Statistică aplicată în ştiinţele socio-umane

122

două asteriscuri în cazul corelaţiilor semnificative la un prag de semnificaţie

mai mic de 0,01.

Butonul „Options…” vă permite configurarea opţiunilor avansate re-

feritoare la calculul coeficientului de corelaţie. Secţiunea „Statistics” oferă

posibilitatea calculului a două elemente: mediile şi abaterile standard pentru

fiecare dintre variabilele analizate (Means and standard deviation) şi covari-

anţele, respectiv produsului încrucişat al abaterilor (Cross-product deviations

and covariances). Acest din urmă element se afişează pentru fiecare pereche

de variabile supuse analizei. Produsul încrucişat al abaterilor reprezintă suma

produselor mediilor corectate ale variabilelor. Acest indicator reprezintă, de

fapt, valoarea numărătorului din formula de calcul a coeficientului de corela-

ţie r Bravais-Pearson. Covarianţa, ca măsură nestandardizată a relaţiei dintre

cele două variabile – studiată la începutul acestui capitol – nu este altceva

decât produsul încrucişat, împărţit la numărul gradelor de libertate (în cazul

nostru, n-1).

Secţiunea „Missing values” cuprinde două opţiuni reciproc exclusive

şi se referă la tratarea cazurilor lipsă. În situaţia „Exclude cases pairwise”,

SPSS nu va lua în calcul înregistrările în care lipsesc date din ambele variabi-

le. Dacă o variabilă conţine date iar cealaltă nu conţine date, SPSS va calcula

totuşi coeficientul de corelaţie, considerând valoarea lipsă ca fiind valoare

nulă. În acest fel se asigură obţinerea unui maximum de informaţii din datele

introduse, deşi există riscul unor erori statistice. Situaţia „Exclude cases list-

wise” exclude din analiză cazurile în care una dintre variabile nu are date.

Aceasta este o opţiune mai riguroasă, însă este posibil să se piardă un volum

important de informaţie. În general se utilizează prima opţiune. Părăsirea

ferestrei se face prin acţionarea butonului „Continue”, caz în care se revine

la formularul iniţial.

Celelalte butoane vă sunt cunoscute şi nu comportă explicaţii supli-

mentare. Lansarea procedurilor de calcul se face prin acţionarea butonului

Cristian Opariuc-Dan

123

„OK”. În câteva fracţiuni de secundă, rezultatele analizei vor fi afişate în

fereastra de rezultate (Output).

Tabelul 1.37 – Rezultatele corelaţiei bivariate r Bravais-Pearson

Correlations

Nota examen Emotii examen

Nota examen

Pearson Correlation 1,000 -,441**

Sig. (2-tailed) ,000

N 103,000 103

Emotii examen

Pearson Correlation -,441** 1,000

Sig. (2-tailed) ,000

N 103 103,000

**. Correlation is significant at the 0.01 level (2-tailed).

Tabelul 1.37 prezintă rezultatele acestei analize. Atât pe linii, cât şi pe

coloane, sunt afişate cele două variabile analizate („Nota examen” şi Emoţii

examen”). Linia „Pearson Correlation” conţine valoarea coeficientului de

corelaţie între cele două variabile. Evident, corelând variabila cu ea însăşi,

coeficientul de corelaţie va fi 1,00. Pe noi ne interesează coeficientul de core-

laţie dintre cele două variabile. Iată că am obţinut –0,441, corelaţie semnifi-

cativă la un prag de semnificaţie mai

mic de 0,01, aşa cum rezultă şi din

subsolul tabelului. Linia „Sig. (2-

tailed)” exprimă în mod precis pragul

de semnificaţie. Acesta este 0,00,

valoare rotunjită. În realitate, valoa-

rea exactă este de 0,000003, în mod

evident mai mică de 0,01. În sfârşit,

ultima linie, N, arată numărul de ca-

zuri. Cercetarea a fost realizată pe un

număr de 103 subiecţi. Figura 1.20 – Diagrama de corelaţie

între cele două variabile

Statistică aplicată în ştiinţele socio-umane

124

Ce concluzii putem extrage de aici? Desigur, avem de a face cu o co-

relaţie semnificativă, deoarece pragul de semnificaţie este mai mic de 0,01.

Totodată, corelaţia este negativă şi moderată, aspecte rezultate din semnul

coeficientului de corelaţie şi din valoarea acestuia. Mărimea efectului acestei

relaţii este de 0,194, sau 19,4% din varianţa unei variabile poate fi explicată

prin cealaltă variabilă, intensitatea efectului fiind una

medie. Putem, aşadar, afirma că există o corelaţie

moderată, negativă şi semnificativă între performanţa

la examen şi emoţiile din timpul examenului; persoa-

nele cu note slabe la examen prezintă şi un nivel

semnificativ mai mare al emoţiilor.

Nu ne-ar mai rămâne decât să facem o „poză”

a acestei corelaţii; cu alte cuvinte să realizăm norul de

puncte pentru a vedea dacă apar situaţii atipice.

Iată, în figura 1.20, diagrama de corelaţie. Se observă clar sensul ne-

gativ al legăturii, precum şi intensitatea acesteia. În acelaşi timp, putem sus-

pecta o relaţie heteroscedastică. Corelaţia pare puternică doar în situaţia note-

lor mici obţinute la examen. Pentru notele mari, este posibil să nu existe nici-

un fel de legătură între cele două variabile (vedeţi grosimea norului de puncte

în cele două cazuri. De asemenea, ar fi posibilă existenţa unei alte variabile

care să modereze această corelaţie (cred că ştiţi deja despre ce variabilă este

vorba).

Întrebarea pe care mi-o veţi pune acum

va fi una referitoare la modul în care am ajuns la

acest grafic. Puţină răbdare.

Toate elementele grafice din SPSS se re-

găsesc în meniul „Graphs”. Există, aici, două

posibilităţi: fie utilizarea unui expert de creare a

Figura 1.21 – Crearea

manuală a graficelor

Figura 1.22 – Alegerea tipului

de diagramă de corelaţie

Cristian Opariuc-Dan

125

graficelor (opţiunea „Chart Builder…”, fie crearea manuală a acestora (opţi-

unea „Legacy Dialogs”). Pentru moment, vom avea în vedere a doua situaţie,

urmând ca pe parcursul acestui volum să detaliem şi expertul în grafice

SPSS.

Graficul care ne interesează este „Scatter/Dot…”. Accesarea acestui

meniu permite lansarea unei ferestre simple, de selecţie a tipului de grafic,

aşa cum se poate observa în figura 1.22.

Există, în acest formular, un număr de 5 variante de grafice. Varianta

„Simple Scatter” este opţiunea care ne intere-

sează pe noi. În acest caz, graficul va desena

cele două variabile pe ordonată şi abscisă, per-

miţând eventual intervenţia unei a treia variabila

categoriale (de exemplu sexul). „Overlay Scat-

ter” este o versiune a graficului simplu, permi-

ţând afişarea, pe aceeaşi diagramă, a mai multor

perechi de variabile, fiecare variabilă fiind indi-

cată printr-un element de marcaj distinct. Vom

folosi acest grafic dacă, de exemplu, intenţionăm

să reprezentăm pe acelaşi grafic corelaţia dintre performanţa la examen şi

emoţiile din timpul examenului (nor de puncte reprezentat prin cercuri) şi

corelaţia dintre timpul de studiu şi perfor-

manţa la examen (nor de puncte reprezentat

prin pătrate).

A treia formă, „Matrix Scatter”, se

foloseşte în momentul în care avem de re-

prezentat mai mult de o pereche de variabile.

Dacă, de exemplu, am include în analiză şi

timpul de studiu, SPSS ar efectua un număr de

3 corelaţii, corespunzătoare perechilor de varia-

Figura 1.23 – Grafic tip Over-

lay Scatter cu două perechi de

variabile

Figura 1.24 – Grafic tip

Matrix Scatter

Statistică aplicată în ştiinţele socio-umane

126

bile. Pentru a nu desena mai multe grafice, se poate folosi această formă.

Observăm în figura 1.24 reprezentarea tuturor celor trei diagrame de

corelaţie. Pe ambele axe sunt incluse variabilele. La

intersecţia a două variabile se afişează norul de

puncte corespunzător. Puteţi remarca, pe al doilea

rând, ultimul cadran, graficul din figura 1.20.

Aceasta este o modalitate ideală de a vizualiza an-

samblul legăturilor dintre variabile.

Graficul „3-D Scatter” este util în reprezen-

tarea tridimensională a corelaţiilor între mai multe

perechi de variabile. Este o diagramă de corelaţie

mai dificil de analizat şi presupune o oarecare experienţă în analiza datelor,

folosindu-se frecvent în ana-

liza factorială şi în corelaţii

parţiale. În figura 1.25, re-

prezentând tridimensional

cele trei variabile, putem

observa uşor lipsa efectului

emoţiilor din timpul exame-

nului. Norul de puncte este

concentrat preponderent în

zona variabilelor „nota exa-

men” şi „timp de studiu”, cu

orientare către scoruri mici

ale dimensiunii „emoţiei din

timpul examenelor”.

Graficul de tip „Sim-

ple dot” nu-l vom discuta.

Acesta nu reprezintă un nor

Figura 1.25 – Grafic tip 3-

D Scatter

Figura 1.26 – Formularul de definire a graficului de tip

„nor de puncte”

Cristian Opariuc-Dan

127

de puncte propriu-zis ci o variantă a graficului cu bare, prin care reprezentăm

observaţiile individuale ale unei singure variabile.

Acum să trecem la treabă. Am ales norul de puncte simplu, am apăsat

butonul „Define” pentru a intra în modul de definiţie a graficului, acum pri-

vim la noua fereastră care ne ocupă ecranul.

În partea stângă, avem de acum obişnuita listă a variabilelor din baza

de date. În partea dreaptă regăsim butoanele de transfer, corespunzătoare sec-

ţiunilor care trebuie definite. Secţiunea „Y-Axis” permite includerea variabi-

lei ce va fi reprezentată pe abscisă (axa OY). În cazul nostru, am inclus emoţi-

ile din timpul examenului. „X-Axis” va conţine variabila reprezentată pe or-

donată (axa OX). Nota obţinută la examen a fost selectată în vederea repre-

zentării pe această axă. Caseta „Set Markers by” se foloseşte în cazul în care

dorim să includem o variabilă categorială, ce va diferenţia datele. De exem-

plu, dacă dorim să reprezentăm diferit norul de puncte al bărbaţilor în compa-

raţie cu cel al femeilor, vom include variabila „Gen biologic” în această sec-

ţiune. Graficul va reprezenta datele femeilor cu cercuri şi datele bărbaţilor cu

pătrate. Secţiunea „Label cases by” reprezintă un alt element deosebit de util

în condiţiile în care dorim să identificăm fiecare element din grafic. De

exemplu, dacă am include genul biologic în această casetă, deasupra fiecărui

cerc de pe grafic, se va afişa genul biologic al subiectului respectiv. Desigur,

dacă am dori să reprezentăm datele separat pentru bărbaţi şi pentru femei,

vom prefera varianta „Set Markers by”, deoarece „Label Cases by” poate

duce la o supra-aglomerare a graficului. Alternativ, am putea include în

această casetă variabila „timp de studiu”. Într-o asemenea situaţie, deasupra

fiecărui cerc de pe grafic, va fi afişată valoarea timpului petrecut de către

fiecare subiect în vederea pregătirii pentru examen.

Secţiunea „Panel by” permite separarea graficului în funcţie de o va-

riabilă categorială. Dacă dorim să afişăm separat norul de puncte pentru băr-

baţi şi pentru femei, putem include în această secţiune variabila „gen biolo-

Statistică aplicată în ştiinţele socio-umane

128

gic”. În funcţie de dorinţă, graficul va fi separat pe orizontală dacă variabila

se include în caseta „Rows” sau pe verticală dacă o includem în caseta „Col-

umns”.

Secţiunea „Template” permite încărcarea unui şablon grafic dintr-un

fişier. Colecţii de şabloane grafice pentru SPSS pot fi găsite pe Internet, în

galeria aplicaţiei sau pot fi comandate la compania producătoare.

Butonul „Titles…” este destinat denumirii graficului. Putem include

două linii de text în antetul graficului (partea superioară) şi două linii de text

în subsolul graficului (partea inferioară). Opţiunea se foloseşte pentru denu-

mirea graficului şi pentru eventualele explicaţii suplimentare referitoare la

semnificaţia acestuia, ori la drepturile de autor.

Nu mai intrăm în detalii referitoare la butonul „Options…” deoarece

nu cred că v-ar putea interesa în mod deosebit. Oricum, acest buton are câte-

va variante de configurare avansată, de natură grafică şi statistică. Dacă doriţi

să aflaţi mai multe, consultaţi excelentul sistem de asistenţă al programului

SPSS, prin apăsarea butonului „Help”. Sistemul de asistenţă este furnizat în

limba engleză şi reprezintă o adevărată enciclopedie statistică. Finalizarea

definirii graficului şi lansarea opţiunii de desenare se poate face prin apăsarea

butonului OK. În câteva momente, în fereastra de rezultate, veţi obţine dese-

nul solicitat.

Excelent! În acest moment, avem toate datele necesare elaborării unui

raport, privind studiul acestei corelaţii. Mai jos, veţi găsi o analiză completă a

studiului propus. Vă voi ruga să comparaţi cele expuse cu activităţile dum-

neavoastră de cercetare. Dacă veți considera că studiile dumneavoastră sunt

mai complexe, vă rog să-mi scrieţi. Dacă nu, vă rog ca de acum înainte să

abordaţi cel puţin acest nivel.

Studiul efectuat pe un lot de cercetare de 103 studenţi, în baza ipote-

zei nedirecţionale conform căreia există o legătură semnificativă între per-

Cristian Opariuc-Dan

129

formanţa studenţilor la examen şi emoţiile acestora în timpul examenului, s-a

bazat pe un plan corelaţional. Cele două variabile („Nota examen” şi „Emo-

ţii examen”) se situează la un nivel de măsură scalar, analiza distribuţiei

acestora permiţând utilizarea statisticilor parametrice. În consecinţă, a fost

folosit coeficientul de corelaţie r Bravais-Pearson, rezultând o valoare a

corelaţiei de r=-0,441, la un prag de semnificaţie p<0,01. Într-o primă eta-

pă, putem respinge ipoteza nulă şi putem afirma că există o corelaţie medie,

negativă şi semnificativă între cele două variabile. Astfel, studenţii cu note

mici la examen sunt caracterizaţi prin niveluri ridicate ale emoţiilor în tim-

pul examenului. Cei care obţin performanţe la acest examen, pot fi conside-

raţi ca fiind puţin emotivi. Mărimea efectului acestei corelaţii este de 0,194,

corespunzătoare unei varianţe explicate de 19,4%. Putem considera că, lipsa

de performanţă în condiţii de examen, se datorează, în procent de 19,4%,

emoţiilor din timpul examenului. Totuşi, studiind diagrama de corelaţie, se

remarcă imediat existenţa unei legături heteroscedastice. Asocierea negativă

între cele două variabile pare a exista doar în cazul notelor mici la examen,

corespunzătoare scorurilor mari la emoţii în timpul examenului. Pentru stu-

denţii cu note mari, relaţia nu se mai respectă. Se poate suspecta existenţa

unei variabile moderatoare, care să influen-

ţeze atât performanţa la examen, cât şi emo-

ţiile din timpul examenului, ori existenţa

unui optim emoţional până la care această

atitudine poate corela cu o contraperfor-

manţă, în situaţii de evaluare. În mod cert,

planul de cercetare este incomplet şi urmea-

ză a fi optimizat.

Iată cam cum puteţi prezenta rezultatele unui studiu de acest tip. În

mod cert vor exista diferenţe între ceea ce ştiaţi până acum şi ceea ce aţi găsit

mai sus. Aţi observat că nu m-am hazardat să ofer vreo explicaţie psihologi-

Statistică aplicată în ştiinţele socio-umane

130

că, sociologică sau economică a faptelor constatate. Nici nu este cazul. Statis-

tica se bazează pe datele existente şi oferă un raport constatativ şi nu explica-

tiv a fenomenelor. Interpretarea statistică nu se poate confunda cu un alt tip

de interpretare. Deşi sunt psiholog de profesie, nu m-aş hazarda să fac apreci-

eri asupra acestor fapte, în condiţiile unei lucrări destinate însuşirii tehnicilor

de analiză a datelor. Având la dispoziţie aceste date, un sociolog îşi poate

exprima punctul de vedere, un psiholog poate avea viziune proprie, la fel şi

un economist sau un medic psihiatru. Reţineţi că metodele de analiză a date-

lor oferă fapte. Interpretarea faptelor cade în sarcina analistului.

Exerciţii:

Studiaţi legătura care există între performanţa la examen şi timpul

alocat studiului, precum şi între emoţiile din timpul examenului şi timpul

alocat studiului. Stabiliţi ipotezele, precizaţi tipul acestora, analizaţi cifric şi

grafic coeficienţii de corelaţiei, elaboraţi raportul.

Presupunând existenţa unei a treia variabile, care să modereze atât

performanţa la examen, cât şi emoţiile din timpul examenului, ne gândim la

timpul de studiu. Automat, vom avea în vedere o corelaţie

parţială. Meniul din care putem lansa calculul corelaţiilor

parţiale îl regăsim în aceeaşi locaţie. De data aceasta, nu

mai apelăm opţiunea „Bivariate…” ci vom folosi „Par-

„Partial…”.

Fereastra se aseamănă foarte mult cu cea întâlnită

la corelaţiile bivariate. Singura diferenţă constă în locaţia de includere a vari-

abilelor spre analiză. În acest caz, lista „Variables” conţine variabilele ce

urmează a fi corelate, iar lista „Controlling for” se referă la variabilele de

control. Analiza noastră urmăreşte corelarea notei obţinute la examen cu

emoţiile din timpul examenului, în condiţiile controlului asupra variabilei

Figura 1.27 –Lansarea

corelaţiilor parţiale

Cristian Opariuc-Dan

131

„tipul alocat studiului”, astfel încât fe-

reastra dumneavoastră va trebui să arate

ca în figura 1.28.

Butonul „Options” va deschide

o altă fereastră, de configurare a opţiu-

nilor avansate. Formularul este asemă-

nător cu cel de la corelaţiile bivariate.

Singura diferenţă constă în dispariţia

produsului încrucişat al abaterilor şi

apariţia casetei de bifare „Zero-order correlations”, a cărei selectare comu-

nică programului calcularea corelaţiilor r Bravais-Pearson, între perechile

formate din cele trei variabile, fără moderare. Facilitatea este foarte utilă,

scutindu-ne de a efectua corelaţii repetate, prin urmare am bifat-o şi noi.

Apăsarea butonului „Continue” închide această fe-

reastră şi se revine în primul formular.

După ce am introdus cu atenţie variabile care

urmează a fi calculate, putem lansa operaţiunea prin

apăsarea butonului OK. În scurt timp, veţi obţine, în

fereastra de rezultate, tabelul 1.38.

Vi se pare un tabel complicat? Nu este cazul

să vă speriaţi. În partea de sus, sunt afişate cele trei

variabile analizate şi corelaţiile de rang zero între ele. Ştim deja, între notele

obţinute la examen şi emoţiile din timpul examenului, avem un coeficient de

corelaţie semnificativ de r=-0,441, p<0,01. Între nota la examen şi timpul

alocat studiului, corelaţia este semnificativă şi pozitivă, r=0,397, p<0,01; si-

milar, între timpul de studiu şi emoţiile din timpul examenului există o core-

laţie negativă, r=-0,709, p<0,01. Aţi observat că aceste corelaţii de ordin zero

nu reprezintă altceva decât coeficienţii de corelaţie r Bravais-Pearson între

cele trei variabile, luate două câte două. În loc să efectuăm trei corelaţii biva-

Figura 1.28 –Configurarea corelaţiilor

parţiale

Figura 1.29 –Opţiuni

avansate de configurare

Statistică aplicată în ştiinţele socio-umane

132

riate, bifăm caseta „Zero-order correlations” iar SPSS le va calcula automat,

realizând astfel o importantă economie de timp.

În partea de jos a tabelului regăsim corelaţia parţială solicitată. Obser-

văm că între nota obţinută de către studenţi la examen şi emoţiile din timpul

examenului, în condiţiile în care controlăm efectul timpului alocat pentru

studiu, există o corelaţie parţială negativă şi semnificativă r12.3=-0,247;

p<0,05, la un număr de 100 de grade de libertate. Efectul acestei corelaţii este

de 0,06, adică doar 6% din varianţa notei obţinute la examen poate fi regăsită

în emoţiile din timpul examenului.

Reprezentarea grafică adecvată acestei corelaţii este graficul tridimen-

sional „3-D Scatter”. Pe axele OX şi OY se reprezintă cele două variabile co-

relate, iar pe axa OZ vom afişa variabila de control. Se remarcă foarte uşor

intensitatea slabă a corelaţiei dintre nota obţinută şi emoţiile din timpul exa-

Tabelul 1.38 – Rezultatele corelaţiei parţiale

Correlations

Control Variables Nota examen Emotii examen Timp de studiu

-none-a Nota examen Correlation 1,000 -,441 ,397

Significance (2-tailed) . ,000 ,000

Df 0 101 101

Emotii examen Correlation -,441 1,000 -,709

Significance (2-tailed) ,000 . ,000

Df 101 0 101

Timp de studiu Correlation ,397 -,709 1,000

Significance (2-tailed) ,000 ,000 .

Df 101 101 0

Timp de studiu Nota examen Correlation 1,000 -,247

Significance (2-tailed) . ,012

Df 0 100

Emotii examen Correlation -,247 1,000

Significance (2-tailed) ,012 .

Df 100 0

a. Cells contain zero-order (Pearson) correlations.

Cristian Opariuc-Dan

133

menului, în condiţiile controlului exercitat de

timpul de studiu, precum şi traseul descen-

dent al norului de puncte.

Interpretarea corelaţiei parţiale se rea-

lizează similar corelaţiei bivariate simple, la

care se adaugă elemente ce ţin de variabila

de control.

S-ar putea să fim interesaţi, la un moment dat, de relaţia existentă în-

tre genul biologic şi timpul alocat studiului, pentru a vedea în ce măsură se-

xul subiecţilor determină efecte asupra timpului de studiu. Suntem în situaţia

asocierii unei variabile dihotomice cu o dihotomie discretă, reală, cu o varia-

bilă continuă. Ce tip de corelaţie folosim? Aţi ghicit, corelaţie punct biserială.

În SPSS, coeficientul de corelaţie punct biserial nu este altceva decât coefici-

entul de corelaţie r Bravais-Pearson, în condiţiile în care una dintre variabile

este dihotomică. Unii autori (Field, 2000), (Bakeman, și alții, 2004),

(Swinscow, și alții, 2002) recomandă codarea variabilei dihotomice cu valo-

rile zero şi unu pentru a nu exista niciun fel de dubiu referitor la calculul

acestui coeficient. În realitate, SPSS realizează automat conversia. În cazul

nostru, variabila „gen biologic” este o variabilă dihotomică codată cu unu şi

doi, iar calculul coeficientului de corelaţie punct biserial nu pune probleme.

Calculaţi coeficientul de corelaţie r Bravais-Pearson între genul bio-

logic şi timpul de studiu.

În tabelul 1.39, puteţi observa lipsa oricărei asocieri între cele două

variabile. Putem afirma că cele două variabile nu sunt corelate liniar, genul

biologic nu determină niciun efect asupra timpului de studiu.

Figura 1.30 – Graficul corelaţiei

parţiale

Statistică aplicată în ştiinţele socio-umane

134

Tabelul 1.39 – Rezultatele corelaţiei punct biseriale

Correlations

Gen biologic Timp de studiu

Gen biologic

Pearson Correlation 1,00 ,085

Sig. (2-tailed) ,391

N 103,00 103

Timp de studiu

Pearson Correlation ,085 1,00

Sig. (2-tailed) ,391

N 103 103,00

SPSS nu dispune de proceduri distincte de calcul a coeficientului de

corelaţie biserial. În cazul în care variabila dihotomică are o dihotomie conti-

nuă şi se impune calculul acestui coeficient, puteţi calcula întâi coeficientul

de corelaţie punct biserial şi apoi puteţi aplica formula de transformare în

coeficient biserial, aşa cum s-a arătat în capitolul dedicat acestor coeficienţi.

I.5.2 Coeficienţi de corelaţie bazaţi pe date neparametrice

Pentru a studia, utilizând SPSS, legătura dintre variabilele situate la

un nivel de măsură neparametric, baza de date creată mai sus nu ne este de

prea mare ajutor. Vom realiza o nouă bază de date, având o structură diferită.

Această bază de date corespunde unei cercetări imaginare, efectuată la

nivelul unei unităţi militare, cercetare în care ne interesează să înregistrăm

variabilele prezente în tabelul 1.40. Se observă existenţa unui număr de 2

variabile de nivel nominal, două variabile ordinale şi două variabile scalare,

Tabelul 1.40 – Structura bazei de date

Variabila Eticheta Nivel de măsură Tip Caractere

sex Genul biologic Nominal Numeric 1

culoare_ochi Culoarea ochilor Nominal Numeric 1

educatie Ultima scoala Ordinal Numeric 1

grad Grad militar Ordinal Numeric 1

inaltime Inaltimea Scale Numeric 3

greutate Greutatea Scale Numeric 3

Cristian Opariuc-Dan

135

structură suficientă îndeplinirii scopurilor noastre. Etichetele variabilelor ne-

parametrice sunt prezentate în tabelul 1.41 şi nu necesită explicaţii.

Cunoscând toate aceste elemente, nu

vă rămâne decât să proiectaţi baza de date şi

să o salvaţi sub un nume, să spunem, „Core-

laţii neparametrice.sav”.

După salvare, următorul pas este re-

prezentat de popularea bazei de date. În tabe-

lul 1.42 aveţi structura completă a acestor

informaţii. Desigur, toate valorile sunt fictive

şi nu corespund unei cercetări reale. Înar-

maţi-vă aşadar cu multă răbdare şi completaţi

cele 50 de cazuri pentru a putea demara apoi

analiza. Desigur, la final nu veţi uita să sal-

vaţi din nou baza de date, sub acelaşi nume,

pentru a evita surprizele provocate de o eventuală blocare a computerului.

Tabelul 1.42 – Baza de date pentru corelaţii neparametrice

Sex Culoare Educatie Grad Inaltime Greutate Sex Culoare Educatie Grad Inaltime Greutate

1 3 4 4 172 87 2 3 2 2 193 94

2 2 4 4 180 102 1 1 2 2 175 96

2 1 4 3 184 79 1 4 2 2 177 92

2 3 4 3 176 86 1 4 2 2 170 69

1 1 3 3 173 85 2 2 2 2 188 81

1 3 3 3 187 77 2 2 2 2 172 76

1 4 3 4 178 80 1 2 2 1 170 93

1 3 3 4 180 100 1 3 2 1 173 98

2 1 3 4 170 82 1 4 2 1 171 74

1 1 3 3 171 71 2 3 2 1 186 77

1 3 3 3 172 79 2 1 2 1 187 92

Tabelul 1.41 – Valorile variabilelor

Valoare Etichetă

Sex 1 Masculin

2 Feminin

culoare_ochi 1 Albastri

2 Verzi

3 Caprui

4 Negri

Educatie 1 Liceul

2 Scoala postliceala

3 Facultate

4 Postuniversitare

Grad 1 Subofiter

2 Ofiter cu grad inferior

3 Ofiter cu grad superior

4 General

Statistică aplicată în ştiinţele socio-umane

136

1 3 3 3 170 89 1 1 2 1 191 99

1 4 3 3 185 90 1 4 2 1 178 72

2 4 3 3 172 94 2 4 2 1 181 85

1 1 3 3 187 75 2 3 2 1 187 72

1 3 3 3 193 73 1 3 2 1 174 100

1 4 3 3 184 83 1 3 2 1 189 86

2 4 3 3 175 80 2 3 2 1 170 77

1 3 3 3 187 84 1 3 2 2 182 90

1 4 3 3 169 71 1 2 2 2 186 90

2 3 3 2 171 93 1 2 2 2 193 97

1 2 3 2 188 69 1 3 2 1 177 70

1 2 3 2 174 74 2 3 1 1 182 82

1 3 3 2 174 78 1 3 1 1 188 87

1 3 3 2 184 91 1 3 1 2 172 97

Pentru început ne propunem să analizăm rela-

ţia dintre înălţimea şi greutatea celor 50 de subiecţi.

Teoretic ambele variabile sunt de tip scalar, putându-

se folosi coeficientul de corelaţie r Bravais-Pearson.

Să presupunem, însă, că înălţimea subiecţilor nu are

o distribuţie normală, ci una puternic asimetrică la

stânga, arătând faptul că tendinţa în grupul de studiu

este către subiecţii înalţi. Media nu mai este un indi-

cator reprezentativ pentru tendinţa centrală, şi, prin urmare, nu vom putea

folosi coeficientul de corelaţie menţionat mai sus. Următoarea alternativă este

aceea a coeficienţilor de corelaţie ρ Spearman şi τ Kendall. Pentru a începe

calculul acestor doi coeficienţi, veţi proceda exact la fel ca mai sus, la calcu-

lul coeficientului de corelaţie r Bravais-Pearson. Veţi accesa meniul „Ana-

lyze”, apoi submeniul „Correlate” şi, în final, opţiunea „Bivariate…”. Se va

deschide cunoscuta fereastră din figura 1.32.

Figura 1.31 – Meniul de

lansare a analizei

Cristian Opariuc-Dan

137

Atunci când aţi calculat coeficientul

de corelaţie r Bravais-Pearson, vă amintiţi,

aţi inclus cele două variabile în lista varia-

bilelor supuse analizei, apoi aţi bifat caseta

„Pearson”. În cazul nostru, lucrurile stau la

fel, cu o singură excepţie. Nu vom mai bifa

caseta „Pearson” din cadrul secţiunii „Cor-

relation Coefficients”, ci casetele „Ken-

dall’s tau-b” pentru a calcula coeficientul

de corelaţie τ Kendall şi „Spearman” pen-

tru a calcula coeficientul de corelaţie ρ

Spearman. Alte explicaţii, la acest nivel, nu sunt necesare, toate aspectele

fiind lămurite anterior. Nu rămâne decât să apăsaţi butonul „OK” pentru ca

programul să iniţieze calculul acestor date.

Fereastra de rezultate va afişa un tabel, la fel cu tabelul 1.43, în care

sunt prezentate cele două analize bazate pe coeficientul de corelaţie τ Kendall

şi pe coeficientul de corelaţie ρ Spearman, ambii fiind, vă reamintim, coefici-

enţi de corelaţie ai rangurilor.

La fel ca în cazul coeficientului de corelaţie r Pearson, tabelul conţine

trei elemente: valoarea coeficientului de corelaţie, pragul de semnificaţie pen-

tru o ipoteză bilaterală (sau unilaterală dacă am specificat acest lucru în fe-

reastra de configurare a analizei) şi numărul de subiecţi investigaţi (n).

Situaţia noastră ar trebui să bucure sau să supere cercetătorul, în func-

ţie de modul în care şi-a formulat obiectivele. Se poate observa existenţa unor

coeficienţi de corelaţie nesemnificativi, foarte mici (τ=0,069, ρ=0,097) între

înălţimea şi greutatea subiecţilor.

Figura 1.32 – Fereastra de analiză a

corelaţiilor

Statistică aplicată în ştiinţele socio-umane

138

Tabelul 1.43 – Rezultatul analizei legăturii dintre înălţime şi greutate

Correlations

Înălţimea Greutatea

Kendall's tau_b Înălţimea Correlation Coefficient 1,000 ,069

Sig. (2-tailed) . ,491

N 50 50

Greutatea Correlation Coefficient ,069 1,000

Sig. (2-tailed) ,491 .

N 50 50

Spearman's rho Înălţimea Correlation Coefficient 1,000 ,097

Sig. (2-tailed) . ,503

N 50 50

Greutatea Correlation Coefficient ,097 1,000

Sig. (2-tailed) ,503 .

N 50 50

În concordanţă cu datele cercetării, nu există nicio legătură între înăl-

ţimea şi greutatea subiecţilor, cele două variabile fiind independente, iar noi

putem să nu respingem ipoteza nulă. O asemenea cercetare, presupunând că

am fi lucrat cu date reale, poate fi lipsită de valoare? Depinde de modul în

care explicăm rezultatele.

Privind figura 1.33, în care am repre-

zentat grafic această relaţie, putem observa

câteva lucruri interesante. Există, într-adevăr,

o tendinţă către un tip de corelaţie pozitivă,

tendinţă anulată însă de două situaţii particula-

re: de existenţa unui grup de persoane foarte

înalte şi foarte slabe şi de existenţa unui alt

grup de persoane – ceva mai numeros – scunde

şi supraponderale. Lipsa unui coeficient de

corelaţie semnificativ se poate datora tocmai acestui lucru şi, putem suspecta,

Figura 1.33 – Relaţia dintre

înălţime şi greutate

Înalţi-Slabi

Scunzi-Graşi

Cristian Opariuc-Dan

139

influenţa unei variabile de grup – probabil tipul constituţional – pe care nu

am luat-o în considerare.

Analiza coeficientului de corelaţie τ Kendall ori a coeficientului de

corelaţie ρ Spearman se realizează la fel ca şi cea a coeficientului de corelaţie

r Bravais-Pearson, drept pentru care nu vom intra

în amănunte referitoare la acest lucru.

Cum vom proceda în condiţiile în care do-

rim să aflăm dacă există vreo legătură între genul

biologic al subiecţilor şi culoarea ochilor? Ambele

variabile sunt la un nivel de măsură nominal, iar

singura posibilitate pe care o avem este aceea de a

utiliza tabelele de contingenţă.

În SPSS for Windows, construcţia şi analiza tabelelor de contingenţă

se află în cadrul meniului „Analyze” la „Descriptive Statistics” şi apoi opţiu-

nea „Crosstabs…”. Termenul semnifică ideea de „tabele încrucişate”, de fapt

chiar ideea conceptului menţionat

mai sus, cea de tabel de contingen-

ţă.

La accesarea acestei opţiuni

se va deschide o fereastră nouă,

fereastra de configurare şi de anali-

ză a tabelului de contingenţă. Fiind

un element nou, ne vom concentra

atenţia asupra formularului. Se ob-

servă câteva elemente comune: lista

variabilelor din baza de date, buto-

nul de lansare a analizei „OK”, de

copiere a codului „Paste”, de reiniţializare a formularului „Reset”, de anula-

Figura 1.34 – Meniul de

accesare a tabelelor de

contingenţă.

Figura 1.35 – Fereastra de configurare şi analiză

a tabelelor de contingenţă

Statistică aplicată în ştiinţele socio-umane

140

re „Cancel” şi de asistenţă „Help”, alături de butoanele-săgeată de transfer.

Celelalte elemente sunt, în marea lor majoritate, controale noi, astfel încât le

vom trata în detaliu.

Listele „Row(s):” şi „Column(s):” se referă la variabilele ce vor fi

reprezentate pe liniile, respectiv pe coloanele tabelului de contingenţă. SPSS

permite atât analiza tabelelor de contingenţă bidimensionale, cât şi a celor

multidimensionale. Rezultă că putem include mai multe variabile în listele

„Row(s)” ori „Column(s)”, în vederea construcţiei unor tabele multidimensi-

onale.

Secţiunea „Layer” vizează includerea în analiză a uneia sau a mai

multor variabile de control, variabile care presupunem că ar putea influenţa

tabelul de contingenţă. De exemplu, dacă am studia relaţia dintre „culoarea

ochilor” şi „culoarea părului” şi am presupune că această relaţie este influen-

ţată de „genul biologic”, atunci am include variabila „gen biologic” în lista

„Layer”, aceasta funcţionând ca variabilă de control. Mai mult, SPSS ne

permite construcţia de modele ierarhice folosind variabile de control pentru a

vedea efectul exercitat de introducerea succesivă a acestora.

La includerea uneia sau a mai multor variabile în această listă, pro-

gramul efectuează analize separate pentru fiecare categorie a fiecărei variabi-

le de control introduse. Vom obţine, aşadar, o analiză a relaţiei dintre culoa-

rea ochilor şi culoarea părului pentru bărbaţi şi o altă analiză, separată, pentru

femei. Butoanele „Previous” şi „Next” permit navigarea prin modelele de

variabile de control în vederea adăugării sau în vederea modificării acestora.

Dacă bifaţi caseta „Display clustered bar charts”, comunicaţi pro-

gramului SPSS să construiască un grafic cu bare, grupat după o variabilă,

fiecare grup conţinând categoriile celeilalte variabile. În cazul nostru, SPSS

ar construi două grupuri de grafice cu bare – pentru femei şi pentru bărbaţi –

fiecare grup conţinând graficul cu bare pentru culoarea ochilor.

Cristian Opariuc-Dan

141

Bifarea casetei ”Suppress tables” are ca efect includerea tuturor tabe-

lelor de contingenţă într-unul singur (dezactivându-se şi butoanele „Cells…”

şi „Format…”). Personal nu recomand bifarea acestei opţiuni deoarece re-

zultatele pot să piardă foarte mult din lizibilitate. Caseta are efect numai asu-

pra modului de prezentare al datelor, nu şi asupra

procedurilor de calcul.

Apăsarea butonului „Exact…” determină

deschiderea formularului de configurare a teste-

lor de semnificaţie, furnizând o serie de metode

adiţionale.

Varianta „Asymptotic only” este metoda

implicită, bazată pe calculul nivelului de semni-

ficaţie în funcţie de tipul distribuţiei teoretice.

Este, dacă doriţi, metoda clasică de calcul a sem-

nificaţiei, aşa cum a fost ea descrisă până acum,

în acest volum. O valoare este considerată semnificativă dacă pragul de sem-

nificaţie este mai mic de 0,05. Totuşi, varianta pleacă de la premisa că setul

de date este suficient de mare şi eterogen distribuit. Pentru un număr redus de

cazuri sau în condiţiile în care omogenitatea distribuţiei pune probleme,

această metodă poate să nu reprezinte un bun indicator al pragului de semni-

ficaţie.

Celelalte metode, „Monte Carlo” şi „Exact”, se vor folosi în condiţii-

le în care distribuţia datelor nu permite utilizarea metodei clasice.

Metoda „Monte Carlo” reprezintă o formă precisă de analiză a nive-

lului de semnificaţie, bazată pe simulare, derivată din calculul repetat, efec-

tuat pe mai multe eşantioane de tabele de contingenţă de aceleaşi dimensiuni

şi cu aceleaşi totaluri marginale ca şi tabelul analizat. Metoda „Monte Carlo”

permite estimarea precisă a pragului de semnificaţie, chiar în condiţiile în

care nu se poate aplica metoda clasică, asimptotică. Se poate folosi în cazul

Figura 1.36 – Configurarea

testelor de semnificaţie

Statistică aplicată în ştiinţele socio-umane

142

în care numărul subiecţilor este suficient de mare, însă avem de a face cu o

distribuţie problematică. Singurele elemente care trebuie configurate se referă

la nivelul de încredere („Confidence level”), care poate fi 95% pentru un

prag de semnificaţie de 0,05 sau 99% pentru un prag de semnificaţie de 0,01

şi numărul de eşantioane pe baza cărora se va face simularea („Number of

samples”). Valoarea implicită, 10.000, este suficientă. O valoarea mai mare

determină şi un nivel de precizie mai mare, însă consumă foarte mult din pu-

terea de calcul a procesorului.

Metoda „Exact” permite calcularea precisă a probabilităţii de apariţie

a unui răspuns. În mod normal, un nivel de semnificaţie mai mic de 0,05 este

considerat, şi aici, suficient, indicând existenţa unei relaţii între variabile.

Deoarece este o operaţiune de durată, poate fi configurată limita de timp per

fiecare test. Bifând caseta „Time limit per test” puteţi comunica programului

să nu execute teste care depăşesc durata menţionată.

În general nu prea avem motive să folosim altă metodă decât cea cla-

sică, asimptotică. Dacă totuşi doriţi să fiţi ex-

trem de precişi, puteţi folosi metoda „Monte

Carlo”. Utilizarea metodei „Exact” presupune

un computer foarte puternic şi multă răbdare,

analiza fiind de lungă durată. Uneori s-ar putea

să aveţi surpriza că vă îngheaţă calculatorul şi

singura variantă va fi să-l scoateţi din priză. Să

nu spuneţi că nu v-am avertizat!

Apăsarea butonului „Continue” permite

revenirea în formularul iniţial, cu memorarea

testului de semnificaţie dorit.

Butonul „Statistics…” ne interesează în

mod deosebit, deoarece din această fereastră putem alege indicatorii care ne

Figura 1.37 – Configurarea

coeficienţilor de corelaţie

Cristian Opariuc-Dan

143

interesează. Formularul este foarte intuitiv, grupat pe secţiuni, conţine doar

casete de bifare. Remarcaţi o serie de indicatori pe care-i cunoaşteţi, dar şi

indicatori de care probabil nu aţi auzit. Haideţi să-i luăm pe fiecare în parte.

Caseta „Chi-square” se referă exact la coeficientul de contingenţă χ2.

Bifaţi această casetă pentru a calcula coeficientul de contingenţă Pearson χ2,

coeficientul de contingenţă probabilistic-proporţională χ2, testul de semnifica-

ţie Fisher şi coeficientul de contingenţă Yate χ2 corectat pentru continuitate.

Ştiu că nu aţi auzit de aceşti coeficienţi. În esenţă sunt forme derivate din χ2,

pentru a răspunde unor necesităţi specifice de cercetare. Spre exemplu, χ2

corectat pentru continuitate se foloseşte strict pentru tabele de continuitate

bidimensionale de tip 2x2, aşa cum am văzut deja. Pentru tabele bidimensio-

nale cu mai multe linii şi coloane, reperul este χ2 Pearson sau χ

2 probabilistic

proporţional. Dacă cele două variabile nu sunt nominale sau ordinale, ci se

situează la un nivel scalar, cel mai bun indicator va fi coeficientul de asociere

liniară χ2. Testul de semnificaţie Fisher se foloseşte doar pentru tabele 2x2, în

cazul în care frecvenţa aşteptată la nivelul unei celule este mai mică de 5. Nu

vă impacientaţi. Toate aceste elemente le vom discuta în momentul în care

vom analiza rezultatele.

Caseta „Correlations” o puteţi folosi în condiţiile în care tabelul de

contingenţă conţine date aflate la un nivel ordinal sau scalar. Se va calcula

coeficientul de corelaţie ρ Spearman dacă datele se află la un nivel ordinal

sau/şi coeficientul de corelaţie r Pearson dacă datele se află la un nivel scalar.

Iată cel puţin un motiv pentru care este important să definim corect nivelul de

măsură atunci când proiectăm baza de date.

Secţiunea „Nominal” se referă la coeficienţi de asociere pentru date

nominale. Puteţi bifa caseta „Contingency coefficient” pentru a calcula coe-

ficientul de contingenţă, caseta „Phi and Cramer’s V” pentru a calcula coe-

ficienţii de contingenţă φ Pearson şi v Cramer, caseta „Lambda” pentru coe-

ficientul de asociere λ Goodman şi Kruskal, acela care permite realizarea

Statistică aplicată în ştiinţele socio-umane

144

unui fel de predicţii şi caseta „Uncertainty coefficient”, cu ajutorul căreia

calculaţi coeficientul de incertitudine. Acesta din urmă nu a fost studiat, însă

seamănă mult cu coeficientul λ Goodman şi Kruskal. Măsoară, de asemenea,

reducerea proporţională a erorilor atunci când o variabilă este folosită pentru

a prezice o altă variabilă.

Secţiunea „Ordinal” permite calculul coeficienţilor de corelaţie în si-

tuaţia în care variabilele se află la un nivel ordinal. Bifarea casetei „Gamma”

permite calculul coeficientului de corelaţie γ, pe care l-am studiat. Casetele

„Kendall’s tau-b” şi „Kendall’s tau-c” permit calculul variantelor b şi c ale

coeficientului de corelaţie al rangurilor τ Kendall. Singura diferenţă dintre cei

doi coeficienţi este aceea că τb ţine seama de rangurile egale iar τc nu ţine

seama de aceste ranguri. Caseta „Somer’s d” oferă posibilitatea calculului

coeficientului de corelaţie d Somers. Acest indicator nu a fost studiat, însă se

foloseşte ca şi coeficientul ce corelaţie ρ Spearman sau τ Kendall

Secţiunea „Nominal by Interval” se referă la cazul în care o variabilă

se află la un nivel de măsură de interval iar o altă variabilă este nominală.

Singurul coeficient pus la dispoziţie de SPSS este coeficientul η (eta), pe care

nu l-am analizat în detaliu în această lucrare. Coeficientul este unul nedirecţi-

onal, ia valori între 0 şi 1 şi exprimă intensitatea legăturii dintre o variabilă

nominală şi una ordinală sau scalară.

În „imensa lor generozitate”, plătită, desigur, cu bani grei, programa-

torii de la SPSS Inc. ne oferă o serie de indicatori suplimentari, astfel:

Caseta „Kappa” ne oferă o măsură a acordului. De fapt calculează co-

eficientul Cohen κ, un coeficient asemănător coeficientului de concordanţă W

Kendall. SPSS nu oferă o modalitate directă de calcul a coeficientului de

concordanţă W Kendall, deşi include această procedură în anumite teste sta-

tistice. Oricum, coeficientul κ Cohen se poate folosi ca o alternativă la coefi-

cientul W Kendall în situaţia în care ambele variabile au acelaşi număr de

categorii şi aceleaşi valori ale categoriilor.

Cristian Opariuc-Dan

145

Caseta „Risk” nu se referă la riscul de a vă pierde buna dispoziţie ci-

tind această carte, ci reprezintă un coeficient care măsoară puterea legăturii

dintre prezenţa unui factor şi apariţia unui eveniment. Dacă doriţi să studiaţi

relaţia dintre prezenţa soacrei şi apariţia unui

conflict în familie, acesta este coeficientul care

vi se potriveşte cel mai bine.

Coeficientul „McNemar” studiază legă-

tura dintre două variabile dihotomice şi se ba-

zează tot pe χ2. Se foloseşte, de obicei, în cerce-

tări de tipul „înainte şi după”, pentru a se identi-

fica modificarea răspunsurilor în urma apariţiei

unei situaţii experimentale.

Celălalt element din această fereastră nu

prezintă un interes deosebit pentru subiectul

nostru, referindu-se mai mult la studiul diferenţelor decât la studiul corelaţii-

lor, motiv pentru care îl vom discuta cu altă ocazie.

Butonul „Cells…” permite configurarea datelor ce vor fi prezentate în

tabelele de contingenţă.

Secţiunea „Counts” are două casete de bifare: „Observed” şi „Ex-

pected”. Ele permit afişarea în tabelul de contingenţă a frecvenţelor actuale

(observate) şi/sau a frecvenţelor estimate (teoretice) în condiţiile în care se

lucrează cu χ2.

Secţiunea „Percentages” permite adăugarea şi a frecvenţelor relative

(procente) pentru variabilele situate pe linii („Row”) şi/sau pentru variabilele

situate pe coloane („Column”) ori la nivelul rezultatelor marginale („Total”).

Reziduurile nu reprezintă altceva decât diferenţa dintre scorul obser-

vat şi cel estimat. Controlul afişării acestor elemente se realizează prin inter-

mediul secţiunii „Residuals”. Acestea se pot afişa în formă brută, nestandar-

Figura 1.38 – Configurarea

datelor în tabele

Statistică aplicată în ştiinţele socio-umane

146

dizată („Unstandardized”), ca diferenţă între numărul de cazuri observate şi

numărul de cazuri estimate. Ca să vă reamintiţi, numărul de cazuri observate

reprezintă numărul de subiecţi din baza de date care au acea caracteristică, iar

numărul de cazuri estimate (teoretice) se referă la numărul de cazuri care ar

trebui să existe în celula respectivă dacă nu ar exista nicio relaţie între cele

două variabile. Dacă rezultatul acestui reziduu este pozitiv, atunci înseamnă

că numărul de cazuri din acea celulă este mai mare în comparaţie cu situaţia

în care cele două variabile ar fi independente.

Forma standardizată se poate afişa prin bifarea opţiunii „Standard-

ized”. SPSS va calcula raportul dintre valoarea reziduală brută şi abaterea

standard a acestei estimări. Aceste date sunt reprezentate pe o distribuţie z cu

media 0 şi abaterea standard 1, având aceeaşi semnificaţie ca şi scorurile z.

Din acest motiv se mai numesc şi reziduuri Pearson.

Bifarea casetei „Adjusted standardized” permite afişarea reziduurilor

în formă standardizată, exprimate însă ca abateri standard în jurul mediei.

Este, dacă doriţi, un fel de „etalonare” în unităţi sigma a reziduurilor.

Secţiunea „Noninteger Weights” are în vedere modul de reprezentare

a rezultatelor în celulele tabelului de contingenţă. În mod normal, celulele

tabelului de contingenţă conţin numere întregi. Sunt însă situaţii în care se

pot opera deplasări ori ponderări. O deplasare cu o valoare fracţionară (spre

exemplu o multiplicare a tuturor datelor cu o constantă de tipul 1,19) va de-

termina afişarea în celulele tabelului a unor numere zecimale. Aceste valori

pot fi rotunjite sau trunchiate folosindu-se opţiunile acestei secţiuni.

Opţiunea „Round cell counts” are ca efect rotunjirea valorilor din ba-

za de date înainte de a se efectua calculele statistice.

Opţiunea „Truncate cell counts” are ca efect trunchierea valorilor din

baza de date înainte de a se efectua calculele statistice. Diferenţa dintre rotun-

jire şi trunchiere constă în faptul că la rotunjire valorile zecimale se transfor-

Cristian Opariuc-Dan

147

mă în întregi în sensul superior (de exemplu 1,39 va fi rotunjit la 2), iar la

trunchiere valorile zecimale se transformă în întregi, în sensul inferior (1,39

va fi trunchiat la 1). Operaţiunile nu afectează datele din baza de date, ci doar

rezultatele calculelor statistice.

Opţiunea „Round case weights” are ca efect rotunjirea datelor direct

în baza de date înaintea efectuării oricăror calcule

statistice.

Opţiunea „Truncate case weights” are ca

efect trunchierea datelor direct în baza de date

înaintea efectuării oricăror calcule statistice.

Desigur, opţiunea „No adjustments” nu

efectuează nicio ajustare, datele fiind folosite aşa

cum sunt.

Ultimul buton rămas este butonul „Format…” care controlează ordi-

nea de sortare a variabilei reprezentate pe linii.

Putem opta pentru o sortare ascendentă a categoriilor variabilei repre-

zentată pe linii (alegând opţiunea „Ascending”) sau pentru o sortare descen-

dentă, de la mare la mic, a aceleiaşi variabile (alegând opţiunea

„Descending”).

Acestea sunt, în mare, opţiunile referitoare la construcţia şi analiza ta-

belelor de contingenţă. Acum să revenim la problemele noastre. Ne-am pro-

pus să studiem relaţia existentă între genul biologic al persoanelor şi culoarea

ochilor. Ambele sunt variabile situate la nivel nominal, singurele statistici ce

pot fi calculate sunt cele bazate pe date nominale.

În lista „Row(s)” vom include genul biologic iar în lista „Column(s)”

includem culoare ochilor. Vom bifa şi caseta „Display clustered bar charts”

pentru a forţa SPSS să reprezinte graficul cu bare al acestor variabile şi…

Figura 1.39 – Configura-

rea formatării datelor

Statistică aplicată în ştiinţele socio-umane

148

cam atât. Opţiunea de calcul a testelor de semnificaţie va rămâne cea implici-

tă – opţiunea asimptotică, astfel încât putem ignora butonul „Exact…”. Buto-

nul „Statistics…” ne interesează ceva mai mult. Aici vom bifa caseta „Chi-

Square”, pentru a calcula coeficienţii χ2. De asemenea, în secţiunea „Nomi-

nal” vom calcula coeficientul de contingenţă şi coeficienţii φ şi v Cramer.

Celelalte casete nu le vom bifa deoarece nu suntem în situaţia de a încerca

predicţii şi nici nu avem variabile situate la vreun nivel superior de măsură.

Apăsând butonul „Cells…” vom comunica programului modalitatea

de afişare a rezultatelor. Dorim să prezentăm atât frecvenţele aşteptate cât şi

cele observate, ne interesează şi toate reziduurile. După bifarea opţiunilor

respective, putem apăsa butonul „Continue” pentru a reveni la formularul

iniţial şi apoi butonul „OK” în vederea lansării analizei.

Acum, dacă veţi privi în fereastra de afişare a rezultatelor, veţi rămâne

surprinşi. SPSS a generat nu mai puţin de patru tabele şi un grafic.

Tabelul 1.44– Sumarul analizei

Case Processing Summary

Cases

Valid Missing Total

N Percent N Percent N Percent

Genul biologic *

Culoarea ochilor

50 100,0% 0 ,0% 50 100,0%

Primul tabel se referă la sumarul analizei. Se poate observa că toţi cei

50 de subiecţi au scoruri la cele două variabile, nu există cazuri lipsă, datele

sunt utilizabile 100%.

Al doilea tabel nu este altceva decât tabelul încrucişat de contingenţă.

Se poate observa reprezentarea pe coloane a variabilei „culoarea ochilor”, în

timp ce pe linii este reprezentată variabila „gen biologic”. Datele din acest

tabel ne oferă informaţii valoroase referitoare la structura internă a analizei şi

vor trebui incluse în orice raport de cercetare. Iată o primă situaţie în care ar

Cristian Opariuc-Dan

149

fi trebuit să folosim opţiunile de rotunjire sau trunchiere fără afectarea bazei

de date. Veţi vedea imediat de ce.

Ce ne spune acest tabel? În primul rând avem un număr de 34 de băr-

baţi. Dintre aceştia, 5 au ochi albaştri, 5 au ochi verzi, 16 au ochi căprui şi 8

au ochi negri. Similar, am investigat 16 femei: 3 cu ochi albaştri, 3 cu ochi

verzi, 7 cu ochi căprui şi 3 cu ochi negri. Frecvenţele estimate, pentru bărbaţi,

sunt: 5,4 pentru ochi albaştri, 5,4 pentru ochi verzi, 15,6 pentru ochi căprui,

7,5 pentru ochi negri. Situaţia este redată în mod analog şi pentru femei. To-

tuşi, ce înseamnă, spre exemplu, 5,4? Înseamnă cumva cinci bărbaţi şi jumă-

tate? La acest nivel de măsură ar fi fost mai bine să folosim opţiunile de ro-

tunjire pentru a evita asemenea exprimări zecimale. Când folosim însă trun-

chierea, şi când folosim rotunjirea? În general, dacă baza de date conţine un

număr mare de cazuri vom folosi trunchierea. Chiar dacă pierdem informaţie,

câştigăm precizie. Dacă numărul de cazuri este relativ mic, este de preferat să

utilizăm rotunjirea. Beneficiem de mai multă informaţie în detrimentul preci-

ziei.

Următoarele linii din tabel se referă la reziduuri. Observăm că pentru

culorile deschise (albaştri şi verzi) bărbaţii se situează sub frecvenţa aştepta-

tă, în timp ce femeile se situează sub frecvenţa aşteptată la culorile închise

(căprui şi negri). Ne-am putea gândi la o predominanţă a culorilor închise

pentru bărbaţi şi a culorilor deschise pentru femei, deşi forma standardizată a

reziduurilor arată abateri mici de la situaţia în care nu ar exista nici o relaţie

între cele două variabile.

Statistică aplicată în ştiinţele socio-umane

150

Tabelul 1.45– Tabelul de contingenţă

Genul biologic * Culoarea ochilor Cross tabulation

Culoarea ochilor

Total Albastri Verzi Caprui Negri

Genul biologic Masculin Count 5 5 16 8 34

Expected Count 5,4 5,4 15,6 7,5 34,0

Residual -,4 -,4 ,4 ,5

Std. Residual -,2 -,2 ,1 ,2

Adjusted Residual -,4 -,4 ,2 ,4

Feminin Count 3 3 7 3 16

Expected Count 2,6 2,6 7,4 3,5 16,0

Residual ,4 ,4 -,4 -,5

Std. Residual ,3 ,3 -,1 -,3

Adjusted Residual ,4 ,4 -,2 -,4

Total Count 8 8 23 11 50

Expected Count 8,0 8,0 23,0 11,0 50,0

Presupunerile anterioare se confirmă în tabelul 1.46. Observăm că nu

există nicio legătură între cele două variabile. Nu se poate stabili nicio relaţie

între culoarea ochilor şi genul biologic al subiecţilor.

Tabelul 1.46– Coeficientul de contingență χ2

Chi-Square Tests

Value df

Asymp. Sig. (2-

sided)

Pearson Chi-Square ,361a 3 ,948

Likelihood Ratio ,359 3 ,949

Linear-by-Linear Association ,320 1 ,571

N of Valid Cases 50

a. 3 cells (37,5%) have expected count less than 5. The minimum expected count is 2,56.

Absenţa legăturii este confirmată şi de coeficienţii de asociere derivaţi

din χ2. Într-adevăr, putem să nu respingem ipoteza nulă conform căreia nu

există nicio legătură între culoarea ochilor şi genul biologic al subiecţilor.

Cristian Opariuc-Dan

151

Tabelul 1.47– Coeficienţi de asociere derivaţi din χ2

Symmetric Measures

Value Approx. Sig.

Nominal by Nominal Phi ,085 ,948

Cramer's V ,085 ,948

Contingency Coefficient ,085 ,948

N of Valid Cases 50

Reprezentarea grafică

a datelor vine în sprijinul de-

monstraţiei cifrice. Genul

persoanelor investigate nu are

nicio legătură cu culoarea

ochilor acestora. Graficul ara-

tă doar o preponderenţă a

ochilor căprui la ambele sexe

şi o oarecare frecvenţă mai

ridicată a ochilor negri la băr-

baţi. Culorile deschise au în

continuare o frecvenţă scăzută,

atât la bărbaţi cât şi la femei.

Iată că prin procedee neparametrice, situate chiar la un nivel nominal, s-a

putut demonstra o ipoteză de cercetare.

Înainte de a încheia, vom furniza câteva exemple, fără a intra în deta-

lii, pentru a vă putea familiariza cu procedurile de lucru.

Să presupunem că dorim să aflăm relaţia dintre culoarea ochilor şi

gradul militar, adică să vedem dacă, într-adevăr, coloneii au „ochi albaştri”.

Suntem în situaţia analizei legăturii între o variabilă nominală (culoarea ochi-

lor) şi o variabilă ordinală (gradul militar). În acest caz avem două posibili-

tăţi. Fie abordăm analiza la nivel nominal, la fel cum am procedat anterior,

Figura 1.40 – Reprezentarea grafică a relaţiei dintre

culoarea ochilor şi genul biologic.

Statistică aplicată în ştiinţele socio-umane

152

deoarece una dintre variabile se află la acest nivel şi aplicăm principiul „ana-

lizei bazate pe variabila cea mai slabă”, fie folosim coeficientul η, coeficient

care relaţionează o variabilă nominală cu una ordinală sau scalară. Noi vom

aborda ambele situaţii. Prin urmare, includem pe linii variabila „culoarea

ochilor” şi pe coloane „gradul militar”. Bifăm şi caseta „Display clustered bar

charts” pentru a putea afişa grafic variabilele, apoi alegem opţiunile „Chi-

square”, „Contingency coefficient”, „Phi and Cramer’s V”, dar şi opţiunea

„Eta” din fereastra de configurare a statisticilor. Vom considera că una dintre

variabile nu îndeplineşte condiţiile testării asimptotice şi vom alege metoda

„Monte Carlo” din fereastra de configurare a testelor de semnificaţie. În final,

apăsăm butonul „OK” pentru a lansa analiza.

Nu vom furniza toate tabelele, majoritatea fiind identice cu cele din

analiza de mai sus.

Tabelul 1.48– Coeficienţi de asociere χ2

Chi-Square Tests

Monte Carlo Sig. (2-sided) Monte Carlo Sig. (1-sided)

99% Confidence

Interval

99% Confidence

Interval

Value df

Asymp. Sig.

(2-sided) Sig.

Lower

Bound

Upper

Bound Sig.

Lower

Bound

Upper

Bound

Pearson Chi-Square 13,004a 9 ,162 ,158b ,149 ,168

Likelihood Ratio 14,002 9 ,122 ,210b ,200 ,220

Fisher's Exact Test 11,963 ,159b ,149 ,168

Linear-by-Linear

Association

,123c 1 ,725 ,769b ,758 ,779 ,397b ,384 ,409

N of Valid Cases 50

a. 13 cells (81,3%) have expected count less than 5. The minimum expected count is ,80.

b. Based on 10000 sampled tables with starting seed 2000000.

c. The standardized statistic is -,351.

Constatăm că statisticile bazate pe χ2 sunt mult mai elaborate la utili-

zarea metodei Monte Carlo. Avem pragurile de semnificaţie atât pentru me-

toda clasică, asimptotică, dar şi pentru metoda Monte Carlo, alături de inter-

valele de încredere. Desigur, nu există nicio legătură între cele două variabile,

Cristian Opariuc-Dan

153

aşa cum reiese şi din tabelul 1.49, tabelul coeficienţilor de asociere derivaţi

din χ2.

Toţi cei trei coeficienţi de asociere calculaţi arată, din nou, lipsa core-

lației între cele două variabile. Oricum, se poate observa creşterea preciziei

pragului de semnificaţie la utilizarea metodei Monte Carlo în comparaţie cu

testul clasic.

Tabelul 1.49– Coeficienţi de asociere derivaţi din χ2

Symmetric Measures

Monte Carlo Sig.

99% Confidence Interval

Value Approx. Sig. Sig. Lower Bound Upper Bound

Nominal by Nominal Phi ,510 ,162 ,158a ,149 ,168

Cramer's V ,294 ,162 ,158a ,149 ,168

Contingency Coefficient ,454 ,162 ,158a ,149 ,168

N of Valid Cases 50

a. Based on 10000 sampled tables with starting seed 2000000.

Ultimul tabel analizat este cel al coeficientului de asociere η. Aici va

trebui să facem câteva precizări, deoarece asocierea se tratează direcţional.

Acest lucru înseamnă că avem o variabilă dependentă (variabila situată la

nivel scalar) şi o variabilă independentă (variabila situată la nivel nominal).

SPSS nu are de unde să ştie care este variabila dependentă şi care este varia-

bila independentă, prin urmare furnizează ambele valori. În cazul nostru, va-

riabila dependentă este „gradul militar” iar cea independentă „culoarea ochi-

lor”. Coeficientul care ne interesează este aşadar situat pe a doua linie – linia

care tratează gradul militar (η=0,184).

Tabelul 1.50– Coeficientul de asociere nominal – ordinal η

Directional Measures

Value

Nominal by Interval Eta Culoarea ochilor Dependent ,120

Grad militar Dependent ,184

Statistică aplicată în ştiinţele socio-umane

154

Remarcăm valoarea mică a acestei legături şi, de asemenea, lipsa pra-

gului de semnificaţie. SPSS nu furnizează valoarea semnificaţiei pentru acest

coeficient, ea fiind tratată la analizele folosind date nominale. De aceea coe-

ficientul η va fi întotdeauna însoţit de analize bazate pe χ2.

Un ultim exemplu îşi propune analiza relaţiei dintre ultima şcoală ab-

solvită şi gradul militar. Ambele variabile se află la nivel ordinal, astfel încât

putem bifa şi caseta „Correlations”, dar şi ceilalţi coeficienţi de corelaţie pen-

tru date ordinale: „Gamma”, „Sommers’ d”, Kendall’s tau-b” şi „Kendall’s

tau-c”. Dacă aveţi curaj, alegeţi opţiunea „Exact” cu limitare la 5 minute,

pentru a vedea cum funcţionează şi acest element. Apoi salvaţi dacă aţi lucrat

ceva, lansaţi analiza şi luaţi-vă o mică pauză. Glumeam! Numărul mic de

date permite analiza rapidă a acestora.

Observăm că legătura dintre cele două variabile este semnificativă la

un prag de semnificaţie mai mic de 0,01, prag furnizat atât de testul clasic de

semnificaţie, cât şi de testul exact. Coeficienţii au valori ridicate, fapt care

indică existenţa unei legături pozitive, semnificative şi puternice între gradul

militar şi ultima şcoală absolvită. Desigur, gradele militare înalte presupun şi

studii pe măsură, relaţia nefiind un fapt surprinzător.

Tabelul 1.51– Coeficienţi de corelaţie pentru date aflate la nivel ordinal

Symmetric Measures

Value

Asymp. Std.

Errora Approx. Tb Approx. Sig. Exact Sig.

Ordinal by Ordinal Kendall's tau-b ,742 ,040 16,127 ,000 ,000

Kendall's tau-c ,661 ,041 16,127 ,000 ,000

Gamma ,942 ,040 16,127 ,000 ,000

Spearman Correlation ,823 ,034 10,025 ,000c ,000

Interval by Interval Pearson's R ,780 ,041 8,629 ,000c ,000

N of Valid Cases 50

a. Not assuming the null hypothesis.

b. Using the asymptotic standard error assuming the null hypothesis.

c. Based on normal approximation.

Cristian Opariuc-Dan

155

Exerciţii:

Analizaţi şi interpretaţi legăturile dintre: „gen biologic” şi „grad mi-

litar”, „culoarea ochilor” şi „ultima şcoală absolvită”, „gen biologic” şi

„greutate”. Explicaţi şi argumentaţi utilizarea coeficienţilor.

Vă voi lăsa acum în compania SPSS să vă jucaţi cu opţiunile şi cu in-

dicatorii corelaţiilor, să experimentaţi mai multe variante, deoarece numai aşa

veţi putea să vă perfecţionaţi. Nu vom încheia însă acest capitol, decât după

ce vom realiza câteva referiri generale la modul de raportare al studiilor core-

laţionale.

I.5.3 Raportarea studiilor corelaţionale

Pe parcursul acestui capitol am făcut deseori referire la stilul, modul

în care se pot raporta studiile de tip corelaţional. Desigur, nu există un şablon

standard de raportare, acest lucru rămânând la latitudinea, experienţa şi talen-

tul cercetătorului. Există însă o serie de principii generale a căror respectare

vă poate scuti de surpriza neplăcută a respingerii vreunei lucrări.

Am menţionat deja că la raportarea unei corelaţii sunt importante trei

elemente: intensitatea corelaţiei, dată de valoarea coeficientului de corelaţie,

sensul corelaţiei, doar pentru coeficienţii direcţionali, dat de semnul coefici-

entului de corelaţie şi pragul de semnificaţie. Unii autori (Field, 2000) afir-

mă că este importantă raportarea efectului, sub forma varianţei comune. De-

sigur, pot fi formulate şi o serie de reguli, în general mai mult sau mai puţin

acceptate şi respectate:

1. Nu se recomandă scrierea cifrei 0 înaintea punctului zecimal,

deoarece reprezintă o exprimare redundantă atâta timp cât şi

coeficientul şi pragul de semnificaţie au o amplitudine cuprin-

să între 0 şi 1. Prin urmare, nu se recomandă publicarea unui

Statistică aplicată în ştiinţele socio-umane

156

coeficient de corelaţie r Bravais-Pearson sub forma r=0,57, ci

în forma r= ,57 sau r= .57. La fel raportăm şi pragul de semni-

ficaţie. Nu vom scrie p<0,01 ci p< .01 sau p< ,05. Desigur, eu

nu am respectat această regulă din considerente didactice. În

mod normal o respect în lucrările ştiinţifice şi vă recomand şi

dumneavoastră să o faceţi.

2. Se recomandă precizarea situaţiei în care s-a utilizat o ipoteză

unilaterală (unidirecţională). Neprecizarea acestui lucru

determină, implicit, considerarea ipotezei ca fiind bilaterală. În

general, ipotezele bilaterale nu se specifică, ci se specifică

doar ipotezele unilaterale. Dacă aveţi o ipoteză de tipul „există

o legătură pozitivă între anxietate şi depresie”, aceasta este o

ipoteză unilaterală. Regula impune o raportare de genul r= ,87;

p(unilateral) < ,01 sau, dacă publicaţi în străinătate, r= .87; p(one-

tailed) < .01

3. Fiecare coeficient de corelaţie se exprimă printr-o anumită

literă, în general acceptată în literatura de specialitate. De

exemplu, coeficientul de corelaţie Bravais-Pearson se

reprezintă prin litera r, coeficientul Spearman prin ρ şi aşa mai

departe, după cum aţi observat. Va trebui să respectaţi această

notaţie. Totuşi, în situaţia în care folosiţi alte simboluri (repet,

situaţie care trebuie evitată), sunteţi obligat să furnizaţi o

legendă explicativă a acestora, însoţită de formulele, expresiile

de calcul.

4. În ştiinţele socio-umane, pragul de semnificaţie acceptat este

de .05. Am susţinut deja că, în general, o cercetare nu implică

raportarea exactă a acestui prag ci raportarea sub forma unei

inegalităţi. Aşadar, nu folosiţi niciodată expresia p= .000 sau

Cristian Opariuc-Dan

157

p= .003 ci expresii de forma p< .05, p< .01 sau p< .001, acesta

fiind şi standardul raportărilor ştiinţifice.

5. Un prag de semnificaţie p= .05 nu este semnificativ. Sunt

semnificative doar pragurile mai mici de .05, nu şi cele egale

cu această valoare. În ştiinţele sociale, de obicei raportăm

semnificaţii mai mici de .05 sau mai mici de .01. Foarte rar

ajungem la niveluri mai mici de .001 şi în mod excepţional la

praguri de semnificaţie mai mici de .0001.

În sfârşit am ajuns şi la finalul acestui capitol. A fost, într-adevăr, un

capitol destul de lung, însă şi informaţia a fost consistentă. Acum sper că

aveţi o idee precisă asupra semnificaţiei conceptului de corelaţie, mai exact a

celui de legătură între variabile. Puteţi să fiţi mândri şi să daţi lecţii colegilor

în domeniul studiilor corelaţionale, însă nu vă bucuraţi prea tare, deoarece

avem de discutat lucruri cel puţin la fel de interesante.

Luaţi-vă o pauză. Mergeţi la un grătar, la iarbă verde, relaxaţi-vă, de-

oarece imediat vom aborda un alt capitol, şi anume cel al testelor statistice.

În concluzie:

Relaţiile stabilite în urma analizei a două variabile poartă numele de analize biva-

riate, spre deosebire de analizele univariate care au în vedere doar o singură vari-

abilă;

Gradul de asociere între două variabile se bazează pe conceptul ce covarianţă. Mă-

sura standardizată a covarianţei poartă numele de corelaţie;

Coeficienţii de corelaţie pot fi parametrici şi neparametrici, după cum cele două

variabile îndeplinesc sau nu condiţiile de aplicare ale statisticilor parametrice;

Coeficientul de corelaţie a rangurilor ρ Spearman se poate folosi, în general, pen-

tru variabile ordinale provenite din variabile continui sau pentru variabile continui

care nu îndeplinesc condiţiile necesare aplicării statisticilor parametrice;

Coeficientul de corelaţie a rangurilor τ Kendall are mai multe forme, se bazează pe

calculul inversiunilor şi al proversiunilor şi se foloseşte pentru variabile aflate na-

tural la un nivel de măsură ordinal sau pentru variabile cantitative care nu îndepli-

nesc condiţiile de aplicare a statisticilor parametrice;

Statistică aplicată în ştiinţele socio-umane

158

Coeficientul de contingenţă χ2 are mai multe forme şi se foloseşte în cazul variabile-

lor nominale, în calcule bazate pe tabele de contingenţă. Este un coeficient nedirec-

ţional şi nestandardizat;

Coeficientul de asociere φ este o formă standardizată a coeficientului χ2 şi se utili-

zează, în general, pentru două variabile dihotomice. În cazul în care una dintre va-

riabile nu mai este dihotomică, acest coeficient nu are relevanţă;

Coeficientul de contingenţă Pearson (cc) este o variantă a coeficientului φ, care

poate fi utilizată pentru variabile cu mai multe categorii;

Coeficientul de contingenţă Tschuprow (t) se bazează tot pe coeficientul φ şi ţine

seama de acesta şi de numărul de categorii din cadrul fiecărei variabile, fiind o

formă ajustată a coeficientului φ;

Coeficientul de asociere Cramer (V) se foloseşte dacă cel puţin una dintre variabile

este polihotomică, fiind bazat direct pe χ2;

Coeficientul de asociere Goodman şi Kruskal (λ) măsoară reducerea proporţională

a erorilor într-un tabel de contingenţă, fiind folosit pentru variabile strict ordinale

în scop predictiv;

Coeficientul de asociere Goodman şi Kruskal (γ) are la bază variabile ordinale, es-

te similar cu τ Kendall şi se calculează ţinând cont de numărul perechilor concor-

dante şi discordante;

Coeficienţii tetrachoric, polichoric şi poliserial se folosesc pentru variabile dihoto-

mice provenind din variabile continui sau pentru variabile ordinale, condiţia fiind

aceea a provenienţei din variabile continui;

Coeficientul de concordanţă Kendall (W) se bazează pe ranguri şi permite aprecie-

rea gradului de acord dintre evaluatori. Datele folosite sunt date ordinale;

Coeficientul de corelaţie rang biserială oferă expresia legăturii dintre o variabilă

dihotomică şi o variabilă ordinală;

Coeficientul de corelaţie r Bravais-Pearson este cel mai cunoscut coeficient de co-

relaţie pentru date parametrice şi se foloseşte la analiza legăturilor dintre două va-

riabile cantitative care îndeplinesc toate condiţiile aplicării testelor parametrice;

Coeficienţii de corelaţie biserial, punct biserial şi triserial se folosesc pentru anali-

za asocierii dintre o variabilă scalară şi o variabilă nominală, dihotomică sau

polihotomică. Diferenţa dintre aceştia este dată de natura dihotomiei – dihotomie

discretă sau continuă;

Coeficientul de corelaţie eneahoric permite asocierea unor variabile polihotomice,

polihotomia fiind una continuă;

Corelaţiile parţiale, atât cele parametrice cât şi cele neparametrice, au în vedere

analiza relaţiei dintre două variabile în condiţiile în care se menţine controlul asu-

pra unei a treia variabile, susceptibilă de a influenţa comportamentul celorlalte do-

uă variabile analizate.

Raportarea corelaţiei presupune raportarea intensităţii acesteia, a sensului şi a

pragului de semnificaţie;

Cristian Opariuc-Dan

159

Gradele de libertate arată numărul de cazuri luate în calcul pentru un indicator

statistic, în condiţiile în care există cel puţin o şansă de alegere;

Mărimea efectului arată proporţia de varianţă comună a variabilelor şi se obţine

prin ridicarea la pătrat a coeficientului de corelaţie;

Analiza corelaţiei nu constă doar în interpretarea numerică, ci presupune obligato-

riu şi analiza grafică;

Statistică aplicată în ştiinţele socio-umane

160

IIII.. DDIIFFEERREENNŢŢEE SSTTAATTIISSTTIICCEE BBIIVVAARRIIAATTEE În acest capitol se va discuta despre:

Planuri de cercetare;

Ipoteze şi variabile specifice statisticilor infe-

renţiale;

Teste statistice pentru date parametrice şi pentru

date neparametrice;

Relevanţa şi utilizarea testelor statistice;

După parcurgerea capitolului, cititorii vor fi capabili să:

Înţeleagă rolul şi importanţa planurilor de cerce-

tare;

Identifice şi să proiecteze cercetări bazate pe

planuri inferenţiale;

Analizeze şi să interpreteze rezultatele testelor

statistice;

Utilizeze SPSS în calculul testelor statistice.

Studiul relaţiilor între variabile reprezintă doar o mică parte din arse-

nalul analizei de date pe care îl are la dispoziţie specialistul în ştiinţe socio-

umane pentru a desfăşura o cercetare ştiinţifică. Desigur, cercetările corelaţi-

onale se folosesc atunci când dorim să investigăm legătura dintre două varia-

bile (de exemplu legătura dintre coeficientul de inteligenţă şi performanţa

şcolară) şi fac obiectul aşa-numitelor planuri de cercetare de tip corelaţional.

Cum procedăm, însă, atunci când suntem interesaţi de studiul diferenţelor

statistice? Care ar fi abordarea în situaţia unei întrebări de genul: „există dife-

renţe determinate de genul biologic sub aspectul performanţei la matemati-

că?”. În acest caz, un plan de cercetare corelaţional nu ne este de prea mare

folos. Suntem, din nou, în faţa unei provocări. Provocarea analizei inferenția-

le sub aspectelor diferențelor statistice bivariate.

Deşi îşi găseşte locul mai degrabă într-o lucrare din domeniul metodo-

logiei cercetării, următorul subcapitol nu poate fi trecut cu vederea. Vom dis-

Cristian Opariuc-Dan

161

cuta, aşadar, despre planurile de cercetare şi vom vedea o altă clasificare a

variabilelor.

II.1 Planuri de cercetare

Titlul nu ar trebui să vă sperie. Conceptul a fost deja folosit, numai că

a venit momentul să-l tratăm în detaliu. Un design de cercetare este un plan

care permite atribuirea subiecţilor în diferite condiţii experimentale,

împreună cu modalităţile de analiză a datelor rezultate (Kirk, 1995). Ace-

laşi autor stipulează o serie de etape care presupun crearea unui design de

cercetare (Kirk, 1995):

1. Formularea ipotezelor statistice derivate din ipotezele ştiinţifice;

2. Determinarea condiţiilor de cercetare;

3. Specificarea numărului de subiecţi care urmează să participe la cerce-

tare, precum şi populaţia din care vor fi extraşi;

4. Specificarea procedurii de atribuire a subiecţilor în diferitele condiţii

de cercetare;

5. Precizarea tehnicilor ce vor fi folosite pentru analiza datelor.

Până în acest moment, am lucrat cu mai multe clasificări ale variabile-

lor4. Am văzut că acestea pot fi discrete şi continui, parametrice şi neparame-

trice sau, mai detaliat, variabile nominale, ordinale, de interval şi de raport.

Atunci când lucrăm cu planuri de cercetare, se impune o nouă distincţie la

acest nivel. Putem vorbi despre variabile independente – variabilele ce vor

fi manipulate de către cercetători, variabile dependente – variabilele ce vor

fi măsurate pentru a vedea efectul exercitat de variabilele independente şi

variabile confundate – variabile ce nu sunt luate iniţial în calcul, dar care

pot exercita efecte necontrolate asupra variabilelor dependente.

4 Desigur, ne referim la clasificările prezentate în lucrarea anterioară.

Statistică aplicată în ştiinţele socio-umane

162

În linii mari, un plan de cercetare identifică cele trei tipuri de variabile

enumerate mai sus, precum şi modul în care vor fi selectaţi şi distribuiţi parti-

cipanţii şi, de asemenea, metodele şi tehnicile statistice care vor fi folosite.

Să presupunem că doriţi să studiaţi posibilităţile de abandon a fumatu-

lui. Aveţi la dispoziţie un tratament medicamentos şi un tratament bazat pe

ceaiuri din plante. În acest caz, variabila independentă va fi: „tipul tratamen-

tului”, cu două grade de intensitate – medicamentos şi naturist. Aceasta este

variabila pe care o manipulaţi dumneavoastră. Veţi dori să ştiţi care dintre

cele două forme de tratament influenţează mai puternic abandonul fumatului.

Variabila dependentă poate fi operaţionalizată prin numărul de ţigări fumate

zilnic. Aceasta este măsura abandonului. Ca variabile confundate, putem găsi

o mulţime: vizualizarea unui clip publicitar, anturajul, preţul ţigărilor, chiar şi

genul biologic ori mediul de provenienţă. Toate aceste variabile pot influenţa

abandonul fumatului, însă cercetarea nu le-a izolat, efectele acestora rămâ-

nând necunoscute.

Părintele planurilor de cercetare a fost Sir Ronald A. Fisher, care în

anul 1935, a propus primul principiu al acestora – caracterul aleatoriu. Până

atunci, cercetătorii foloseau aşa-numitele scheme de cercetare sistematice, în

care subiecţii proveneau din loturi de cercetare selectate, neavând un caracter

aleatoriu (Fisher, 1971). Iniţial privit cu suspiciune şi ostilitate, acest princi-

piu a devenit, în timp, cheia de boltă a tuturor cercetărilor moderne. Prin atri-

buirea aleatorie a subiecţilor în condiţiile de cercetare, caracteristicile partici-

panţilor se distribuie uniform în toate aceste condiţii, astfel încât se pot mi-

nimaliza erorile determinate de atributele individuale, existând chiar posibili-

tatea măsurării efectului erorilor.

Un al doilea principiu formulat de Fisher se referă la posibilitatea re-

plicării. Replicarea este posibilitatea observării subiecţilor în condiţii de cer-

cetare identice. Prin aceste observări repetate se pot estima efectele erorilor,

Cristian Opariuc-Dan

163

cercetarea câştigând un plus de precizie sub aspectul efectelor generate de

variabila independentă.

Al treilea principiu este cel al controlului variabilelor confundate.

Prin aceste proceduri, un plan de cercetare va izola sursele de variaţie deter-

minate de alte variabile posibile şi va limita efectul acestora asupra variabile-

lor dependente. Există mai multe metode prin care se poate realiza acest lu-

cru. Una dintre acestea se referă la menţinerea constantă a variabilei confun-

date. De exemplu, dacă presupunem că genul biologic al subiecţilor poate

influenţa abandonul fumatului, vom efectua două cercetări, una pe bărbaţi şi

alta pe femei. O altă metodă se referă la tratarea variabilei confundate ca va-

riabilă de cercetare. Putem include, de exemplu, alături de variabila indepen-

dentă „tipul de tratament” şi variabila independentă „gen biologic”: Desigur,

cea mai bună metodă rămâne însă atribuirea aleatorie a subiecţilor în condiţii-

le de cercetare. În mod practic, procedura statistică de control a variabilelor

confundate poartă numele de analiză de covarianţă (ANCOVA) şi va fi expu-

să în cadrul aventurilor noastre în lumea statisticii.

Există un număr impresionant de planuri de cercetare, însă situaţiile

practice impun utilizarea doar a câtorva. În general, literatura de specialitate

distinge între (Kirk, 1995):

Planuri de cercetare sistematice – rar folosite în prezent, deoa-

rece presupun existenţa unor loturi de cercetare selectate, iar lipsa

caracterului aleatoriu induce erori foarte mari. Dintre cele mai cu-

noscute planuri de cercetare de acest tip, menţionăm planurile de

tip „tablă de şah” sau „half-drill strip” ale lui Beavan, planul dia-

gonală de pătrat sau planul în pătrate al lui Knut Vik;

Planuri aleatorii cu o singură variabilă independentă – repre-

zintă modele în care există o singură variabilă independentă, iar

subiecţii sunt atribuiţi aleatoriu în cadrul categoriilor determinate

Statistică aplicată în ştiinţele socio-umane

164

de această variabilă. Aceste planuri de cercetare pot accepta abso-

lut aleatoriu atribuirea subiecţilor în cadrul categoriilor variabilei

independente (cum este planul complet aleatoriu – CR-p) sau sub-

iecţii sunt atribuiţi aleatoriu, însă înainte de acest lucru apare o

etapă intermediară de construcţie a unor grupuri sau categorii

omogene ale variabilei independente (cum sunt planurile de tip

bloc incomplet balansat– BIP-p, planul încrucişat – CO-p, planul

cu blocuri aleatorii generalizate – GRB-p, planurile de tip pătrate

greco-latine – GLS-p şi HGLS-p şi altele;

Planuri aleatorii cu două sau mai multe variabile independen-

te – similare planurilor de cercetare anterioare, cu singura diferen-

ţă a existenţei mai multor variabile independente. Şi aici avem do-

uă situaţii particulare. Putem vorbi despre planuri factoriale, în ca-

re nu există o relaţie de ordine între categoriile variabilelor inde-

pendente (planuri fără variabile confundate – CRF-pq, GRBF-pq,

RBF-pq, planuri cu tratarea variabilelor confundate la nivel de

grup – SPF-p.q, planuri cu interacţiunea variabilelor confundate la

nivel de grup – LSCF-pk şi planuri de tip tratare-interacţiune) şi

despre planuri ierarhice, în care se poate pune o relaţie de ordine

între categoriile variabilelor independente, ordine fie totală, fie

parţială;

Planuri aleatorii cu una sau mai multe covarianţe – specifice

analizei de covarianţă, în care variabilele confundate sunt tratate

prin procedee similare tratării variabilelor independente;

Planuri speciale – nu intră în niciuna dintre categoriile de mai

sus. De exemplu, planul cu patru grupuri al lui Solomon sau pla-

nul cu serii temporare întrerupte.

Cristian Opariuc-Dan

165

Nu vă speriaţi, nu le vom studia pe toate. Ne vom concentra atenţia

doar asupra câtorva, cele mai utilizate în sfera noastră de interes.

II.1.1 Planuri de cercetare de bază

Reprezintă modele de cercetare de bază, din combinarea acestora re-

zultând toate celelalte planuri de cercetare uzuale. Specialiştii în cercetarea

experimentală identifică trei asemenea modele: designul complet aleatoriu

(CR-p), designul aleatoriu cu blocuri (RB-p) şi designul pătratelor latine (LS-

p). Înţelegerea acestor modele vă permite să vă descurcaţi în toate planurile

de cercetare existente, acestea nefiind altceva decât combinaţii ale planurilor

de cercetare de bază.

II.1.1.1 Designul complet aleatoriu (CR-p)

Face parte din categoria planurilor cu o singură variabilă independen-

tă, în care subiecţii sunt distribuiţi absolut aleatoriu în categoriile acestei va-

riabile. Este, în mod cert, cel mai simplu plan de cercetare posibil şi perfect

adecvat exemplului nostru anterior. Un asemenea plan se numeşte plan de tip

CR-p (de la Completely Random), unde p reprezintă categoriile variabilei

independente.

În cazul nostru, ipoteza ştiinţifică pe care o vom verifica va fi aceea în

care presupunem că nu există nicio diferenţă între numărul de ţigări fumate

de persoanele care urmează tratamentul naturist, în comparaţie cu persoanele

care urmează tratamentul medica-

mentos. De cele mai multe ori, ipote-

za ştiinţifică este formulată în termeni

prea generali pentru a putea fi verifi-

cată. Va fi necesară transformarea ei într-o ipoteză statistică:

H0:μmedi –μnatu = 0; H1:μmedi –μnatu ≠ 0

Tabelul 2.1 – Plan de cercetare de tip CR-2

Variabila independentă – Tip tratament

Grup 1 – Medicamentos 30 subiecţi

Grup 2 – Naturist 30 subiecţi

Statistică aplicată în ştiinţele socio-umane

166

Spre deosebire de ipoteza ştiinţifică, în acest caz vom afirma că „nu

există nicio diferenţă între media ţigărilor fumate de către subiecţii care ur-

mează un tratament medicamentos şi media ţigărilor fumate de subiecţii care

urmează un tratament naturist. Aceasta este ipoteza nulă cu care vom lucra,

expresia sa matematică fiind expusă mai sus. Atenţie, ne aflăm acum pe tere-

nul statisticilor inferenţiale! Din datele rezultate în urma studiului va trebui să

extindem cunoştinţele la nivelul întregii populaţii. De aceea, am folosit sim-

bolul pentru medie ca parametru şi nu simbolul mediei ca indicator.

Planul de cercetare este expus în tabelul 2.1. Evident, este un plan de

cercetare de tip CR-2, numărul minim de subiecţi necesar pentru a se putea

respecta regula aplicării statisticilor parametrice este de 60 de persoane. Pri-

mul grup, format din 30 de persoane va urma un tratament medicamentos, iar

al doilea grup de 30 de persoane urmează un tratament naturist.

La sfârşitul cercetării vom calcula media ţigărilor fumate de subiecţii

din primul grup şi media ţigărilor fumate de subiecţii din al doilea grup. Dacă

cele două medii diferă semnificativ, vom putea respinge ipoteza nulă şi vom

putea afirma că unul dintre cele două tratamente are un efect semnificativ mai

mare (sau mai mic) asupra variabilei dependente.

Totuşi, să vedem ce influenţează în realitate variabila dependentă. De-

sigur, modificările la nivelul variabilei dependente pot fi determinate de efec-

tul variabilei independente (de exemplu, cei care urmează un tratament natu-

rist se lasă mai repede de fumat în comparaţie cu ceilalţi). Aceasta să fie oare

singura explicaţie posibilă? Ce spuneţi de caracteristicile individuale ale par-

ticipanţilor? O persoană cu o voinţă puternică probabil că va abandona mai

uşor fumatul în comparaţie cu o persoană mai slabă. Pot să apară, de aseme-

nea, fluctuaţii în dispoziţia individului sau erori în procesul de colectare a

datelor. Un subiect s-a certat cu şeful iar acest lucru determină creşterea nu-

mărului de ţigări fumate, sau persoana care înregistrează datele va trece 21 de

ţigări într-o zi, îl loc de 11, doar pentru că se gândea la plata datoriilor din

Cristian Opariuc-Dan

167

bancă. În fine, teoretic, pot exista o infinitate de variabile confundate care să

influenţeze variabila dependentă.

Nu putem şti cu certitudine dacă modificările în comportamentul sub-

iecţilor se datorează, într-adevăr, influenţei exercitate de variabila indepen-

dentă sau au apărut alţi factori care le-au determinat. Dacă am conveni să

notăm subiecţii cu litera i, unde, în cazul nostru, i poate lua valori între 1 şi

60, iar cele două situaţii de cercetare cu litera k, unde k poate fi tratamentul

naturist sau tratamentul medicamentos, am putea sintetiza acest design de

cercetare sub forma:

Yik=μ + αk + εi(k)

Să nu ne speriem prea tare! Yik reprezintă scorul obţinut la variabila

dependentă de către subiectul i aflat în situaţia k. De exemplu, Costel este al

şaselea subiect din grupul supus tratamentului medicamentos, care fumează,

în medie, 15 ţigări pe zi. Costel va fi, atunci, Y62 iar valoarea acestui Y devine

15. Aceste 15 ţigări fumate de Costel la sfârşitul experimentului reprezintă

suma a trei parametri. În primul rând, este vorba despre media mediilor celor

două situaţii de cercetare (μ= (μmedic+ μnatur)/2). Dacă subiecţii din situaţia

tratamentului medicamentos fumează în medie 12 ţigări, iar subiecţii din si-

tuaţia tratamentului naturist fumează în medie 8 ţigări, atunci o componentă a

celor 15 ţigări fumate de Costel va fi media 10. O altă componentă a număru-

lui de ţigări fumate de Costel este dată de efectul tratamentului αk. Desigur,

alături de media mediilor, în compoziţia celor 15 ţigări intră şi efectul deter-

minat de tratamentul medicamentos la care a fost supus Costel. În fine, ultima

componentă a scorului observat este dată de efectul erorilor apărute la nivelul

grupului din care face parte Costel εi(k).

Generalizând, fiecare scor observat reprezintă suma celor trei

componente: media generală, efectul determinat de situaţia de cercetare

şi efectul erorilor din grupul de cercetare. Când vorbim despre efectul ero-

rilor, ne referim exact la situaţiile expuse mai sus; Costel s-ar fi putut certa la

Statistică aplicată în ştiinţele socio-umane

168

un moment dat cu soţia, are o voinţă slabă, operatorul a introdus greşit, la un

moment dat, un număr de ţigări sau l-au strâns pantofii trei zile din durata

totală a experimentului. În mod cert, media generală şi efectul situaţiei de

cercetare sunt constante pentru toţi subiecţii. În acest caz, diferenţele dintre

participanţi se datorează efectului exercitat de către erori.

În asemenea planuri de cercetare, ţinta o reprezintă minimizarea efec-

tului generat de erori prin controlul surselor de eroare, astfel încât modificări-

le la nivelului scorului observat să se datoreze efectului generat de variabila

independentă.

Un asemenea plan de cercetare foloseşte aşa-numitele eşantioane in-

dependente, deoarece subiecţii au fost distribuiţi aleatoriu în cele două gru-

puri de cercetare. În mod normal, cercetările se fac în baza unor design-uri

mai complexe, existând puţine şanse să vă confruntaţi cu un plan atât de sim-

plu. Motivele constau tocmai din lipsa posibilităţii de control a surselor de

eroare.

II.1.1.2 Designul aleatoriu cu blocuri (RB-p)

Reprezintă o altă variantă a modelelor cu o singură variabilă indepen-

dentă, se notează RB-p (de la Randomized Block), p având aceeaşi semnifica-

ţie ca mai sus. Structural, modelul nu diferă de planul anterior. Deosebirile se

referă însă la modul de control al variabilelor confundate şi la tipul de eşanti-

on. Dacă designul de cercetare complet aleatoriu foloseşte eşantioane inde-

pendente, acest model are în vedere eşantioane dependente. Eșantioanele

dependente pot fi obţinute prin următoarele metode (Kirk, 1995):

1. Observarea fiecărui subiect în fiecare situaţie de cercetare, me-

todă numită şi „cu măsurări repetate”. Eşantioanele dependen-

te sunt formate din aceleaşi persoane, dar fiecare eşantion co-

respunde altei situaţii de cercetare;

Cristian Opariuc-Dan

169

2. Formarea de grupuri de participanţi având caracteristici simi-

lare, pe baza unei alte variabile care corelează cu variabila de-

pendentă, procedură numită „similaritatea participanţilor”;

3. Obţinerea grupurilor de subiecţi identici în baza caracteristici-

lor genetice (de exemplu grupuri de gemeni – un frate într-un

eșantion, celălalt în alt eșantion);

4. Alegerea subiecţilor care corespund unui criteriu convenit de

selecţie (de exemplu perechi formate din soţ şi soţie – soțul

într-un eșantion, soția în altul).

Deşi în teorie este foarte simplu, în practică veţi întâmpina dificultăţi

în găsirea subiecţilor pe baza cărora să construiţi eşantioane dependente. To-

tuşi, efortul dumneavoastră va fi răsplătit printr-o mai mare precizie a rezulta-

telor.

Probabil că abandonul fumatului este legat de „experienţa” de fumă-

tor. Există posibilitatea ca subiecţii care au fumat 30 de ani să se lase mai

greu de fumat în comparaţie cu cei care fumează de 30 de zile. Iată o nouă

variabilă confundată care poate influenţa rezultatele. Dacă în grupul supus

tratamentului medicamentos avem majoritatea fumătorilor „veterani”, iar în

grupul tratamentului naturist vom avea „începătorii”, s-a putea ca eficienţa

unui tratament să nu aibă o importanţă atât de mare, diferenţele rezultând, de

Tabelul 2.2 – Plan de cercetare de tip RB-2

Medicamentos Naturist

Bloc 1 Subiect rang 1 Subiect rang 2 Efect bloc 1

Bloc 2 Subiect rang 3 Subiect rang 4 Efect bloc 2

Bloc 3 Subiect rang 5 Subiect rang 6 Efect bloc 3

.

.

.

.

.

.

.

.

.

.

.

.

Bloc 30 Subiect rang 29 Subiect rang 30 Efect bloc 30

Efect medicament Efect naturist

Statistică aplicată în ştiinţele socio-umane

170

fapt, din vechimea ca fumător. Putem controla această variabilă apelând la

înlocuirea eşantionului independent cu un eşantion dependent. La prima ve-

dere, se pare că metoda ar anula caracterul aleatoriu, însă nu este chiar aşa.

Toată tehnica rezidă în conceptul de blocuri. În cazul nostru, vom aplica me-

toda similarităţii participanţilor pentru a construi blocurile de subiecţi. Vom

întreba cele 60 de persoane ce vechime au ca fumător, apoi vom ordona sub-

iecţii în funcţie de vechimea lor şi vom stabili rangurile. Restul este foarte

simplu. Primul subiect va fi inclus în prima situaţie, iar subiectul cu rangul

imediat următor, în a doua situaţie. Aceştia vor forma primul bloc. Al doilea

bloc se construieşte similar. Al treilea subiect se include în prima situaţie şi al

patrulea în cea de-a doua situaţie. Vom proceda identic până în momentul în

care s-a construit şi cel de-al treizecilea grup.

Folosind această metodă vom constata că în ambele situaţii de cerce-

tare avem atât subiecţi veterani, cât şi subiecţi începători – efectul determinat

de variabila „vechime fumător” va fi anulat iar cercetarea câştigă în precizie.

Un astfel de design este un design de tip RB-2 în condiţiile controlului varia-

bilei „vechime fumător”, planul prezentând avantaje nete în comparaţie cu

modelul anterior.

Referitor la ipotezele nule care se testează prin intermediul acestui

plan, observăm că nu mai avem de a face cu o singură ipoteză nulă, ci cu do-

uă.

În primul rând, putem spune că nu există diferenţe semnificative între

media ţigărilor fumate de către subiecţii care urmează un tratament medica-

mentos şi media subiecţilor care urmează un tratament naturist (H0:μmedi

=μnatu).

În al doilea rând, vom putea spune că nu există diferenţe semnificative

între mediile ţigărilor fumate de către subiecţii incluşi în cele 30 de blocuri pe

baza vechimii ca fumător (H0:μbloc1 = μbloc2 = μbloc3 = …. = μbloc30).

Cristian Opariuc-Dan

171

În general, cercetarea se concentrează doar pe prima ipoteză. Deşi este

posibilă şi a doua ipoteză, aceasta nu are un rol activ în studiu, ci mai degrabă

pe acela de a elimina influenţa variabilei confundate.

Ecuaţia caracteristică acestui design este foarte asemănătoare cu cea a

designului complet aleatoriu, remarcându-se doar apariţia efectului determi-

nat de blocuri:

Yik=μ + αk + πi+ εik

Într-adevăr, scorul observat este compus din media generală (media

mediilor situaţiilor de cercetare) μ, din efectul exercitat de către situaţia de

cercetare αk, din efectul exercitat de blocuri (de vechimea ca fumător) πi şi de

efectul erorilor, de data aceasta considerat la nivelul întregului eşantion εik.

Desigur, efectul erorilor va fi incomparabil mai mic, datorită apariţiei efectu-

lui determinat de blocuri. Folosind însă metoda similarităţii participanţilor

pentru a construi eşantioanele dependente, acest efect al blocurilor se com-

pensează şi, prin urmare, precizia cercetării va fi mult mai mare.

Vă puteţi da seama că izolând o variabilă confundată care contribuia

într-o bună măsură la explicarea variabilei dependente, aţi obţinut un câştig

important în precizia şi puterea cercetării. Acest lucru a fost posibil prin sim-

pla înlocuire a unui design de tip complet aleatoriu cu unul aleatoriu cu blo-

curi.

Creşterea preciziei cercetării poate fi posibilă numai în cazul în care

variabila confundată are o legătură cu variabila dependentă. În cazul în care,

de exemplu, am include în loc de vechimea ca fumător, o altă variabilă, să

spunem numărul de la pantofi, cercetarea nu numai că nu va câştiga în preci-

zie, dar chiar va pierde din putere din cauza varianţei suplimentare introdusă

de o variabilă care nu are nicio legătură cu variabila dependentă. Atenţie aşa-

dar la proiectarea cercetărilor de acest tip!

Statistică aplicată în ştiinţele socio-umane

172

II.1.1.3 Designul pătratelor latine (LS-p)

Acest model permite controlul unui număr de două variabile confun-

date, notându-se cu LS-p (de la termenul Latin Square). Procedeele sunt simi-

lare planului de cercetare anterior, la care se adaugă încă o variabilă confun-

dată care urmează a fi izolată.

Să presupunem că alături de vechimea ca fumător, vom considera că

şi genul biologic poate influenţa abandonul fumatului. În acest caz, putem

construi un design cu pătrate latine de ordin 2, aşa cum rezultă şi din tabelul

2.3.

Spre deosebire de designul anterior, remarcăm câteva modificări im-

portante:

Procedura de alocare a subiecţilor în grupele de cercetare este

mult mai complexă în comparaţie cu modelul RB-p;

Numărul de linii şi de coloane din cadrul acestui design trebu-

ie să fie egal cu numărul situaţiilor determinate de variabila

independentă. În cazul nostru, putem clasifica subiecţii doar în

două grupuri de cercetare, după variabilele confundate „ve-

chime fumător” şi „gen biologic”, deoarece tipul tratamentului

are doar două condiţii de cercetare;

Dacă o variabilă continuă va fi folosită ca variabilă confunda-

tă, este necesară transformarea acesteia în variabilă categoria-

lă. Deşi vechimea ca fumător este o variabilă continuă, expri-

Tabelul 2.3 – Plan de cercetare de tip LS-2

Începători Veterani

Medicament Naturist Medicament Naturist

Bărbaţi Grup 1 Grup 2 Grup 3 Grup 4 Efect bărbaţi

Femei Grup 5 Grup 6 Grup 7 Grup 8 Efect femei

Efect

medicament

Efect

naturist

Efect

medicament

Efect

naturist

Efect începători Efect veterani

Cristian Opariuc-Dan

173

mată în ani, nu putem să o folosim nici măcar la nivel ordinal,

ca în designul de mai sus. Va trebui să împărţim subiecţii, pe

baza acestei variabile, în două categorii: începători şi veterani.

Toate aceste eforturi sunt însă răsplătite printr-o precizie sporită a cer-

cetării, deoarece nu mai controlăm o singură variabilă confundată ci două.

Acest plan de cercetare rămâne totuşi un plan cu o singură variabilă indepen-

dentă – tratamentul. Problema se pune la nivelul controlului variabilelor con-

fundate şi nu la includerea unui număr mai mare de variabile independente.

Referitor la ipotezele statistice, de data aceasta ne confruntăm cu trei

ipoteze statistice:

În primul rând, putem spune că nu există diferenţe semnificative între

mediile ţigărilor fumate de către subiecţii care urmează un tratament medi-

camentos şi subiecţii care urmează un tratament naturist (H0:μmedi =μnatu).

În al doilea rând, vom putea spune că nu există diferenţe semnificative

între media ţigărilor fumate de către subiecţii începători, în comparaţie cu

media subiecţilor veterani (H0:μîncepător = μveteran).

În al treilea rând, presupunem că nu există diferenţe semnificative în-

tre media ţigărilor fumate de către bărbaţi şi media ţigărilor fumate de femei

(H0:μbărbaţi = μfemei).

Şi în acest caz, interesul cade pe prima ipoteză, celelalte având un rol

secundar, de izolare a variabilelor confundate.

Ecuaţia designului cu pătrate latine are un număr de şase parametri,

fapt concludent pentru plusul de precizie pe care îl aduce:

Yikmt=μ + αk + βm+ γt +εkmt + εi(kmt)

Traducerea acestei expresii poate fi făcută destul de uşor dacă aţi înţe-

les principiile expuse mai sus. Numărul mediu de ţigări fumate de către un

subiect i, aflat în situaţia de tratament k, veteran în ale fumatului m şi bărbat t

Statistică aplicată în ştiinţele socio-umane

174

este format din media generală μ, efectul situaţiei de tratament αk, efectul

determinat de vechimea ca fumător βm, precum şi efectul determinat de genul

biologic γt. În componenţa acestui scor observat intră şi efectele exercitate de

două surse de eroare: erorile la nivelul întregului eşantion, numite şi efect

rezidual εkmt, precum şi efectul erorilor de la nivelul grupului din care face

parte subiectul – de exemplu efectul erorilor determinate de faptul că subiec-

tul Costel este bărbat, fumător înrăit şi urmează un tratament medicamentos

εi(kmt).

Desigur, acest plan de cercetare este unul mult mai precis, însă preci-

zia designului s-a obţinut printr-o proiectare mai complexă şi, desigur, printr-

un număr de subiecţi mai mare. Pentru a putea desfăşura un studiu valid, în

cazul nostru vom avea nevoie de un număr de 240 de subiecţi (8 grupe, fieca-

re grupă conţinând un număr de 30 de subiecţi.

Toate cele trei planuri expuse mai sus se numesc planuri de cercetare

de bază, deoarece modelele mai complexe pot fi construite prin combinarea a

două sau mai multe planuri de acest tip. Aceste modele formează întreaga

structură de organizare şi de clasificare a design-urilor de cercetare (Kirk,

1995).

II.1.2 Planuri de cercetare complexe

Multitudinea situaţiilor de cercetare are ca efect o multitudine de pla-

nuri de cercetare derivate din cele trei modele de bază. Nu vom intra în deta-

lii referitoare la acestea, deoarece ar trebui să umplem un număr impresionant

de pagini şi, în definitiv, ieşim din domeniul prezentului volum. Planurile de

cercetare sunt tratate în lucrări de metodologia cercetării, iar dacă sunteţi pa-

sionat de acest subiect, puteţi studia lucrările lui Kirk (Kirk, 1995), Fisher

(Fisher, 1971), Radu (Radu, și alții, 1993) sau Havârneanu (Havârneanu,

2000), (Havârneanu, 2000).

Cristian Opariuc-Dan

175

Totuşi, nu mă pot abţine să nu vă prezint, foarte pe scurt, câteva dintre

modelele complexe cele mai utilizate. În general, clasificarea planurilor de

cercetare se face după câteva criterii (Kirk, 1995):

Numărul variabilelor independente şi, implicit, numărul situa-

ţiilor de cercetare;

Atribuirea complet randomizată sau randomizat după atribui-

rea în blocuri a participanţilor;

Existenţa sau inexistenţa variabilelor confundate și utilizarea

covarianțelor;

Utilizarea situaţiilor de cercetare încrucişate sau pe baza mo-

delului imbricat, numit şi model „cuib”;

Remarcaţi cu uşurinţă faptul că majoritatea criteriilor de clasificare se

leagă de particularităţile celor trei modele de bază. Ca regulă, într-un raport

de cercetare ştiinţific este obligatorie introducerea planului de cercetare folo-

sit, dacă studiul se bazează pe aşa ceva. Pe lângă faptul că foarte multe lucrări

nici nu pomenesc de planurile de cercetare, unii mai „scrupuloşi” înţeleg prin

design de cercetare o formulare de tipul: „s-a folosit un design factorial de tip

2x2”. Din nefericire, există o mulţime de planuri factoriale de acest tip, şi,

prin urmare, se impune o descriere ceva mai precisă. Ce fel de design factori-

al 2x2 s-a folosit? În afara faptului că avem două variabile independente, fie-

care cu câte două niveluri, formularea de mai sus nu ne mai spune nimic alt-

ceva. Există sau nu variabile confundate? Dacă există, cum vor fi acestea

tratate? La nivel de grup? La nivelul interacţiunilor dintre grupuri sau la nive-

lul interacţiunilor dintre situaţiile de cercetare? Acest lucru este necesar, pen-

tru că există cel puţin 11 planuri de cercetare care respectă condiţia unui plan

factorial 2x2.

Ca să vă faceţi o idee, în tabelul 2.4 am furnizat o clasificare a planu-

rilor de cercetare, realizată de Roger Kirk (Kirk, 1995).

Statistică aplicată în ştiinţele socio-umane

176

Tabelul 2.4 – Clasificarea planurilor de cercetare

Plan de cercetare Cod Plan de cercetare Cod I. Planuri de cercetare sistematice (astăzi nu se mai folosesc) III.1.4. Planuri cu interacţiune la nivelul situaţiilor experi-

mentale a variabilelor confundate

1. „Tabla de şah” Beavan - 1. Design factorial complet aleatoriu

fracţionar. CRFF-pk-1

2. „Half-drill strip” Beavan - 2. Design factorial fracţionar cu pătrate

greco-latine. GLSFF-pk

3. Diagonala de pătrat - 3. Design factorial fracţionar cu pătrate

latine LSFF-pk

4. Pătratele Knut Vik - 4. Design factorial fracţionar randomizat cu

blocuri RBFF-pk-i

II. Planuri aleatorii cu o singură variabilă independentă III.2. Planuri de cercetare ierarhice

II.1. Subiecţii sunt repartizaţi aleatoriu situaţiilor de cercetare III.2.1. Design cu imbricare totală (cuib total)

1. Planul complet aleatoriu CR-p 1. Design complet aleatoriu ierarhic CRH-pq(A)

II.2. Înainte de repartizarea aleatorie a subiecţilor, sunt construite

blocuri sau grupuri relativ omogene

2. Design complet aleatoriu ierarhic cu

blocuri RBH-pq(A)

1. Design balansat pe blocuri incomplete BIP-p III.2.2. Design cu imbricare parţială (cuib parţial)

2. Design încrucişat CO-p 1. Design complet aleatoriu ierarhic parţial CRPH-pq(A)r

3. Design randomizat general cu blocuri GRB-p 2. Design complet aleatoriu ierarhic parţial

cu blocuri RBPH-pq(A)r

4. Design cu pătrate greco-latine GLS-p 3. Design ierarhic parţial split-plot SPH-p.qr(B)

5. Design cu pătrate greco-latine extins HGLS-p IV. Planuri aleatorii cu una sau mai multe covariaţii

6. Design cu pătrate latine LS-p 1. Design de analiză de covarianţă complet

aleatoriu CRAC-p

7. Design latice balansată cu blocuri incomplete LBIB-p

2. Design de analiză factorială de covarian-

ţă complet randomizat CRFAC-pq

8. Latice parţial balansată, blocuri incomplete LPBIB-p 3. Design de analiză de covarianţă bazat pe

pătrate latine LSAC-p

9. Design latice nebalansată cu blocuri incomplete LUBIB-p

4. Design de analiză de covarianţă rando-

mizat cu blocuri RBAC-p

10. Design parţial balansat cu blocuri incomplete PBIB-p

5. Design de analiză factorială de covarian-

ţă split-plot SPFAC-p.q

11. Design aleatoriu cu blocuri RB-p V. Planuri de cercetare speciale

12. Design cu pătrate Youden YBIB-p 1. Design în patru grupuri Solomon -

III. Planuri aleatorii cu o două sau mai multe variabile indepen-

dente 2. Design serii temporare întrerupte -

III.1. Planuri de cercetare factoriale Adaptat după Roger Kirk (Kirk, 1995)

III.1.1 Planuri de cercetare fără variabile confundate

1. Design factorial complet randomizat CRF-pq

2. Design factorial generalizat randomizat cu blocuri GRBF-pq

3. Design factorial randomizat cu blocuri RBF-pq

III.1.2. Planuri cu tratament la nivel de grup al variabilelor

confundate

1. Design factorial „split-plot” SPF-p.q

III.1.3. Planuri cu interacţiune la nivel de grup a variabilelor

confundate

1. Design factorial pătrate latine cu variabile confun-

date LSCF-pk

2. Design factorial aleatoriu cu blocuri şi variabile

complet confundate RBCF-pk

3. Design factorial aleatoriu cu blocuri şi variabile

parţial confundate RBPF-pk

Cristian Opariuc-Dan

177

Acum ce mai spuneţi? Nu-i aşa că lucrurile stau puţin altfel decât aţi

crezut? Vă puteţi da seama că o afirmaţie de genul plan factorial 2x2 nu mai

este suficientă. Aveţi nevoie de ceva mai multe date pentru a vă face cunos-

cute intenţiile. Nu vom încheia acest capitol înainte de a vă prezenta, foarte

pe scurt, câteva dintre cele mai cunoscute planuri de cercetare complexe.

II.1.2.1 Planul factorial complet randomizat (CRF-pq)

Derivă direct din planul de cercetare complet randomizat şi permite

analiza efectului exercitat de două variabile independente. Se notează cu

CRF-pq (de la Completely Randomized Factorial), iar p reprezintă nivelurile

unei variabile independente, în timp ce q se referă la nivelurile celeilalte vari-

abile independente. Se poate observa că, spre deosebire de planul cu pătrate

latine, acest design nu se referă la o variabilă independentă şi la o variabilă

confundată, ci la două variabile independente, plecând de la presupunerea că

nu există variabile confundate. Desigur, în acest caz nici nu mai este nevoie

ca variabilele independente să aibă un număr egal de situaţii de cercetare. Se

poate, foarte bine, ca una să aibă două situaţii (cum este, spre exemplu, genul

biologic) iar cealaltă să aibă 3 sau mai multe situaţii (de exemplu vârsta, ope-

raţionalizată în tineri, maturi şi vârstnici).

Ecuaţia caracteristică acestui design de cercetare este următoarea:

Yikm=μ + αk + βm+ (αβ)km +εi(km)

Scorul observat este dat de media generală, de efectul exercitat de

prima variabilă independentă, de efectul generat de a doua variabilă indepen-

dentă, de efectul comun generat de cele două variabile independente şi de

erorile determinate de grupul din care face parte subiectul.

Efectele generate separat de fiecare dintre cele două variabile independente

se numesc efecte principale, în timp ce efectul comun, exercitat de ambele

variabile independente asupra variabilei dependente, poartă numele de efect

de interacţiune. Erorile se numesc, în termeni de specialitate, reziduuri sau

Statistică aplicată în ştiinţele socio-umane

178

efecte reziduale,

pe care nu le de-

termină niciuna

dintre cele două

variabile inde-

pendente.

Un asemenea plan de cercetare stă la baza analizei de varianţă

(ANOVA), ale cărei proprietăţi le vom studia ulterior.

II.1.2.2 Designul factorial randomizat cu blocuri (RBF-pq)

Planul prezentat anterior poate fi folosit doar în cazul în care nu există

variabile confundate. În momentul în care suspectăm existenţa unei variabile

confundate, vom apela la un plan factorial de tip RBF-pq. Diferenţa dintre

cele două planuri constă în faptul că, alături de variabilele independente, mo-

delul permite controlul unei variabile confundate.

În tabelul 2.5, am reprezentat o cercetare prin intermediul căreia in-

tenţionam să studiem efectul exercitat de genul biologic şi de nivelul de şco-

larizare asupra venitului personal. Designul, desigur, a fost unul de tip facto-

rial complet randomizat CRF-23, cu două variabile independente, având una

un număr de două grade de intensitate (genul biologic) iar cealaltă, trei grade

de intensitate (școala primară, gimnaziu şi liceu). Cum am putea adapta acest

design experimental, dacă alături de cele două variabile independente, am

dori să controlăm efectul unei variabile confundate?

Să reluăm exemplul fu-

matului, introducând încă o vari-

abilă independentă, să spunem

„mediul de provenienţă”, cu do-

uă grade de intensitate: rural şi urban. Prezentat ca atare, designul de cerceta-

re este unul factorial complet randomizat de tip CRF-22. Ştim totuşi că una

Tabelul 2.5 – Design de cercetare CRF-23

Masculin Feminin

Şcoala primară 30 30 Efect principal

„Şcolarizare” Gimnaziu 30 30

Liceu 30 30

Efect principal

„Gen biologic”

Efect de interacţiune

„Gen biolo-

gic”x”Şcolarizare”

Tabelul 2.6 – Design de cercetare CRF-22

Medicamentos Naturist

Rural MR - 30 NR - 30

Urban MU - 30 NU - 30

Cristian Opariuc-Dan

179

dintre posibilele variabile confundate este „vechimea” ca fumător. În mod

cert, aceasta exercită un efect asupra variabilei dependente „număr de ţigări

fumate”, iar controlul acesteia se realizează similar designului cu blocuri din

planurile de bază. În primul rând, împărţim cei 120 de subiecţi după niveluri-

le variabilelor independente, ca în tabelul 2.6. Vom avea 30 de subiecţi din

mediul rural care urmează un tratament medicamentos, 30 de subiecţi din

mediul rural care urmează un tratament naturist, 30 de subiecţi din mediul

urban cu tratament medicamentos şi 30 de subiecţi din mediul urban cu tra-

tament naturist.

Până aici, nimic spectaculos. Avem un plan factorial complet rando-

mizat, cu două variabile independente. Pentru a transforma acest plan factori-

al într-un plan factorial randomizat cu blocuri, de tip RBF-22, va trebui să

includem variabila confundată. În acest moment, sunt necesare câteva expli-

caţii suplimentare.

Prima variabilă independentă, „mediul de provenienţă”, este o variabi-

lă pe care cercetătorul nu o poate controla. Un subiect pur şi simplu provine

din mediul rural sau urban, prin faptul că locuieşte acolo. Cercetătorul nu are

nicio posibilitate să mute un subiect din mediul rural în mediul urban sau

invers. În termeni de specialitate, cercetătorul nu poate să atribuie subiecţii

aleatoriu în cadrul categoriilor acestei variabile. Din acest motiv, experimen-

tele în care intervin asemenea variabile independente se numesc cvasi-

experimente. Toate experimentele în care cercetătorul poate atribui absolut

aleatoriu subiecţii în toate categoriile variabilelor independente se numesc

experimente reale. În domeniul ştiinţelor socio-umane, cele mai multe expe-

rimente sau cercetări sunt cvasi-experimente. Alte variabile de acest tip sunt

genul biologic, grupa sanguină etc.

A doua variabilă independentă, „tipul de tratament”, permite atribui-

rea aleatorie a subiecţilor în cele două categorii – medicamentos şi naturist.

Un cercetător poate forma cele două grupe de cercetare absolut aleatoriu. Din

Statistică aplicată în ştiinţele socio-umane

180

cauza variabilei independente „mediul de provenienţă”, studiul nostru nu este

o cercetare reală ci o cvasi-cercetare şi vom vedea imediat cum acest lucru

influenţează construcţia blocurilor.

La modul ideal, pentru a construi blocurile bazate pe variabila con-

fundată „vechime fumător”, ar trebui să ierarhizăm toţi cei 120 de subiecţi

după acest criteriu. În cazul nostru, această ierarhizare nu se poate realiza

direct, din cauza prezenţei variabilei independente „mediul de provenienţă”.

Ne-am putea confrunta cu situaţia în care majoritatea fumătorilor „veterani”

să provină din mediul rural iar majoritatea fumătorilor „tineri” să fie din me-

diul urban. Astfel, suntem nevoiţi să apelăm la o etapă intermediară. În pri-

mul rând, împărţim subiecţii după nivelurile variabilei independente care nu

permite atribuire aleatorie. În cazul nostru, după variabila independentă „me-

diul de provenienţă”. Vom avea, aşadar, 60 de subiecţi din mediul urban şi 60

de subiecţi din mediul rural. Pentru fiecare dintre aceste două grupe, ierarhi-

zăm subiecţii după variabila confundată – „vechimea ca fumător” –, urmând

apoi să construim blocurile.

Tabelul 2.7 – Design de cercetare RBF-22

Combinaţii ale variabilelor independente

MR NR MU NU

Bloc 1 Subiect rang 1 R Subiect rang 2 R Subiect rang 1 U Subiect rang 2 U

Bloc 2 Subiect rang 3 R Subiect rang 4 R Subiect rang 3 U Subiect rang 4 U

Bloc 3 Subiect rang 5 R Subiect rang 6 R Subiect rang 5 U Subiect rang 6 U

. . . . .

. . . . .

. . . . .

Bloc 60 Subiect rang 59 R Subiect rang 60 R Subiect rang 59 U Subiect rang 60 U

Primul bloc va fi format din subiecţii cei mai „tineri” din punctul de

vedere al fumatului, atât din mediul urban, cât şi din mediul rural (rangurile 1

şi 2). Al doilea bloc va conţine subiecţii cu rangurile 3 şi 4, al treilea bloc

subiecţii cu rangurile 5 şi 6 şi aşa mai departe, până la ultimul bloc. Am con-

Cristian Opariuc-Dan

181

struit astfel un plan factorial randomizat cu blocuri, după cum se poate obser-

va în tabelul 2.7.

Bineînţeles, acest plan factorial este superior planului factorial com-

plet randomizat, deoarece permite includerea unei variabile confundate şi,

implicit, creşterea rigurozităţii cercetării. Ideal ar fi ca ambele variabile inde-

pendente să permită atribuirea aleatorie a subiecţilor. Dacă acest lucru nu este

posibil, vom proceda după schema prezentată.

Ecuaţia caracteristică acestui design de cercetare este următoarea:

Yikm=μ + πi + αk + βm+ (αβ)km + (παβ)ikm

Scorul observat este dat de media generală, de efectul generat de blo-

curi (variabila confundată), de efectul exercitat de prima variabilă indepen-

dentă, de efectul generat de a doua variabilă independentă, de efectul comun

generat de cele două variabile independente şi de efectul erorilor determinate

de cele două variabile independente şi de variabila confundată (erori determi-

nate de bloc).

*

* *

Ne vom opri aici cu expunerea planurilor de cercetare. Acest capitol

nu intenționează să facă o prezentare exhaustivă a acestora, ci doar să vă in-

formeze asupra elementelor de bază legate de proiectarea unei cercetări știin-

țifice. Informații suplimentare referitoare la planurile de cercetare și prezenta-

rea detaliată a acestora găsiți în lucrări specializate pe metodologia cercetării,

o parte dintre acestea fiind prezentate mai sus.

Ați observat deja că planurile de cercetare complexe derivă, de fapt,

din cele de bază, nefiind altceva decât combinații la diferite niveluri ale aces-

tora. Să trecem acum la scopul real al acestui capitol, și anume acela de a

prezenta câteva tehnici statistice de analiză a datelor bazate pe diferențe.

Statistică aplicată în ştiinţele socio-umane

182

II.2 Teste statistice pentru date neparametrice

După cum bine știți, incursiunea noastră va debuta cu studiul testelor

statistice care folosesc date neparametrice. Acest lucru îl facem din cauză că

literatura de specialitate tratează la un nivel destul de sumar aceste proceduri,

ceea ce conduce la o slabă însușire și, de multe ori, la o ignorare a acestora în

analizele de date. Cu toate că testele parametrice sunt mult mai puternice,

totuși administrarea acestora trebuie să respecte condițiile de bază ale datelor

parametrice. Pentru detalii suplimentare referitoare la diferența dintre date

parametrice și date neparametrice, puteți consulta lucrarea anterioară

(Opariuc-Dan, 2009).

II.2.1 Diferența dintre frecvențe. Testul χ2

Despre χ2 am discutat pe larg în capitolul destinat analizei legăturilor

existente între variabile. Afirmam atunci că acest indicator poate fi folosit

atât în cazul studiului gradului de asociere între variabile, cât și în situația

analizei diferențelor dintre acestea. Așadar, χ2 poate fi atât un coeficient de

contingență, cât și unul de diferență semnificativă. Caracteristica sa este ace-

ea conform căreia χ2 se poate folosi atunci când lucrăm cu frecvențe (absolute

sau relative), fiind singurul indicator aplicabil lucrului cu date aflate la un

nivel nominal de măsură.

Testul χ2 compară frecvențele observate cu cele estimate (teoretice) și

ne indică dacă diferențele dintre frecvențe sunt întâmplătoare sau, din contra,

neîntâmplătoare, semnificative.

Să considerăm, spre exemplu, o cercetare științifică care are ca obiec-

tiv aflarea faptului dacă există diferențe semnificative între blonde și brunete

în ceea ce privește comiterea de accidente rutiere. Deși cercetarea poate fi

abordată printr-un design de cercetare mai complex, noi ne vom rezuma doar

la înregistrarea producerii sau a ne-producerii unui accident rutier.

Cristian Opariuc-Dan

183

Vom avea, așadar, o singură variabilă independentă, cu două grade de

intensitate (culoarea părului: blond și brunet) și o singură variabilă dependen-

tă dihotomică (accident: Da și Nu).

Ipoteza nulă a acestui studiu susține că nu există nicio diferență sem-

nificative între blonde și brunete referitor la producerea accidentelor rutiere.

Datele colectate pot fi sistematizate sub forma unui tabel, asemănător

tabelului de contingență, prezentat în capitolul anterior (tabelul 2.8).

Tabelul 2.8 – Tabelul de analiză pentru χ2 Blonde Brunete Total

Cu accident

30

A

(26,04)

21

B

(24,95)

51

Fără accident

18

C

(21,95)

25

D

(21,04)

43

Total 48 46 n=94

În acest tabel am înregistrat frecvențele observate. Au fost studiate 94

de femei, 48 de blonde și 46 de brunete. De asemenea, 51 de femei au comis

cel puțin un accident rutier, în timp ce 43 de femei nu au comis niciun acci-

dent rutier. Dintre cele care au comis accidente rutiere, 30 de femei sunt

blonde și 21 brunete, în timp ce 18 blonde și 25 de brunete nu au comis acci-

dente. Aceste date sunt, bineînțeles, fictive și nu corespund unei cercetări

reale. Din acest motiv, nu poate exista nicio suspiciune în ceea ce privește

preferința mea pentru blonde sau brunete. Voi și demonstra această afirmație.

Ambele variabile sunt nominale, variabila dependentă având și un ca-

racter dihotomic. Faptul că am înregistrat doar frecvențele de apariție ale

evenimentelor (a produs sau nu a produs accident) ne situează la un nivel de

măsură pur nominal. Singura metodă prin care putem verifica ipoteza nulă

este testul χ2. Formula generală de calcul a acestui indicator va fi:

Statistică aplicată în ştiinţele socio-umane

184

(formula 2.1)

unde fobs reprezintă frecvența observată, fast reprezintă frecvența es-

timată sau frecvența teoretică iar n numărul de categorii

Desigur, formula este analogă celei expuse în capitolul I. Singura di-

ferență se referă la notația frecvenței teoretice. În capitolul I am notat-o cu

Fest, iar aici am convenit să o notăm cu fast. Am procedat în acest fel pentru a

vă obișnui cu diferitele stiluri de notare ale formulelor pe care le puteți întâlni

în lucrările de specialitate.

De asemenea, modalitatea de calcul a frecvenței estimate (teoretice)

am prezentat-o în același capitol anterior. V-o reamintesc, în caz că ați uitat-

o:

(formula 2.2)

Iată că avem toate datele necesare calculului, însă haideți să nu ne

grăbim. În cazul nostru, tabelul are exact 4 celule, deoarece fiecare variabilă

are două grade de intensitate (două niveluri). Cunoscând această situație, pu-

tem simplifica lucrurile și putem renunța la calculul frecvenței estimate, dacă

aplicăm o altă formulă, valabilă numai pentru tabele de acest tip – tabele cu

patru celule (Radu, și alții, 1993):

(formula 2.3)

unde am notat cu f - frecvențele observate din cele patru celule.

Iată, vom aplica formula 2.3 pentru a obține valoarea testului χ2, ur-

mând apoi să aplicăm și formula 2.1 pentru a vedea că rezultatul este aproxi-

mativ același.

Cristian Opariuc-Dan

185

Pentru a putea aplica formula 2.1, trebuie să calculăm întâi frecvențele

estimate, pentru fiecare celulă, după formula 2.2. Astfel, vom avea:

Acum putem face calculele după formula 2.1, rezultând un χ2 de 2,75.

Diferențele dintre cele două valori ale lui χ2 (2,68 după formula 2.3 și

2,75 după formula 2.1) apar din cauza erorilor de rotunjire la două zecimale

și sunt nerelevante. Dacă ambele variabile sunt dihotomice, se folosește co-

recția pentru continuitate, așa cum s-a discutat deja în capitolul anterior.

Iată, cu grație și câteva calcule am reușit să găsim valoarea acestui in-

dicator. Acum, dacă tot o avem, ce facem cu ea? Ei bine, comparăm această

valoare cu valorile prag prezentate în tabelul de referință din anexa 3. Mai

avem o singură problemă: la câte grade de libertate? Vă mai aduceți probabil

aminte din primul capitol că gradele de libertate se află foarte simplu, pe baza

liniilor și a coloanelor din tabel. Astfel df=(linii-1)(coloane-1). Noi avem

două linii și două coloane, prin urmare df=(2-1)(2-1)=1x1=1. Linia care ne

interesează este, așadar, prima linie din tabelul din anexă. Pentru un prag de

semnificație p<0,05, valoarea indicatorului χ2 trebuie să fie mai mare de

3,841. Valorile noastre sunt mult mai mici în comparație cu această valoare

Statistică aplicată în ştiinţele socio-umane

186

de referință, prin urmare testul χ2 nu este semnificativ și astfel nu vom res-

pinge ipoteza nulă.

Așadar, iată că nu există diferențe semnificative între blonde și brune-

te sub aspectul accidentelor comise. Altfel spus, culoarea părului nu determi-

nă niciun efect asupra probabilității de comitere a unui accident. Diferențele

dintre blonde și brunete, sub acest aspect, sunt absolut întâmplătoare, culoa-

rea părului neavând niciun cuvânt de spus. V-ați liniștit acum, fetelor?

Particularitățile acestui coeficient, precum și semnificația sa, sunt

elemente tratate pe larg în primul capitol, asupra cărora nu vom reveni aici.

Pentru detalii, consultați capitolul referitor la analiza relațiilor între variabile.

Testul χ2 se mai numește și test de concordanță, deoarece permite

compararea distribuției datelor observate – numite și date empirice – cu o

repartiție teoretică. Prin intermediul acestor teste se poate înțelege legea de

evoluție a fenomenului studiat și se poate chiar verifica posibilitatea de utili-

zare a testelor parametrice (Vasilescu, 1992). Asupra acestor aspecte vom

reveni spre finalul capitolului.

Desigur, mă veți întreba dacă mai există vreo modalitate prin care să

verificăm această ipoteză, sau suntem dependenți complet de χ2. Sunt fericit

să vă informez că da, într-adevăr, mai există o variantă. Totuși, și aceasta se

bazează pe χ2, însă pornește de la o altă teorie, cea a probabilității maximale

(în engleză maximum-likelihood theory). Ideea generală este aceea a constru-

irii unui model teoretic pentru care probabilitatea de obținere a datelor să fie

maximă, apoi compararea datelor observate cu acel model teoretic. Diferența

este una subtilă și ține de teoria mai sus menționată, teorie pe care o vom

aborda și noi într-un alt volum. Această metodă se numește metoda raportului

de probabilitate (likelihood ratio), iar indicatorul acestui test se calculează

după formula:

Cristian Opariuc-Dan

187

(formula 2.4)

Bănuiesc că v-ați speriat din nou de logaritm. Stați liniștiți, nu este

chiar atât de complicat precum pare. Practic, “modelul” construit nu este alt-

ceva decât frecvența estimată, pe care am numit-o și frecvență teoretică. În

realitate, avem toate datele necesare și putem calcula foarte ușor acest indica-

tor statistic.

[

]

Acest indicator se raportează la tabelul din anexa 3, la fel ca și χ2. De-

sigur, testul este din nou nesemnificativ, determinându-ne să nu respingem

ipoteza nulă. Pentru eșantioane sau loturi de cercetare de mari dimensiuni,

valoarea acestui indicator se apropie foarte mult de valoarea lui χ2. Totuși,

acest indicator se preferă atunci când volumul eșantionului este mic, fiind un

indicator mai precis în comparație cu χ2.

În final, mă simt dator să vă atrag atenția asupra câtorva elemente le-

gate de utilizarea testului χ2 și a tuturor indicatorilor derivați din acesta

(Field, 2000):

Deși χ2 se poate folosi și pentru date ordinale sau chiar para-

metrice (după cum vom vedea), vom prefera totuși să-l utili-

zăm în cazul datelor strict nominale, sau atunci când lucrăm

exclusiv cu frecvențe. Este, de fapt, singurul test statistic pen-

tru date aflate la un nivel categorial de măsură. Din cauza pu-

terii sale reduse, pentru date ordinale sau parametrice vom pre-

fera alte teste;

Este absolut necesar, atunci când folosim χ2, ca fiecare subiect

să se regăsească doar într-o singură celulă a tabelului de con-

Statistică aplicată în ştiinţele socio-umane

188

tingență, și numai în una. Acest lucru înseamnă că testul χ2

poate fi folosit numai în planuri de cercetare cu eșantioane in-

dependente, fiind complet inadecvat într-un design cu măsu-

rări repetate;

Testul χ2 este relevant doar atunci când toate frecvențele aștep-

tate au valori mai mari decât 5. Dacă există celule în care frec-

vențele așteptate sunt sub 5, testul χ2 își pierde puterea. Totuși,

în tabelele de contingență de mari dimensiuni (în care variabi-

lele au multe niveluri) se acceptă și unele celule cu frecvența

așteptată sub 5, dar acestea nu trebuie să depășească 20% din

numărul total de celule;

II.2.2 Teste pentru eșantioane independente

Știm deja la ce se referă eșantioanele independente. Vorbim despre

eșantioane independente atunci când grupele de subiecți din planul nostru de

cercetare conțin, în general, elemente diferite şi când selectarea unui element

într-un eşantion nu are nicio legătură cu selectarea elementelor din celelalte

eşantioane. Exemplul anterior este adecvat acestui tip de cercetare. O parte

dintre femei sunt blonde, iar o altă parte brunete. Sunt, iată, două grupe de

cercetare diferite – blondele și brunetele – care conțin, în mod evident, alte

persoane.

Tehnic vorbind, aceste teste verifică omogenitatea celor două serii de

date, adică analizează dacă au o aceeași repartiție, indiferent dacă repartiția

este sau nu este specificată. Dacă datele au aceeași repartiție, înseamnă că

eșantioanele sunt extrase din aceeași populație și coincid în privința parame-

trilor distribuțiilor (Vasilescu, 1992).

Din această categorie fac parte o serie de teste statistice precum: testul

medianei, testul U Mann-Whitney, testul Wald-Wolfowitz, testul Colin-

White și altele.

Cristian Opariuc-Dan

189

II.2.2.1 Testul medianei

Acest test statistic neparametric îl veți întâlni frecvent sub denumirea

de proba medianei și se poate aplica datelor situate cel puțin la un nivel de

măsură ordinal, deoarece se bazează pe calculul rangurilor, pe poziția pe care

o ocupă scorurile în cadrul șirului de date.

Să reluăm cercetarea anterioară, de data aceasta dezvoltând planul de

cercetare. Vom rămâne la aceeași ipoteză nulă (nu există diferențe între blon-

de și brunete sub aspectul producerii accidentelor rutiere), însă vom modifi-

ca variabila dependentă. Nu ne vom mai limita doar la înregistrarea produce-

rii accidentului, ca în cazul anterior, ci vom transforma această variabilă într-

una ordinală, în care convenim să notăm cu 0 lipsa accidentelor, cu 1 acci-

dente ușoare, cu 2 accidente medii, 3 accidente grave și 4 accidente foarte

grave.

În continuare, vom investiga un număr de 20 de femei, 10 blonde și

10 brunete, obținând următoarele date:

Blonde: 1, 3, 2, 2, 4, 0, 0, 2, 1, 3

Brunete: 0, 2, 1, 2, 3, 0, 0, 1, 1, 2

Vă reamintesc că scorurile înregistrate nu reprezintă numărul de acci-

dente produse ci „calificativul” acestora, după scala ordinală de mai sus. Am

folosit un număr de doar 20 de cazuri din considerente didactice. În realitate,

un asemenea studiu are mult mai mulți subiecți.

Desigur, nu se pune problema aplicării testelor parametrice, variabila

dependentă fiind aflată în mod natural la un nivel de măsură ordinal. Ne de-

cidem să verificăm ipoteza nulă prin testul medianei. Primul pas presupune

calculul medianei pentru cele două grupe de cercetare. Ordonăm datele, cres-

cător sau descrescător, mediana aflându-se la a 5,5-a măsurătoare, după cum

știți deja.

Statistică aplicată în ştiinţele socio-umane

190

Blonde: 0, 0, 1, 1, 2, 2, 2, 3, 3, 4 Me(blonde)= 2

Brunete: 0, 0, 0, 1, 1, 1, 2, 2, 2, 3 Me(brunete)=1

Pentru a verifica ipoteza, vom compara practic cele două mediane și

vom decide dacă această diferență dintre ele este sau nu este semnificativă.

Dar cum facem comparația? Ați ghicit deja, prin χ2. În acest sens, următorul

pas este reprezentat de calculul medianei generale, mediana întregului lot de

cercetare (în cazul nostru, mediana tuturor celor 20 de femei, blonde și brune-

te).

Total(blonde+brunete): 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 3, 3, 3, 4 Me=1,5

Mediana întregului lot de cercetare este 1,5, fiind situată, în mod evi-

dent, la a 10,5-a măsurătoare, între valorile 1 și 2. Stabilind aceste elemente

de bază, urmează să contabilizăm numărul de scoruri aflate sub valoarea me-

dianei generale și numărul de scoruri aflate peste valoarea medianei generale.

Pentru aceasta vom construi următorul tabel de contingență:

Tabelul 2.9 – Tabelul de analiză pentru testul medianei

Sub mediana

generală (Me)

Peste mediana

generală (Me) Total

Blonde 4

A

6

B 10

Brunete 6

C

4

D 10

Total 10 10 n=20

Un număr de 4 blonde și 6 brunete se situează sub mediana generală

din punctul de vedere al gravității accidentelor, în timp ce 6 blonde și 4 bru-

nete se situează peste mediana generală la același criteriu.

Întotdeauna, tabelul de contingență pentru proba medianei va avea

exact 4 celule. În acest caz, aplicăm formula 2.3 pentru calculul testului χ2.

Cristian Opariuc-Dan

191

Valoarea obținută este, în mod evident, nesemnificativă. Totuși, am

lucrat cu efective foarte mici. În cazul în care într-una dintre căsuțe găsim sub

10 scoruri, vom folosi o formulă corectată a testului χ2, numită corecția lui

Yates pentru efective reduse (Radu, și alții, 1993). Aceasta este, dacă doriți,

formula 1.14 modificată pentru lucrul direct cu frecvențele observate, în ca-

zul tabelelor cu 4 celule.

[

]

(formula 2.5)

Efectuând calculele în baza formulei 2.5, obținem valoarea 1,8 pentru

testul χ2. Și în acest caz, comparând valoarea cu valorile de referință din ane-

xa 3, pentru un singur grad de libertate, observăm că testul este nesemnifica-

tiv. Prin urmare, nu vom respinge ipoteza nulă, șansele ca aceasta să se susți-

nă fiind mai mari de 5%. Rezultatul studiului nu este concludent, nu există

nicio diferență determinată de culoarea părului, sub aspectul gravității acci-

dentelor rutiere produse. Din nou, culoarea părului nu exercită niciun efect

asupra producerii accidentelor rutiere.

Acum suntem în situația fericită în care nu avem scoruri egale cu me-

diana generală. Dacă aceasta ar fi fost, să spunem, 2, am fi avut un număr de

6 scoruri (3 pentru blonde și 3 pentru brunete) egale cu mediana. În asemenea

cazuri, vom include scorurile egale cu mediana o dată în categoria scorurilor

sub mediana generală, și a doua oară în categoria celor peste mediana gene-

rală, construind două tabele de contingență – cu scoruri egale cu mediana

aflate în categoria scorurilor sub mediană și al doilea tabel, cu scoruri egale

cu mediana aflate în categoria scorurilor peste mediana generală. Vom calcu-

la, după modelul de mai sus, valoarea testului χ2 pentru ambele tabele și vom

lua în considerarea tabelul care are valoarea mai mică a testului χ2.

Statistică aplicată în ştiinţele socio-umane

192

Analiza semnificației testului medianei rezidă în analiza semnificației

testului χ2 și a coeficientului de contingență χ

2. Proba medianei se folosește,

de obicei, în cazul în care avem un număr mare de ranguri egale. Dacă numă-

rul rangurilor egale nu este foarte mare, se preferă alte teste, mai precise, cu

ar fi, de exemplu, testul U Mann-Whitney.

II.2.2.2 Testul U Mann-Whitney

Acest test statistic este unul dintre cele mai utilizate tehnici de analiză

a datelor din sfera neparametrică, alături de testul Wilcoxon pentru eșantioa-

ne dependente (perechi). De altfel, unii autori chiar îl denumesc testul U

Mann-Whitney-Wilcoxon (Vasilescu, 1992), nu pentru că cele două teste ar

reprezenta același lucru, ci pentru a reflecta contribuția celor trei statisticieni

la dezvoltarea testului U.

Testul se aplică, la fel ca și proba medianei, rangurilor pe care le au

datele, nefiind sensibil la distribuția acestora, ci doar la numărul de cazuri,

după cum vom vedea imediat.

Reluăm exemplul anterior, singura diferență fiind aceea că nu vom

mai contabiliza gravitatea accidentelor după o scală ordinală, ci numărul

acestora, după o scală de raport. Bineînțeles, vom investiga, de această dată,

mai multe persoane – 20 de blonde și 20 de brunete.

Tabelul 2.10 – Numărul accidentelor produse de blonde și brunete

Accidente

0 1 2 3 4 5 6 7 8 20 Total Grup

Blonde 3 2 1 2 2 3 3 1 2 1 20

Brunete 5 2 1 3 1 3 2 2 1 0 20

Dacă privim cu atenție tabelul de mai sus, vom observa că, cel puțin

în aparență, avem condițiile aplicării unor teste parametrice. Totuși, nu este

așa, acel scor extrem (20 accidente) determinând o distribuție skewness pozi-

Cristian Opariuc-Dan

193

tiv, cu tendințe către valori mici ale accidentelor. În acest caz, evident că vom

folosi teste neparametrice în locul celor parametrice, mai exact testul U

Mann-Whitney.

Pentru a determina valoarea exactă a testului statistic, trebuie, în pri-

mul rând, să ordonăm crescător sau descrescător datele, apoi să calculăm

rangurile. Realizăm acest lucru prin cumularea cele două șiruri într-unul sin-

gur. Vom avea 8 femei cu zero accidente, 4 femei cu un accident, 2 femei cu

două accidente și așa mai departe, până la o singură femeie cu 20 de acciden-

te (știm deja că este blondă). Evident, șirul a fost în prealabil ordonat crescă-

tor după numărul accidentelor.

Tabelul 2.11 – Calculul rangurilor

Accidente

0 1 2 3 4 5 6 7 8 20 Total Grup

Blonde 3 2 1 2 2 3 3 1 2 1 20

Brunete 5 2 1 3 1 3 2 2 1 0 20

Total 8 4 2 5 3 6 5 3 3 1 40

Poziții

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

Rang 4,5 10,5 13,5 17 21 25,5 31 35 38 40

Calculul rangurilor din tabelul 2.11 s-ar putea să vă deruteze puțin, în-

să nu vă impacientați. Opt femei nu au comis niciun accident. În mod cert,

ele vor ocupa primele opt poziții în șirul ordonat (pozițiile de la 1 la 8). Deoa-

rece cele opt poziții au aceeași valoare (valoarea zero accidente), rangul va fi

reprezentat de media pozițiilor ocupate de scoruri. Adunând numerele de la

Statistică aplicată în ştiinţele socio-umane

194

unu la opt și împărțind suma la opt, rezultă 4,5, acesta fiind rangul scorului

„zero accidente”.

Următoarele patru femei au comis câte un singur accident. Bineînțe-

les, ele vor ocupa pozițiile următoare, de la poziția a noua, la poziția doispre-

zece. Rangul scorului „un accident rutier” va fi media acestor patru poziții –

de la 9 la 12 –, adică 10,5. Procedăm similar pentru a calcula rangurile tutu-

ror scorurilor din distribuția noastră. Nu este deloc dificil, doar diferit față de

cum erați dumneavoastră obișnuiți.

În următoarea etapă, va trebui să calculăm suma rangurilor pentru fie-

care grup de cercetare. Din moment ce știm deja rangul fiecărui scor, suma

rangurilor se calculează foarte simplu, înmulțind efectivul care a obținut sco-

rul respectiv, cu rangul asociat scorurilor, apoi adunând toate aceste produse.

Pentru a ne ușura sarcina, vom construi tabelul 2.12 și obținem suma ranguri-

lor pentru grupul blondelor de 444,5 și suma rangurilor pentru brunete 375,5.

Suma totală a rangurilor va fi 820 (∑R1+∑R2=444,5+375,5=820).

Tabelul 2.12 – Calculul sumei rangurilor

Scor

Blonde Brunete

Efectiv

(f)

Rang

(r) fxr

Efectiv

(f)

Rang

(r) fxr

0 3 4,5 13,5 5 4,5 22,5

1 2 10,5 21 2 10,5 21

2 1 13,5 13,5 1 13,5 13,5

3 2 17 34 3 17 51

4 2 21 42 1 21 21

5 3 25,5 76,5 3 25,5 76,5

6 3 31 93 2 31 62

7 1 35 35 2 35 70

8 2 38 76 1 38 38

20 1 40 40 0 40 0

∑R1=444,5 ∑R2=375,5

Cristian Opariuc-Dan

195

Ca măsură suplimentară de precauție, vom verifica dacă suma totală a

rangurilor este egală cu

, unde n reprezintă numărul total de subiecți

(Radu, și alții, 1993). Pentru cazul nostru,

.

Într-adevăr, nu am greșit la calcule, suma totală a rangurilor fiind corectă.

Având toate aceste informații, urmează calculul valorii testului statis-

tic U Mann-Whitney, după formula:

(∑

) (formula 2.6)

Această formulă ne arată că vom lua ca referință, pentru testul U

Mann-Whitney, cea mai mică valoare dintre cele două prezentate. Să urmă-

rim calculul valorii testului U Mann-Whitney în cazul nostru:

(∑

)

(

)

Efectuând calculele, am obținut U=165,5, aceasta fiind cea mai mică

valoare dintre cele două (234,5 și 165,5). În cazul în care cele două grupuri

de subiecți au sub 20 de scoruri, valoarea U se poate raporta direct la tabelul

de referință din anexa 8. În cazul nostru, pentru n1=20 și n2=20, ne situăm în

ultima celulă a tabelului, cea din dreapta jos. Valoarea testului nostru (165,5)

este mai mare decât pragul de referință de 127, precizat în tabel. Deoarece

pentru a fi semnificativ la un prag de semnificație mai mic de 0,05, valoarea

testului U trebuie să fie mai mică sau cel mult egală cu această valoare

(127), vom conchide că testul nu este semnificativ și nu vom respinge ipoteza

nulă, conform căreia nu există nicio diferență semnificativă între blonde și

brunete sub aspectul numărului de accidente comise.

Statistică aplicată în ştiinţele socio-umane

196

Atunci când numărul de subiecți din cele două grupuri de cercetare

este mare, distribuția testului U se apropie de distribuția normală. În acest caz

este mai util să calculăm varianta standardizată a testului U Mann-Whitney.

Această variantă – numită și scorul z al testului U – se bazează pe valoarea U

calculată anterior și poate fi aflat folosind formula de conversie a valorii ne-

standardizate U în scorul z pentru U.

(formula 2.7)

Dacă stăpâniți noțiunile de bază, ați observat deja că formula 2.7 nu

este altceva decât aplicarea concretă a formulei generale pentru statistica z,

fiind, de fapt, scorul U minus media celor două scoruri U de împărțit la abate-

rea standard a scorurilor U.

Valoarea z pentru datele noastre este de -0,93, valoare pe care o vom

considera în modul (fără semn) și o vom raporta la binecunoscuta distribuție

z. Știm deja că valorile prag pentru distribuția z sunt 1,96 la un prag de sem-

nificație mai mic de 0,05 și 2,58 pentru un prag de semnificație mai mic de

0,01. Valoarea noastră (0,93) este mai mică decât valoarea prag corespunză-

toare nivelului de semnificație 0,05, testul nostru fiind, după cum era și fi-

resc, nesemnificativ.

Unii autori (Vasilescu, 1992) fac distincție între forma standardizată a

testului U și forma sa nestandardizată, prima dintre ele purtând un nume dis-

tinct – testul Colin-White. Într-adevăr, Mann și Whitney s-au rezumat doar

la specificarea și demonstrarea formulei 2.6. Alți statisticieni, printre care

Colin și White au continuat activitatea, propunând forma standardizată, așa

cum a fost ea expusă în formula 2.7.

Cristian Opariuc-Dan

197

Vom încheia prezentarea acestui test statistic atrăgând atenția asupra

unui singur element: atunci când comparăm direct valoarea U cu valorile

prag prezentate în tabelul din anexa 8, aceasta trebuie să fie mai mică sau

cel mult egală cu valoarea prag pentru ca testul să prezinte semnificație sta-

tistică. Dacă însă lucrăm cu notele z, atunci valoarea notei z pentru testul U

trebuie să fie mai mare decât valorile prag pentru ca acesta să prezinte sem-

nificație statistică. Am accentuat asupra acestor idei, deoarece de multe ori se

creează confuzie la interpretarea semnificației testului statistic U Mann-

Whitney.

Acest test statistic, deși preferat în mai toate cercetările care folosesc

date neparametrice, se folosește atunci când numărul de ranguri egale nu este

foarte mare. Dacă această condiție nu poate fi îndeplinită din cauza naturii

datelor, atunci se preferă testul medianei sau se administrează o serie de pro-

cedee și tehnici de corecție pentru egalitatea rangurilor, aceasta fiind însă

prea complexe pentru ca să le discutăm în cadrul acestui volum.

II.2.2.3 Testul Wald-Wolfowitz

Reprezintă un alt tip de test statistic, întâlnit sub denumiri ca testul

iterațiilor, testul secvențelor sau testul Runs și se folosește, de obicei, pentru

eșantioane cu un volum mare, peste 40 de subiecți pentru fiecare eșantion.

O iterație (secvență) reprezintă o succesiune de elemente de același

tip. De exemplu, în tabelul 2.11 avem o iterație cu lungimea opt formată din

elemente de tip „zero accidente”, urmată de o iterație cu lungimea patru for-

mată din elemente de tip „un accident”, apoi o iterație cu lungimea doi for-

mată din elemente de tip „două accidente” și așa mai departe.

Pentru a calcula valoarea testului iterațiilor, avem nevoie atât de șirul

ordonat de date, cât și de șirul original, neordonat. Vom modifica puțin cerce-

tarea anterioară pentru a corespunde acestei noi cerințe.

Statistică aplicată în ştiinţele socio-umane

198

Blonde: 0, 1, 2, 2, 3 ,5, 3, 5, 5, 3, 2, 0, 1, 3, 4, 5, 3, 2, 1, 1 nbl=20

Brunete: 3, 5, 1, 1, 1, 2, 2, 0, 1, 2, 0, 0, 1, 2, 3, 4 ,3, 5, 1, 1, 3 nbr=21

Șirurile inițiale conțin un număr de 41 de cazuri, 20 de blonde și 21 de

brunete, aranjate ca mai sus. Prima blondă nu a făcut niciun accident, a doua

blondă a făcut un singur accident, a treia și a patra blondă au făcut, fiecare,

câte două accidente și așa mai departe. Observăm că ambele șiruri sunt neor-

donate.

În primul pas vom cumula cele două șiruri și vom ordona noul șir cu-

mulat, fie crescător, fie descrescător.

Total: 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3,

3, 3, 4, 4, 5, 5, 5, 5, 5, 5 nbl+nbr=41

În al doilea pas, înlocuim elementele din șirul cumulat cu o serie de

coduri, corespunzătoare grupului din care fac parte. Pentru a simplifica lucru-

rile, vom codifica blondele cu litera A și brunetele cu litera B. Atunci, șirul

nostru cumulat devine o succesiune de secvențe.

A, A, B, B, B, A, A, A, A, B, B, B, B, B, B, B, A, A, A, A, B, B, B, B, A, A, A, A, A, B,

B, B, B, A, B, A, A, A, A, B, B

În total, un număr de cinci femei nu au avut niciun accident. Dintre

acestea, două sunt blonde (A, A) și trei brunete (B, B, B). Apoi, unsprezece

femei au făcut câte un singur accident. Dintre acestea, patru sunt blonde (A,

A, A, A) și șapte brunete (B, B, B, B, B, B, B). Vom continua după același

algoritm până recodificăm întregul șir cumulat. Apoi, numărăm secvențele

obținute. Primele două litere A formează o secvență de lungime 2 cu elemen-

te de tip A (din blonde). Următoarele trei litere B formează o secvență de

lungime 3 ce conține elemente de tip B (brunete) și așa mai departe. În final,

se obține un număr de 12 secvențe (R=12, R însemnând număr de repetări

sau secvențe).

Cristian Opariuc-Dan

199

Nu ne rămâne decât să calculăm valoarea z a testului iterațiilor, după

formula următoare:

(

)

(formula 2.8)

Toate datele necesare înlocuirii în formulă există deja, iar după efec-

tuarea calculelor obținem o valoare z de -3,03.

(

)

(

)

Această valoare obținută, luată fără semn, este mai mare decât valoa-

rea critică 2,58 pentru un prag de semnificație mai mic de 0,01, astfel încât

putem respinge ipoteza nulă. Folosind aceste date, putem spune că, într-

adevăr, de această dată culoarea părului are efect. Există diferențe între blon-

de și brunete sub aspectul numărului de accidente comise.

Pentru a vedea sensul acestor diferențe, adică pentru a vedea dacă

blondele comit mai multe accidente în comparație cu brunetele sau invers, nu

avem decât să calculăm medianele celor două șiruri.

Acest test statistic este destul de puțin folosit în științele socio-umane,

deoarece procesul de creare a secvențelor este unul migălos și de durată. De

cele mai multe ori procedeul este folosit pentru a verifica dacă șirul de date

are sau nu are un caracter aleatoriu. Desigur, procedeul de calcul este altul, se

folosește șirul de date neordonat, calculându-se nota z după o altă formulă.

Atunci când dorim să verificăm dacă datele au un caracter aleatoriu,

alături de acest test mai avem la dispoziție testul fazelor Wallis-Moore sau

Statistică aplicată în ştiinţele socio-umane

200

testul diferențelor succesive. Toate se bazează pe secvențe și pe diferențe în

cadrul secvențelor, procedeele de lucru fiind asemănătoare cu cele ale testului

iterațiilor. Nu vom prezenta aceste teste statistice. Pentru cei care doresc să-și

însușească aceste metode, vă invit pe site-ul http://www.statistica-sociala.ro

sau pot studia literatura de specialitate.

II.2.3 Teste pentru eșantioane dependente

Pentru eșantioane dependente (numite și eșantioane perechi), utilizate

atunci când lucrăm cu planuri de cercetare bazate pe măsurări repetate, avem

o altă categorie de teste statistice. Vă reamintesc că eșantioanele perechi se

formează, de obicei, investigând același grup de persoane de două ori. Există

două tipuri de teste pentru date situate la un nivel de măsură neparametric:

testul semnelor și testul Wilcoxon.

II.2.3.1 Testul semnelor

Acest test se folosește atunci când planul de cercetare presupune mă-

surări repetate și utilizăm eșantioane perechi. Proba ne permite să analizăm

semnificația diferențelor care apar între cele două serii de măsurători. Prin

urmare, accentul nu se pune numaidecât pe valori, ci pe semnul diferențelor

dintre valori.

Să presupunem următorul experiment, în care studiem efectele unui

tratament pentru abandonul fumatului. Vom selecta un grup de fumători la

care măsurăm numărul de țigări fumate inițial. Intervenim apoi cu tratamen-

tul și, la sfârșitul acestuia, măsurăm din nou numărul de țigări fumate. Acesta

este un experiment tipic pentru măsurări repetate; aceiași subiecți investigați

în două situații diferite.

Ipoteza nulă vizează egalitatea proporțiilor de semne + și – în șirul

nostru de date. În tabelul 2.13 am reprezentat situația de cercetare de mai sus,

pentru un număr de 12 subiecți. Observăm că primul subiect, M.C., fuma

Cristian Opariuc-Dan

201

înainte 10 țigări, iar după tratament fumează 6 țigări. Subiectul P.A. fumează

înainte de tratament 9 țigări, după tratament 10 țigări și așa mai departe.

În următoarea etapă facem

diferența dintre scorurile celor

două situații. Deci, vom avea Di-

ferențe=După – Înainte. Nu sun-

tem interesați de valoarea acestei

diferențe, ci doar de semnul ei,

semn pe care îl marcăm în ultima

coloană a tabelului 2.13. Nu ne

rămâne decât să numărăm câte

semne „-” avem, câte semne „+”

și câte situații de egalitate. În ca-

zul nostru, avem 8 semne minus,

2 egalități și 2 semne pozitive.

Egalitățile nu ne interesează, decizia luându-se doar la nivelul semne-

lor pozitive și negative. Prin urmare, „-”=8 și „+”=2. Numărul total de cazuri

(n) va fi considerat „+” + „-”, adică 8+2=10. Valoarea de referință (s) re-

prezintă cea mai mică valoare dintre totalul semnelor negative și totalul sem-

nelor pozitive. Deoarece avem 8 semne negative și 2 semne pozitive, valoa-

rea cea mai mică este, evident, 2 și corespunde semnelor pozitive. Prin urma-

re, s=2 și n=10. Valoarea lui n fiind mică (sub 30 de cazuri), putem raporta

valoarea s la tabelul din anexa 10. Pentru n=10, valoarea de referință la un

prag de semnificație mai mic de 0,01 este 1 (a treia linie din anexa 10). Noi

am obținut valoarea 2, o valoare care depășește valoarea critică minimă. Prin

urmare, testul este nesemnificativ, fiind nevoiți să nu respingem ipoteza nulă.

În cazul în care numărul de semne (n) este mai mare de 30, distribuția

acestora se apropie de o distribuție normală, având sens calculul notei z, după

formula următoare:

Tabelul 2.13 – Modalitate de calcul pentru testul semnelor

Subiect Înainte După Diferențe

M.C. 10 6 -

P.A. 9 10 +

D.V. 15 11 -

S.T. 13 11 -

B.L. 12 12 =

A.T. 18 18 =

M.Z. 21 20 -

R.V. 32 15 -

I.G. 35 12 -

J.I. 24 29 +

S.I. 26 10 -

A.C. 18 7 -

- = +

8 2 2

Statistică aplicată în ştiinţele socio-umane

202

(formula 2.9)

unde s reprezintă numărul de semne, după următoarea regulă:

dacă s se referă la numărul de semne mai frecvente, se scade

constanta 0,5

dacă s se referă la numărul de semne mai puțin frecvente, se

adaugă constanta 0,5

Reluând exemplul nostru, am putea avea două situații:

și

În ambele situații, valoarea z este 1,58, mai mică decât valoarea prag

1,96 pentru un prag de semnificație mai mic de 0,05. Desigur, testul este ne-

semnificativ – era și normal să fie așa –, nu vom respinge ipoteza nulă con-

form căreia tratamentul anti-fumat nu are nici un efect.

II.2.3.2 Testul Wilcoxon

Dacă proba semnelor – așa cum îi spune și numele – ia în calcul doar

semnele diferențelor dintre cele două situații, fără apel la valori, pentru a ana-

liza semnificația diferențelor dintre cele două situații de cercetare, testul

Wilcoxon are în vedere – alături de semne – și valoarea diferențelor.

Trebuie să aveți în vedere că atât proba semnelor, cât și proba

Wilcoxon, sunt teste statistice neparametrice. Forma distribuției variabilelor

Cristian Opariuc-Dan

203

nu are importanță, iar nivelul de măsură poate fi cel puțin unul ordinal. Testul

semnelor și proba Wilcoxon pot fi administrate valorilor sau rangurilor, fără

ca acest lucru să influențeze importanța lor.

Pentru clarificare, vom relua exemplul folosit anterior, de data aceasta

urmărind calculul unui test statistic mai eficient. Ați dedus bine, este vorba

despre testul Wilcoxon.

Primul pas, la fel ca și în cazul celeilalte probe, se referă la calculul

diferențelor dintre scoruri. De această dată vom reține și valorile acestor dife-

rențe. Probabil că ați observat un lucru de nuanță; dacă la testul semnelor

diferența a fost După – Înainte, aici diferența este Înainte – După. În realitate

acest lucru nu are nicio importanță. Singura diferență obținută va fi cea legată

de semn. Diferențele pozitive vor fi negative în al doilea caz și reciproc. Nu

este cazul să vă bateți capul prea tare cu aceste diferențe, rămâne la latitudi-

nea dumneavoastră să le efectuați cum doriți. Dacă folosiți prima situație

(După – Înainte) și obți-

neți o diferență semnifica-

tivă pozitivă, atunci în-

seamnă că tratamentul a

avut efect, în sensul că a

crescut numărul de țigări

fumate – normal, deoarece

diferența pozitivă provine

din faptul că valorile în

situația „După” sunt mai

mari decât valorile în situ-

ația „Înainte”. Dacă dife-

rența este semnificativă și negativă, înseamnă că tratamentul a avut efect în

sensul reducerii numărului de țigări, conform aceluiași algoritm.

Tabelul 2.14 – Modalitate de calcul pentru testul Wilcoxon

Subiect Înainte După Diferențe Ranguri

M.C. 10 6 +4 +4,5

P.A. 9 10 -1 -1,5

D.V. 15 11 +4 +4,5

S.T. 13 11 +2 +3

B.L. 12 12 0 -

A.T. 18 18 0 -

M.Z. 21 20 +1 +1,5

R.V. 32 15 +17 +9

I.G. 35 12 +23 +10

J.I. 24 29 -5 -6

S.I. 26 10 +16 +8

A.C. 18 7 +11 +7

∑R+ 47,5

∑R- 7,5

Statistică aplicată în ştiinţele socio-umane

204

În al doilea pas, renunțăm la diferențele nule. Toate celelalte diferențe

le considerăm în valori absolute (fără semn) pentru a le ordona. După ce le

ordonăm crescător, vom stabili rangul fiecărei diferențe. În cazul nostru, sub-

iecții B.L. și A.T. sunt eliminați, deoarece diferențele sunt nule. Subiecții

P.A. și M.Z. au diferențe de un punct – primul în sens negativ, al doilea în

sens pozitiv. Ocupând primele două poziții, rangul va fi 1,5 pentru amândoi,

singura diferență fiind semnul rangurilor – negativ pentru primul și pozitiv

pentru al doilea, în conformitate cu semnul inițial al diferențelor. O singură

diferență pozitivă de două puncte o vom găsi la subiectul S.T. Desigur, ran-

gul acesteia va fi pozitiv și având valoarea 3. În mod similar, stabilim rangu-

rile tuturor scorurilor.

Următoarea etapă presupune realizarea sumei rangurilor, atât pentru

rangurile pozitive, cât și pentru cele negative. Adunând toate rangurile cu

plus, obținem 47,5 și adunând toate rangurile cu minus, obținem 7,5. La fel

ca și la testul semnelor, reținem cea mai mică sumă a rangurilor – în cazul

nostru suma celor negative, 7,5. Această sumă se raportează la tabelul din

anexa 11. Tabelul indică valoarea maximă pe care o poate lua suma de refe-

rință pentru ca testul să fie considerat semnificativ la diferite praguri de sem-

nificație. În cazul nostru, pentru n=10, valoarea maximă a sumei poate să fie,

8 pentru un prag de semnificație mai mic de 0,05. Surpriză, suma noastră cea

mai mică are valoarea 7,5, testul Wilcoxon fiind semnificativ la un prag de

semnificație mai mic de 0,05. Ipoteza nulă poate fi respinsă, semnul este ne-

gativ, am putea trage concluzia că tratamentul a avut ca efect creșterea numă-

rului de țigări fumate.

Dacă eșantionul este mare, știm deja ce se poate întâmpla. Distribuția

sumei rangurilor tinde spre o distribuție normală, iar în acest caz se poate

calcula nota z după următoarea relație:

Cristian Opariuc-Dan

205

(formula 2.10)

Datele din formulă sunt știute. La fel ca și în cazul anterior, suma ran-

gurilor este cea mai mică sumă a rangurilor dintre suma rangurilor pozitive și

suma rangurilor negative.

Din nou, a rezultat un test semnificativ la un prag de semnificație mai

mic de 0,05, valoarea obținută (2,03) fiind mai mare de valoarea prag 1,96 a

distribuției z.

De ce totuși testul semnelor a fost nesemnificativ, iar testul Wilcoxon,

semnificativ? Nu vi se pare ciudat? Răspunsul este foarte simplu și vă invit

să-l descoperiți. Când îl veți descoperi, veți înțelege de ce testul Wilcoxon

este preferat testului semnelor – de care, între noi fiind vorba, au auzit destul

de puțini.

II.3 Teste statistice pentru date parametrice

Adevărata plăcere a comparațiilor se află la nivelul datelor parametri-

ce – scalele de interval și de raport. Acum are sens calculul mediei și al aba-

terii standard, lucrurile devenind mult mai clare. Totuși, pe lângă nivelul de

măsură, datele trebuie să respecte și condiția obligatorie a distribuției norma-

le. Dacă una dintre variabile nu are o distribuție normală, fie aplicăm proce-

dee de normalizare a distribuției, fie folosim teste neparametrice.

Majoritatea lucrărilor de specialitate disting, la acest nivel, între trei

mari categorii de teste statistice: teste pentru un singur eșantion, teste pentru

două eșantioane independente și teste pentru două eșantioane perechi.

Statistică aplicată în ştiinţele socio-umane

206

II.3.1 Teste pentru un singur eșantion

Aceste teste statistice compară media unui eșantion cu media unei po-

pulații și verifică ipoteza nulă conform căreia nu există diferențe semnificati-

ve între media populației din care s-a extras eșantionul și o valoare dată. Alt-

fel spus, vom avea următoarele ipoteze:

H0: m=µ - Nu există nicio diferență între media populației din care a

fost extras eșantionul și valoarea dată (ipoteza nulă);

H1: µ>m<µ - Există o diferență semnificativă între media populației

din care a fost extras eșantionul și valoarea dată (ipoteză alternativă bilate-

rală);

H2: m>µ - Media populației este semnificativ mai mare în comparație

cu valoarea dată (ipoteză alternativă unilaterală).

H3: m<µ - Media populației este semnificativ mai mică în comparație

cu valoarea dată (ipoteză alternativă unilaterală).

Am început să folosim concepte reale de cercetare, deoarece aveți de-

ja informații suficiente. Respingerea ipotezei nule duce, după cum știți, la

susținerea uneia dintre cele trei ipoteze alternative.

Verificarea ipotezei nule se face prin intermediul a două teste statisti-

ce, astfel:

testul z – dacă se cunoaște, alături de media populației, și aba-

terea standard a acesteia;

testul t Student – dacă nu se cunoaște abaterea standard a po-

pulației.

Totuși, ce înseamnă „media populației”? Vom insista puțin asupra

acestui concept, deoarece aș dori să evităm pe viitor orice fel de confuzii.

Cristian Opariuc-Dan

207

Media populației poate însemna, ad-litteram, media obținută de o co-

lectivitate mare la un parametru. De exemplu, media sticlelor de bere pe care

le beau studenții universității Ovidius din Constanța poate fi considerată o

medie teoretică (valoarea dată). Dacă din acea universitate vom extrage un

eșantion de studenți de la psihologie, media sticlelor de bere pe care aceștia le

consumă reprezintă media eșantionului.

O altă accepție a mediei populației – cunoscută mai frecvent sub de-

numirea de medie teoretică – este legată de instrumentul de măsură. De

exemplu, itemul „Cât de frecvent consumați bere?” poate primi răspunsuri pe

o scală de la 1 la 5, unde 1 înseamnă „niciodată” iar 5 înseamnă „întotdeau-

na”.

Niciodată Întotdeauna

1 2 3 4 5

În acest caz, media teoretică (valoarea dată) este reprezentată de mij-

locul scalei (valoarea 3), valoare cu care se poate compara media eșantionului

format din subiecții care au răspuns la acest item.

O variantă a celor expuse mai sus se referă la media teoretică a unui

instrument format din mai mulți itemi. De exemplu, un instrument care mă-

soară anxietatea prin 25 de itemi de tipul „Da” și „Nu”, poate avea o ampli-

tudine a răspunsurilor cuprinsă între zero puncte (dacă un subiect răspunde

nesemnificativ clinic la toți itemii) și 25 de puncte (dacă un subiect răspunde

semnificativ clinic la toți itemii). În acest caz, media teoretică va fi de 12,5,

mijlocul scalei „anxietate” din inventar.

Cunoscând câteva dintre sensurile mediei populației, vă doresc mult

succes la crearea de instrumente și să vedem cum putem compara un eșantion

cu o populație.

Statistică aplicată în ştiinţele socio-umane

208

II.3.1.1 Testul z pentru un eșantion

Se folosește în cazul în care dispunem de media populației (valoarea

dată), abaterea standard a populației și, evident, media eșantionului. Testul z

se calculează după formula:

(formula 2.11)

unde m este media eșantionului, µ este valoarea dată (presupusa me-

die a populației), σ este abaterea standard a populației din care provine

eșantionul iar n se referă la mărimea eșantionului.

Formula este foarte ușor de aplicat. Să presupunem că studenții uni-

versității Ovidius din Constanța consumă, în medie, 1,3 litri de bere pe zi (µ),

cu o abatere standard de 2,1 litri de bere (σ). Am dori să știm dacă studenții

de la psihologie consumă semnificativ mai multă bere în comparație cu me-

dia pe universitate. Pentru aceasta, convocăm un eșantion de 34 de studenți la

psihologie, mergem la restaurant timp de o săptămână și vedem cam câtă

bere consumă. Presupunem că am ajuns la concluzia că aceștia consumă, în

medie, 2,1 litri de bere zilnic (m).

H0: m=µ - Nu există nicio diferență semnificativă între cantitatea de

bere consumată de studenții de la psihologie (populația din care a fost extras

eșantionul) și cantitatea de bere consumată de studenții universității Ovidius

Constanța (valoarea teoretică dată, cu care se compară media populației din

care s-a extras eșantionul);

H1: m>µ - Studenții de la psihologie consumă semnificativ mai multă

bere în comparație cu studenții universității Ovidius Constanța.

Ipoteza alternativă este, în mod cert, o ipoteză unilaterală. De ce am

formulat așa, vom vedea imediat.

Cristian Opariuc-Dan

209

Având toate aceste informații, presupunând că datele se distribuie

normal la nivelul populației de studenți de la psihologie, constatăm că înde-

plinim condițiile de aplicare ale testului z.

Desigur, valoarea obținută (2,22) o vom raporta la distribuția z. Cred

că deja țineți minte valorile critice pentru notele z – 1,96 pentru un prag de

semnificație mai mic de 0,05 și 2,58 pentru pragul de semnificație mai mic de

0,01. Testul z calculat de noi este mai mare decât valoarea critică pentru pra-

gul de semnificație p<0,05 și mai mic decât valoarea pentru pragul de semni-

ficație p<0,01. Putem, deci, respinge ipoteza nulă la un p<0,05. Într-adevăr,

există o diferență semnificativă între cantitatea de bere consumată de studen-

ții de la psihologie și cantitatea de bere consumată de studenții universității

Ovidius, în general. Deși am respins ipoteza nulă, putem oare susține ipoteza

alternativă formulată? Nu vă grăbiți să răspundeți!

Ipoteza alternativă este o ipoteză unilaterală, iar pragurile pentru va-

loarea z sunt date pentru o ipoteză bilaterală. În cazul ipotezelor unilaterale,

acestea devin:

z=1,65 pentru p<0,05;

z=2,33 pentru p<0,01.

Lucrurile se schimbă puțin. Într-adevăr, ipoteza alternativă se susține

la un prag de semnificație mai mic de 0,05. Dacă am fi obținut valoarea

z=2,34 în loc de 2,22, iată că ipoteza unilaterală s-ar fi susținut la un prag de

semnificație mai mic de 0,01 în comparație cu pragul de semnificație 0,05

pentru ipoteze bilaterale. Scopul acestui exemplu este acela de a vă arăta că,

de multe ori, este mai util să formulați ipoteze unilaterale.

Statistică aplicată în ştiinţele socio-umane

210

Folosind testul z am arătat că studenții de la psihologie consumă sem-

nificativ mai multă bere în comparație cu media consumului studenților uni-

versității Ovidius. Dacă valoarea z ar fi fost negativă (dacă am fi arătat că

studenții consumă semnificativ mai puțină bere), ipoteza alternativă, formula-

tă unilateral, ca mai sus, nu s-ar fi putut susține.

II.3.1.2 Testul t Student pentru un singur eșantion

O asemenea situație fericită, în care să avem la dispoziție atât media

cât și abaterea standard a populației se întâlnește, din păcate, extrem de rar,

aproape niciodată. Dacă media populației o putem afla – de obicei sub forma

mediei teoretice –, abaterea standard a acesteia este aproape imposibil de

cuantificat. Totuși, dacă ați studiat statistica univariată, trebuie să știți că aba-

terea standard a unui eșantion aproximează destul de bine abaterea standard a

populației. Când spunem destul de bine, în limbaj tehnic, spunem că aceasta

nu urmează o distribuție z ci o distribuție t, și iată testul t Student:

(formula 2.12)

unde m este media eșantionului, µ este media populației din care a

fost extras eșantionul, s este abaterea standard a eșantionului iar n se referă

la mărimea eșantionului.

Îmi veți spune că este formula testului z și aveți oarecum dreptate.

Într-adevăr, testul t Student pentru un eșantion este o formă adaptată a testu-

lui z, în care se înlocuiește doar abaterea standard a populației cu abaterea

standard a eșantionului.

Poate că vă surprinde numele acestui test, mai ales apelativul „Stu-

dent”. Nu întâmplător am ales berea ca exemplu pentru aceste teste. Într-

adevăr, testele t au fost descoperite în anul 1908 de către William Sealy

Gosset, un chimist angajat la berăriile irlandeze Guinness pentru a concepe

Cristian Opariuc-Dan

211

un nou tip de bere (de fapt exact berea neagră Guinness pe care o bem acum).

Proaspăt absolvent al universității Oxford, Gosset a fost imediat „botezat” de

către noul său patron cu numele de „studentul”. Monitorizând ingredientele

berii și inventând testele t, „studentul” a văzut ce anume face diferența sem-

nificativă la nivel de calitate. Deoarece procedeul de fabricație – inclusiv

metodele matematice folosite – reprezentau un secret comercial, Gosset a fost

nevoit să publice descoperirea testelor t, în revista Biometrika, nu sub numele

său real ci sub pseudonimul cu care îl gratulase șeful său. Acesta este motivul

pentru care cele mai cunoscute teste statistice de comparație poartă un nume

atât de ciudat.

După ce ne-am relaxat puțin, vom reconsidera exemplul anterior. Stu-

denții universității Ovidius din Constanța consumă, în medie, 1,3 litri de bere

pe zi (µ), iar un eșantion de 34 de studenți la psihologie, consumă, în medie,

2,1 litri de bere zilnic (m), cu o abatere standard de 3,1 litri de bere (s). În

acest caz, valoarea testului t devine:

Această valoare va trebui să o raportăm la valorile de referință din

anexa 4. Deoarece avem un singur eșantion, numărul gradelor de libertate

pentru care vom calcula semnificația testului va fi df=n-1. Având 34 de sub-

iecți, vom căuta pentru un număr de 33 grade de libertate. Totodată, ne amin-

tim că ipoteza alternativă este o ipoteză unilaterală, astfel încât valorile de

referință se vor calcula folosind primul cap de tabel și nu pe cel de-al doilea.

Pentru numărul de grade de libertate dat (33), valoarea de referință a

testului t la un prag de semnificație minim mai mic de 0,05 este de 2,03. Va-

loarea noastră (1,50) este mult mai mică în comparație cu această valoare

prag, testul statistic nefiind semnificativ. Prin urmare, ipoteza nulă nu poate fi

respinsă.

Statistică aplicată în ştiinţele socio-umane

212

II.3.2 Teste pentru două eșantioane independente

Semnificația eșantioanelor independente se păstrează și în cazul teste-

lor statistice parametrice. La fel ca și testele pentru un singur eșantion, și aici

avem un număr de două teste statistice – testul z și testul t Student. Ambele

teste verifică ipoteza nulă conform căreia nu există nicio diferență semnifica-

tivă între mediile celor două populații din care s-au extras eșantioanele.

H0: m1=m2 - Nu există nicio diferență între mediile celor două popu-

lații din care s-au extras eșantioanele (ipoteza nulă);

H1: m1≠m2 - Există o diferență semnificativă între mediile celor două

populații din care s-au extras eșantioanele (ipoteză alternativă bilaterală);

H2: m1>m2 - Media primului eșantion este semnificativ mai mare în

comparație cu media celui de-al doilea eșantion (ipoteză alternativă unilate-

rală).

H3: m1<m2 - Media primului eșantion este semnificativ mai mică în

comparație cu media celui de-al doilea eșantion (ipoteză alternativă unilate-

rală).

II.3.2.1 Testul z pentru eșantioane independente

Testul z se utilizează în momentul în care dispersiile populațiilor din

care au fost extrase eșantioanele sunt cunoscute, numărul de subiecți din fie-

care eșantion fiind, evident, mai mare de 30.

Relația de calcul a acestui test statistic este următoarea:

(formula 2.13)

Semnificația elementelor formulei o cunoașteți deja, astfel încât nu va

trebui să intrăm în detalii. Valoarea calculată, fiind o notă z, se raportează la

distribuția z în funcție de tipul ipotezei alternative.

Cristian Opariuc-Dan

213

Să presupunem că dorim să aflăm dacă studenții universității Ovidius

din Constanța beau mai multă sau mai puțină bere în comparație cu studenții

universității Alexandru Ioan Cuza din Iași.

H0: m1=m2 – Nu există nicio diferență între cantitatea de bere băută de

către studenții universității Ovidius din Constanța și cantitatea de bere băută

de către studenții universității Alexandru Ioan Cuza din Iași.

H1: m1≠m2 – Între cantitatea de bere băută de studenții universității

Ovidius Constanța și cantitatea de bere băută de studenții universității Ale-

xandru Ioan Cuza din Iași există o diferență semnificativă.

În mod cert, ipoteza alternativă este o ipoteză bilaterală, pragurile de

semnificație fiind 1,96 pentru p<0,05 și 2,58 pentru p<0,01. Nu avem nevoie

decât de abaterile standard la nivelul populației pentru a desfășura cercetarea.

Să presupunem că abaterea standard a studenților universității Ovidius este de

1,34 litri de bere, iar cea a studenților universității Alexandru Ioan Cuza este

de 1,76 litri de bere.

Desfășurând cercetarea pe un lot de cercetare de 42 de persoane de la

universitatea Ovidius Constanța, am constatat că media berii consumate este

de 2,10 litri, în timp ce pe lotul de cercetare de 45 de persoane de la Iași, me-

dia a fost de 1,87 litri. Ne punem problema dacă cele două medii diferă sem-

nificativ. Notăm cu m1 media pentru Constanța și cu m2 media pentru Iași,

după care aplicăm formula.

Valoarea obținută este cu mult sub valoarea prag, diferențele dintre

cele două medii sunt nesemnificative, ipoteza nulă nu poate fi respinsă.

Statistică aplicată în ştiinţele socio-umane

214

II.3.2.2 Testul t Student pentru eșantioane independente

La fel ca la testele pentru un singur eșantion, și aici testul z este supus

acelorași limitări. Nu vom reuși aproape niciodată să aflăm abaterea standard

a populațiilor din care provin cele două eșantioane și va trebui să ne bazăm

pe abaterea standard a eșantioanelor. Dacă cele două populații din care au

fost extrase eșantioanele au aceleași varianțe, comparația mediilor se poate

face după următoarea formulă:

(

)

(formula 2.14)

Dacă privim cu atenție formula 2.14, observăm că prima parte de sub

radical nu reprezintă altceva decât media aritmetică a varianțelor celor două

eșantioane. De aceea, formula de mai sus o puteți găsi exprimată și în felul

următor:

√ (

) (formula 2.15)

unde s2 este dispersia întregului lot de cercetare, obținută prin cumu-

larea dispersiilor celor două eșantioane independente.

Formula 2.15 este, în general, mai puțin utilizată în comparație cu

formula 2.14, dintr-un motiv foarte simplu; este mai ușor să calculăm varian-

țele (sau abaterile standard) fiecărui eșantion decât să cumulăm datele celor

două eșantioane și să introducem pași de calcul suplimentari, doar pentru a

calcula varianța totală a celor două eșantioane, așa cum o cere formula 2.15.

În exemplul de mai sus, alături de medii (m1=2,10 litri și m2=1,87 li-

tri) și de numărul de studenți (n1=45 studenți și n2=45 studenți) vom presu-

pune că știm și abaterile standard (s1=0,35 litri și s2=0,98 litri). De fapt,

aceasta este și situația clasică de cercetare. Mult mai ușor aflăm abaterile

standard ale unui eșantion (s) decât abaterile standard ale populației (σ).

Cristian Opariuc-Dan

215

(

)

Valoarea testului t obținută (1,48) o comparăm cu valoarea de referin-

ță din anexa 4. Înainte de a face acest lucru, trebuie să decidem asupra numă-

rului de grade de libertate. Deoarece vorbim despre două eșantioane indepen-

dente, știți deja că fiecare eșantion pierde un grad de libertate. Atunci, numă-

rul total al gradelor de libertate va fi df=n1+n2-2. Adică, în situația noastră, df

va fi 45+45-2=88 grade de libertate.

În tabel, pentru 80 de grade de libertate (valoarea imediat inferioară

valorii căutate), avem, pentru un p<0,05, o valoare a testului t de 1,99 în ca-

zul ipotezei unidirecționale și 1,66 pentru ipoteza bidirecțională. Indiferent de

modul în care formulăm ipoteza, valoarea noastră (1,48) este mai mică decât

valoarea prag. Testul este nesemnificativ, nu există nicio diferență între canti-

tățile de bere consumate de studenții universității Ovidius în comparație cu

cei de la Iași. Asta este situația, nu putem respinge ipoteza nulă, toți studenții

sunt aproximativ la fel sub aspectul consumului de bere.

Referitor la acest test statistic, formula 2.14 sau 2.15 se aplică doar

atunci când dispersiile sunt egale (când s1=s2). Desigur, este aproape imposi-

bil să întâlnim dispersii absolut egale, de aceea egalitatea varianțelor (disper-

siilor) se verifică printr-un alt test statistic (testul F al lui Levene) pe care nu-l

vom detalia acum. Tot ceea ce vă pot spune este că acest test statistic are ca

ipoteză nulă egalitatea varianțelor populațiilor din care au fost extrase eșanti-

oanele (H0: s1=s2=s3=….=sn). Dacă testul nu este semnificativ, atunci nu

respingem ipoteza nulă și putem aplica formulele 2.14 sau 2.15. Dacă testul

Statistică aplicată în ştiinţele socio-umane

216

este semnificativ, atunci varianțele nu sunt egale și va trebui să folosim o altă

formulă, o formulă ajustată pentru testul t Student.

(formula 2.16)

Însăși formula de calcul a testului F al lui Levene – ei bine, cel puțin o

formă prescurtată a sa – este foarte simplă:

. Observați că nu este alt-

ceva decât un raport al celor două varianțe. Acest raport se verifică folosindu-

se distribuția F, distribuție pe care nu o vom trata în acest volum, ci o vom

aborda în următoarea carte, când vom discuta despre analiza de varianță.

În exemplul nostru, evident că cele două varianțe nu sunt egale. Mă

veți crede pe cuvânt atunci când vă voi spune că testul F este semnificativ,

ipoteza nulă a egalității varianțelor fiind respinsă. Atunci, valoarea corectă a

testului t, în cazul nostru, va fi 1,49.

Nu este cine știe ce câștig, este doar o ajustare. Oricum, testul t rămâ-

ne, în continuare, nesemnificativ.

II.3.3 Teste pentru două eșantioane perechi

Eșantioanele perechi, numite și eșantioane corelate sau eșantioane de-

pendente, provin în urma cercetărilor cu măsurări repetate, așa cum deja cu-

noașteți. Literatura de specialitate menționează, pentru eșantioane perechi,

doar testul t Student. Acest test statistic, verifică aceeași ipoteza nulă con-

form căreia nu există nicio diferență semnificativă între mediile celor două

populații din care au fost extrase eșantioanele, distincția realizându-se doar la

nivelul construcției eșantioanelor:

Cristian Opariuc-Dan

217

H0: m1=m2 - Nu există nicio diferență între mediile celor două popu-

lații din care s-au extras eșantioanele perechi (ipoteza nulă);

H1: m1≠m2 - Există o diferență semnificativă între mediile celor două

populații din care s-au extras eșantioanele perechi (ipoteză alternativă bila-

terală);

H2: m1>m2 - Media primului eșantion este semnificativ mai mare în

comparație cu media celui de-al doilea eșantion (ipoteză alternativă unilate-

rală).

H3: m1<m2 - Media primului eșantion este semnificativ mai mică în

comparație cu media celui de-al doilea eșantion (ipoteză alternativă unilate-

rală).

Pentru a nu ne limita la o abordare simplistă, să considerăm următorul

experiment:

Un număr de 15 fumători au participat la o ședință de psihoterapie în

vederea abandonării fumatului. Ne interesează să știm dacă ședința de psiho-

terapie a avut sau nu a avut efect. Prin urmare, ce s-a întâmplat cu numărul

țigărilor fumate de către cei 15 fumători după psihoterapie. Ipoteza nulă ne

spune că ședința de psihoterapie nu are niciun efect. Transpus în termeni ști-

ințifici, avem următoarele posibilități:

H0: m1=m2 – Nu există nicio diferență semnificativă între media țigă-

rilor fumate înainte de ședința de psihoterapie și media țigărilor fumate după

ședința de psihoterapie (ipoteza nulă);

H1: m1≠m2 – Există o diferență semnificativă între media țigărilor fu-

mate înainte de ședința de psihoterapie și media țigărilor fumate după ședința

de psihoterapie (ipoteză alternativă bilaterală);

H2: m1>m2 – Media țigărilor fumate înaintea ședinței de psihoterapie

este semnificativ mai mare în comparație cu media țigărilor fumate după șe-

Statistică aplicată în ştiinţele socio-umane

218

dința de psihoterapie (ipoteză alternativă unilaterală - ședința de psihoterapie

are ca efect creșterea numărului de țigări fumate).

H3: m1<m2 - Media țigărilor fumate înaintea ședinței de psihoterapie

este semnificativ mai mică în comparație cu media țigărilor fumate după șe-

dința de psihoterapie (ipoteză alternativă unilaterală - ședința de psihoterapie

are ca efect scăderea numărului de țigări fumate).

Dacă privim ipotezele

de mai sus, în special cele trei

ipoteze alternative, constatăm

că ne interesează, în special,

ipoteza a treia. Aceasta ar

avea valoare, ar fundamenta

atât efectul ședinței de psiho-

terapie cât și motivația sub-

iecților. Desigur, primul pas îl

reprezintă colectarea datelor.

Vom înregistra numărul de

țigări fumate de cei 15 sub-

iecți, atât înainte, cât și după

ședința de psihoterapie. Re-

zultatele le vom consemna în tabelul 2.15.

După colectarea datelor, efectuăm diferențele dintre situația finală și

situația inițială, aceste diferențe fiind înregistrate cu tot cu semn. La sfârșit,

va trebui să facem suma tuturor diferențelor calculate. Suma, în cazul exem-

plului nostru, este de -283. Ținând cont de specificul cercetării, suma ne spu-

ne că după psihoterapie, subiecții fumează mai puțin cu 283 de țigări. Pare

frumos, însă trebuie să vedem dacă este și semnificativ.

Tabelul 2.15 – Modalitate de calcul pentru testul t Student –

eșantioane dependente

Înainte După După-Înainte (După-Înainte)2

30 18 -12 144

19 16 -3 9

28 20 -8 64

41 21 -20 400

25 14 -11 121

23 12 -11 121

32 11 -21 441

28 10 -18 324

26 5 -21 441

31 12 -19 361

38 11 -27 729

40 4 -36 1296

42 13 -29 841

41 19 -22 484

35 10 -25 625

n=15 ∑dif=-283 ∑dif2=6401

Cristian Opariuc-Dan

219

Ultima etapă de calcul în tabel presupune ridicarea la pătrat a tuturor

diferențelor și calculul sumei acestor pătrate. Suma pătratelor diferențelor

este, pentru studiul propus, de 6401. Imediat vom vedea la ce ne folosește.

Testul t Student pentru eșantioane perechi se calculează după expresia

următoare:

(formula 2.17)

unde mdif reprezintă media diferențelor, iar sdif dispersia acestora

Pentru a calcula valoarea acestui test, nu trebuie decât să aflăm media

și dispersia diferențelor. Media diferențelor este foarte simplu de aflat. Împăr-

țim suma diferențelor la numărul de subiecți. Așadar, înlocuind datele, avem

mdif=-283/15=-18,86.

Pentru a calcula dispersia diferențelor, va trebui să aplicăm o altă

formulă, în acord cu formula de definiție a dispersiei.

( )

(formula 2.18)

Desigur, avem deja toate datele necesare pentru a calcula dispersia di-

ferențelor.

( )

Acum nu rămâne decât să folosim formula testului t Student pentru

eșantioane perechi (formula 2.17)

Statistică aplicată în ştiinţele socio-umane

220

Valoarea lui t (8,41) se raportează la valorile de referință din anexa 4

pentru un număr de n-1 grade de libertate. Din ce motiv folosim n-1 și nu

forma de la eșantioane independente, vă lăsăm pe dumneavoastră să explicați.

Nu uităm faptul că s-a utilizat o ipoteză unilaterală și nu bilaterală.

Pentru 14 grade de libertate, valoarea de referință la nivelul unei ipo-

teze unilaterale și la un p<0,05 este de 2,14, iar pentru p <0,01 este de 2,97.

Testul nostru este semnificativ la un p<0,01, putem respinge ipoteza nulă.

Semnul testului (negativ) arată că scăzând situația „Înainte” din situația „Du-

pă”, obținem un număr cu semnul minus. Asta înseamnă că situația „După”

are valori semnificativ mai mici în comparație cu situația „Înainte”. În cazul

nostru, psihoterapia a avut un efect semnificativ, determinând scăderea sem-

nificativă a numărului de țigări fumate, la un prag de semnificație mai mic de

0,01.

Pentru cei dintre dumneavoastră cărora au început să le placă formule-

le complexe, pentru a-și impresiona prietenii și/sau prietenele, putem combi-

na formulele 2.17 și 2.18 într-o expresie de calcul unică a testului t Student

pentru eșantioane dependente

( )

(formula 2.19)

II.4 Teste statistice de normalitate și teste pentru valori aberante

În cadrul acestui capitol vom discuta despre două categorii specifice

de teste statistice. Este vorba despre testele pentru valori aberante și testele de

normalitate. Explicații detaliate referitoare la fiecare categorie, veți găsi în

subcapitolele adiacente. Dar să începem cu o încălzire ușoară și să abordăm

testele pentru valori aberante.

Cristian Opariuc-Dan

221

II.4.1 Teste pentru valori aberante

Mult timp am stat în dubii referitor la includerea acestor categorii de

teste. Adevărul este că nu le folosește prea multă lume. Decizia de a le trata

aici, a survenit în urma unei discuții cu profesorul Filaret Sîntion, șeful cate-

drei de psihologie de la Universitatea Ovidius din Constanța. Domnia sa mi-a

pus, la un moment dat, o întrebare: „atunci când apar scoruri extreme într-o

distribuție, ce facem cu ele?” Din câte știți deja, pentru a beneficia de supor-

tul și puterea testelor parametrice, vom renunța la subiectul cu acel scor ex-

trem. Totuși acesta să fie răspunsul? Haideți să ne imaginăm un experiment

în care urmărim să investigăm reacția unor subiecți la imagini cu conținut

violent. Variabila dependentă ar fi ritmul cardiac – pulsul în limbaj comun.

Să presupunem că majoritatea subiecților ar avea pulsul între 100 și 110 bătăi

pe minut, cu excepția unui singur subiect, la care pulsul ar fi de 185 de bătăi

pe minut. Desigur, acest scor ar fi un scor extrem, cel puțin la prima vedere.

Acum, revenim la întrebarea profesorului Sîntion; ce facem cu acest subiect?

Îl eliminăm din analiză sau îl tratăm ca un caz de hiperemotivitate și hiper-

sensibilitate? În realitate răspunsul la această întrebare depinde de scopul

cercetării, neexistând soluții universal valabile.

Problema este, însă, alta. Cum decidem dacă un scor este sau nu este

extrem? Până la ce limită putem vorbi de scoruri aberante? În cartea anterioa-

ră ați învățat o metodă grafică pentru depistarea acestor valori. Vă amintiți,

era vorba despre graficul „box-plot”, cutie cu mustăți cum l-am denumit noi.

Desigur, metodele grafice sunt utile în vederea conturării unei păreri subiec-

tive. În statistică avem nevoie, aproape de fiecare dată, nu de păreri subiecti-

ve ci de date obiective, demonstrabile. Iată și rațiunea pentru care există și

teste statistice de depistare a valorilor aberante.

Majoritatea acestor teste au în vedere un șir ordonat de date, iar for-

mulele diferă în funcție de valoarea aberantă testată – dacă această valoare se

situează la limita inferioară a șirului sau la limita superioară a acestuia.

Statistică aplicată în ştiinţele socio-umane

222

II.4.1.1 Testul Romanovski

Este un test pentru valori aberante, aplicabil pe loturi de cercetare de

mici dimensiuni, sub 20 de cazuri. Formulele de calcul pentru acest test sunt

următoarele:

(formula 2.20)

(formula 2.21)

unde xaber reprezintă valoarea aberantă, m reprezintă media valorilor

din șirul de date fără valoarea aberantă iar σ se referă la abaterea standard

a valorilor din șirul de date, de asemenea fără valoarea aberantă.

După cum observați, formulele se aplică diferențiat. Dacă valoarea

aberantă este cea mai mare valoare, se aplică formula 2.20, iar dacă valoarea

aberantă este cea mai mică valoare din șir, se aplică 2.21.

Exemplele de calcul pentru aceste teste nu sunt foarte complexe. Să

presupunem că în urma unui test de inteligență, aplicat unui număr de 18 per-

soane, una dintre persoane a obținut scorul 2. Toate celelalte persoane au

scoruri cuprinse între 15 și 38 de puncte. În prima etapă, excludem persoana

care a obținut scorul 2 și calculăm media și abaterea standard pentru celelalte

17 persoane rămase. Presupunem că media scorurilor este de 23,10 puncte,

iar abaterea standard este 2,13 puncte. Deoarece valoarea 2 este valoarea in-

ferioară din șirul de date, aplicăm formula 2.21 pentru testul Romanovski și

obținem valoarea 9,63

Ipoteza nulă a acestui test statistic postulează că valoarea nu este abe-

rantă. Dacă testul este semnificativ, atunci se respinge ipoteza nulă, valoarea

Cristian Opariuc-Dan

223

testată fiind aberantă. Testul statistic este semnificativ dacă valoarea sa este

mai mare sau egală cu valoarea de referință prezentată în tabelul din anexa

12.

Pentru n=18, valoarea de referință este 2,17 la un prag de semnificație

mai mic de 0,05 și 3,00 pentru un prag de semnificație mai mic de 0,01. În

mod cert, testul nostru este semnificativ la un prag de semnificație mai mic

de 0,01, ipoteza nulă se respinge, valoarea testată (2) fiind o valoare aberantă.

II.4.1.2 Testul Dixon

Este un alt test pentru valori aberante, aplicabil pentru șiruri de până

la 25 de scoruri, bazat pe ordonarea șirului. Dacă valoarea suspectă este cea

mai mică valoare din

șir, șirul se ordonează

crescător. Dacă valoarea

suspectă este cea mai

mare valoare din șir,

șirul se ordonează des-

crescător.

Să presupunem

că avem un șir ordonat

crescător, În acest caz

vom avea valorile x1, x2,

x3, x4, x5 … xn-2, xn-1, xn,

cu proprietatea că x1

este cea mai mică va-

loare din șir (în situația

noastră valoarea suspec-

tă) iar xn este cea mai

mare valoare din șir.

Tabelul 2.16 – Pragurile critice și formulele de calcul pentru testul Dixon

n 0,05 0,01 Formula

3 0,941 0,988

|

| (formula 2.22)

4 0,765 0,889

5 0,642 0,780

6 0,560 0,698

7 0,507 0,637

8 0,554 0,683

|

| (formula 2.23) 9 0,512 0,635

10 0,477 0,597

11 0,576 0,679

|

| (formula 2.24) 12 0,546 0,642

13 0,521 0,615

14 0,546 0,641

|

| (formula 2.25)

15 0,525 0,616

16 0,507 0,595

17 0,490 0,577

18 0,475 0,561

19 0,462 0,547

20 0,450 0,535

21 0,440 0,524

22 0,430 0,514

23 0,421 0,505

24 0,413 0,497

25 0,406 0,489

după (Vasilescu, 1992)

Statistică aplicată în ştiinţele socio-umane

224

Formula se ajustează în funcție de numărul de scoruri.

Dacă avem până la șapte valori în șirul de date, folosim formula 2.22.

Dacă avem de la opt la zece valori, folosim formula 2.23 și așa mai departe,

după cum reiese și din tabelul 2.16.

Ipoteza nulă susține că valoarea testată (x1) nu este aberantă, la fel ca

și testul anterior.

Avem șirul ordonat de date: 1, 9, 15, 18, 23, 17, 29, 30, 32, 32, 33.

Acesta conține un număr de 11 valori, prin urmare vom aplica formula 2.24

pentru a testa valoarea presupusă a fi aberantă, valoarea 1.

|

| |

| |

|

Valoarea de referință pentru un n=11, în tabelul 2.16, este de 0,576 la

un prag de semnificație mai mic de 0,05. Deoarece valoarea noastră (0,451)

este mai mică decât valoarea prag, testul este nesemnificativ, ipoteza nulă nu

se poate respinge. Așadar valoarea 1 nu este o valoare aberantă în șirul nostru

de date.

II.4.1.3 Testul Grubbs

Este un alt test pentru valori

aberante, fiind folosit, de această

dată, pe eșantioane sau loturi de

cercetare de mari dimensiuni (peste

20 de cazuri). Ipoteza nulă a acestui

test susține, la fel ca și pentru cele-

lalte două teste expuse anterior, că

valoarea nu este aberantă,

respingându-se în cazul în care tes-

tul Grubbs este mai mare în compa-

Tabelul 2.17 – Pragurile critice pentru testul Grubbs

n 0,05 0,01 n 0,05 0,01

20 2,557 2,884 85 3,151 3,543

25 2,663 3,009 90 3,171 3,563

30 2,745 3,103 95 3,189 3,582

35 2,811 3,178 100 3,207 3,600

40 2,866 3,240 105 3,224 3,617

45 2,914 3,292 110 3,239 3,632

50 2,956 3,336 115 3,254 3,647

55 2,992 3,376 120 3,267 3,662

60 3,025 3,411 125 3,281 3,675

65 3,055 3,442 130 3,294 3,688

70 3,082 3,471 135 3,306 3,700

75 3,107 3,496 140 3,318 3,712

80 3,130 3,251 145 3,328 3,723

după (Vasilescu, 1992)

Cristian Opariuc-Dan

225

rație cu valorile prag precizate în tabelul 2.17.

Deoarece vorbim despre eșantioane mari, calculul testului Grubbs se

poate efectua doar dacă datele au o distribuție normală, acesta bazându-se pe

medie și abatere standard.

(formula 2.26)

(formula 2.27)

Dacă valoarea testată este cea mai mare din șir, se folosește formula

2.26, iar dacă valoarea testată este cea mai mică din șir, formula 2.27.

Cred că ați observat deja un lucru interesant. Testul Grubbs nu repre-

zintă altceva decât nota z a scorului presupus aberant.

Să considerăm un exemplu, în care un număr de 130 de subiecți au

efectuat un test de atenție. Media scorurilor obținute de cei 130 de subiecți

este m=21,35 puncte iar abaterea standard s=5,41 puncte. Ne întrebăm dacă

scorul maxim x=53 puncte este sau nu un scor aberant.

Pentru că valoarea testată este cea mai mare valoare din șir, aplicăm

formula 2.26 pentru testul Grubbs.

La un număr de 130 de subiecți, valoarea prag pentru un p<0,01 este

de 3,688. Indicatorul obținut de noi depășește cu mult valoarea prag, prin

urmare testul Grubbs este semnificativ la un p<0,01. În acest caz vom respin-

ge ipoteza nulă și vom accepta faptul că valoarea testată este aberantă.

Deoarece testul Grubbs este unul standardizat, pentru eșantioane de

mari dimensiuni se poate realiza compararea cu distribuția t Student la un

număr de n-1 grade de libertate.

Statistică aplicată în ştiinţele socio-umane

226

II.4.2 Teste de normalitate

Se mai numesc teste de concordanță cu repartiția normală și toate fac

același lucru – compară distribuția datelor empirice (a datelor din populația

din care s-a extras eșantionul cercetat) cu distribuția teoretică normală și veri-

fică dacă diferențele dintre acestea sunt sau nu sunt semnificative.

Cu altă ocazie am învățat să analizăm o distribuție și să decidem dacă

este sau nu este normală. Este vorba despre procedeul bazat pe momentele

centrate – analiza simetriei și a boltirii. Aceasta este o metodă excelentă, o

folosesc și eu intens în studiile și cercetările mele. Uneori, însă, avem nevoie

de mai mult, de o demonstrație mai serioasă, de o expresie unică a normalită-

ții unei distribuții. Acum, dacă suntem familiarizați cu analiza diferențelor

statistice, ne va fi mai ușor. Iată de ce se merită să introducem și conceptul de

teste de normalitate.

II.4.2.1 Testul de normalitate χ2

Să nu-mi spuneți că nu v-a fost dor de χ2, că nu vă cred. L-am studiat

la asocierea datelor neparametrice, ne-am lovit de el la diferențele de frecven-

ță între variabile, am văzut că poate funcționa ca test statistic și coeficient de

asociere (contingență), dar să vorbim despre χ2 la distribuția normală, parcă e

prea de tot. Cu toate acestea, iată, χ2 reprezintă unul dintre cele mai serioase

teste de normalitate. Ipoteza nulă susține că distribuția empirică nu diferă de

distribuția normală teoretică și se respinge dacă valoarea χ2 este mai mare

decât pragul de semnificație ales.

Să considerăm că un număr de 486 de studenți au efectuat un test, la

care s-a obținut media m=18,93, abaterea standard s=2,14, cel mai mic scor

fiind 2 iar cel mai mare scor fiind 45. Se pune problema să studiem dacă

această distribuție este sau nu este normală.

În primul rând, să construim distribuția empirică. Practic, avem de

stabilit un număr de clase și de calculat frecvența absolută a fiecărei clase.

Cristian Opariuc-Dan

227

Da, așa este, revenim, iată, la bazele statisticii. Procedura este analogă, doar

că vom folosi media și abaterea standard pentru crearea claselor.

Tabelul 2.18 – Testul de normalitate bazat pe χ2

Clase f zi F(zi) π(zi) f*π(zi) f-ft (f-ft)2 (f-ft)

2/ft

Clasa 1 (i=1)

< m-2,5s

< 13,58

1 -2,5 0,0062 0,0062 0,0062 0,9938 0,98763844 159,296523

Clasa 2 (i=2)

(m-2,5s…m-2s]

13,58-14,65

4 -2 0,0228 0,0166 0,0664 3,9336 15,473209 233,030255

Clasa 3 (i=3)

(m-2s…m-1,5s]

14,66-15,72

15 -1,5 0,0668 0,044 0,66 14,34 205,6356 311,569091

Clasa 4 (i=4)

(m-1,5s…m-1s]

15,73-16,79

49 -1 0,1587 0,0919 4,5031 44,4969 1979,97411 439,691348

Clasa 5 (i=5)

(m-1s…m-0,5s]

16,80-17,86

65 -0,5 0,3085 0,1498 9,737 55,263 3053,99917 313,648883

Clasa 6 (i=6)

(m-0,5s…m]

17,87-18,93

104 0 0,5000 0,1915 19,916 84,084 7070,11906 354,99694

Clasa 7 (i=7)

(m…m+0,5s]

18,94-20,00

97 +0,5 0,6915 0,1915 18,5755 78,4245 6150,4022 331,102915

Clasa 8 (i=8)

(m+0,5s…m+1s]

20,01-21,07

87 +1 0,8413 0,1498 13,0326 73,9674 5471,17626 419,806966

Clasa 9 (i=9)

(m+1s…m+1,5s]

21,08-22,14

38 +1,5 0,9332 0,0919 3,4922 34,5078 1190,78826 340,985127

Clasa 10 (i=10)

(m+1,5s…m+2s]

22,15-23,21

18 +2 0,9772 0,044 0,792 17,208 296,115264 373,882909

Clasa 11 (i=11)

(m+2s…m+2,5s]

23,22-24,28

5 +2,5 0,9938 0,0166 0,083 4,917 24,176889 291,287819

Clasa 12 (i=12)

> m+2s

> 24,28

3 +3 0,9987 0,0049 0,0147 2,9853 8,91201609 606,259598

TOTAL 486 4175,55837

Există mai multe variante de lucru. Cea mai comodă variantă este să

lucrăm cu intervale având dimensiunea de jumătate de abatere standard. Exis-

Statistică aplicată în ştiinţele socio-umane

228

tând șase abateri standard într-o distribuție normală, vor rezulta un număr de

12 clase.

Prima clasă va conține scorurile mai mici decât media minus 2,5 aba-

teri standard. A doua clasă cuprinde scorurile cuprinse între media minus 2,5

abateri standard și media minus 2 abateri standard. Clasa a treia se referă la

scoruri cuprinse între media minus 2 abateri standard și media minus 1,5 aba-

teri standard și așa mai departe, după cum puteți vedea în tabelul 2.18.

După construcția claselor, stabilim, evident, frecvențele absolute la

nivelul fiecărei clase. Urmează calcului variabilei normale z, pentru fiecare

dintre cele 12 clase, după expresia următoare

(formula 2.28)

Este formula clasică de calcul a notelor z, unde lsup(i) se referă la limita

superioară a clasei i. Pentru prima clasă, am avea:

A doua clasă ar deveni:

Continuați până când stabiliți variabilele normale pentru toate cele 12

clase. Observați că, în realitate, nici nu ar fi fost nevoie să calculați. Notele z

nu reprezintă decât fracțiunea cu care s-a multiplicat abaterea standard la li-

mita superioară a fiecărei clase.

Deoarece vom dori să comparăm această distribuție cu distribuția teo-

retică – normală în cazul nostru – avem nevoie de probabilitățile teoretice

pentru fiecare valoare z, pe care le vom nota cu F(z). Aceste valori sunt obți-

nute din valorile funcției Laplace. Despre această funcție nu vom discuta,

deoarece depășim cu mult contextul materialului. Funcția F(z) Laplace este

Cristian Opariuc-Dan

229

prezentată în tabelul din anexa 13, tabel care ne ajută să extragem probabili-

tățile teoretice pentru fiecare scor z. Înainte de a efectua calculele, se impune

totuși să precizăm că dacă scorul z este negativ, atunci F(-z)=1 – F(z). Adică,

pentru a calcula un scor z negativ, trebuie să scădem din valoarea 1, valoarea

F(z) din tabel pentru acel scor. Vedem imediat cum se procedează.

Prima clasă are z=-2,5. În tabelul din anexa 13, pentru un z=2,5 avem

F(z)=0,9938. Cum însă z este negativ, obținem F(z)=1 – 0,9938, adică 0,0062.

A doua clasă are z=-2. În tabelul din anexa 13 avem pentru un z=2, valoarea

0,9772. Din aceleași motive, obținem F(z)=1 – 0,9772=0,0228. La fel proce-

dăm cu toate clasele, până la clasa a șasea.

Pentru clasa a șasea, unde avem z=0, F(z)=0,5000. Deoarece z nu mai

este negativ, aceasta este și valoarea căutată. La fel, clasa a șaptea, unde

F(z)=0,6915.

Totuși, până acum nu am stabilit decât probabilitățile teoretice cumu-

late pentru distribuția noastră, deoarece funcția Laplace este, după cum am

spus, o funcție cumulativă. Am fi mai curând interesați de probabilitățile teo-

retice efective, nu de cele cumulate. Din fericire, acest lucru este simplu de

aflat. Nu avem decât să scădem din probabilitatea teoretică cumulată a unei

clase, probabilitatea teoretică cumulată a clasei anterioare și iată, am obținut

probabilitățile teoretice efective pentru fiecare dintre clase. Așadar, vom avea

o nouă coloană în tabelul 2.18, coloana π(zi) unde:

(formula 2.29)

Pentru prima clasă nu avem o clasă anterioară, așadar π(zi)=0,0062. A

doua clasă va fi π(zi)=0,0228-0,0062=0,0166. Pentru a treia clasă vom avea

π(zi)=0,0668-0,0228=0,0440 și așa mai departe. După calculul probabilități-

lor teoretice efective, urmează să înmulțim frecvența absolută a fiecărei clase

cu probabilitatea teoretică efectivă (f*π(zi)). Această valoare o putem denumi

Statistică aplicată în ştiinţele socio-umane

230

frecvență teoretică și o notăm cu ft. Având aceste elemente, putem acum trasa

formula de calcul pentru χ2 atunci când efectuăm testul de normalitate:

(formula 2.30)

Destul de simplu. Din formulă mai rezultă câțiva pași. Să facem dife-

rențele dintre frecvența observată și frecvența teoretică, să ridicăm la pătrat

aceste diferențe și apoi să împărțim pătratele la frecvența teoretică. În final

efectuăm suma acestor rezultate și obținem valoarea pentru χ2. Valoarea

noastră este foarte mare. Am obținut χ2=4175,55. Această valoare o vom

compara cu valoarea de referință pentru un număr de k-3 grade de libertate,

deoarece avem doi parametri – media și abaterea standard. În situația noastră,

valoarea indicatorului este comparată la 12-3=9 grade de libertate. La un prag

de semnificație mai mic de 0,01, valoarea de referință este de 21,665. Valoa-

rea obținută este mult mai mare decât valoarea prag, testul este semnificativ

la un prag de semnificație mai mic de 0,01, vom respinge ipoteza nulă. Cu

alte cuvinte, distribuția empirică diferă semnificativ de distribuția teoretică

normală. Pe scurt, datele noastre nu se distribuie normal.

Folosind această metodă putem compara o distribuție empirică nu

numai cu distribuția normală, dar și cu alte distribuții, precum distribuția Po-

isson, binomială, etc.

II.4.2.2 Testul de normalitate Shapiro-Wilk

Are la bază aceeași ipoteză nulă, conform căreia distribuția empirică

nu diferă de distribuția normală. Testul se folosește, în general, pentru eșanti-

oane care nu depășesc 50 de subiecți, în timp ce testul χ2 se pretează foarte

bine la eșantioane de mari dimensiuni. Formula de calcul pentru testul

Shapiro-Wilk este următoarea:

Cristian Opariuc-Dan

231

(formula 2.31)

unde b este o estimație liniară a abaterii standard, care se calculează

în baza valorilor ordonate din șirul de date

Să presupunem un număr de 10 măsurători, după cum urmează: 190,

250, 200, 330, 280, 260, 270, 240, 290, 220. Desigur, acest exemplu are un

caracter pur didactic, deoarece este absurd să vorbim despre o distribuție

normală la doar 10 scoruri. Pentru a calcula valoarea testului Shapiro-Wilk,

trebuie să ordonăm crescător șirul de date. Acesta va deveni:

190, 200, 220, 240, 250, 260, 270, 280, 290, 330

Pentru a stabili estimația liniară a abaterii standard, avem nevoie de

valoarea kmax care se calculează aproximativ la fel ca și poziția medianei. Da-

că șirul de date este par, atunci kmax=n/2, iar dacă este impar, kmax=

n-1/2. Ei

bine, dacă vă mai aduceți aminte, poziția medianei se calculează puțin diferit,

de aceea am afirmată că procedeul este aproximativ la fel și nu identic.

Șirul nostru fiind unul par, kmax=10

/2=5. Urmează construirea unui ta-

bel special necesar stabilirii valorii estimației liniare a abaterii standard, după

cum urmează în tabelul 2.19.

În primul rând, formăm co-

loana XI pentru fiecare valoare a lui

k. Practic, această coloană este for-

mată din primele k numere ordonate

crescător – în cazul nostru, primele 5

numere. Coloana XII este formată din

ultimele k numere – 5 numere în

cazul nostru – de data aceasta ordonate descrescător. Vom avea, în situația

noastră, pentru fiecare valoare a lui k de la 1 la 5, șirul XI=190, 200, 220, 240

și 250, și XII=330, 290, 280, 270 și 260. Urmează construcția coloanei Wk,

Tabelul 2.19 – Calcului estimației b pentru testul Shapiro-Wilk

k xI xII Wk a Wk*a

1 190 330 140 0,5739 80,346

2 200 290 90 0,3291 29,619

3 220 280 60 0,2141 12,846

4 240 270 30 0,1224 3,672

5 250 260 10 0,0399 0,399

126,882

Statistică aplicată în ştiinţele socio-umane

232

unde Wk nu este altceva decât diferența dintre al doilea și primul șir. Adică,

Wk=XII-XI.

Coeficientul a se extrage din tabelul din anexa 14, pentru diferitele

valori ale lui n și k. În cazul nostru, n=10 și, evident, k=5. Ne deplasăm în

tabel pe coloana numărul 10 (corespunzătoare lui n) și vom avea pentru k=1,

un coeficient a=0,5739. Pentru k=2 avem a=0,3291 și așa mai departe. Copi-

em acești coeficienți în coloana corespunzătoare din tabelul 2.19. Urmează

apoi să înmulțim, pentru fiecare k, coloana Wk și coloana a, rezultatele fiind

trecute într-o ultimă coloană din tabel. Însumând toate aceste produse, obți-

nem expresia estimării liniare a abaterii standard (b), în situația noastră aceas-

ta fiind 126,882.

Restul procesului este foarte simplu și nu îl vom detalia. Este necesar

să calculăm media celor 10 scoruri (m=253 în cazul de față), apoi să scădem

fiecare scor din medie, la fel ca la calculul varianței, (xi-m), să ridicăm la pă-

trat aceste diferențe (xi-m)2 și, în final, să facem suma acestor pătrate. Pentru

exemplul nostru, suma pătratelor diferențelor este 16410. Având toate datele,

putem înlocui acum în formulă:

Valoarea testului Shapiro-Wilk o raportăm la pragurile de semnifica-

ție din tabelul din anexa 15. Pentru n=10, pragul de semnificație la un p<0,05

este de 0,842, iar la un p<0,01 este de 0,781. Deoarece valoarea testului este

mai mare de 0,842, testul este nesemnificativ, ipoteza nulă nu se respinge și,

prin urmare, distribuția poate fi considerată o distribuție normală. Aveți grijă

la interpretare. De această dată, testul este semnificativ dacă valoarea sa este

mai mică decât valoarea prag.

Cristian Opariuc-Dan

233

II.4.2.3 Testul momentelor centrate

Cred că mai rețineți analiza simetriei și a boltirii. Am vorbit despre

aceste elemente într-o lucrare anterioară. Totodată, am văzut atunci câteva

metode prin care putem analiza normalitatea distribuției plecând de la acești

coeficienți. Metodele tratate atunci sunt bune, însă de cele mai multe ori

avem nevoie de un plus de precizie, mai exact de o standardizare a acelor

coeficienți. Ce standardizare poate fi mai bună decât calculul scorurilor z ale

acestor coeficienți? Într-adevăr, acest test face exact transformarea coeficien-

ților de simetrie și boltire β1 și β2 în formele lor standardizate.

Ipoteza nulă este aceeași, conform căreia repartiția datelor este norma-

lă și se respinge dacă cel puțin una dintre valorile z ale celor doi coeficienți

este mai mare decât valoarea critică pentru pragul de semnificație ales. Con-

versia acestor coeficienți se poate face după următoarele expresii:

√| |

(formula 2.32)

(

)√

(formula 2.33)

Să presupunem că o cercetare efectuată pe un număr de 853 de stu-

denți, cărora li s-a înregistrat greutatea, a condus la o distribuție având coefi-

cientul de simetrie β1=-0,46 și coeficientul de boltire β2=0,87. Să se decidă

dacă datele empirice se distribuie sau nu normal.

Statistică aplicată în ştiinţele socio-umane

234

(

)√

(

)√

Știm deja că pragul critic la un p<0,05 este de 1,96 iar la un p<0,01

este de 2,28. Coeficientul de boltire (0,43) este mai mic decât 1,96, prin ur-

mare distribuția poate fi considerată mezocurtică. Simetria însă (8,11) depă-

șește cu mult pragul critic 2,28 pentru un p<0,01. Așadar, distribuția nu este

simetrică, ci asimetrică negativ, cu tendințe către valori mari ale greutății.

Înainte de a încheia acest capitol și de a trece la activitățile practice

utilizând SPSS, va trebui să facem o serie de precizări privind interpretarea

testelor statistice. Desigur, nu am epuizat subiectul testelor statistice de nor-

malitate. Există, spre exemplu, și alte teste de acest tip: d’Agostino, Kolmo-

gorov-Smirnov etc. Noi le-am prezentat pe cele mai folosite.

II.5 Interpretarea testelor statistice

Testele statistice fac parte din categoria procedeelor statistice inferen-

țiale. Testarea ipotezelor statistice reprezintă, alături de estimarea parametri-

lor statistici, una dintre principalele aspecte ale inferenței statistice (Sava,

2004). Atunci când testăm ipotezele în cadrul unei cercetări științifice, avem

în vedere trei dimensiuni principale (Sava, 2004):

Analiza datelor empirice;

Realizarea, pe baza datelor, a unor inferențe logice;

Menținerea unei atitudini sceptice legate de concluziile obținu-

te.

Cristian Opariuc-Dan

235

Atunci când vorbea despre teoriile științifice, marele Albert Einstein

făcea o afirmație pertinentă în care putem regăsi, de fapt, întregul spirit al

demersului științific: „Oamenii de știință nu sunt de invidiat. Natura, sau mai

exact, experimentul este un judecător neprietenos și inexorabil al muncii

cercetătorului. Niciodată nu îi spune „Da” teoriei acestuia. În cele mai favo-

rabile cazuri îi spune „Poate”, iar în majoritatea cazurilor îi spune „Nu”.

Dacă experimentul sprijină o teorie, pentru aceasta înseamnă „Poate”, iar

dacă nu sprijină înseamnă ”Nu”. Probabil că orice teorie va experimenta

într-o bună zi pe „Nu” – cele mai multe chiar imediat după conceperea lor.”

(Sava, 2004).

Ținând cont de citatul de mai sus, chiar cu riscul de a ne repeta, vom

efectua, în cele ce urmează, o serie de observații referitoare la ipoteza nulă:

atunci când folosim testele statistice, întotdeauna verificăm

ipoteza nulă, niciodată cea experimentală. De asemenea, ple-

căm de la premiza că ipoteza nulă este adevărată. Doar printr-

un asemenea algoritm putem asigura respectarea demersului

științific;

analizând ipoteza nulă, trebuie să menționăm că, după verifi-

care, aceasta nu poate fi adevărată sau falsă. Singurul lucru pe

care îl putem face cu ipoteza nulă este să o respingem sau să

nu o respingem. Ipoteza nulă nu poate fi confirmată sau infir-

mată. Afirmații precum „ipoteza nulă este falsă” sau „testul nu

este semnificativ, deci se confirmă ipoteza nulă” sunt afirmații

eronate, deși frecvent întâlnite printre începători. În realitate,

putem spune doar că „respingem ipoteza nulă” sau „nu respin-

gem ipoteza nulă”;

desigur, respingerea unei ipoteze nule se face în baza unui

prag de semnificație. De obicei, pragul de semnificație este cel

Statistică aplicată în ştiinţele socio-umane

236

postulat de Fisher și corespunde, în științele sociale, unei va-

lori mai mici de 0,05. Dacă respingem ipoteza nulă, nu în-

seamnă că aceasta nu se poate, la un moment dat, susține.

Acest prag de semnificație nu spune decât probabilitatea cu

care am obține, întâmplător, datele observate, pornind de la

ideea că ipoteza nulă este adevărată. Atât și nimic mai mult;

în general, folosim teste statistice pentru a extinde cunoștințele

dobândite prin studiul unui eșantion la nivelul întregii popula-

ții. De aceea, asemenea procedee se numesc procedee statistice

inferențiale. În asemenea condiții, este importantă reprezenta-

tivitatea eșantionului. Dacă eșantionul este redus ca dimensi-

uni, există o probabilitate foarte mare să nu obținem niciun re-

zultat semnificativ, deși poate că relația există la nivelul popu-

lației. Cu alte cuvinte, cu cât eșantionul este mai mic, cu atât

crește probabilitatea de a obține un rezultat nesemnificativ.

Nici eșantioanele foarte mari nu ne sunt utile, deoarece la vo-

lume foarte mari ale unui eșantion, crește probabilitatea de a

găsi un rezultat semnificativ, chiar dacă acest de fapt nu există

la nivelul populației. Soluția o reprezintă un eșantion reprezen-

tativ, de dimensiuni moderate.

Atunci când raportăm rezultatele unui test statistic, ne interesează câ-

teva elemente:

În primul rând, semnificația. Vom considera testul ca fiind

semnificativ, dacă pragul de semnificație este mai mic de 0,05.

Despre aceste lucruri am discutat pe larg, deci nu vom mai in-

sista;

În al doilea rând, semnul sau sensul. Acest element este util

în cazul ipotezelor unidirecționale. De exemplu, dacă una din-

Cristian Opariuc-Dan

237

tre ipotezele experimentale afirmă că „există o diferență sem-

nificativă între bărbați și femei sub aspectul anxietății, în sen-

sul că bărbații sunt mai puțin anxioși în comparație cu femei-

le”, aceasta ar putea fi susținută numai în condițiile în care, la

comparația mediei obținute de către bărbați la anxietate cu cea

obținută de către femei, se obține un test semnificativ, negativ

(adică media bărbaților este mai mică în comparație cu media

femeilor);

Gradele de libertate reprezintă o expresie a volumului eșan-

tionului studiat, raportarea lor fiind obligatorie;

De exemplu, s-a realizat o cercetare pe un număr de 438 de studenți,

pornindu-se de la ipoteza nulă că nu există nicio diferență între bărbați și fe-

mei cu privire la emotivitatea din timpul examenelor. După colectarea notelor

obținute de cei 438 de studenți la un inventar de emotivitate, s-au comparat

mediile scorurilor obținute de către bărbați cu media scorurilor obținute de

către femei, folosindu-se testul t Student pentru eșantioane independente. A

rezultat t=-48,46, la un prag de semnificație p<0,01. Vă întreb care este mo-

dalitatea corectă de raportare a acestui studiu? Iat-o!

Există o diferență semnificativă între bărbați și femei sub aspectul

emotivității din timpul examenelor (t(436)=48,46; p<0,01) în sensul că emoti-

vitatea femeilor este semnificativ mai ridicată în comparație cu emotivitatea

bărbaților. Prin urmare, respingem ipoteza nulă și putem susține ipoteza de

cercetare conform căreia diferențele dintre bărbați și femei sub aspectul

emotivității din timpul examenelor sunt semnificative.

În formularea de mai sus am atins, după cum se poate observa, toate

punctele importante ale raportării rezultatelor unui test statistic. Deși pentru

cei mai mulți dintre dumneavoastră expresia de mai sus pare suficientă, mai

Statistică aplicată în ştiinţele socio-umane

238

există un element extrem de important care trebuie precizat. Este vorba de-

spre mărimea efectului.

II.5.1 Puterea testului și mărimea efectului

Înainte de a începe discuția legată de mărimea efectului și puterea tes-

telor statistice, voi relua un exemplu prezentat într-o lucrare anterioară

(Opariuc-Dan, 2009).

A fost odată un împărat care avea obiceiul să poarte multe războaie.

Înainte de a merge la război, împăratul nostru îl chema pe vrăjitorul curţii şi îl

punea să-i prezică soarta bătăliei. De fiecare dată, bietul vrăjitor era în mare

impas, deoarece, dacă greşea previziunea, risca să-şi piardă capul, cum o pă-

ţiseră mulţi alţii înaintea lui. Totuşi, vrăjitorul avea mulţi ani de când îşi păs-

tra capul pe umeri, iar predicţiile acestuia, uneori, se dovedeau a fi adevărate.

Întrebarea mea este cum proceda? Foarte simplu. Vrăjitorul avea ceva noţiuni

legate de probabilităţi şi de verificarea ipotezelor şi, înaintea bătăliei, îşi for-

mula ipotezele, apoi construia un tabel similar tabelului de mai jos:

H1: Prevăd că măria sa va câştiga bătălia

H0: Prevăd că măria sa nu va câştiga bătălia

Ce se întâmplă în urma bătăliei

Câştigă Pierde

Ce a prevăzut

că se întâmplă

Câştigă

OK

p= 1-α

Caracteristica testului

Eroare tip I

p=α

Pragul de semnificaţie

Pierde Eroare tip II

p=β

OK

p=1-β

Puterea testului

Să analizăm acum tabelul de mai sus. Observăm că există un număr

de patru situaţii:

Vrăjitorul a prezis că împăratul va câştiga bătălia şi împăratul

a câştigat-o. Vrăjitorul respinge ipoteza nulă şi susţine ipoteza

Cristian Opariuc-Dan

239

alternativă, deoarece probabilitatea de a nu câştiga bătălia era

foarte mică. Celălalt împărat avea probabil un număr mic de

oameni şi o tehnică de luptă net inferioară. Vrăjitorul a obţinut

o nouă avere şi respectul împăratului;

Vrăjitorul a prezis câştigarea bătăliei şi împăratul a pierdut-o.

S-a comis astfel o eroare de tip I, respingându-se ipoteza nulă

când, de fapt, ar fi trebuit să nu fie respinsă. Pragul de semni-

ficaţie a fost probabil apropiat de limită (0,05), însă vrăjitorul

a riscat. Şi-a pierdut şi averea şi capul. Este cea mai gravă

eroare pe care o poate face. Probabil că s-a bazat pe faptul că

celălalt împărat are puţini oameni şi o tehnică de luptă inferi-

oară, însă l-au dezinformat spionii şi a subapreciat fanatismul

ostaşilor;

Vrăjitorul a prezis pierderea bătăliei şi împăratul a câştigat-o.

S-a comis acum o eroare de tip II, nerespingând ipoteza nulă

în condiţiile în care ar fi trebuit respinsă. În bucuria victoriei,

împăratul s-ar putea să-i cruţe capul vrăjitorului, însă va pierde

respectul şi o parte din avere. Vrăjitorul nu a vrut să rişte, de-

oarece cunoştea fanatismul luptătorilor celuilalt împărat;

Vrăjitorul a prezis pierderea bătăliei şi împăratul a pierdut-o.

Din fericire, şi-a păstrat şi capul şi averea, deoarece a avut în-

ţelepciunea că calculeze puterea unui test statistic, adică

probabilitatea de a respinge ipoteza nulă atunci când ea este

falsă.

După cum observați, pragul de semnificație nu ne arată decât dacă

avem de a face cu o diferență semnificativă – sau, în cazul corelațiilor, cu o

asociere semnificativă. Acesta nu ne spune care este mărimea acestei diferen-

țe. Pragul de semnificație micșorează riscul de a se comite erori de tip I, erori

Statistică aplicată în ştiinţele socio-umane

240

în care am respinge ipoteza nulă în condițiile în care aceasta nu ar trebui să

fie respinsă. Cu alte cuvinte, îl ferește pe vrăjitor să prezică faptul că împăra-

tul va câștiga bătălia, în condițiile în care ar putea să o piardă. Desigur, acesta

este, poate, cel mai important element al unui test statistic, însă nu este singu-

rul. Avem nevoie să știm și dimensiunea acestei diferențe, element pe care ni-

l furnizează mărimea efectului.

Iată un exemplu. Să presupunem că studiem efectul unui tratament

asupra abandonului fumatului. Știți deja exemplul, astfel încât nu vom mai

insista asupra lui. Obținem, în final, o diferență semnificativă în sensul că

subiecții, după tratament, fumează un număr semnificativ mai mic de țigări.

Atât ne spune pragul de semnificație. Deocamdată nu știm dacă cei care au

fumat 40 de țigări pe zi fumează acum 3 țigări pe zi sau fumează 38 de țigări

pe zi. Cu alte cuvinte, nu știm cât de mare este efectul tratamentului ci doar

că acel tratament are un efect semnificativ. Iată că studiul mărimii efectului

are o importanță aproape la fel de mare ca și studiul semnificației acestuia.

Există un număr destul de mare de indicatori pentru mărimea efectului

și, în general, aceștia se împart în două mari categorii:

Indicatori calculați în baza diferenței standardizate între medii

(indicele d al lui Cohen, coeficientul Δ al lui Glass, coeficien-

tul g al lui Hedges etc.);

Indicatori calculați pe baza procentului de varianță explicată

(r, r2, η

2, ω

2 etc.).

II.5.1.1 Indicatori ai mărimii efectului pentru date neparame-

trice

Din nefericire, testele neparametrice sunt recunoscute prin puterea lor

redusă. Majoritatea indicatorilor pentru mărimea efectului se bazează pe date

continui și nu pe date situate la un nivel de măsură ordinal sau nominal. To-

tuși, există un număr de doi indicatori statistici ai mărimii efectului pentru

Cristian Opariuc-Dan

241

date neparametrice, unul pentru χ2 (după Rosenthal, Rosnow și Rubin) (Sava,

2004) iar celălalt pentru date ordinale – coeficientul δ propus de Cliff.

Estimarea mărimii efectului pentru χ2 atunci când există doar un sin-

gur grad de libertate se poate face prin intermediul coeficientului de determi-

nare r2, după expresia:

(formula 2.34)

În formula 2.34, la numărător avem valoarea testului χ2 pentru un sin-

gur grad de libertate, iar la numitor regăsim numărul de cazuri observate.

În exemplul de la capitolul II.2.1 am pornit de la ipoteza nulă conform

căreia nu există nicio diferență semnificativă între blonde și brunete referitor

la producerea accidentelor rutiere. Am aplicat atunci testul χ2 obținând o dife-

rență nesemnificativă la un singur grad de libertate. Valoarea testului a fost

de 2,75, la un număr n=94 de femei studiate.

Dacă testul ar fi fost semnificativ, am putea calcula mărimea efectului

pe baza expresiei de mai sus:

Într-adevăr, coeficientul de determinare este foarte mic, efectul este

scăzut, aproape inexistent, lucru perfect normal, deoarece și testul χ2 nu este

semnificativ.

Ca repere pentru coeficientul de determinare r2, vom avea:

Pentru r2 mai mic de 0,01 nu există niciun efect;

Pentru r2 cuprins între 0,01 și 0,05 efectul este scăzut;

Pentru r2 cuprins între 0,06 și 0,14 avem de a face cu un efect

mediu, moderat;

Statistică aplicată în ştiinţele socio-umane

242

Pentru r2 mai mare de 0,14 avem de a face cu un efect puternic

Atunci când datele se află la un nivel ordinal, nu mai putem folosi co-

eficientul de determinare exprimat anterior. O măsură alternativă pentru aces-

ta este reprezentată de coeficientul delta (δ) propus de Cliff în anul 1993.

Acest coeficient testează echivalența probabilității ca scorurile dintr-un grup

să fie mai mari decât scorurile din celălalt grup și se bazează pe conceptul de

dominanță. Formula de calcul a coeficientului δ este următoarea:

( )

(formula 2.35)

Pare complicat, dar nu este chiar așa. Practic #Xi1>Xj2 reprezintă nu-

mărul de comparații între observațiile dintre cele două grupuri, atunci când

numărul de observații din primul grup este mai mare decât numărul de obser-

vații din al doilea grup.

Să considerăm un exemplu simplu pentru a lămuri formula de calcul.

O cercetare efectuată pe bărbații și femeile dintr-o unitate militară pleacă de

la ipoteza nulă conform căreia nu există nicio diferență între bărbați și femei

sub aspectul gradelor militare de ofițeri. Desigur, ne situăm la un nivel pur

ordinal, unde am notat cu 1 – locotenentul, 2 – căpitanul, 3 – maiorul, 4 –

locotenent colonelul și 5 – colonelul. Datele noastre sunt următoarele

Bărbați: 1, 1, 2, 2, 2, 3, 3, 3, 4, 5 n1=10

Femei: 1, 2, 3, 4, 4, 5 n2=6

Pentru a ușura lucrul, am ordonat deja datele noastre. Urmează con-

strucția așa-numitei matrice de dominanță. În primul rând, construim un tabel

similar tabelului 2.20. Pe coloane trecem una dintre variabile iar pe linii cea-

laltă variabilă. Regula de completare a matricei de dominanță este simplă. O

celulă poate lua valoarea +1 dacă valoarea la nivel de linie este mai mare

decât valoarea la nivel de coloană, 0 dacă cele două valori sunt la fel și -1

dacă valoarea de pe linie este mai mică decât valoarea de pe coloană.

Cristian Opariuc-Dan

243

Tabelul 2.20 – Calculul matricei de dominanță

Bărbați Femei

1 2 3 4 4 5 di

1 0 -1 -1 -1 -1 -1 -0,833

1 0 -1 -1 -1 -1 -1 -0,833

2 1 0 -1 -1 -1 -1 -0,500

2 1 0 -1 -1 -1 -1 -0,500

2 1 0 -1 -1 -1 -1 -0,500

3 1 1 0 -1 -1 -1 -0,167

3 1 1 0 -1 -1 -1 -0,167

3 1 1 0 -1 -1 -1 -0,167

4 1 1 1 0 -1 -1 0,333

5 1 1 1 1 1 0 0,833

dj 0,8 0,3 -0,3 -0,7 -0,7 -0,9 δ=-0,250

Pentru prima linie, valoarea pentru bărbați (1) este egală cu prima co-

loană, valoarea pentru femei (1). La nivelul acestei celule, dominanța ia va-

loarea 0. Tot la prima linie, valoarea pentru bărbați (1) este mai mică decât

valoarea pentru femei (2). Atunci celula ia valoarea -1 și așa mai departe,

după regula expusă, până la completarea întregii matrice de dominanță.

În următorul pas, facem media dominanțelor atât pe linie cât și pe co-

loană. Astfel, pentru prima linie vom avea 0-1-1-1-1-1=-5, apoi -1/6=-0,833.

Veți continua la fel pentru toate liniile și toate coloanele, așa cum observați în

tabelul 2.20.

Înainte de a aplica formula, calculăm indicii di și dj. Aceștia nu repre-

zintă altceva decât suma mediilor dominanțelor. Adunați, așadar, toate valori-

le de pe ultima coloană și veți obține di=-2,50. Apoi adunați toate valorile de

pe ultima linie și veți obține dj=-1,50. Valoarea pe care o reținem este valoa-

rea cea mai mare luată în modul. Deoarece 2,50 este mai mare decât 1,50,

reținem 2,50. Pentru a obține coeficientul δ este suficient să facem media

valorilor însumate pentru cea mai mare dominanță. Deoarece cea mai mare

sumă a fost 2,50, obținută pentru cei 10 bărbați, vom avea -2,50/10=-0,250.

Prin urmare, δ=-0,250.

Acest indicator ia valori cuprinse între -1 (atunci când toate observați-

ile din primul grup sunt mai mari decât observațiile din cel de-al doilea grup)

Statistică aplicată în ştiinţele socio-umane

244

și +1 (atunci când toate observațiile din primul grup sunt mai mici decât ob-

servațiile din al doilea grup). Valoarea 0 arată că observațiile din cele două

grupuri sunt perfect identice. Interpretarea acestui coeficient ca măsură a mă-

rimii efectului, va ține cont de următoarele repere:

Pentru un δ mai mic de 0,147, nu există niciun efect;

Pentru δ cuprins între 0,147 și 0,33, efectul este scăzut;

Pentru δ cuprins între 0,33 și 0,474, efectul este unul mediu,

moderat;

Pentru δ mai mare de 0,474, efectul este puternic.

În cazul nostru, am obținut un efect scăzut. Putem suspecta și existen-

ța unei diferențe semnificative între bărbați și femei în raport cu atribuirea

gradelor militare. Ca exercițiu, vă revine dumneavoastră sarcina să alegeți

testul statistic adecvat și să verificați dacă, într-adevăr, există o asemenea

diferență semnificativă, apoi să decideți ce faceți cu ipoteza nulă.

II.5.1.2 Indicatori ai mărimii efectului pentru date parametrice

Pentru date parametrice suntem, din fericire, posesorii unui număr

destul de mare de indicatori ai mărimii efectului. Poate cel mai folosit coefi-

cient este coeficientul de determinare, r2, indicator cu aceeași semnificație

interpretativă ca și varianta lui folosită la analiza efectului în cazul testului χ2.

(formula 2.36)

unde t reprezintă valoarea testului t Student, iar df se referă la numă-

rul gradelor de libertate.

În exemplul din capitolul II.3.2.2 am dorit să aflăm dacă există dife-

rențe semnificative între cantitatea de bere băută de către studenții universită-

ții Ovidius din Constanța, în comparație cu studenții universității Alexandru

Cristian Opariuc-Dan

245

Ioan Cuza din Iași. Obținusem un t(88)=1,48, testul fiind nesemnificativ. Adi-

că nu există diferențe semnificative între studenții celor două universități, sub

aspectul consumului de bere. Dacă ar fi existat diferențe semnificative, ar fi

trebuit să calculăm și mărimea efectului.

Desigur, nu ne așteptam la existența vreunui efect. Conform principii-

lor interpretative ale acestui coeficient, efectul este scăzut.

Corespondentul coeficientului de determinare este coeficientul de co-

relație a mărimii efectului. Formula de calcul a acestuia este extrem de sim-

plă, el nefiind altceva decât rădăcina pătrată din coeficientul de determinare

√ √

(formula 2.37)

În cazul nostru, coeficientul de corelație al efectelor este de 0,155, in-

terpretarea sa fiind analoagă interpretării coeficientului de corelație r Bravais-

Pearson. Spre deosebire de coeficientul Bravais-Pearson, în acest caz întâl-

nim doar valori pozitive.

Folosind cei doi coeficienți, putem deduce și alți indicatori ai mărimii

efectului. Vom exemplifica doar câțiva, deoarece este posibil să-i întâlniți în

studii și cercetări, mai ales în cele de factură meta-analitică.

Coeficientul d al lui Cohen poate fi calculat pe baza coeficientului de

determinare și a coeficientului de corelație al efectelor, după expresia:

√ (formula 2.38)

(formula 2.39)

Statistică aplicată în ştiinţele socio-umane

246

Intens folosit, acest coeficient are următoarele repere interpretative,

propuse chiar de autor:

Pentru d mai mic de 0,20, nu există nici un efect;

Pentru d cuprins între 0,20 și 0,50, efectul este unul slab;

Pentru d cuprins între 0,50 și 0,80, efectul este unul mediu;

Pentru d mai mare de 0,80, avem de a face cu un efect puter-

nic;

Doar nu v-ați fi așteptat să obțineți aici vreun efect puternic. Observați

că și după acest coeficient, ne situăm în același domeniu al efectelor slabe.

Coeficientul g al lui Hedges are o formulă de calcul bazată tot pe coe-

ficientul de determinare și pe cel de corelație al efectelor:

(formula 2.40)

Vă lăsăm dumneavoastră ca exercițiu calculul acestui coeficient pen-

tru mărimea efectului, precum și sarcina interpretării sale.

II.5.1.3 Interpretarea mărimii efectului și puterea cercetărilor

Dincolo de reperele interpretative propuse pentru fiecare dintre coefi-

cienți, o analiză pertinentă a mărimii efectului presupune și alte demersuri.

Coeficientul de determinare r2 se poate exprima și în termeni procen-

tuali. Un coeficient de 0,024, obținut mai sus, arată că doar 2,4% din varianța

datelor folosite pentru investigarea cantității de bere băută de studenți se poa-

te explica prin apartenența acestora la o universitate.

Cristian Opariuc-Dan

247

Mărimea efectului se interpretează împreună cu pragul de semnifica-

ție. Vom furniza o serie de repere interpretative, așa cum au fost ele prezenta-

te de Florin Sava (Fan, 2001 apud Sava, 2004).

Tabelul 2.21 – Interpretarea mărimii efectului și a semnificației

Mărime

efect

Testare ipoteze (semnificație)

H0 nu este respinsă H0 este respinsă

Efect mic 1. Ipoteza nulă este sprijinită, nu există

însă vreun efect statistic sau practic.

1. Rezultatele nu au nicio importanță

practică deosebită, deși rezultatele sunt

semnificative statistic;

2. Risc mare de comitere a erorii de tip I

(să respingem ipoteza nulă în condiții

în care nu ar trebui respinsă). Puterea

cercetării este foarte mare.

Efect mediu

1. Mărimea efectului este bună, însă

acesta poate să fi apărut din întâmpla-

re;

2. Risc mare de comitere a erorilor de

tip II (să nu se respingă ipoteza nulă

în condițiile în care ar trebui respin-

să). Puterea cercetării este mică.

1. Probabilitatea ca efectul obținut să

apară din întâmplare este mică;

2. Efectul este semnificativ statistic și

pare a fi important din punct de vedere

practic

Efect mare

1. Risc mare de comitere a erorii de tip

II (să nu respingem ipoteza nulă când

aceasta ar trebui respinsă);

2. Efectul a apărut din întâmplare sau

rezultatul nesemnificativ al testului

statistic apare din cauza numărului

mic de subiecți. Se impune creșterea

puterii cercetării.

1. Testul este semnificativ atât statistic,

cât și practic

SURSA: (Sava, 2004 p. 36)

Interpretarea valorii mărimii efectului se completează cu analiza sen-

sului acesteia. Un efect pozitiv, determinat de valoarea pozitivă a mărimii

efectului, conduce la ideea că efectele observate sunt în direcția presupusă.

De exemplu, dacă obținem un efect puternic și pozitiv în baza ipotezei alter-

native conform căreia există o diferență semnificativă între cantitatea de bere

băută de studenții de la universitatea din Constanța și cantitatea de bere băută

de studenții de la universitatea din Iași, în sensul că cei din universitatea mol-

doveană beau semnificativ mai multă bere în comparație cu cei din universi-

tatea dobrogeană, atunci datele observate susțin această ipoteză. Dacă am

obține un efect puternic și negativ, înseamnă că ipoteza se susține, doar că

Statistică aplicată în ştiinţele socio-umane

248

studenții universității dobrogene consumă semnificativ mai multă bere în

comparație cu cei ai universității din Moldova.

Cele mai multe cercetări, realizate profesional, stabilesc încă de la în-

ceput mărimea așteptată a efectului, în baza acesteia construindu-se lotul de

cercetare. Există mai multe metode prin intermediul cărora se poate realiza

acest deziderat (Sava, 2004):

În baza meta-analizei, prin cercetarea studiilor efectuate ante-

rior. Dacă ne propunem să cercetăm efectul exercitat de reac-

tivitatea motorie asupra riscului de a se produce un accident

rutier, este o bună idee să începem prin studiul literaturii de

specialitate și a cercetărilor, destul de numeroase, referitoare la

această temă. Astfel, ne putem da seama de modul în care va-

riabilele se influențează, și putem proiecta studiul în cunoștin-

ță de cauză;

Printr-un studiu pilot, realizat pe un număr relativ redus de

subiecți, în care să putem estima mărimea indicatorilor tendin-

ței centrale și ai dispersiei, și, implicit, mărimea efectului;

Dacă nu avem posibilitatea realizării unei meta-analize și nici

cea a efectuării unui studiu pilot, vom stabili numărul de sub-

iecți necesari pe baza unui nivel mediu al mărimii efectului.

În literatura de specialitate, veți întâlni deseori pragul de semnificație

notat cu α, corespunzător riscului de a produce o eroare de tip I și mărimea

efectului notată cu β, corespunzătoare riscului de a produce o eroare de tip II.

Caracteristica testului statistic, adică situația în care respingem ipote-

za nulă fără a comite o eroare de tip I, se notează cu 1-α, iar puterea unui test

statistic, adică situația în care nu respingem ipoteza nulă, fără a comite o

eroare de tip II se notează cu 1-β. Așadar, puterea statistică a unei cercetări

Cristian Opariuc-Dan

249

este intim legată de mărimea efectului, deși ia în considerare un număr de trei

parametri importanți:

Mărimea efectului (β);

Mărimea eșantionului (n);

Mărimea pragului de semnificație (α)

Calculul efectiv al puterii unei cercetări nu presupune doar diferența

1-β, ci este destul de laborios și nu îl vom detalia aici. Pentru cei interesați,

voi furniza legătura către programul GPower, care permite, alături de multe

alte procedee de analiză a datelor, și calculul puterii unei cercetări. Programul

este gratuit, poate fi descărcat de pe site-ul http://www.psycho.uni-

duesseldorf.de/abteilungen/aap/gpower3/ această adresă fiind pusă la dispozi-

ția mea și a dumneavoastră de către Florin Sava în excelenta sa lucrare (Sava,

2004).

Fără să intrăm în amănunte, vom furniza, în final, o serie de modali-

tăți de creștere a puterii statistice într-o cercetare științifică, așa cum au fost

acestea exprimate de către Florin Sava (Sava, 2004), la care vom adăuga

completările noastre.

Autorul sus menționat, distinge între trei categorii de metode care pot

îmbunătăți puterea statistică într-o cercetare științifică. Pentru detalii supli-

mentare, puteți consulta lucrarea sa (Sava, 2004 pg. 40-46):

Metode orientate spre designul cercetării;

Metode orientate spre măsurările efectuate în cadrul cercetării;

Metode exclusiv statistice.

II.5.1.3.1 Metode orientate spre designul cercetării

1. Cea mai simplă metodă de creștere a puterii statistice într-o cerce-

tare științifică se referă la creșterea numărului de subiecți eva-

Statistică aplicată în ştiinţele socio-umane

250

luați. Puteți, fie include mai mulți subiecți în întregul lot de stu-

diu, fie mări numărul de subiecți la nivelul grupelor de cercetare

considerate cele mai importante din perspectiva ipotezelor stabili-

te;

2. Utilizarea unui design de cercetare cu măsurări repetate. Știți

deja că un design cu măsurări repetate – care folosește eșantioane

dependente – are o putere mai mare în comparație cu design-ul

bazat pe eșantioane independente, deoarece varianța reziduală –

cea determinată de erori, varianța neexplicată – este mai mică. Fo-

losind, de obicei, aceiași subiecți în două condiții experimentale

diferite, erorile determinate de factorii subiectivi sunt mult mai

mici în comparație cu situația în care veți folosi două eșantioane

independente;

3. Introducerea unei covariabile eficiente. Încă nu aveți noțiunea

completă asupra semnificației unei covariabile. Pentru a vă face

cât de cât o idee, revedeți capitolul referitor la corelații parțiale. În

acest volum ne-am limitat la studiul efectelor pe care le exercită o

singură variabilă independentă asupra unei singure variabile de-

pendente. Majoritatea situațiilor de cercetare presupun însă analiza

efectului generat de mai multe variabile independente asupra unei

singure variabile dependente (ANOVA – analiza de varianță), a

efectului generat de mai multe variabile independente asupra mai

multor variabile dependente sau a efectului generat de variabilele

independente asupra variabilelor dependente în condițiile menține-

rii constante a efectului unei variabile – numită covariabilă

(ANCOVA – analiza de covarianță). Despre aceste elemente vom

discuta, însă, în următoarea lucrare. Ceea ce trebuie să știți deo-

camdată este faptul că introducerea unei covariabile, aflată, desi-

gur, în relație cu variabila dependentă, poate determina micșorarea

Cristian Opariuc-Dan

251

varianței neexplicate și, implicit, creșterea puterii unei cercetări.

Dacă studiem efectul determinat de emotivitate asupra notelor ob-

ținute la examene, este posibil să nu obținem nicio diferență sem-

nificativă între emotivi și neemotivi sub aspectul notelor obținute.

Includerea unei covariabile de tipul „timp dedicat studiului” s-ar

putea să conducă la efecte semnificative;

4. Utilizarea unui design de cercetare cât mai simplu. Cu cât in-

cludem într-un studiu mai multe variabile, cu atât crește riscul de a

comite o eroare de tip I, de a obține rezultate semnificative din în-

tâmplare. Chiar dacă aplicăm corecții statistice pentru a reduce

riscul de apariție a erorilor de tip I, vom crește probabilitatea de a

obține erori de tip II. Principiul fundamental: cel mai simplu e cel

mai bine;

5. Creșterea numărului de grade de intensitate pentru variabila

independentă sau creșterea amplitudinii factorilor. Dacă vom

studia efectul reactivității asupra producerii de accidente rutiere, s-

ar putea ca în condițiile în care variabila independentă „reactivita-

te” are doar două grade de intensitate, „reactivitate mică” și „reac-

tivitate mare” să nu obținem diferențe semnificative. Dacă am in-

clude un grad de intensitate în plus, spre exemplu „reactivitate

medie”, este foarte probabil să găsim un efect al reactivității asu-

pra producerii de accidente rutiere;

6. Tratarea variabilelor independente ca variabile discrete. Dacă

vom măsura reactivitatea pe o scală continuă (de interval), puterea

statistică ar fi redusă. În loc să punem în relație scorurile variabilei

„reactivitate” – aflate la un nivel de interval – cu scorurile variabi-

lei „accidente rutiere” – aflate la un nivel natural continuu – prefe-

răm să recodificăm variabila „reactivitate” – variabilă independen-

Statistică aplicată în ştiinţele socio-umane

252

tă – într-o variabilă discretă, spre exemplu „reactivitate mică”,

„reactivitate medie” și „reactivitate mare”;

7. Utilizarea ipotezelor unilaterale. Am insistat de atâtea ori asupra

acestui aspect, încât nu-l vom mai detalia aici. Într-adevăr, față de

ipotezele bilaterale, cele unilaterale măresc semnificativ puterea

unei cercetări.

II.5.1.3.2 Metode orientate spre măsurările efectuate în cadrul cercetării

1. Utilizarea scalelor de măsură numerice. Este evident faptul că

în momentul în care utilizăm scale numerice, situate la un nivel de

măsură parametric, beneficiem și de avantajele și puterea testelor

statistice parametrice. În cercetări de acest tip, este bine ca cel pu-

țin variabilele dependente să fie măsurate la un nivel parametric;

2. Transformarea datelor brute. Deși testele parametrice au ca ce-

rință de bază nivelul parametric de măsură, pentru a le folosi tre-

buie să fie îndeplinită și condiția unei distribuții normale a datelor.

În caz contrar, va trebui să utilizăm teste neparametrice, cu o pute-

re statistică mult mai mică (aproximativ jumătate din puterea tes-

telor parametrice). Este de preferat ca în condițiile în care distribu-

ția nu este normală să folosim tehnici de normalizare a datelor, în

loc să trecem pur și simplu la utilizarea testelor neparametrice;

3. Alegerea de probe cu caracteristici psihometrice ridicate. Me-

toda aproape că nu mai necesită comentarii. Una este să măsurăm

emotivitatea cu un chestionar luat din revista „Felicia” și altceva e

să măsurăm aceeași dimensiune cu un instrument profesional. In-

strumentele folosite trebuie să prezinte caracteristici înalte, cel pu-

țin sub aspectul validității și sub cel al fidelității pentru ca cerceta-

rea să fie relevantă.

Cristian Opariuc-Dan

253

II.5.1.3.3 Metode exclusiv statistice

1. Salvarea unor grade de libertate. Implicit, un experiment sau o

cercetare cât mai simplu proiectată duce la un număr de grade de

libertate mai redus. Planurile de cercetare complexe determină, pe

lângă calcularea unui număr mare de efecte, și o putere statistică

mai mică;

2. Utilizarea tehnicilor statistice cu o putere mai mare. Atunci

când situația o permite, este de preferat să folosim cele mai puter-

nice teste statistice. De exemplu, dacă într-o cercetare avem de

ales între folosirea testului z și folosirea testului t Student, vom

alege utilizarea testului z, acesta fiind mai puternic în comparație

cu testul t.

II.6 Realizarea testelor statistice în SPSS

Înainte de a începe activitatea care vă place dumneavoastră cel mai

mult, evident cea practică, unde vom folosi SPSS, vreau să vă anunț că SPSS

nu mai există. Firma SPSS

Inc. a fost cumpărată de

către IBM, așadar ultima

versiune de SPSS este ver-

siunea 17. Într-adevăr, in-

vestiția a fost în jur de 1,2

miliarde de dolari și s-a

finalizat în anul 2009. Ast-

fel, SPSS devine parte din

programul integrat al com-

paniei IBM - „Business

Analytics and Process Op-

timization”, versiunea 18 a

produsului numindu-se acum PASW (Predictive Analytics Software for Win-

Tabelul 2.22 – Structura bazei de date pentru testul χ2

Variable Position Label Measurement Level

Intrebare_1 1

Daca

saptamana

viitoare ar fi

alegeri

prezidentiale,

cu cine ati

vota?

Nominal

Variables in the working file

Value Label

Intrebare_1 1 Costachescu Virgil

2 Ionescu George

3 Neacsu Vasile

4 Agape Alexandru

Statistică aplicată în ştiinţele socio-umane

254

dows). Deoarece atât aspectul cât și funcționalitatea PASW sunt radical dife-

rite de ceea ce știați deja, vom continua să utilizăm SPSS în acest volum

(versiunea 17), urmând ca în celelalte cărți să trecem către noua variantă de la

IBM.

II.6.1 Procedee neparametrice

Testul χ2 în SPSS are o proprietate interesantă, alta față de care ne-am

obișnuit. Acesta permite analiza doar a unei singu-

re variabile, comparând frecvențele teoretice cu

cele observate. Să considerăm situația unui sondaj

de opinie, în care un număr de 20 persoane au

răspuns la următoarea întrebare: „Dacă săptămâna

viitoare ar fi alegeri prezidențiale, dumneavoastră

cu cine ați vota?” Variantele de răspuns au fost 1

– Costăchescu Virgil, 2 – Ionescu George, 3 –

Neacșu Vasile, 4 – Agape Alexandru.

Variabila este situată, desigur, la

un nivel nominal, structura bazei de date

fiind prezentată în tabelul 2.22.

Răspunsurile celor 20 de subiecți

sunt reprezentate în tabelul 2.23. Problema

care se pune este aceea de a verifica dacă

există vreo diferență semnificativă între

cei 4 candidați sub aspectul preferinței

respondenților. Ipoteza nulă a acestui stu-

diu ar fi că, toți cei patru candidați sunt

preferați în mod egal de către respondenți.

Desigur, verificarea unei asemenea ipoteze se face prin intermediul testului

statistic χ2.

Tabelul 2.23 – Răspunsurile subiecților pentru

testul χ2

Costachescu Virgil Agape Alexandru

Costachescu Virgil Ionescu George

Costachescu Virgil Neacsu Vasile

Costachescu Virgil Costachescu Virgil

Ionescu George Ionescu George

Neacsu Vasile Costachescu Virgil

Neacsu Vasile Costachescu Virgil

Ionescu George Ionescu George

Agape Alexandru Costachescu Virgil

Agape Alexandru Neacsu Vasile

Figura 2.1 – Lansarea analizei

pentru testul chi pătrat

Cristian Opariuc-Dan

255

Lansarea acestui test se face din meniul „Analyze”, opțiunea „Non-

parametric Tests” și apoi opțiunea „Chi-

Square”. În această secțiune („Nonparamet-

ric tests”) vom regăsi aproape toate testele

statistice folosite în cazul datelor neparame-

trice.

Executarea comenzii determină lan-

sarea ferestrei de configurare pentru testul

statistic χ2. Fereastra are mai multe elemente

de noutate, astfel încât vom insista puțin

asupra ei. Lista variabilelor din baza de date

se află în partea stângă, lista variabilelor

incluse în vederea analizei o regăsim în partea dreaptă. După cum observați

în figura 2.2, am inclus deja variabila noastră în vederea analizei acesteia.

Secțiunea „Expected Range” permite configurarea modalității de cal-

cul a amplitudinii frecvențelor teoretice. Astfel, cazul cel mai des întâlnit este

„Get from data”, situația în care SPSS calculează automat amplitudinea

frecvențelor estimate, pornind de la datele existente – la fel cum am procedat

și noi. Puteți alege și opțiunea

„Use specified range”, caz în

care frecvențele estimate sunt

cele cuprinse între limita mi-

nimă („Lower”) și limita ma-

ximă („Upper”). Această ul-

timă situație se folosește în

cazul în care doriți să compa-

rați frecvențele observate cu alte frecvențe, nu cele calculate automat de

SPSS. Este, dacă vreți, o formă neparametrică a testului t Student pentru un

singur eșantion.

Tabelul 2.24 – Rezultatul analizei pentru testul χ2

Daca saptamana viitoare ar fi alegeri prezidentiale, cu cine

ati vota?

Observed N Expected N Residual

Costachescu Virgil 8 5,0 3,0

Ionescu George 5 5,0 ,0

Neacsu Vasile 4 5,0 -1,0

Agape Alexandru 3 5,0 -2,0

Total 20

Figura 2.2 – Configurarea analizei

pentru testul chi pătrat

Statistică aplicată în ştiinţele socio-umane

256

Relaționată cu această secțiune se află și secțiunea „Expected

values”, care se referă nu la amplitudinea frecvențelor estimate ci chiar la

valoarea acestora. Cazul tipic este „All categories equal”, adică frecvențele

observate se compară cu situația în care fiecare categorie ar avea o frecvență

de apariție teoretică, egală. Opțiunea „Values” se folosește la fel ca și opțiu-

nea „Use specified range” din secțiunea anterioară. Valorile pot fi adăugate

folosindu-se butonul „Add”, pot fi modificate cu butonul „Change” sau pot

fi eliminate cu ajutorul butonului „Remove”.

Butonul „Exact…” permite

definirea testelor suplimentare de

semnificație, iar butonul

„Options…” configurează statisticile

descriptive care vor fi calculate, pre-

cum și tratamentul cazurilor lipsă.

Ambele opțiuni au fost detaliate în

capitolul anterior, drept urmare nu

vom reveni aici asupra lor.

Lansarea efectivă a analizei

se face prin apăsarea butonului

„OK”, așa cum știți deja. Progra-

mul furnizează două tabele. În

primul tabel, observăm că un nu-

măr de 8 persoane l-ar alege pe

Costăchescu Virgil. Pentru fiecare

prezidențiabil, frecvența teoretică

este 5. Prin urmare, frecvența ob-

servată pentru Costăchescu Virgil

supraestimează frecvența teoretică

cu 3 alegeri.

Test Statistics

Daca saptamana viitoare ar

fi alegeri prezidentiale, cu

cine ati vota?

Chi-Square 2,800a

df 3

Asymp. Sig. ,423

a. 0 cells (,0%) have expected frequencies less

than 5. The minimum expected cell frequency is

5,0.

Figura 2.3 – Fereastra de configurare a testului

binomial

Cristian Opariuc-Dan

257

Agape Alexandru are o frecvență observată de 3. Față de frecvența

teoretică 5, aceasta subestimează pentru acest prezidențiabil cu 2 alegeri.

Pentru a răspunde dacă există diferențe semnificative între cei patru

prezidențiabili, vom urmări al doilea tabel din foaia de rezultate. Observăm

că pragul de semnificație este de 0,423, mult mai mare decât limita admisă,

0,05. Așadar diferența

nu este semnificativă,

nu putem respinge ipo-

teza nulă. Iată că, în

ciuda aparențelor, opi-

nia alegătorilor nu este

conturată. După cum

vedeți, pentru a vedea

dacă o opinie este sau

nu este conturată, avem

nevoie de ceva mai

mult decât exprimări

procentuale sau simple frecvențe absolute.

O variantă a acestui test, pentru situația în care variabila are doar două

categorii (variabile de tip Masculin – Feminin sau Da – Nu) este testul bino-

mial. Acesta poate fi lansat din aceeași categorie („Nonparametric Tests”),

opțiunea „Binomial…”, fiind mai precis decât chi-pătrat atunci când variabi-

la are exact două categorii.

Vă mai amintiți exemplul cu blondele, brunetele și accidentele rutie-

re? Haideți să construim o bază de date având structura din tabelul 2.25.

Avem două variabile: „culoarea părului”, o variabilă nominală diho-

tomică, având două valori – blond și brunet și „accidente”, variabilă scalară

care înregistrează numărul de accidente comise.

Tabelul 2.25 – Structura bazei de date pentru testul binomial

Variable Information

Variable Position Label Measurement

Level

culoare_par 1 Culoarea paru-

lui

Nominal

accidente 2 Numar de

accidente

Scale

Variables in the working file

Variable Values

Value Label

culoare_par 1 Blond

2 Brunet

Statistică aplicată în ştiinţele socio-umane

258

Structura răspunsurilor celor 31 de femei este dată în tabelul 2.26.

Ipoteza nulă a acestui nou studiu este aceea că nu există nicio diferen-

ță semnificativă între frecvența cu care comit accidente blondele și frecvența

cu care comit accidente brunetele. Desigur, în această situație, utilizarea tes-

tului binomial este cea mai adecvată.

Fereastra de configurare a testului binomial nu pune probleme deose-

bite. Diferența față de testul anterior constă doar în titulatură. Avem acum

secțiunea „Define Dichotomy” în care putem alege calculul acesteia automat

din date cu ajutorul opțiunii

„Get from data” sau putem

introduce o valoare în caseta

„Cut point” pentru a construi

instantaneu una. Ultima opțiu-

ne o vom alege dacă variabila

nu are o dihotomie reală. De

exemplu, dacă avem variabila

„vârsta”, variabilă continuă, cu

mediana, să spunem, 18 ani.

Dorim să folosim această vari-

abilă în testul binomial. În

acest caz, în caseta „Cut point”

vom introduce valoarea 18, iar

SPSS va transforma instanta-

neu variabila într-una dihoto-

mică – subiecții cu vârsta sub

18 ani vor face parte din pri-

mul grup, iar subiecții cu vârsta peste 18 ani fac parte din al doilea grup –

după care efectuează prelucrările necesare.

Tabelul 2.26 – Baza de date pentru testul binomial

Culoare păr Accidente Culoare păr Accidente

Blond 0 Blond 3

Brunet 3 Brunet 4

Blond 0 Blond 10

Brunet 4 Blond 2

Brunet 2 Brunet 3

Blond 2 Brunet 3

Brunet 2 Brunet 1

Blond 3 Brunet 2

Brunet 1 Brunet 0

Brunet 0 Blond 2

Blond 0 Brunet 3

Brunet 0 Brunet 3

Brunet 0 Blond 3

Blond 1 Brunet 1

Brunet 2 Brunet 2

Blond 3

Cristian Opariuc-Dan

259

Caseta de text „Test proportion” permite specificarea proporției teo-

retice cu care se va face comparația. Implicit este inclusă valoarea 0,50, ceea

ce arată o comparație cu situația în care cele două grupuri ar avea proporții

egale, 50% și 50%.

Rezultatul

acestui test este

foarte simplu de

interpretat. Se ob-

servă, în tabelul

2.27, că testul nu

este semnificativ,

pragul de semnifi-

cație fiind mai mare de 0,05. Așadar, ipoteza nulă nu se poate respinge, cu

alte cuvinte lotul nostru de cercetare poate fi considerat omogen din punctul

de vedere al caracteristicii „culoarea părului”. Proporția de blonde nu diferă

semnificativ de proporția de brunete.

Vom trata, în continuare,

– deși face parte dintr-o altă ca-

tegorie – testul de normalitate

Kolmogorov-Smirnov. Acesta

permite comparația unei distribu-

ții empirice cu o distribuție teore-

tică, de obicei normală, plecând

de la ipoteza nulă conform căreia

cele două distribuții nu diferă.

Este un test similar testelor de

normalitate studiate în capitolele

anterioare. Așa cum am mențio-

nat și cu altă ocazie, testele de comparație a unei distribuții empirice cu o

Tabelul 2.27 – Rezultatul analizei pentru testul binomial

Binomial Test

Category N

Observed

Prop.

Test

Prop.

Asymp. Sig.

(2-tailed)

Culoarea

parului

Group 1 Blond 12 ,39 ,50 ,281a

Group 2 Brunet 19 ,61

Total 31 1,00

a. Based on Z Approximation.

Figura 2.4 – Fereastra de configurare a testului

Kolmogorov-Smirnov

Statistică aplicată în ştiinţele socio-umane

260

distribuție teoretică nu se limitează doar la distribuția teoretică normală. Se

poate folosi și o altă distribuție teoretică, așa cum ar fi distribuția Poisson,

distribuția uniformă, exponențială și altele. Nici testul Kolmogorov-Smirnov

nu face excepții, după cum veți vedea imediat.

Fereastra de configurare a testului Kolmogorov-Smirnov poate fi lan-

sată din aceeași opțiune de meniu, cea a testelor non-parametrice, apoi „1-

Sample K-S”. Formularul din figura 2.4 este destul de simplu. Alături de

ferestrele variabilelor, întâlnim în plus un număr de 4 căsuțe de bifare, grupa-

te în secțiunea „Test Distribution”. Caseta „Normal” se referă la compararea

distribuției empirice cu distribuția normală, caseta „Poisson” la compararea

cu distribuția Poisson, caseta „Uniform” la compararea cu distribuția uni-

formă, iar caseta „Exponențial” la compararea cu distribuția exponențială.

Desigur, pe noi

ne interesează doar

comparația cu distribu-

ția normală, prin urmare

vom bifa numai caseta

„Normal”. De aseme-

nea, variabila supusă

analizei va fi, în mod

evident, o variabilă con-

tinuă – „numărul de

accidente”.

Tabelul rezultat este destul de generos în informații. În primul rând,

ne sunt oferite informații despre media și abaterea standard a populației pen-

tru variabila estimată. În cazul nostru, media accidentelor comise este de 2,10

accidente cu o abatere standard de 1,938 accidente. În subsolul tabelului

avem distribuția teoretică folosită la compararea distribuției empirice – dis-

Tabelul 2.28 – Rezultatul analizei pentru testul Kolmogorov-Smirnov

One-Sample Kolmogorov-Smirnov Test

Numar de accidente

N 31

Normal Parametersa,,b Mean 2,10

Std. Deviation 1,938

Most Extreme Differences Absolute ,224

Positive ,224

Negative -,140

Kolmogorov-Smirnov Z 1,246

Asymp. Sig. (2-tailed) ,090

a. Test distribution is Normal.

b. Calculated from data.

Cristian Opariuc-Dan

261

tribuția normală – și informația conform căreia acești parametri sunt estimați

pe baza datelor calculate la nivelul celor 31 de femei investigate.

După compararea cu distribuția normală, tabelul ne arată și diferențele

extreme observate, în sens pozitiv și negativ. Cea mai mare diferență obser-

vată față de distribuția normală este o diferență pozitivă, având valoarea

0,224. Următoarea întrebare este dacă această diferență se încadrează în limi-

te acceptabile, pentru ca distribuția noastră să fie considerată normală. Ei

bine, după cum se poate constata, testul nu este semnificativ, pragul de sem-

nificație fiind de 0,09, mai mare decât pragul critic de 0,05. Cu alte cuvinte,

vom accepta ipoteza nulă conform căreia nu există nicio diferență între dis-

tribuția empirică și distribuția teoretică normală (ZKS(31)=1,24, p>0,05). Iată

cum am demonstrat faptul că dis-

tribuția este una normală.

V-am prezentat trei dintre

cele mai utilizate teste neparame-

trice pentru un singur eșantion.

Cum procedăm dacă avem de a

face cu două eșantioane indepen-

dente? Pentru a verifica – în

exemplul nostru – dacă există

diferențe semnificative între

blonde și brunete sub aspectul

comiterii de accidente, vom folosi

același sub-meniu, „Nonparametric Test”, din care vom alege opțiunea „2

Independent Samples”.

Fereastra de configurare prezentată în figura 2.5 are o serie de particu-

larități. În primul rând, lista „Test Variable List” reprezintă locația în care

vom include variabila dependentă – numărul de accidente în cazul de față.

Caseta „Grouping Variable” reprezintă locul în care vom include variabila

Figura 2.5 – Fereastra de configurare al testelor

neparametrice pentru două eșantioane independente

Statistică aplicată în ştiinţele socio-umane

262

independentă sau variabila de grup. Variabila noastră de grup este „culoarea

părului”, pe care o vom transfera în această listă. Observați că, imediat după

transfer, la dreapta numelui variabilei apar două semne de întrebare, deoarece

nu am definit încă grupurile. Ne aducem aminte că am notat cu cifra 1 blon-

dele și cu cifra 2 brunetele. Pentru a defini grupurile, apăsăm butonul „De-

fine Groups…”.

Se deschide un nou formular, de

mici dimensiuni, similar celui din figura

2.6. Primul grup este reprezentat de

blonde, care au fost codate cu cifra 1.

Așadar vom scrie 1 în caseta „Group

1”. Al doilea grup, brunetele, au fost

codate cu 2. Efectuăm aceeași operați-

une în caseta „Group 2”, apoi apăsăm

butonul „Continue” pentru a reveni la

formularul anterior.

Constatăm că în paranteze, după numele variabilei de grup, au apărut

cifrele 1 și 2, semn că s-au definit grupurile. De asemenea, putem lansa anali-

za de date, deoarece s-a activat și butonul „OK”. Să nu ne grăbim încă.

În secțiunea „Test Type”, SPSS ne pune la dispoziție un număr de pa-

tru teste neparametrice pentru eșantioane independente.

Testul Mann-Whitney U a fost discutat deja și știm că reprezintă

unul dintre cele mai populare teste neparametrice pentru eșantioane indepen-

dente. Deși mă repet, vă reamintesc că acesta verifică dacă două eșantioane

independente sunt echivalente din punctul de vedere al poziției datelor.

Testul Kolmogorov-Smirnov Z și testul iterațiilor Wald-Wolfowitz

sunt teste mai generale, care detectează diferențele la nivelul pozițiilor și a

formei distribuțiilor. Despre al doilea am mai discutat. Acesta combină și

Figura 2.6 – Formularul de configurare a

grupurilor

Cristian Opariuc-Dan

263

stabilește rangurile scorurilor din ambele grupuri. Dacă cele două eșantioane

sunt din aceeași populație – adică dacă nu există diferențe între ele – cele

două grupuri vor fi distribuite aleatoriu în jurul rangurilor generale. Testul

Kolmogorov-Smirnov Z face deja ceea ce știți. Se bazează pe analiza diferen-

ței maxime dintre cele două distribuții cumulative. Practic, este un fel de test

de normalitate, doar că nu se mai compară distribuția teoretică și cea empiri-

că ci distribuțiile celor două eșantioane.

Testul Moses al reacțiilor extreme presupune că variabila indepen-

dentă va afecta unii subiecți într-o direcție și pe alții în direcția opusă. De

obicei, acest test se folosește atunci când lucrăm cu un grup de control. Gru-

pul de control este definit ca fiind grupul 1, în timp ce grupul experimental se

definește ca fiind grupul 2. În cazul nostru, neavând o cercetare cu grupuri de

control, utilizarea acestui test este inadecvată.

Din considerente care

țin de specificul datelor noastre,

vom bifa doar testul Mann-

Whitney U, acesta fiind singurul

test adecvat, care ne poate furni-

za informații utile.

Rezultatele testului

Mann-Whitney U sunt furnizate

în tabelul 2.29. Observăm că

media rangurilor pentru blonde

este de 16,25 iar pentru brunete

este de 15,84. Diferența mică

dintre cele două medii ale rangu-

rilor se confirmă și în tabelul

statisticilor. Într-adevăr, testul nu este semnificativ, valoarea semnificației

statistice (0,921) fiind mult mai mare în comparație cu pragul critic 0,05.

Tabelul 2.29 – Rezultatul analizei pentru testul Mann-Whitney

U

Ranks

Culoarea parului N

Mean

Rank

Sum of

Ranks

Numar de

accidente

Blond 12 16,25 195,00

Brunet 19 15,84 301,00

Total 31

Test Statisticsb

Numar de accidente

Mann-Whitney U 111,000

Wilcoxon W 301,000

Z -,125

Asymp. Sig. (2-tailed) ,900

Exact Sig. [2*(1-tailed Sig.)] ,921a

a. Not corrected for ties.

b. Grouping Variable: Culoarea parului

Statistică aplicată în ştiinţele socio-umane

264

Așadar, nu respingem ipoteza nulă și constatăm că nu există diferențe între

blonde și brunete sub aspectul comiterii de accidente rutiere. Toate sunt la

fel…

Atunci când

avem de a face cu

eșantioane perechi

(dependente), va trebui

să folosim alte teste

statistice neparametri-

ce, după cum bine

știm. Vom extinde

puțin exemplul nostru,

introducând încă o

variabilă, numită „ac-

cidente_final”, variabi-

lă care va stoca numă-

rul de accidente comise de cele 31 de femei după efectuarea a 10 ore de con-

ducere. Vă atrag atenția că exemplul are un caracter pur didactic și nu cores-

punde în niciun caz unei cercetări

reale.

Scorurile acestei noi variabi-

le sunt prezentate în tabelul 2.30,

păstrându-se, în mod evident, ordi-

nea persoanelor. După completarea

bazei de date SPSS, ne propunem să

vedem dacă cele 10 ore de conduce-

re au avut sau nu au avut efect. Ipo-

teza nulă va fi cea conform căreia

nu există diferențe între accidentele

Tabelul 2.30 – Completarea bazei de date cu variabila accidente_final

Culoare păr Accidente_final Culoare păr Accidente_final

Blond 0 Blond 1

Brunet 2 Brunet 2

Blond 0 Blond 4

Brunet 1 Blond 1

Brunet 0 Brunet 3

Blond 0 Brunet 3

Brunet 0 Brunet 2

Blond 1 Brunet 3

Brunet 1 Brunet 2

Brunet 0 Blond 1

Blond 0 Brunet 2

Brunet 0 Brunet 2

Brunet 0 Blond 1

Blond 1 Brunet 0

Brunet 1 Brunet 0

Blond 2

Figura 2.7 – Formularul de configurare al teste-

lor pentru eșantioane dependente

Cristian Opariuc-Dan

265

comise înainte de efectuarea celor 10 ore de curs și accidentele comise după

efectuarea celor zece ore de curs.

Din sub-meniul „Nonparametric Tests” vom alege opțiunea „2 Re-

lated Samples” pentru a putea accesa formularul de configurare pentru testele

neparametrice referitoare la două eșantioane perechi. De această dată, fereas-

tra este puțin diferită. Lista variabilelor care urmează să fie analizate („Test

Pairs”) are un aspect special care invită la construcția variabilelor perechi.

Inițial, după cum este și firesc, lista va fi goală. Trebuie să alegem prima va-

riabilă din pereche („Număr de accidente” din lista din partea stângă) și să

apăsăm butonul de transfer. Vom observa că această variabilă s-a transferat în

partea dreaptă, pe rândul 1 al coloanei „Pair”, în coloana „Variable1”. Ale-

gem apoi a doua variabilă din pereche („Număr de accidente după curs”) și

acționăm același buton de transfer. Variabila se va copia pe același rând, dar

în a doua coloană („Variable2”). Astfel am construit prima pereche de varia-

bile. Dacă doriți, puteți adăuga mai multe variabile perechi – nu este cazul

nostru – iar cu butoanele din partea dreaptă a listei „Test Pairs” puteți modi-

fica ordinea perechilor (primele două butoane) sau puteți modifica ordinea

variabilelor în cadrul perechii selectate (ultimul buton).

Testele statistice disponibile se află în aceeași secțiune „Test Type”.

Cel mai puternic test este testul Wilcoxon, pe care îl cunoașteți deja foarte

bine. Aveți posibilitatea să efectuați și testul semnului dacă bifați caseta

„Sign”. Atunci când datele din cele două variabile sunt dihotomice, veți folo-

si testul McNemar. Acesta determină dacă rata de răspuns inițială (înaintea

evenimentului) este egală cu rata de răspuns finală (după eveniment). Testul

este util în detectarea modificărilor în răspunsuri ca urmare a unei intervenții

experimentale, în situații de tipul înainte-după.

O extensie a testului McNemar pentru date categoriale este testul

omogenității marginale („Marginal Homogeneity”). Acest test permite nu

numai variabile dihotomice, ci și variabile cu mai multe variante de răspuns.

Statistică aplicată în ştiinţele socio-umane

266

Noi vom discuta doar testul Wilcoxon și testul semnelor, acestea fiind

testele adecvate tipului nostru de date. Desigur, pornirea analizei se va face

prin acționarea butonului „OK”.

Cele două tabele ale testului Wilcoxon ne arată că, în urma comparați-

ilor, avem un număr de 18 cazuri în care rangurile au fost calculate pentru

diferențe pozitive (ranguri în care numărul de accidente după cursuri este mai

mic în comparație cu numărul de accidente înainte de cursuri) cu o medie a

rangurilor de 11,39, un număr de 3 ranguri calculate pentru diferențe negative

cu o medie a rangurilor de 8,67 (ranguri în care numărul de accidente după

cursuri este mai mare în comparație cu numărul de accidente înainte de cur-

suri) și 10 ranguri egale.

Pornind de la aceste

date, obținem un Z(31)=3,18

la un p<0,01. Testul este

semnificativ, așadar res-

pingem ipoteza nulă și

putem considera că cele 10

ore de curs au avut efect.

Interpretarea de-

curge aproape la fel și în

cazul în care folosim testul

semnului.

Și în această situa-

ție avem un număr de 18

diferențe negative, 3 dife-

rențe pozitive și un număr

de 10 egalități (Revedeți

teoria acestui test dacă ați uitat principul de calcul).

Tabelul 2.31 – Rezultatele testului Wilcoxon

Ranks

N

Mean

Rank

Sum of

Ranks

Numar accidente dupa

cursuri - Numar de

accidente

Negative Ranks 18a 11,39 205,00

Positive Ranks 3b 8,67 26,00

Ties 10c

Total 31

a. Numar accidente dupa cursuri < Numar de accidente

b. Numar accidente dupa cursuri > Numar de accidente

c. Numar accidente dupa cursuri = Numar de accidente

Test Statisticsb

Numar accidente dupa

cursuri - Numar de

accidente

Z -3,180a

Asymp. Sig. (2-tailed) ,001

a. Based on positive ranks.

b. Wilcoxon Signed Ranks Test

Cristian Opariuc-Dan

267

Raportat la aceste diferențe, testul este semnificativ la un prag de

semnificație mai mic de 0,01. Respingem și în această situație ipoteza nulă și

putem considera că cele 10 ore de curs au avut efect.

Aceasta este metoda de

lucru și interpretarea testelor

neparametrice pentru eșantioane

relaționate. Am observat că exis-

tă diferențe între cele două situa-

ții (înaintea orelor de curs și du-

pă orele de curs) în sensul că

numărul de accidente scade

semnificativ după ce subiecții

parcurg un număr de 10 ore de

curs.

Dacă doriți, puteți verifi-

ca dacă în a doua situație (după

orele de curs) există diferențe

între blonde și brunete sub as-

pectul comiterii accidentelor rutiere. Luați această solicitare ca exercițiu, ale-

geți testul statistic adecvat și interpretați rezultatele.

II.6.2 Procedee parametrice

Procedeele parametrice vor fi abor-

date folosindu-se aceeași bază de date, pen-

tru a nu complica inutil demersul nostru. În

definitiv, avem 31 de cazuri, avem două

variabile continui și o variabilă dihotomică,

ar trebui ca cele două variabile continui să

se și distribuie normal. Știm că cel puțin una

Tabelul 2.32 – Rezultatele testului semnului

Frequencies

N

Numar accidente

dupa cursuri -

Numar de accidente

Negative Differencesa 18

Positive Differencesb 3

Tiesc 10

Total 31

a. Numar accidente dupa cursuri < Numar de accidente

b. Numar accidente dupa cursuri > Numar de accidente

c. Numar accidente dupa cursuri = Numar de accidente

Test Statisticsb

Numar acciden-

te dupa cursuri -

Numar de acci-

dente

Exact Sig. (2-tailed) ,001a

a. Binomial distribution used.

b. Sign Test

Figura 2.8 – Meniul de lansare al

testelor parametrice

Statistică aplicată în ştiinţele socio-umane

268

dintre variabile (numărul de accidente înainte de curs) se distribuie normal. În

realitate, cea de-a doua variabilă (numărul de accidente după curs) nu se dis-

tribuie normal. Dacă nu credeți, efectuați testul Kolmogorov-Smirnov pentru

un eșantion și vă veți convinge.

Testele statistice parametrice – testele t Student le puteți găsi în meni-

ul „Analyze”, sub-meniul „Compare Means”, așa cum puteți observa în fi-

gura 2.8.

Puteți alege între testul t Student pentru un singur eșantion „One-

Sample T Test”, testul t Student pentru eșantioane independente „Independ-

ent-Samples T Test” și testul t Student pentru eșantioane perechi „Paired-

Samples T Test”. În cadrul acestui sub-meniu există și alte opțiuni, pe care le

vom studia ulterior.

Să începem cu primul test statistic parametric, testul t Student pentru

un singur eșantion. Efectuând click pe opțiunea „One-Sample T Test” veți

determina deschiderea ferestrei de configurare a acestui test statistic.

Iată o fereastră extrem de simplă. Să presupunem că desfășurăm o

cercetare în care dorim să comparăm media accidentelor comise de femei

într-un an cu media accidentelor din România, în aceeași perioadă de timp.

Știm, din statisticile oficiale, că

media accidentelor în România

este de, să spunem, 1,5 accidente

anual. Ipoteza nulă a acestui

studiu susține că nu există nicio

diferență semnificativă între

media accidentelor comise de

femei și media accidentelor din

România, într-un an. Desigur,

testul statistic adecvat pentru a

verifica această ipoteză este testul t Student pentru un singur eșantion. Așa-

Figura 2.9 – Fereastra de configurare a testului t

Student pentru un singur eșantion

Cristian Opariuc-Dan

269

dar, vom transfera variabila continuă „Număr de accidente” în lista „Test

Variable(s)” iar în caseta de text „Test Value” vom include valoarea cu care

dorim să efectuăm comparația – în situația de față valoarea 1,5 care reprezin-

tă media anuală a accidentelor din România.

Butonul „Options” conține modalitatea de tratare a cazurilor lipsă și

stabilirea intervalului de încredere (implicit 95%), fiind descris în detaliu

într-un capitol anterior.

Rezultatele acestei analize sunt sintetizate în două tabele. Primul tabel

conține statistici descriptive. Aflăm numărul total al subiecților analizați (31),

media accidentelor comise de către femei (2,10 accidente) eroarea standard a

mediei (0,348 accidente) și abaterea standard (1,93 accidente).

Al doilea tabel prezintă statisticile rezultate în urma testului t Student

pentru un singur eșantion. Astfel, se prezintă valoarea cu care s-a realizat

comparația (1,5 accidente), valoarea testului t (1,714), numărul gradelor de

libertate (30), semnificația (0,097), diferența dintre media scorurilor eșantio-

nului și valoarea cu care s-a realizat comparația (0,597), precum și intervalul

de încredere a acestei diferențe (între -0,11 și 1,31).

Tabelul 2.33 – Rezultatele testului t Student pentru un singur eșantion

One-Sample Statistics

N Mean Std. Deviation Std. Error Mean

Numar de accidente 31 2,10 1,938 ,348

One-Sample Test

Test Value = 1.5

t df Sig. (2-tailed) Mean

Difference

95% Confidence Interval of

the Difference

Lower Upper

Numar de accidente 1,714 30 ,097 ,597 -,11 1,31

Statistică aplicată în ştiinţele socio-umane

270

Concluzia este clară. Testul t Student pentru un eșantion nu este sem-

nificativ, valoarea semnificației sale depășind valoarea prag 0,05. Prin urma-

re, nu putem respinge ipoteza nulă. Așadar, nu există nicio diferență semnifi-

cativă între media accidentelor comise de către femei și media anuală a acci-

dentelor din România.

Următoarea problemă pe

care ne-o punem se referă la soli-

citarea pe care v-am făcut-o la

finalul subcapitolului anterior. Să

verificăm dacă există diferențe

semnificative între blonde și bru-

nete sub aspectul numărului de

accidente comise într-un an, după

ce au efectuat cele 10 ore supli-

mentare de curs. Ipoteza nulă sus-

ține că nu există nicio diferență semnificativă între blonde și brunete din acest

punct de vedere. De această dată nu vom mai aborda problema la nivel nepa-

rametric ci la nivelul testelor parametrice. Mai precis, vom folosi testul t Stu-

dent pentru eșantioane independente.

Fereastra de configurare seamănă frapant cu cea a testelor neparame-

trice de tipul eșantioanelor independente

(Mann-Whitney U). Vom transfera variabila

dependentă „Număr de accidente după curs”

în lista „Test Variable(s)” și variabila inde-

pendentă „Culoarea părului” în lista „Group-

ing Variable”. Urmează definirea grupurilor,

la fel ca la testele neparametrice. Blondele au

fost codate cu cifra 1, așadar vor forma primul

grup, iar brunetele au fost codate cu cifra 2, constituind al doilea grup. Am

Figura 2.10 – Fereastra de configurare a testului

t Student pentru eșantioane independente

Figura 2.11 – Definirea grupurilor

pentru testul t Student

Cristian Opariuc-Dan

271

folosit, în acest caz, opțiunea „Use specified values” care ne permite introdu-

cerea precisă a valorilor dintr-o variabilă discretă. În cazul în care am fi folo-

sit o variabilă continuă, există posibilitatea transformării acesteia într-una

discretă alegând opțiunea „Cut point”. Această opțiune funcționează la fel ca

și în cazul testelor neparametrice, unde a fost detaliată și exemplificată.

Tabelul 2.34 – Rezultatele testului t Student pentru două eșantioane independente

Group Statistics

Culoarea

parului N Mean Std. Deviation Std. Error Mean

Numar accidente dupa cursuri Blond 12 1,00 1,128 ,326

Brunet 19 1,26 1,147 ,263

Independent Samples Test

Levene's Test

for Equality of

Variances

t-test for Equality of Means

95% Confi-

dence Interval

of the Differ-

ence

F Sig. t df

Sig. (2-

tailed)

Mean

Difference

Std. Error

Difference Lower Upper

Numar

acci-

dente

dupa

cursuri

Equal

variances

assumed

2,005 ,167 -,626 29 ,536 -,263 ,420 -1,123 ,597

Equal

variances

not as-

sumed

-,629 23,843 ,536 -,263 ,419 -1,128 ,601

Tabelele generate de acest test sunt ceva mai complexe. Regăsim ta-

belul statisticilor descriptive, în care, pentru fiecare grup, sunt prezentate

numărul de cazuri, mediile, abaterile standard și erorile standard ale mediilor.

Astfel, avem un număr de 12 blonde, media accidentelor acestora după cur-

suri este de 1 cu o abatere standard de 1,12 accidente și o eroare standard a

mediei de 0,32 accidente, precum și un număr de 19 brunete, având o medie a

Statistică aplicată în ştiinţele socio-umane

272

accidentelor de 1,26 cu abaterea standard de 1,14 și eroarea standard a mediei

0,26 accidente.

Tabelul rezultatelor testului statistic este asemănător cu cel al testului

t pentru un singur eșantion. În plus, apar datele generate de testul Levene al

egalității varianțelor. De asemenea, observăm că ni se prezintă două seturi de

rezultate: unul în cazul în care varianțele sunt egale (primul rând) și celălalt

pentru varianțe inegale (al doilea rând). Care dintre cele două seturi de date

vor fi folosite? Ei bine, utilizarea acestora depinde de rezultatul testului de

egalitate a varianțelor. Ne

amintim că testul Levene

pleacă de la ipoteza nulă

conform căreia varianțele

sunt egale. Dacă acest test

nu este semnificativ,

atunci nu respingem ipo-

teza nulă și acceptăm fap-

tul că varianțele sunt ega-

le. În acest caz, vom folosi

primul set de date. Dacă

testul este semnificativ, atunci vom respinge ipoteza nulă, varianțele nu sunt

egale și utilizăm al doilea set de date. În situația noastră, testul nu este semni-

ficativ (F=2,005; p=0,167), deci varianțele sunt egale.

În primul set de date, observăm că testul statistic t Student pentru

eșantioane independente nu este semnificativ (p=0,536). Așadar, ipoteza nulă

nu poate fi respinsă și rezultă că nu există nicio diferență semnificativă între

blonde și brunete din punctul de vedere al numărului de accidente comise

într-un an, după cursul de 10 ore.

Ultimul test studiat în cadrul acestui capitol are în vedere compararea

accidentelor comise înainte de curs, cu accidentele comise după curs, într-o

Figura 2.12 – Fereastra de configurare a testului t Student

pentru eșantioane perechi

Cristian Opariuc-Dan

273

manieră similară testelor neparametrice. De altfel, se poate observa că fereas-

tra de configurare a testului t Student pentru eșantioane perechi arată la fel ca

fereastra de configurare a testelor neparametrice pentru aceleași eșantioane.

Nu intrăm în detalii. Vom construi perechea formată din cele două va-

riabile – număr de accidente înainte de curs și număr de accidente după curs,

apoi apăsăm butonul „OK” pentru a porni analiza statistică.

Tabelul 2.35 – Rezultatele testului t Student pentru două eșantioane perechi

Paired Samples Statistics

Mean N Std. Deviation

Std. Error

Mean

Pair 1 Numar de accidente 2,10 31 1,938 ,348

Numar accidente dupa cursuri 1,16 31 1,128 ,203

Paired Samples Correlations

N Correlation Sig.

Pair 1 Numar de accidente & Numar accidente dupa

cursuri

31 ,663 ,000

Paired Samples Test

Paired Differences

t df Sig. (2-

tailed)

Mean Std.

Deviation

Std. Error

Mean

95% Confidence

Interval of the

Difference

Lower Upper

Pair 1 Numar de acciden-

te - Numar acciden-

te dupa cursuri

,935 1,459 ,262 ,400 1,471 3,570 30 ,001

De această dată, rezultatele se prezintă sub forma a trei tabele. În pri-

mul tabel sunt afișate statisticile descriptive. Media anuală a accidentelor

înainte de curs este de 2,10 accidente, cu o abatere standard de 1,93 accidente

și o eroare standard a mediei de 0,34 accidente. După curs, media anuală a

accidentelor se reduce la 1,16, cu o abatere standard de 1,12 și o eroare stan-

dard a mediei de 0,20. Desigur, ideea centrală a testului este dacă această

reducere a numărului de accidente poate fi considerată semnificativă.

Statistică aplicată în ştiinţele socio-umane

274

Într-adevăr, în ultimul tabel, constatăm că diferența este semnificati-

vă. Putem așadar respinge ipoteza nulă conform căreia nu există niciun efect

al cursurilor asupra numărului de accidente comise. Iată că există o diferență

semnificativă între numărul de accidente comise înainte de curs și numărul de

accidente comise după curs (t(30)=3,54; p<0,01), în sensul că, după efectuarea

celor 10 ore de curs, numărul de accidente anuale a scăzut semnificativ.

Al doilea tabel conține un … coeficient de corelație. Mă veți întreba

ce treabă are coeficientul de corelație într-un test statistic. Acesta urmărește

păstrarea ierarhiei datelor. Cu alte cuvinte, un coeficient de corelație semnifi-

cativ și pozitiv ne spune că subiecții care inițial aveau scoruri mici, în final

vor avea tot scoruri mici; cei care inițial aveau scoruri mari, în final vor avea

tot scoruri mari, cu toate că există diferențe semnificative între situația iniția-

lă și cea finală. Coeficientul de corelație semnificativ și negativ ne arată că

subiecții care inițial aveau scoruri mici au obținut în final scoruri mari și in-

vers. Dacă acest coeficient nu este semnificativ, înseamnă că ierarhia inițială

a scorurilor nu se mai păstrează.

În exemplul nostru, avem un coeficient de corelație semnificativ și

pozitiv. Acest lucru arată că, deși în final subiecții au făcut mai puține acci-

dente ca urmare a participării acestora la curs, totuși cei care înainte făceau

puține accidente, în final vor face și mai puține; cei care inițial au făcut foarte

multe accidente, în final vor face tot multe accidente, cu toate că accidentele

în final sunt totuși mai puține în comparație cu situația inițială.

II.6.3 Analiza normalității și a scorurilor aberante

În partea teoretică a acestui capitol am

văzut câteva procedee statistice de analiză a

normalității și a scorurilor aberante. De aseme-

nea, în subcapitolul destinat testelor neparame-

trice, am studiat testul Kolmogorov-Smirnov Figura 2.13 – Lansarea analizei

pentru normalitate

Cristian Opariuc-Dan

275

pentru un singur eșantion și am observat maniera în care acest test se poate

folosi pentru a analiza normalitatea unei distribuții empirice de date.

În cadrul acestui subcapi-

tol vom vedea și alte variante prin

care putem decide dacă o distribu-

ție este sau nu este normală și/sau

dacă ne confruntăm cu scoruri

extreme.

Foarte multe dintre infor-

mațiile prezentate aici au fost deja

detaliate în lucrări anterioare, lu-

crări dedicate statisticilor

univariate. Nu vom relua acele

explicații, deoarece consider că sunt cunoscute. Vom insista doar asupra par-

ticularităților care țin de analiza normalității și a scorurilor aberante prin

prisma testelor statistice.

Procedeele de analiză pot fi lansate din

meniul „Descriptive Statistics”, opțiunea „Ex-

plore”.

În mod normal, această fereastră ar tre-

bui să vă fie foarte bine cunoscută. În lista

„Dependent list” vom include variabila pe care

dorim să o analizăm. De asemenea, comunicăm

programului să afișeze atât statisticile, cât și

graficele, prin alegerea opțiunii „Both” din

cadrul secțiunii „Display”.

În vederea configurării opțiunilor de analiză, vom apăsa butonul

„Plots…”. Vom vedea fereastra din figura 2.15, în care regăsim mai multe

Figura 2.14 – Fereastra de configurare a statisti-

cilor exploratorii

Figura 2.15 – Opțiuni de analiză

pentru normalitate

Statistică aplicată în ştiinţele socio-umane

276

elemente. Pe unele le cunoașteți (cum ar fi cele din secțiunile „Descriptive”

și „Boxplots”), în timp ce altele necesită unele clarificări.

Caseta „Normality plots with tests” va afișa graficele pentru probabi-

litatea teoretică a distribuției normale și pentru tendințele datelor empirice

către distribuția normală teoretică (distribuția z). De asemenea, se vor afișa

rezultatele testelor de normalitate Kolmogorov-Smirnov și Shapiro-Wilks,

testul Kolmogorov-Smirnov fiind ajustat prin procedura de corecție a semni-

ficației Lilliefors.

Alături de bifarea graficelor descriptive, vom alege și afișarea grafice-

lor și a testelor de normalitate.

Tabelul 2.36 – Statistici descriptive

Case Processing Summary

Cases

Valid Missing Total

N Percent N Percent N Percent

Numar accidente dupa cursuri 31 100,0% 0 ,0% 31 100,0%

Descriptives

Statistic Std. Error

Numar accidente dupa

cursuri

Mean 1,16 ,203

95% Confidence Interval for

Mean

Lower Bound ,75

Upper Bound 1,58

5% Trimmed Mean 1,09

Median 1,00

Variance 1,273

Std. Deviation 1,128

Minimum 0

Maximum 4

Range 4

Interquartile Range 2

Skewness ,704 ,421

Kurtosis -,242 ,821

Cristian Opariuc-Dan

277

Primele două tabele furnizează statisticile descriptive univariate. Ală-

turi de numărul de cazuri, întâlnim media și intervalul de încredere al mediei,

media 5% trim, mediana,

varianța și abaterea stan-

dard, amplitudinea de vari-

ație, valorile minime și

maxime, intervalul

intercuartil, coeficienții de

simetrie și boltire. Pentru detalii despre acești indicatori, consultați lucrarea

anterioară dedicată statisticilor univariate.

Următorul tabel este acela al testelor

de normalitate. Avem atât valorile pentru

Kolmogorov-Smirnov, cât și valorile pentru

Shapiro-Wilk.

Se observă cu ușurință că ambele tes-

te sunt semnificative. Așadar, respingem

ipoteza nulă conform căreia nu există nicio

diferență între distribuția empirică și distribu-

ția teoretică normală. Iată că, scorurile pentru

variabila „Număr de accidente după cur-

suri” nu prezintă o distribuție normală.

Acest lucru devine evident dacă analizăm

coeficientul de simetrie Skewness. Vom

constata o asimetrie pozitivă, o tendință

către valori mici, fapt mai mult decât clar

din analiza histogramei.

Desigur, în asemenea situații nu

am putea folosi testele parametrice, așa

cum am procedat în acest capitol, fără o

Tabelul 2.37 – Teste de normalitate

Tests of Normality

Kolmogorov-Smirnova Shapiro-Wilk

Statistic df Sig. Statistic df Sig.

Numar acciden-

te dupa cursuri

,203 31 ,002 ,862 31 ,001

a. Lilliefors Significance Correction

Figura 2.16 – Histograma distribuției

pentru variabila studiată

Figura 2.17 – Graficul boxplot al

distribuției pentru variabila studiată

Statistică aplicată în ştiinţele socio-umane

278

normalizare a datelor. Dacă nu dorim normalizarea datelor, singura alternati-

vă pe care o avem este cea a testelor neparametrice.

Aceleași tendințe se pot observa și în graficul boxplot din figura 2.17.

Puteți remarca modul în care datele se concentrează în zona scorurilor mici

(„cutia”), în timp ce una dintre „mustăți” determină asimetria pozitivă.

Din fericire, nu există scoruri aberante. Graficul nu remarcă asemenea

valori dincolo de limita „mustăților”.

Programul SPSS ne prezintă și două grafice prin intermediul cărora se

compară distribuția datelor

empirice cu distribuția teore-

tică normală.

Primul grafic – Numit

„Normal Q-Q Plot” –

trasează dreapta probabilități-

lor distribuției normale și

prezintă modul în care cate-

goriile variabilei analizate se

abat de la distribuția normală.

În figura 2.18 se poate

observa că pentru scoruri

mici (scoruri de la 0 la 2),

abaterile de la distribuția normală nu sunt semnificative. În zona scorurilor

mici, distribuția empirică respectă caracteristicile distribuției normale. Pro-

bleme apar în zona scorurilor mari (scoruri peste valoarea 2).

Categoriile cu valori mari se abat în sens negativ de la distribuția

normală. Prin urmare, pentru ca datele să se distribuie normal, ar trebui ca

scorurile mari să aibă valori mult mai mici în comparație cu cele actuale.

Figura 2.18 – Graficul Q-Q Plot al distribuției pentru vari-

abila studiată

Cristian Opariuc-Dan

279

Acest lucru nu ne spune decât că distribuția este asimetrică pozitiv,

fapt pe care îl cunoșteam deja.

Al doilea grafic furnizat de SPSS compară distribuția z (distribuție cu

media 0 și abaterea stan-

dard 1) cu distribuția empi-

rică, în termeni de abateri

standard.

Se observă în figura

2.19 dreapta distribuției z și

modul în care se abat cate-

goriile variabilei studiate de

la aceasta. Lucrurile sunt

mult mai clare în acest caz.

Tendințele sunt aceleași.

Scorurile mici se apropie

de distribuția normală, în timp

ce scorurile mari sunt puternic distanțate. Totuși nu avem de a face cu scoruri

extreme, deoarece nicio valoare nu depășește o abatere standard în jurul me-

diei.

Iată și abordarea profesionistă a analizei normalității unei distribuții,

inclusiv tratarea scorurilor extreme.

Nu vom încheia acest capitol înainte de a vă furniza – așa cum v-am

obișnuit – un exemplu profesional de analiză și interpretare a unui test statis-

tic. Ne vom rezuma la testele parametrice, deoarece acestea sunt cele mai

folosite, menționând că analiza testelor neparametrice se face după un algo-

ritm asemănător.

Figura 2.19 – Graficul Q-Q Plot al distribuției pentru

variabila studiată, în raport cu distribuția z

Statistică aplicată în ştiinţele socio-umane

280

„Într-o cercetare efectuată pe un număr de 62 de deținuți, femei și

bărbați, s-a urmărit investigarea emotivității. În acest sens, s-a administrat

inventarul de personalitate 16 PF, reținându-se doar factorul de personalita-

te C. Ipoteza nulă susține că nu există nicio diferență între bărbați și femei

sub aspectul emotivității. Deoarece scorurile variabilei „Factorul C” se dis-

tribuie normal, analiza va folosi testul t Student pentru eșantioane indepen-

dente.”

Group Statistics

Genul biologic al subiectilor

N Mean Std. Deviation Std. Error Mean

Factorul C Masculin 32 5,98 1,369 ,214

Feminin 30 7,60 1,639 ,423

Independent Samples Test

Levene's Test for Equality of

Variances

t-test for Equality of Means

95% Confidence

Interval of the Difference

F Sig. t df

Sig. (2-

tailed)

Mean

Difference

Std. Error

Difference Lower Upper

Factorul C Equal variances

assumed

1,696 ,198 -3,728 60 ,000 -1,624 ,436 -2,498 -,751

Equal variances

not assumed

-3,426 27,570 ,002 -1,624 ,474 -2,609 -,640

Statisticile de grup indică un număr de 32 de deținuți și 30 de deținu-

te. Media bărbaților la factorul emotivitate este de 5,98, cu o eroare stan-

dard a mediei de 0,21 și o abatere standard de 1,36. În cazul femeilor, media

la factorul emotivitate este de 7,60, cu o eroare standard a mediei de 0,423 și

o abatere standard a scorurilor de 1,63.

Cristian Opariuc-Dan

281

Conform testului Levene de egalitate a varianțelor, varianțele celor

două grupuri studiate sunt egale, deoarece testul este nesemnificativ

(F=1,69; p=0,198), prin

urmare nu putem respinge

ipoteza nulă conform căreia

varianțele scorurilor celor

două eșantioane sunt egale.

În aceste condiții,

constatăm existența unei

diferențe semnificative între

bărbați și femei sub aspectul

emotivității (t(60)=3,728;

p<0,01), în sensul că emotivitatea femeilor este semnificativ mai mare în

comparație cu emotivitatea bărbaților (mfemei=7,60 > mbărbați=5,98), așa cum

rezultă și din graficul atașat.

Astfel, vom respinge ipoteza nulă conform căreia nu există diferențe

semnificative între bărbați și femei sub aspectul emotivității și vom susține

ipoteza alternativă. Într-adevăr, diferența dintre bărbați și femei din punctul

de vedere al variabilei studiate există și este semnificativă.

Efectul exercitat de variabila independentă „gen biologic” asupra

variabilei dependente „emotivitate” este un efect puternic (r2=0,188), testul

fiind semnificativ atât statistic, cât și din punctul de vedere al utilității prac-

tice. Efectul se manifestă în sensul testului statistic, susținând ipoteza alter-

nativă propusă. Astfel, 18,8% din varianța emotivității se poate explica prin

genul biologic, aspect care confirmă teoria după care emotivitatea femeilor

este mai mare în comparație cu cea a bărbaților, chiar și în mediul peniten-

ciar.

Statistică aplicată în ştiinţele socio-umane

282

Iată o demonstrație statistică realizată complet și profesional. Desigur,

mai este loc. Am putea completa rezultatele cu puterea cercetării pentru a

avea o imagine definitivă asupra acestei analize. Oricum, printr-un asemenea

demers nu vă puteți face de râs la nicio conferință din țară ori din străinătate.

În concluzie:

Extinderea cunoștințelor dobândite în urma studierii unui eșantion la nivelul între-

gii populații, face parte din domeniul statisticilor inferențiale. Orice cercetare știin-

țifică are la bază un plan (design) de cercetare;

Un design de cercetare este un plan care permite atribuirea subiecților în diferite

condiții experimentale, împreună cu modalitățile de analiză ale datelor rezultate.

Planurile de cercetare pot fi de bază sau complexe. Planurile de cercetare comple-

xe derivă din combinațiile planurilor de cercetare de bază;

Planurile de cercetare de bază sunt: designul complet aleatoriu (CR-p), designul

aleatoriu cu blocuri (RB-p) și designul pătratelor latine (LS-p);

Testele statistice neparametrice se aplică atunci când datele sunt situate la un nivel

de măsură neparametric sau când datele sunt parametrice, însă nu este îndeplinită

condiția distribuției normale;

Principalele teste neparametrice sunt: testul diferențelor dintre frecvențe χ2, testul

medianei pentru eșantioane independente, testul Mann-Whitney U pentru eșantioa-

ne independente, testul iterațiilor Wald-Wolfowitz (Runs), testul semnelor pentru

eșantioane dependente, testul Wilcoxon;

Principalele teste parametrice sunt: testele pentru un singur eșantion, teste pentru

două eșantioane independente și teste pentru două eșantioane perechi;

Există și teste specifice, testele de depistare a unor valori aberante și testele de

comparare a distribuției empirice cu o distribuție teoretică, în general distribuția

normală;

La interpretarea unui test statistic se ține cont de pragul de semnificație, valoarea

testului, semnul testului și mărimea efectului;

Creșterea puterii unei cercetări științifice se poate realiza prin măsuri care țin de:

designul cercetării, măsurătorile efectuate în cadrul cercetării și metodele statistice

folosite.

Cristian Opariuc-Dan

283

IIIIII.. AANNAALLIIZZAA FFIIDDEELLIITTĂĂŢŢIIII În acest capitol se va discuta despre:

Conceptul de fidelitate şi validitate;

Tehnicile şi metodele de calcul ale fidelităţii;

Modalitatea de alegere a metodei de analiză a fi-

delităţii;

Relevanţa şi strategiile de calcul ale fidelită-

ţii;

După parcurgerea capitolului, cititorii vor fi capabili să:

Înţeleagă principiile generale şi utilitatea fide-

lităţii şi a validităţii;

Calculeze coeficienţii de fidelitate, în funcţie

de specificul cercetării;

Analizeze şi să interpreteze elementele specifice

de studiu ale fidelităţii;

Utilizeze SPSS în calculul coeficienţilor de fide-

litate.

Stimate doamne, domnişoare şi domni, fidelitatea, în această accepţi-

une, nu este ceea ce credeţi. Nu se referă la fidelitatea partenerului sau la cea

a partenerei, ci vizează un cu totul alt concept. Cei dintre dumneavoastră,

care urmează sau au urmat cursurile unei facultăţi de psihologie, îşi mai

amintesc probabil coşmarul teoretic al validităţii şi fidelităţii din cadrul disci-

plinelor „psihodiagnostic” şi „metodologia elaborării instrumentelor psiholo-

gice”. Fiţi liniştiţi, deoarece nu doresc să detaliez aceste elemente aici. To-

tuşi, se impun anumite precizări.

Atunci când ne gândim la validitatea unui instrument de cercetare sau

la cea a unuia de diagnostic, avem în vedere faptul că itemii acelui instrument

reuşesc să măsoare, într-adevăr, ceea ce-şi propun să măsoare. Fidelitatea, pe

de altă parte, pleacă de la supoziţia că itemii deja măsoară dimensiunea in-

vestigată şi încearcă să determine cât de precis, cât de fiabil se măsoară acest

lucru. Vom clarifica imediat definițiile prin câteva exemple. Mă veţi întreba,

Statistică aplicată în ştiinţele socio-umane

284

desigur, pentru ce avem nevoie de studiul acestor elemente? Cred că vă mai

amintiţi caracteristicile măsurării în ştiinţele socio-umane. Ştiţi, desigur, că

aceasta are un caracter subiectiv şi că nu se poate compara cu măsurarea din

lumea fizică. Deoarece nu putem măsura direct fenomenele sociale, ci prin

intermediul unor indicatori observabili, indicatori care doar presupunem că ar

avea legătură cu fenomenul investigat, apare firească întrebarea cu privire la

modul în care aceşti indicatori chiar reprezintă fenomenul studiat şi, de ase-

menea, cât de precis îl reprezintă. Aceasta este, de fapt, problema validităţii şi

cea a fidelităţii.

Deseori aud, chiar printre profesioniştii cu experienţă, întrebarea „dar

testul acela a fost validat pe populaţia românească?”, întrebare care nu sinte-

tizează tocmai exact conceptul pe care-l vizează. În mod corect, nu ar trebui

să se vorbească despre validare, ci despre adaptare, presupunând că vorbim

despre un instrument de diagnostic din import. Ştim, deja, că verificarea vali-

dităţii – validarea, cum o numesc unii – este doar o etapă în procesul de adap-

tare. În mod normal, adaptarea unui instrument debutează cu traduceri şi re-

troversiuni multiple ale itemilor, pentru a se asigura specificul cultural al po-

pulaţiei, se continuă apoi cu asigurarea validităţii, în multiple forme, înce-

pând cu cea teoretică, de construct, apoi validitatea de conţinut, cea concu-

rentă şi predictivă, se studiază fidelitatea, şi, la sfârşit, se asigură etalonarea.

Termenul de „validare pe populaţia românească” este inadecvat, ca să nu mai

vorbim de cei care folosesc pentru adaptarea unui instrument, termenul de

„etalonare”. Adică, „este etalonat pe populaţia românească, sau nu?” Nu vă

amuzaţi prea tare, există şi asemenea „specialişti”, la care nivelul cunoştinţe-

lor de construcţie a instrumentelor de psihodiagnostic se rezumă doar la eta-

lon. Nu ne mai mirăm că aceştia folosesc teste depăşite de zeci de ani, sau,

mai simplu, dau un aviz psihologic în baza unei discuţii de trei minute.

Doar… testul e test, nu-i aşa? Ce, un test psihologic are termen de garan-

ţie??!!

Cristian Opariuc-Dan

285

Pe scurt, un instrument de cercetare sau unul de diagnostic pentru care

nu există studii serioase de validitate şi de fidelitate, este un instrument pe cât

de inutil, pe atât de periculos, deoarece, în baza rezultatelor obţinute, se pot

lua decizii complet false.

Să presupunem că doriţi să investigaţi anxietatea colegilor de serviciu,

iar pentru aceasta veţi construi un chestionar. Puteţi să măsuraţi anxietatea

direct? Desigur, nu! Anxietatea nu se măsoară în metri sau în kilograme, ci

prin intermediul unor întrebări, care vizează comportamente asociate cu

această dimensiune. Să presupunem că aţi inclus în chestionar următoarele

întrebări, la care subiectul va răspunde prin „Da” sau „Nu”:

Mâncaţi pâine în fiecare zi?

Obişnuiţi să vă plimbaţi prin parc cel puţin o dată pe săptămâ-

nă?

Vă place să citiţi cărţi de aventuri?

Credeţi că un chestionar care conţine întrebări similare cu cele de mai

sus măsoară anxietatea? Răspunsul este extrem de simplu. Evident că nu! Ce

treabă are mâncatul pâinii sau plimbarea prin parc cu anxietatea… Alta ar fi

situaţia în care am dispune de întrebări precum:

Aveţi uneori o stare de teamă inexplicabilă, fără obiect?

Atunci când vă cheamă şeful, vă îngrijoraţi şi vă este frică de-

oarece credeţi că aţi făcut ceva rău?

Atunci când aveţi de rezolvat o sarcină, într-un timp scurt, vă

agitaţi şi credeţi că nu o veţi putea duce la bun sfârşit?

Dacă subiectul răspunde afirmativ la aceste trei întrebări, atunci com-

portamentul său poate fi suspectat de anxietate. Iată, pe scurt, modalitatea de

prezentare a validităţii. Dacă primul set de întrebări este invalid, iar itemii nu

Statistică aplicată în ştiinţele socio-umane

286

au nimic în comun cu anxietatea, al doilea set poate fi considerat valid, aceş-

tia fiind puternic saturaţi în dimensiunea investigată.

Relaţia dintre validitate şi fidelitate poate fi foarte uşor înţeleasă dacă

apelăm la un exemplu. Să presupunem că instrumentul de diagnostic sau cel

de cercetare este asimilat unui trăgător cu pistolul5. Situaţia „trăgătorilor” din

punctul de vedere al validităţii şi fidelităţii poate fi prezentată în figura 3.1.

În prima figură (a) vom avea un instrument valid şi fidel. Trăgătorul

nu numai că a ochit grupat (fidel), însă a atins şi obiectivul urmărit, centrul

ţintei (valid). Figura (b) reprezintă situaţia unui instrument valid, însă cu pro-

bleme referitoare la fidelitate. Trăgătorul şi-a concentrat loviturile spre mijlo-

cul ţintei, spre obiectivul urmărit (valid) însă nu a tras prea grupat (nefidel).

Figura (c) reprezintă un instrument fidel, însă invalid. Deşi trăgătorul a gru-

pat foarte bine loviturile (fidel), totuşi este departe de centrul ţintei, de obiec-

tivul urmărit (invalid). În sfârşit, figura (d) este expresia unui instrument şi

invalid şi infidel. Imaginea nu necesită comentarii. Trăgătorul nu numai că nu

reuşeşte să atingă obiectivul (invalid), mai mult, loviturile nici măcar nu sunt

grupate (nefidel).

5 Exemplul nu-mi aparţine în totalitate. A fost citit sau mi s-a povestit de către Florin Sava.

Din nefericire, nu am sursa să-l pot cita, însă îmi fac datoria de onoare să menţionez acest

lucru.

a

a

a

a b c d

Figura 3.1 – Relaţia dintre validitate şi fidelitate

Cristian Opariuc-Dan

287

Ce se întâmplă, însă, din punct de vedere statistic? Orice cercetare

efectuată, va fi afectată de două surse de eroare: erori aleatorii şi erori nealea-

torii (sistematice).

Erorile aleatorii reprezintă influenţe ale factorilor externi care pot

afecta măsurătorile. Nici măcar în lumea fizică măsurătorile nu sunt scutite

de asemenea erori. Dacă măsurăm un obiect la o temperatură de 45 de grade

Celsius, vom obţine o valoare, diferită de valoarea obţinută la măsurarea ace-

luiaşi obiect la -10 grade Celsius. Mai mult, în domeniul socio-uman pot in-

terveni o mulţime de factori externi care să afecteze răspunsurile subiecţilor

şi, deci, măsurătoarea. Vremea de afară, genul biologic al cercetătorului sau

modul în care acesta s-a îmbrăcat, faptul că subiectul s-a certat cu soţia sau

cu soacra, faptul că nu a dormit noaptea sau că îl strânge un pantof sunt tot

atâtea surse externe de influenţă care pot genera erori aleatorii şi care pot

influenţa măsurătorile. Din nefericire, asemenea erori apar fie că vrem fie că

nu vrem şi de multe ori sunt aproape imposibil de controlat. Este cunoscut

faptul că influența acestor erori corelează negativ cu gradul de fidelitate al

unui instrument de cercetare. Cu cât influenţa erorilor aleatorii este mai mare,

cu atât instrumentul este mai puţin fidel, reciproca fiind, de asemenea, valabi-

lă. Un instrument are un grad ridicat de fidelitate, dacă aplicat aceloraşi sub-

iecţi, în condiţii variate, conduce la aceleaşi răspunsuri sau la răspunsuri foar-

te apropiate.

Erorile nealeatorii, numite şi erori sistematice, au un caracter con-

stant şi sunt legate, de cele mai multe ori, de instrumentul de cercetare. De

exemplu, dacă aveţi un ceas care merge cu 10 minute înainte, această diferen-

ţă dintre ora exactă şi ora indicată de ceas reprezintă o eroare sistematică. La

fel, un termometru care arată cu 20 de grade mai puţin decât temperatura rea-

lă este un termometru invalid. Iată că am ajuns şi la esenţa problemei. După

cum aţi constatat deja, controlul erorilor sistematice ţine de validitatea unui

Statistică aplicată în ştiinţele socio-umane

288

instrument (revedeţi figura cu ţinta), în timp ce minimizarea influenţei erori-

lor aleatorii reprezintă o problemă de fidelitate.

Nu intenţionez să susţin aici o prelegere referitoare la aceste două

concepte, deoarece fac parte dintr-o altă disciplină. Se pare că „m-a cam luat

valul” şi nu m-am putut abţine să nu încerc să lămuresc aceste lucruri. De

fapt, de buna lor înţelegere depinde însuşirea tehnicilor de analiză ale fidelită-

ţii. Cât despre validitate, o parte dintre instrumentele menite să o asigure va fi

discutată cu altă ocazie.

III.1 Metode de analiză a fidelităţii

În condiţiile în care orice măsurătoare este supusă erorilor aleatorii,

înseamnă că niciodată nu putem afla exact valoarea unui indicator. Conform

teoriei clasice a testului, un rezultat obţinut conţine scorul real şi suma erori-

lor aleatorii. Probabil că formula X = t + e nu reprezintă o noutate pentru

dumneavoastră. Aceasta este, de fapt, expresia matematică a afirmaţiei de

mai sus. Dacă veţi lua un test de inteligenţă şi îl veţi efectua, în fiecare zi,

timp de 10 zile, veţi observa că nu ajungeţi, de fiecare dată, la acelaşi rezul-

tat. Acest lucru nu se întâmplă din cauză că inteligenţa dumneavoastră fluctu-

ează, ci din cauza efectului exercitat de erorile aleatorii. Practic, valoarea „t”

din expresia de mai sus este constantă. Nu cred că este probabil ca inteligenţa

dumneavoastră să fluctueze de la o zi la alta, însă este foarte probabil ca într-

o zi să vă simţiţi mai obosit, fără chef, ori să vă fi zgâriat pisica DVD-ul pre-

ferat, iar în altă zi să vă puteţi concentra mai bine, să fiţi plin de energie. Stă-

rile dumneavoastră interne pot influenţa scorul observat (X), de la o zi la alta.

Dacă inteligenţa este constantă în această perioadă de timp, însă scorul ob-

servat se modifică, puteţi identifica sursa acestor fluctuaţii? Desigur, aţi răs-

puns corect! Într-adevăr, sursa variaţiilor scorului observat nu este dată de

inteligenţă ci de erorile aleatorii, elementul „e” din expresia anterioară.

Cristian Opariuc-Dan

289

În realitate, scorul real („t”) nu poate fi niciodată cunoscut. Nu veţi

putea şti vreodată, absolut exact, ce „cantitate” de inteligenţă aveţi. Acesta

este un indicator ipotetic, imposibil de observat şi de măsurat direct. Poate,

doar în condiţiile în care aţi efectua testul de inteligenţă vreo 50 de ani, în

fiecare zi, iar apoi aţi face media tuturor rezultatelor obţinute, ar rezulta o

măsură foarte apropiată de scorul real (conform teoremei limitei centrale),

însă nu vom uita că şi inteligenţa este afectată de timp.

Totuşi, dacă singura sursă de variaţie a scorului real este reprezentată

de erorile aleatorii, înseamnă că vor exista zile în care scorul dumneavoastră

observat va fi mai mare decât scorul real, după cum vor fi evaluări în care

scorul observat se va situa sub cel real. Acest lucru ne spune, de fapt, că sco-

rurile observate situate peste valoarea scorului real vor anula, în cele din ur-

mă, scorurile situate sub scorul real. Cu alte cuvinte, la un număr suficient de

mare de evaluări, erorile aleatorii tind să fie nule.

Sintetizând, vom considera următoarele asumpţii referitoare la ecuaţia

fundamentală a teoriei clasice a testului (Carmines, și alții, 1979):

Media erorilor aleatorii tinde spre zero, deoarece erorile care

determină situarea scorului observat peste scorul real compen-

sează erorile care determină situarea scorului observat sub sco-

rul real;

Din acelaşi motiv, corelaţia dintre scorul real şi erorile aleato-

rii tinde spre zero, cele două variabile fiind independente;

Corelaţia dintre erorile aleatorii, la diferite măsurători, va fi,

de asemenea zero, erorile aleatorii exercitând efecte indepen-

dente.

Plecând de la aceste asumpţii de bază, care, desigur, au şi o demon-

straţie matematică pertinentă, putem ajunge la concluzia că vom reuşi să

aflăm scorul real, dacă evaluăm o persoană de foarte multe ori cu acelaşi in-

Statistică aplicată în ştiinţele socio-umane

290

strument. Însă, acest lucru nu este posibil din mai multe motive. Nu cred că

vom găsi o asemenea persoană disponibilă, şi apoi intervin factorii de memo-

rie şi alţi factori care pot influenţa rezultatele, prin noi erori aleatorii. În acest

caz, renunţăm la a evalua o singură persoană şi evaluăm, cu acelaşi instru-

ment, un grup de persoane. Intuiţi deja că fundamentul teoretic de mai sus se

poate aplica şi în această situaţie. Nu intrăm în detalii şi în demonstraţii. Cei

care doresc mai multe informaţii, pot consulta literatura de specialitate. O

prezentare excelentă a acestor elemente este realizată de către Carmines şi

Zeller (Carmines, și alții, 1979) în lucrarea lor. În linii mari, aceasta este

logica evaluării fidelităţii. La un număr suficient de mare de persoane evalua-

te cu acelaşi instrument, erorile aleatorii se compensează reciproc şi putem

avea măsura fidelităţii scorului real. Repet, problema nu se referă la aflarea

scorului real, ci la analiza fidelităţii unui instrument de măsură, a stabilităţii

sale. Dacă ceea ce fluctuează sunt erorile aleatorii, atunci, identificând ceva

stabil, acel lucru trebuie să fie scorul real.

În practică, există mai multe metode prin care putem evalua fidelitatea

unui instrument: metoda test-retest, metoda formelor paralele, metoda înju-

mătăţirii, metoda acordului între evaluatori şi metoda consistenţei interne. Le

vom analiza pe fiecare în parte.

III.1.1 Metoda test-retest

Se referă la analiza stabilităţii în timp a rezultatelor şi presupune ad-

ministrarea instrumentului unui grup de subiecţi, colectarea rezultatelor şi

apoi administrarea aceluiaşi instrument, aceluiaşi grup de subiecţi, după un

interval de timp. Rezultatele obţinute la cele două evaluări sunt apoi corelate,

coeficientul numindu-se coeficient de fidelitate test-retest sau coeficient de

stabilitate, deoarece arată cât de stabile sunt rezultatele după un interval de

timp.

Cristian Opariuc-Dan

291

Una dintre cele mai controversate întrebări care se pune este cea refe-

ritoare la intervalul de timp dintre cele două evaluări (Stan, 2002). Ei bine,

intervalul de timp depinde de stabilitatea dimensiunii măsurate. Retestarea

după un an poate fi inadecvată pentru un chestionar de opinii, acestea

putându-se schimba între timp, însă poate fi perfect valabilă pentru un test de

inteligenţă. Oricum, durata dintre cele două evaluări nu poate fi mai mică de

3-4 săptămâni. În cele mai multe cazuri, cercetătorii acordă un interval de 5-6

luni, considerat suficient pentru o analiză pertinentă a fidelităţii.

Această metodă, deşi intens folosită, nu este agreată în mod deosebit

de către cercetători, din cauza unor motive obiective. În primul rând, unii nu

o consideră o măsură a fidelităţii, ci una a stabilităţii scorurilor. Apoi, dacă

intervalul de timp este prea scurt, metoda nu mai estimează în mod real stabi-

litatea, intervenind influenţa memoriei şi efectul de învăţare. Subiecţii îşi pot

aminti unele răspunsuri de la evaluarea trecută, fapt care biasează masiv ana-

liza de fidelitate. Dacă intervalul de timp este prea lung, intervine efectul de

maturizare, prin care dimensiunea evaluată se modifică, mai ales dacă vorbim

de factori de personalitate. Mai mult decât atât, subiecţii tind să dea răspun-

suri la întâmplare în condiţiile celei de-a doua administrări.

Ideea este că nu se poate folosi această metodă ca metodă unică de es-

timare a fidelităţii, ci doar însoţită de o altă metodă, de obicei de metoda con-

sistenţei interne. Foarte mulţi consideră metoda test-retest ca o formă a meto-

dei înjumătăţirii, poate şi datorită faptului că procedeele statistice de calcul

sunt analoage. Din această cauză, nu vom prezenta aici calculul coeficientului

de fidelitate test-retest, ci îl vom aborda în cadrul celei de-a doua metode

studiate.

III.1.2 Metoda înjumătăţirii

Se mai numeşte metoda split-half, este mult mai precisă în comparaţie

cu metoda test-retest şi nu mai presupune o readministrare a instrumentului

Statistică aplicată în ştiinţele socio-umane

292

după un interval de timp. Ideea de bază a metodei este aceea că, dacă avem

un set de itemi care măsoară o dimensiune, oricare două subseturi din acei

itemi, măsurând aceeaşi dimensiune, vor corela puternic. De exemplu, dacă

avem un chestionar care măsoară depresia, chestionar format din 20 de între-

bări, dintre care, aleatoriu, formăm două chestionare de câte 10 întrebări (lu-

ăm la întâmplare 10 itemi din chestionar şi construim o formă, ceilalţi 10

itemi rămaşi reprezentând cealaltă formă), şi apoi corelăm cele două chestio-

nare, ar trebui să obţinem un coeficient de corelaţie ridicat. Acest coeficient

poartă numele de coeficient de fidelitate split-half şi reprezintă o măsură

mai precisă a fidelităţii în comparaţie cu celălalt indicator, coeficientul de

stabilitate.

Dacă aţi fost atenţi, aţi observat că metoda test-retest este o variantă a

metodei înjumătăţirii. Pentru test-retest se foloseşte întregul instrument apli-

cat la două intervale de timp, iar pentru split-half folosim cele două jumătăţi

ale instrumentului, aplicate o singură dată. Ambele metode presupun aceleaşi

operaţii statistice, şi anume corelarea celor două administrări în cazul test-

retest şi corelarea celor două jumătăţi pentru split-half.

Fidelitatea prin metoda split-half măsoară, de fapt, echivalenţa celor

două jumătăţi de instrument. Unii autori o numesc şi fidelitate a formelor

paralele sau chiar fidelitatea consistenţei interne, deşi aceste denumiri sunt

oarecum improprii metodei.

Atât fidelitatea prin metoda test-retest, cât şi cea evaluată prin metoda

înjumătăţirii se pot analiza prin mai multe procedee statistice. Unul dintre

acestea implică obţinerea coeficientului de fidelitate split-half după formula

Spearman-Brown, numit şi coeficient de predicţie Spearman-Brown.

Cristian Opariuc-Dan

293

(formula 3.1)

unde, rij reprezintă coeficientul de corelaţie Bravais-Pearson între ce-

le două forme, iar k se referă la numărul total de itemi împărţit la numărul

de itemi din fiecare formă şi are, în general, valoarea 2.

Această formulă se foloseşte exclusiv în situaţia în care utilizăm me-

toda înjumătăţirii, factorul k jucând rolul de factor de corecţie.

Să presupunem că avem un chestionar cu un număr de 25 de itemi

pentru care dorim să verificăm fidelitatea prin metoda înjumătăţirii. Dintre

cei 25 de itemi, vom construi două forme, alegerea întrebărilor fiind absolut

aleatorie. Vor rezulta, aşadar, două forme, una conţinând 13 itemi iar cealaltă

12 itemi.

Am ales intenţionat un număr inegal de itemi în cele două forme, pen-

tru a vă arăta modul în care se poate calcula factorul k. Pentru un plus de pre-

cizie, vom considera forma cea mai scurtă, cea cu 12 itemi. Făcând raportul

dintre numărul total al itemilor din chestionarul original şi numărul de itemi

din prima jumătate, obţinem 25/12=2,08. Practic, chestionarul original este

de 2,08 ori mai lung în comparaţie cu această formă. Similar, raportul pentru

forma a doua, cea cu 13 itemi devine 25/13=1,92. Această formă este de 1,92

ori mai scurtă în comparaţie cu chestionarul original. Singurul element care

ne lipseşte este coeficientul de corelaţie dintre cele două forme. Acest indica-

tor ştiţi deja să-l calculaţi foarte bine şi, să presupunem că aţi obţinut r= 0,87.

Înlocuind în formulă, vom obţine un coeficient de predicţie Spearman-Brown

rSB1= 0,93, valoare care arată o fidelitate foarte bună, cele două forme fiind

echivalente, iar pe ansamblu chestionarul fiind fidel.

Statistică aplicată în ştiinţele socio-umane

294

Dacă dorim un exces de precizie, putem calcula coeficientul de pre-

dicţie a fidelităţii ajustat şi pentru cealaltă parte. Vom obţine valoarea 0,92

pentru coeficientul de fidelitate split-half, diferenţa dintre cele două valori

fiind foarte mică.

Acest coeficient îl vom folosi doar dacă analizăm fidelitatea prin me-

toda split-half. În ceea ce priveşte semnificaţia lui, majoritatea autorilor con-

sideră că valorile de peste 0,80 sunt adecvate pentru o fidelitate acceptabilă,

iar dacă dorim un grad ridicat al fidelităţii, nu vom putea accepta coeficienţi

sub 0,90. Totuşi, pentru cercetări exploratorii şi nu diagnostice, se pot lua în

considerare coeficienţi de fidelitate de peste 0,60, sub această limită

considerându-se instrumentul ca nefiind fidel.

Probabil că vă veţi întreba de ce acest coeficient se numeşte coeficient

de predicţie? Răspunsul constă în analiza formulei. Practic, formula prezice

fidelitatea întregului chestionar, pornind de la o formă a acestuia – formă

pentru care s-a calculat factorul k –, şi în baza corelaţiei dintre cele două for-

me.

În cazul în care s-a utilizat metoda test-retest pentru calculul fidelită-

ţii, formula 3.1 nu mai corespunde. Un caz particular al acestei formule este

exprimat prin relaţia următoare:

(formula 3.2)

Este, de fapt, situaţia în care am construi două forme ale unui chestio-

nar, ambele cu acelaşi număr de itemi. Prin extensie, metoda se poate aplica

şi în cazul formei test-retest.

Să presupunem că acelaşi chestionar cu 25 de itemi este aplicat unui

lot de cercetare de 130 de subiecţi, cu readministrare peste 8 luni. Coeficien-

Cristian Opariuc-Dan

295

tul de corelaţie dintre cele două administrări este r= 0,79. În acest caz, fideli-

tatea test-retest va fi 0,88, arătând că instrumentul are o foarte bună stabilita-

te.

Pentru a înţelege mai bine calculul acestui coeficient, vom lua exem-

plul unui chestionar cu 40 de itemi, aplicat unui număr de 10 studenţi. Rezul-

tatele vor fi centralizate în tabelul 3.1. Se observă că, pentru fiecare subiect,

am inclus atât scorul total obţinut (la nivelul întregului chestionar) cât şi sco-

rul obţinut pentru fiecare dintre cele două jumătăţi (forma x cu 20 de itemi şi

forma y, tot cu 20 de itemi).

Primul pas este reprezentat de calculul mediilor, atât pentru forma

completă a instrumentului, cât şi pentru cele două sub-forme. Media scoruri-

lor este de 31 pentru întregul chestionar (mtot), 15,2 pentru prima formă (mx)

şi 15,8 pentru forma a doua (my).

Tabelul 3.1– Calculul coeficientului de fidelitate split-half

Student Scor

(40)

Forma x

(20)

Forma y

(20) x-mx y-my (x-mx)

2 (y-my) 2 (x-mx)( y-my)

A 40 20 20 4.8 4.2 23.04 17.64 20.16

B 28 15 13 -0.2 -2.8 0.04 7.84 0.56

C 35 19 16 3.8 0.2 14.44 0.04 0.76

D 38 18 20 2.8 4.2 7.84 17.64 11.76

E 22 l0 12 -5.2 -3.8 27.04 14.44 19.76

F 20 12 8 -3.2 -7.8 10.24 60.84 24.96

G 35 16 19 0.8 3.2 0.64 10.24 2.56

H 33 16 17 0.8 1.2 0.64 1.44 0.96

I 31 12 19 -3.2 3.2 10.24 10.24 -10.24

J 28 14 14 -1.2 -1.8 1.44 3.24 2.16

Media 31.0 15.2 15.8

95.60 143.60 73.40

Corelaţia Bravais-Pearson se va calcula după una dintre procedurile

expuse în primul capitol, cea prin care folosim direct formula de definiţie.

Pentru aceasta – vă reamintim – trebuie făcută diferenţa dintre scor şi medie,

pentru fiecare dintre cele două forme, apoi ridicăm la pătrat aceste diferenţe

Statistică aplicată în ştiinţele socio-umane

296

şi, în final, le vom înmulţi. Sunt, de asemenea, necesare sumele pătratelor

diferenţelor, pentru fiecare variabilă, precum şi suma produselor diferenţelor.

Toate calculele au fost realizate în tabelul 3.1, nu rămâne decât să aplicăm

formula de definiţie a coeficientului de corelaţie r Bravais-Pearson.

√∑ ∑

Având coeficientul de corelaţie r Bravais-Pearson (0,62), restul devine

o simplă problemă de aplicare a formulei Spearman-Brown în vederea obţi-

nerii coeficientului de fidelitate split-half (0,76).

Coeficientul de predicţie a fidelităţii Spearman-Brown este foarte bun,

în condiţiile în care cele două forme au un număr egal de itemi, iar varianţele

celor două forme sunt, şi ele, egale. Aţi văzut deja că în cazul în care numărul

de itemi nu este egal, apar diferenţe între cei doi coeficienţi de fidelitate.

Formula 3.1 poate fi folosită şi în acest caz, de obicei raportându-se coefici-

entul de fidelitate cel mai mic. Totuşi, dacă varianţele nu sunt egale, fidelita-

tea analizată prin intermediul formulei Spearman-Brown poate să nu fie rele-

vantă. În acest caz, vom aplica o altă tehnică, bazată pe coeficientul de fide-

litate split-half Guttman.

Acest coeficient reprezintă o formă adaptată a relaţiei Spearman-

Brown, folosită în cazul în care varianţele celor două forme nu sunt egale, iar

calculul se poate realiza după formula următoare:

(formula 3.3)

unde reprezintă varianţa întregului chestionar,

reprezintă vari-

anţa primei forme iar reprezintă varianţa celei de-a doua forme.

Cristian Opariuc-Dan

297

Acest coeficient calculează direct fidelitatea, bazându-se doar pe vari-

anţe, nu şi pe alţi coeficienţi de corelaţie. Tot ceea ce avem de făcut este să

calculăm varianţele instrumentului original şi varianţele celor două forme ale

sale, apoi să înlocuim în formulă. Ştiţi deja că varianţa nu este altceva decât

abaterea standard la pătrat, modalitatea de calcul fiind prezentată într-un alt

volum6.

Să presupunem că varianţa totală a unui chestionar de 37 de întrebări

este 132,43, varianţa primei forme, care conţine 18 întrebări este de 40,01 iar

varianţa celei de-a doua forme, cu 19 întrebări este de 32,21. Aplicând în

formulă, obţinem un coeficient de fidelitate de 0,90.

Această formă a coeficientului de fidelitate Guttman este, de fapt,

forma λ4 din cei şase coeficienţi pe care îi propune autorul, fiind şi cea mai

recomandată metodă de studiu a fidelităţii prin split-half.

Deşi metoda înjumătăţirii este mult mai precisă în comparaţie cu me-

toda test-retest, aţi remarcat faptul că nu ne spune nimic despre structura in-

ternă a celor două forme. Coeficienţii de fidelitate split-half sunt puternic

influenţaţi de modul în care vor fi selectaţi itemii în cele două forme, acest

lucru putând asigura egalitatea varianţelor, însă nu lasă nicio posibilitate prin

care cercetătorul să poată verifica, propriu-zis, itemii. Pot să apară diferenţe

importante dacă itemii sunt selectaţi aleatoriu în cele două forme, în compa-

raţie cu situaţia în care o formă conţine itemii pari iar cealaltă conţine itemii

impari sau printr-o altă selecţie aleatorie a itemilor.

De exemplu, dacă am avea un chestionar pentru evaluarea depresiei,

format din 40 de itemi, dintre care 39 ar viza depresia, însă un singur item s-

6 Puteţi consulta lucrarea „Statistică aplicată în ştiinţele socio-umane. Noţiuni de bază -

Statistici univariată”, de acelaşi autor, apărută la editura ASCR, Cluj-Napoca, 2009

Statistică aplicată în ştiinţele socio-umane

298

ar referi la numărul de la pantofi, probabil că includerea acestuia într-una

dintre forme ar furniza un anumit coeficient de fidelitate, chiar şi acceptabil,

dar nu am avea nicio posibilitate să depistăm că acel item nu este consistent

cu ansamblul celorlalţi 39.

Aceasta este, de fapt, principala deficienţă a metodei split-half şi prin-

cipala critică ce i se aduce în lumea ştiinţifică. Pornind de la acest lucru,

Cronbach a avut în anul 1951 ideea de a trata fiecare item ca o formă a testu-

lui. În loc să construim două forme de câte 20 de itemi pentru chestionarul

nostru, vom construi, practic, 40 de forme, fiecare conţinând un singur item.

Corelarea tuturor celor 40 de itemi, prin această variantă de split-half, deter-

mină apariţia unui nou concept, cel de consistenţă internă.

III.1.3 Metoda consistenţei interne

Încă de la început, doresc să menţionez că analiza consistenţei interne

este o metodă de verificare a fidelităţii, nu o metodă de verificare a validităţii,

aşa cum am auzit şi am citit prin unele cărţi. Ea nu se bazează pe tratarea ero-

rilor sistematice, ci tot pe tratarea erorilor aleatorii, fiind o derivaţie a meto-

dei split-half.

Coeficientul de consistenţă internă α Cronbach este, poate, cea mai

populară măsură a fidelităţii evaluată prin această metodă. Acesta poate lua

valori între 0 şi 1, unde valoarea 0 arată că instrumentul nu măsoară decât

erorile aleatorii, neavând nimic de a face cu scorul real, iar valoarea 1 arată

că instrumentul măsoară doar scorul real, fiind eliminate complet erorile alea-

torii.

Una dintre formulele de calcul ale coeficientului α Cronbach este ur-

mătoarea:

Cristian Opariuc-Dan

299

(formula 3.4)

unde n reprezintă numărul de itemi analizaţi, iar este media corela-

ţiilor inter-itemi.

Să considerăm un chestionar cu un număr de 10 itemi, care măsoară

satisfacţia profesională. Primul pas în calcularea coeficientului de fidelitate α

Cronbach îl reprezintă construirea matricei de corelaţii.

În afara faptului că este foarte migăloasă, construirea tabelului 3.2 nu

pune probleme deosebite de calcul. Nu trebuie decât să luaţi fiecare item şi

să-l corelaţi cu ceilalţi. Desigur, dacă aţi corelat itemul 3 cu itemul 5, nu are

rost să corelaţi itemul 5 cu itemul 3, pentru că veţi ajunge la acelaşi rezultat.

Acesta este şi motivul pentru care sunt afişate doar rezultatele de deasupra

(sau de dedesubtul, dacă preferaţi) diagonalei principale. Coeficientul de co-

relaţie a unui item cu el însuşi este întotdeauna 1, de aceea diagonala tabelu-

lui va avea întotdeauna valoarea 1.

Tabelul 3.2– Matricea de corelaţii inter-itemi

Item

1

Item

2

Item

3

Item

4

Item

5

Item

6

Item

7

Item

8

Item

9

Item

10

Item 1 1 ,185 ,451 ,399 ,413 ,263 ,394 ,352 ,361 ,204 3,022

Item 2 1 ,048 ,209 ,248 ,246 ,230 ,050 ,277 ,270 1,578

Item 3 1 ,350 ,399 ,209 ,381 ,427 ,276 ,332 2,374

Item 4 1 ,369 ,415 ,469 ,280 ,358 ,221 2,112

Item 5 1 ,338 ,446 ,457 ,317 ,425 1,983

Item 6 1 ,474 ,214 ,502 ,189 1,379

Item 7 1 ,315 ,577 ,311 1,203

Item 8 1 ,299 ,374 0,673

Item 9 1 ,233 0,233

Item 10 1 -

∑=14,557

Dacă nu v-aţi plictisit realizând un număr destul de mare de corelaţii,

vă mai aşteaptă o surpriză, şi anume calculul mediei corelaţiilor inter-itemi.

Conceptul înseamnă exact ceea ce-i spune şi numele. Avem un număr de 45

de corelaţii inter-itemi (desigur, fără corelaţiile itemului cu el însuşi – corela-

Statistică aplicată în ştiinţele socio-umane

300

ţiile cu valoarea 1). Trebuie să adunăm toate aceste corelaţii şi să împărţim

suma rezultată la 45 – numărul total al corelaţiilor.

Vă recomand să procedaţi ca în tabelul 3.2. Efectuaţi suma corelaţiilor

inter-itemi pentru fiecare item (pe fiecare linie) şi apoi adunaţi sumele parţia-

le. Atenţie, sumele se calculează fără valorile de pe diagonală, fără corelaţiile

cu valoarea 1. Totalul obţinut este 14,557. Dacă împărţim această sumă la 45

(numărul total al corelaţiilor inter-itemi) obţinem valoarea 0,323, valoare care

reprezintă tocmai media corelaţiilor inter-itemi. Ştiind această medie şi cu-

noscând numărul total de itemi (10), putem acum aplica formula pentru a

calcula coeficientul de consistenţă internă α Cronbach.

S-a obţinut un coeficient de consistenţă internă bun, putem accepta

faptul că instrumentul are consistenţă internă, este un instrument fidel.

Există, desigur, mai multe variante de formule pentru calculul coefici-

entului de consistenţă internă. Formula 3.4 se bazează pe media corelaţiilor

inter-itemi, fiind şi cea mai uşoară. Altele se centrează pe calculul varianţe-

lor, creându-se matricea varianţă-covarianţă. Pentru a nu complica inutil ex-

punerea, ne vom rezuma doar la formula prezentată. Oricum, este prea puţin

probabil să calculaţi manual acest coeficient, volumul de muncă fiind foarte

mare. În general, veţi apela la SPSS, după cum vom vedea imediat.

La fel ca şi coeficientul de fidelitate split-half, α Cronbach nu trebuie

să aibă o valoare mai mică de 0,60 în cazul cercetărilor exploratorii. În scop

diagnostic, se recomandă ca valoarea acestui coeficient să depăşească 0,70,

un instrument bun având o consistenţă internă de peste 0,80.

Deşi coeficientul de consistenţă internă α Cronbach este intens folosit,

totuşi nu este scutit de probleme. Kline (Kline, 1999) afirma că valoarea re-

comandată pentru acest coeficient (0,80) poate fi o valoare de referinţă în

Cristian Opariuc-Dan

301

cazul testelor de inteligenţă, în timp ce pentru inventarele de personalitate se

poate coborî până la 0,70, iar pentru chestionarele de opinie chiar şi mai jos.

Totuşi, niciun autor nu susţine posibilitatea ca un coeficient de consistenţă

internă să fie mai mic de 0,60.

De asemenea, Cortina (Cortina, 1993) ridică o altă problemă a acestui

coeficient, cea conform căreia valoarea sa depinde de numărul de itemi. Pe

măsură ce creşte numărul de itemi dintr-un instrument, creşte şi coeficientul

α Cronbach. De aceea, există posibilitatea să obţinem un instrument sau o

scală consistentă, nu pentru că aceasta ar fi, într-adevăr, fidelă, ci pentru că

are un număr foarte mare de întrebări.

O altă eroare des întâlnită în interpretarea coeficientului de consisten-

ţă internă se referă la faptul că cercetătorii pleacă de la premisa unidimensio-

nalităţii. Cu alte cuvinte, se presupune că în spatele acelor itemi se află o sin-

gură dimensiune, ceea nu este, de multe ori, corect. Consistenţa internă nu

poate reliefa structura dimensiunilor, a factorilor instrumentului, acest lucru

fiind de competenţa analizei factoriale. Tot Cortina (Cortina, 1993) a arătat

că seturi de itemi cu acelaşi coeficient de consistenţă internă, pot avea struc-

turi foarte diferite. Itemii pot să vizeze un singur factor, doi factori corelaţi

sau factori complet necorelaţi. Cercetările au arătat că α Cronbach nu poate şi

nu trebuie folosit ca o măsură a unidimensionalităţii. Obţinerea unui coefici-

ent înalt arată doar că itemii sunt corelaţi între ei, nu şi că vizează o singură

dimensiune. Din nefericire, destui cercetători confundă aceste elemente şi

creează instrumente de cercetare „valide” bazându-se exclusiv pe α

Cronbach, lucru, desigur, eronat. Chiar Cronbach afirma că dacă un instru-

ment are mai multe scale, coeficientul α va fi calculat pentru fiecare scală şi

nu pe întregul chestionar, un asemenea demers neavând sens.

De obicei, coeficientul de consistenţă internă are valori pozitive. S-ar

putea, însă, să aveţi surpriza obţinerii unor coeficienţi negativi. De unde poa-

te să apară acest lucru? Ei bine, un asemenea coeficient are valori negative în

Statistică aplicată în ştiinţele socio-umane

302

cazul în care covarianţa negativă este mai mare în comparaţie cu cea pozitivă.

Ştim foarte bine, că pentru a evita tendinţa subiecţilor către un răspuns pozi-

tiv, de multe ori folosim itemi inversaţi. Adică, dacă la unii itemi răspunsul

„Da” este semnificativ şi primeşte un punct, la alţi itemi primeşte un punct

răspunsul „Nu”. Sau, dacă vom nuanţa puţin, având o evaluare pe o scală de

la 1 la 5, pentru unii itemi 5 înseamnă „foarte mult”, în timp ce pentru alţi

itemi, 1 va însemna „foarte mult”. În acest caz, unii itemi vor corela negativ.

În funcţie de numărul itemilor inversaţi, per ansamblu este posibil să obţinem

o covarianţă negativă mai mare în comparaţie cu cea pozitivă, şi, evident, un

coeficient negativ. Vom vedea, atunci când vom discuta despre aplicaţiile în

SPSS, ce avem de făcut în acest caz, fiind vorba despre un proces de recodare

al itemilor.

Cronbach a descoperit formula sa în anul 1951. Să nu credeţi că până

atunci cercetătorii nu aveau idee despre consistenţa internă. Încă din anul

1937 conceptul era bine cunoscut, cel puţin pentru Kuder şi Richardson, care

au pus la punct o metodă de calcul a consistenţei interne, în condiţiile în care

itemii sunt dihotomici. Adică, atunci când răspunsurile sunt de tipul „Da” şi

„Nu”. Este cazul, desigur, al binecunoscutei formule Kuder-Richardson

KR20, formulă alternativă pentru α Cronbach.

(

) (formula 3.5)

unde p reprezintă proporţia subiecţilor care au răspuns semnificativ

la acel item (au primit punct), q reprezintă proporţia subiecţilor care au răs-

puns nesemnificativ la acel item (nu au primit punct), σ2 se referă la varianţa

scorului total iar k reprezintă numărul total de itemi

Vom considera un instrument cu 12 itemi, la care subiecţii pot răs-

punde prin „Da” sau „Nu”, răspunsul „Da” fiind semnificativ şi primind un

punct. Acest instrument a fost administrat unui număr de 10 persoane.

Cristian Opariuc-Dan

303

Tabelul 3.3– Calculul coeficientului Kuder-Richardson pentru itemi dihotomici

Subiecţi Itemi (k) ∑ ∑-m (∑-m)2

1 2 3 4 5 6 7 8 9 10 11 12

A 1 1 1 1 1 1 1 0 1 1 1 1 11 4.5 20.25

B 1 1 1 1 1 1 1 1 0 1 1 0 10 3.5 12.25

C 1 1 1 1 1 1 1 1 1 0 0 0 9 2.5 6.25

D 1 1 1 0 1 1 0 1 1 0 0 0 7 0.5 0.25

E 1 1 1 1 1 0 0 1 1 0 0 0 7 0.5 0.25

F 1 1 1 0 0 1 1 0 0 1 0 0 6 -0.5 0.25

G 1 1 1 1 0 0 1 0 0 0 0 0 5 -1.5 2.25

H 1 1 0 1 0 0 0 1 0 0 0 0 4 -2.5 6.25

I 1 1 1 0 1 0 0 0 0 0 0 0 4 -2.5 6.25

J 0 0 0 1 1 0 0 0 0 0 0 0 2 -4.5 20.25

∑ 9 9 8 7 7 5 5 5 4 3 2 1

Media

6.5

74.50 p 0,9 0,9 0,8 0,7 0,7 0,5 0,5 0,5 0,4 0,3 0,2 0,1

q 0,1 0,1 0,2 0,3 0,3 0,5 0,5 0,5 0,6 0,7 0,8 0,9

pq ,09 ,09 ,16 ,21 ,21 ,25 ,25 ,25 ,24 ,21 ,16 ,09 ∑pq=2,21

În tabelul 3.3 puteţi observa modul de aranjare al datelor în vederea

calculării coeficientului de fidelitate Kuder-Richardson. În primul rând, vom

construi o matrice a răspunsurilor subiecţilor. Astfel, primul subiect a răspuns

de 11 ori „Da” şi doar o singură dată „Nu”, la itemul 8. Al doilea subiect are

două răspunsuri „Nu”, la itemii 9 şi 12, şi aşa mai departe. După completarea

matricei, va trebui să realizăm suma răspunsurilor „corecte” pentru fiecare

item. Astfel, la primul item au răspuns „Da” 9 subiecţi, un singur subiect răs-

punzând „Nu”. Suma va fi aşadar 9, la fel ca şi pentru itemul al doilea. La

itemul al treilea, au răspuns „Nu” două persoane, opt persoane răspunzând

„Da”, aşadar suma răspunsurilor „Da” va fi 8. Procedăm la fel până la ultimul

item, itemul 12, unde observăm că doar o singură persoană a răspuns „Da”.

Urmează calculul proporţiilor. Deoarece ştiţi deja că proporţiile se exprimă

sub formă zecimală, având valori între 0 şi 1, vom calcula doar proporţia răs-

punsurilor semnificative, a răspunsurilor „Da” pentru fiecare item (p), cunos-

când că proporţia răspunsurilor nesemnificative, „Nu”, se află foarte simplu,

pe baza unei operaţii de scădere (q=1-p). Pentru primul item, din 10 subiecţi,

9 au răspuns „Da”. Evident, proporţia este de 0,9 (sau 90% dintre subiecţi au

răspuns „Da” – amintiţi-vă regula de trei simplă. Dacă 10 răspunsuri „Da”

Statistică aplicată în ştiinţele socio-umane

304

înseamnă 100%, atunci 9 răspunsuri „Da” cât la sută înseamnă?). Aceeaşi

proporţie o calculăm şi la al doilea item, şi aşa mai departe, până la ultimul

item. După stabilirea proporţiilor p şi q pentru toţi cei 12 itemi, vom face

produsul acestora (pq), aşa cum apare pe ultima linie a tabelului. În final,

calculăm suma acestor produse şi obţinem valoarea 2,21.

Singurul element care ne mai lipseşte pentru a putea aplica formula,

se referă la varianţa scorului total. Pentru a o afla, folosiţi-vă de ultimele trei

coloane din tabelul 3.3 şi de informaţiile din cartea anterioară, referitoare la

calculul varianţei şi al abaterii standard. În final, veţi obţine varianţa egală cu

8,28. Să calculăm acum coeficientul Kuder-Richardson.

(

)

(

)

Nu este deloc greu, aşa cum deja v-aţi obişnuit. Un asemenea coefici-

ent indică o consistenţă internă bună a celor 12 itemi din instrumentul de mai

sus.

Ce ne facem însă dacă nu avem la dispoziţie structura datelor, la nivel

de item, ci doar scorul brut total, aşa ca în tabelul 3.4?

Tabelul 3.4– Calculul coeficientului Kuder-Richardson pe baza notelor brute

Subiecţi NB ∑-m (∑-m)2

A 11 4.5 20.25

B 10 3.5 12.25

C 9 2.5 6.25

D 7 0.5 0.25

E 7 0.5 0.25

F 6 -0.5 0.25

G 5 -1.5 2.25

H 4 -2.5 6.25

I 4 -2.5 6.25

J 2 -4.5 20.25

∑=74,5

m=6,5

Cristian Opariuc-Dan

305

Aţi remarcat, sunt aceleaşi date, însă nu mai avem răspunsurile celor

zece subiecţi la fiecare dintre cei 12 itemi, ci doar scorul brut, total, pentru

fiecare dintre subiecţi. Fără să intrăm în detalii, avem şi media acestor evalu-

ări, precum şi suma abaterilor pătratice de la medie, rezultând, evident, ace-

eaşi varianţă, care va avea valoarea 8,28. Există acum vreo posibilitate să

aflăm consistenţa internă? Răspunsul este pozitiv şi va trebui să aduceţi mul-

ţumiri lui Kuder şi Richardson pentru acest lucru. Iată că cei doi autori ne

mai oferă o relaţie, exact pentru situaţii de acest gen, numită formula de cal-

cul a coeficientului Kuder-Richardson 21 (KR21).

(

) (formula 3.6)

Elementele formulei nu necesită explicaţii. Ne trebuie doar numărul

de itemi (12 în cazul nostru), media evaluărilor (ştim, este 6,5) şi varianţa (pe

care o cunoaşte deja, fiind 8,28).

(

)

(

)

Se constată o importantă reducere a coeficientului de consistenţă in-

ternă, de la 0,79 la 0,70. Acest lucru apare din cauza faptului că nu cunoaş-

tem structura internă a răspunsurilor. Formula Kuder-Richardson 21 utilizea-

ză o aproximare matematică a proporţiilor şi nu o evaluare exactă a acestora.

Este perfect normal faptul că se pierde foarte multă informaţie, iar coeficien-

tul de consistenţă internă va fi mult mai mic. Însă, dacă nu avem altă soluţie,

este bine şi aşa.

Spre deosebire de α Cronbach, care se poate calcula pentru orice fel

de itemi, coeficientul Kuder-Richardson se foloseşte numai pentru itemi di-

hotomici.

Desigur, există şi alte metode de evaluare a consistenţei interne, pe

care le vom analiza în cadrul aplicaţiei computerizate. Cele mai importante

tehnici au fost expuse în acest subcapitol, cunoaşterea lor oferindu-vă o bază

Statistică aplicată în ştiinţele socio-umane

306

solidă pentru înţelegerea şi utilizarea conceptului de fidelitate prin consisten-

ţă internă

III.1.4 Metoda formelor paralele

Reprezintă o formă hibridă de verificare a fidelităţii, prin combinarea

metodelor test-retest şi split-half şi se foloseşte destul de frecvent în dome-

niul educaţional. Ca şi metoda test-retest, presupune utilizarea aceluiaşi lot de

subiecţi, realizându-se în două etape:

În prima etapă se împarte instrumentul original în două forme,

numite forme paralele, opţional studiindu-se coeficientul de

fidelitate split-half pe un grup de cercetare. Studiul acestui co-

eficient nu reprezintă, însă, o etapă obligatorie, ci poate fi fo-

losit ca referinţă pentru etapa a doua;

În a doua etapă se administrează prima formă unui alt grup de

subiecţi, apoi, după un interval de două săptămâni sau o lună,

se administrează, aceloraşi subiecţi, cea de-a doua formă.

Un lucru foarte important îl reprezintă verificarea celor două forme,

astfel încât să nu difere între ele din punctul de vedere al erorilor sistematice

(al validităţii). Practic, cele două forme trebuie să măsoare acelaşi construct.

Cea mai simplă metodă prin care se poate realiza acest lucru este aceea a re-

partizării aleatorii a itemilor în cele două forme. Coeficientul de corelaţie

dintre cele două forme reprezintă o măsură a fidelităţii.

Dacă, de exemplu, avem un test de evaluare a competenţelor de calcul

numeric, ce conţine un număr de 60 de itemi, şi căruia dorim să-i studiem

fidelitatea. În prima etapă, vom împărţi, absolut aleatoriu, cei 60 de itemi în

două forme ale testului: una cu 30 de itemi şi cealaltă cu 30 de itemi. Dacă

dorim să fim foarte riguroşi, administrăm cele două forme paralele unui lot

de cercetare şi verificăm coeficientul de fidelitate split-half. Deşi acest lucru

nu este obligatoriu, eu vi-l recomand, deoarece se pot corecta, în această eta-

Cristian Opariuc-Dan

307

pă, unele imperfecţiuni. O bună practică ar fi să studiaţi şi consistenţa internă

a fiecărei scale. Repet, aceste operaţii nu sunt obligatorii şi nu fac parte din

metoda propriu-zisă. Dacă însă sunteţi maniaci ai preciziei, le veţi folosi.

În a doua etapă vom aplica prima formă unui alt lot de cercetare, apoi,

după minimum două săptămâni, aplicăm, aceluiaşi lot de cercetare, forma a

doua şi calculăm coeficientul de stabilitate între cele două forme, aplicate la

un anumit interval de timp.

Metoda formelor paralele este net superioară metodei test-retest, din

mai multe motive, dintre care poate cel mai important este acela că se reduce

efectul memoriei şi al învăţării. Timpul relativ redus între cele două adminis-

trări nu permite apariţia efectului de maturizare, acesta fiind un alt argument

al superiorităţii metodei formelor paralele.

Singura deficienţă majoră a metodei constă în dificultatea de a se ob-

ţine forme perfect paralele (forme cu proprietăți psihometrice absolut identi-

ce). De cele mai multe ori, repartiţia itemilor duce la forme echivalente, nu la

forme paralele. Diferenţe între forme pot exista, acestea contribuind la influ-

enţarea coeficientului de fidelitate. Iată cel puţin un motiv pentru care reco-

mandam studiu consistenţei interne şi al coeficientului de fidelitate split-half

în prima etapă. În realitate, această metodă implică şi o analiza factorială pen-

tru a se putea asigura unidimensionalitatea scalei.

III.1.5 Metoda acordului între evaluatori

Termenul cred că vă sună cunoscut, deoarece l-am discutat şi în ca-

drul capitolului referitor la corelaţii. Poate că atunci v-aţi întrebat pentru ce

aveţi nevoie de informaţiile respective? Iată un prim răspuns, o primă aplica-

ţie practică.

De obicei, în domeniul evaluării performanţelor, subiecţii nu sunt ana-

lizaţi de către un singur evaluator, ci de către o comisie de evaluare. Motivele

pentru care se preferă comisia sunt evidente şi nu trebuie comentate, putându-

Statistică aplicată în ştiinţele socio-umane

308

se referi la plusul de obiectivitate sau la evitarea situaţiilor prin care evaluato-

rul ar beneficia gratuit de mielul de Paști ori de porcul de Crăciun.

În asemenea evaluări, bazate pe judecată, este foarte important să ana-

lizăm un tip special de fidelitate, numit grad de acord între evaluatori. Cu

alte cuvinte, suntem interesaţi să vedem dacă părerile evaluatorilor sunt sau

nu sunt consistente, acest lucru reprezentând una dintre cele mai importante

măsuri a obiectivităţii evaluării.

Pentru a se putea realiza o evaluare a fidelităţii prin acordul între eva-

luatori, este necesară îndeplinirea următoarelor condiţii (Carmines, și alții,

1979):

Scala de evaluare sau categoriile de evaluare trebuie să fie

foarte clar definite, precise, lipsite de ambiguitate, astfel încât

evaluarea să poată avea un grad acceptabil de obiectivitate;

Evaluatorii trebuie să cunoască foarte bine scala sau categorii-

le de evaluare, precum şi modul de înregistrare a performanţe-

lor, pentru a putea înregistra acelaşi lucru.

În final, protocolul de evaluare ar trebui să reprezinte un sistem con-

sistent, care să vizeze evaluarea obiectivă a performanţelor. Consistenţa eva-

luărilor efectuate de diferiţi evaluatori unuia şi aceluiaşi subiect, poartă nu-

mele de fidelitate inter-evaluatori. Pentru ca fidelitatea inter-evaluatori să

fie cât mai mare, metoda presupune, iniţial, o instruire a evaluatorilor, instrui-

re care să cuprindă:

O prezentare generală a scalei de evaluare, tuturor evaluatori-

lor, astfel încât să fie clarificate, de la început, toate interpretă-

rile posibile. De obicei, în urma acestei discuţii au loc modifi-

cări ale scalei, în funcţie de aspectele mai puţin clare ale eva-

luării;

Cristian Opariuc-Dan

309

Furnizarea unor modele operaţionale cu privire la scala de

evaluare, prin posibilitatea organizării unor demonstraţii,

accentuându-se pe semnificaţia fiecărui scor acordat;

Organizarea de evaluări demonstrative, în care să se discute fi-

ecare scor acordat. Rezultatele pot fi folosite şi în scopul per-

fecţionării înţelegerii conceptelor care stau la baza evaluării.

În această etapă se vor elimina evaluatorii care furnizează con-

stant evaluări divergente.

Fiind o evaluare cu un pronunţat caracter subiectiv, la care totuşi se

doreşte atingerea obiectivităţii în urma unui proces de acord, există o proba-

bilitate foarte mare ca această evaluare să fie contaminată de o serie de erori,

numite, generic, erori de evaluare. Dintre acestea, Gronlund distinge

(Gronlund, 1985):

Erori de evaluare individuală, în situaţia în care evaluatorul

foloseşte doar o parte a scalei în vederea realizării evaluărilor.

Este exemplul evaluatorilor foarte severi (care utilizează valo-

rile mici ale scalei) sau cel al evaluatorilor foarte generoşi

(orientaţi către valori mari ale scalei). Există, de asemenea, ca-

tegoria evaluatorilor „împăciuitori” care preferă evaluările

medii, din mijlocul scalei. Toate aceste elemente se pot consti-

tui în surse de eroare, surse ce biasează analiza;

Efectul de „halo” reprezintă o sursă de eroare foarte bine cu-

noscută în special în domeniul educaţional. Percepţia generală

asupra celor evaluaţi poate influenţa evaluarea unei persoane

sau a unui grup de persoane. Un grup de evaluatori de la Uni-

versitatea Harvard ar putea genera un asemenea efect în condi-

ţiile în care evaluează studenţii universităţii din Lehliu-Gară.

O posibilă percepţie a calităţii slabe a celor evaluaţi poate de-

Statistică aplicată în ştiinţele socio-umane

310

termina evaluări mult mai exigente, chiar dacă lucrurile nu

stau întotdeauna aşa;

Erorile logice pot să apară atunci când un evaluator confundă

semnificaţia şi sensul scalelor de evaluare. Aceste confuzii pot

să apară în condiţiile în care elementele scalei de evaluare nu

sunt clar definite ori în cazul în care evaluatorii nu au fost in-

struiţi foarte bine.

Având în vedere cele expuse mai sus, ajungem la concluzia că putem

creşte fidelitatea acestor evaluări în condiţiile unei instruiri foarte bune a eva-

luatorilor şi în condiţiile proiectării responsabile a instrumentului de evaluare.

Referitor la procedeele statistice prin intermediul cărora se individua-

lizează acest tip de fidelitate, literatura de specialitate distinge fie un coefici-

ent de corelaţie r Bravais-Pearson, atunci când numărul de cazuri evaluate

este suficient de mare, fie coeficienţi de concordanţă (cum ar fi coeficientul

W Kendall şi omologul acestuia, coeficientul de concordanţă κ al lui Cohen).

Elementele specifice referitoare la aceşti coeficienţi nu le mai discutăm aici,

aplicarea lor rămânându-vă dumneavoastră ca exerciţiu.

III.1.6 Interpretarea coeficienţilor de fidelitate

Interpretarea coeficienţilor de fidelitate variază destul de mult în lite-

ratura de specialitate, fiind influenţată, de obicei, de pretenţiile şi cercetările

diferiţilor producători de instrumente de evaluare. Astfel, Aiken (Aiken, 1994

apud Albu, 2000) oferă o listă de praguri critice de la care se poate accepta un

instrument ca fiind fidel, în funcţie de dimensiunile pe care acesta le

măsoară:

0,26 pentru bateriile de teste de aptitudini;

0,42 pentru inventarele de interese;

0,46 pentru teste obiective de personalitate;

Cristian Opariuc-Dan

311

0,47 pentru scalele de atitudini;

0,56 pentru testele de aptitudini şcolare;

0,66 pentru bateriile de teste de cunoştinţe.

În clasificarea de mai sus, observăm că Aiken a fost extrem de gene-

ros cu aceste praguri. Personal, consider că un coeficient de fidelitate de 0,26

nu poate reprezenta o valoare serioasă pentru fidelitatea unui instrument. Mai

mult decât atât, este discutabilă calcularea fidelităţii pe ansamblul unei baterii

care conţine mai multe scale, mai multe instrumente. Rămânem totuşi la ide-

ea unui coeficient de fidelitate de peste 0,55 – 0,60 pentru orice scală care se

doreşte serioasă.

Există totuşi, o serie de recomandări importante în cea ce priveşte uti-

lizarea coeficienţilor de fidelitate (Albu, 2000):

Testele folosite pentru luarea deciziilor asupra persoanelor sau

cele care împart indivizii în categorii, pe baza unor diferenţe

mici, vor avea valori mari ale coeficienţilor de fidelitate, în

general peste 0,85 – 0,90. Nu putem, de exemplu, angaja sau

concedia o persoană în baza rezultatelor unui test lipsit de o

fidelitate înaltă. Din păcate, în România există încă destule

persoane care încalcă această regulă, deciziile fiind bazate pe

utilizarea unor instrumente mai mult decât discutabile;

Niveluri mici ale fidelităţii putem accepta doar în cercetările

cu caracter exploratoriu, cercetări care nu presupun decizii fi-

nale şi care pot împărţi persoanele în baza unor diferenţe rela-

tiv mari între acestea. Chiar şi în aceste condiţii, coeficienţii de

fidelitate mai mici de 0,50 – 0,60 trebuie priviţi cu maximă re-

zervă.

Statistică aplicată în ştiinţele socio-umane

312

Kubiszyn şi Borich (Kubiszyn, Borich, 1996 Albu, 2000) remarcă o

serie de elemente importante pentru analiza şi interpretarea coeficienţilor de

fidelitate:

În eşantioanele în care variabilitatea scorurilor este mare,

coeficientul de fidelitate are valori mai mari în comparaţie cu

eşantioanele omogene;

Fidelitatea este puternic afectată de erorile de cotare;

Creşterea numărului de itemi atrage după sine şi creşterea

coeficientului de fidelitate;

Dacă toţi itemii unui instrument sunt foarte uşori sau foarte

dificili, coeficientul de fidelitate are o valoare mică.

Având în vedere aceste opinii, se observă că, deşi la prima vedere

analiza fidelităţii nu pune probleme deosebite, în realitate construirea unui

instrument fidel nu este un lucru atât de uşor. Personal, nu recomandăm utili-

zarea instrumentelor cu un coeficient de fidelitate sub 0,60, în aceste condiţii

o revizie a conceptelor şi a itemilor fiind necesară.

În speranţa că s-au lămurit sensul, semnificaţia şi procedurile de cal-

cul ale fidelităţii, nu ne rămâne decât să aflăm cum putem folosi computerul

pentru a scăpa de corvoada formulelor.

III.2 Analiza fidelităţii în SPSS for Windows

Lansarea procedeelor de analiză ale fidelităţii se realizează, în SPSS

for Windows, accesând acelaşi meniu, „Analyze…”, apoi submeniul „Scale”

şi, în final, opţiunea „Reliability Analysis…”. Analiza fidelităţii fiind o pro-

cedură ceva mai complexă în comparaţie cu celelalte tehnici discutate până

acum, presupune şi un alt tip de bază de date. De aceea, nu vă veţi supăra pe

mine dacă, la început, voi încerca să vă prezint opţiunile de analiză din SPSS

şi abia mai târziu vom discuta despre baza de date necesară. De asemenea,

Cristian Opariuc-Dan

313

sper să nu vă uitaţi urât dacă în baza de date va

trebui să definiţi mai multe variabile decât până

acum şi, în acelaşi timp, veţi introduce mai mul-

te date. Vă pot promite că aceste date le vom

folosi şi pentru analiza factorială.

Iată, în figura 3.3, formularul de definire

al analizei de fidelitate. Nu, să nu vă inducă în

eroare simplitatea extraordinară a acestuia. Ana-

liza este chiar mai simplă decât credeţi. Cele

două liste, lista variabilelor din baza de date şi

lista variabilelor supuse analizei, separate prin butonul de transfer, nu mai

necesită nicio precizare suplimentară. La fel, observaţi butoanele de coman-

dă. În realitate, există doar trei elemente de noutate, şi anume lista derulantă

„Model”, secţiunea „Scale label” şi butonul „Statistics…” care include opţi-

uni specifice analizei de fidelitate.

În comparaţie cu expune-

rea teoretică din acest capitol,

SPSS vă propune chiar mai multe

elemente de studiu ale fidelităţii,

vă permite să analizaţi proprietăţi-

le scalelor de măsură şi proprietă-

ţile tuturor itemilor componenţi,

inclusiv relaţiile dintre aceştia şi

relaţiile itemilor cu scala în an-

samblul ei. Credeţi-mă, nu aţi vrea să calculaţi manual aceste lucruri…

Lista derulantă „Model” vă permite să alegeţi metoda de studiu a fi-

delităţii pe care o doriţi. Iată ce posibilităţi aveţi:

Figura 3.2 – Accesarea meniu-

lui de analiză a fidelităţii

Figura 3.3 – Formularul de configurare al anali-

zei de fidelitate

Statistică aplicată în ştiinţele socio-umane

314

„Alpha (Cronbach)” vă oferă posibilitatea studiului fidelităţii

prin consistenţă internă, cu calculul coeficientului de consis-

tenţă internă α Cronbach;

„Split-half” prezintă posibilitatea de analiză a fidelităţii prin

metoda înjumătăţirii;

„Guttman” se referă la aceeaşi metodă de analiză a fidelităţii

(split-half), aplicabilă situaţiilor în care varianţele nu sunt ega-

le;

„Parallel” permite aprecierea fidelităţii prin metoda formelor

paralele, în situaţia în care itemii au aceleaşi varianţe şi ace-

leaşi erori ale varianţelor;

„Strict parallel” este un model nou de analiză de fidelitate,

model care presupune, pe lângă condiţiile de administrare ale

formelor paralele, şi egalitatea mediilor.

Caseta de text „Scale label” nu are

decât o valoare informativă, de etichetare

a scalei pentru care se realizează analizele.

Dacă, de exemplu, studiaţi fidelitatea unui

număr de 20 de itemi pentru o scală de

anxietate, puteţi introduce în această sec-

ţiune textul „Anxietate” în vederea unei

mai bune organizări a informaţiilor în fe-

reastra de rezultate.

Apăsarea butonului „Statistics…”

determină apariţia formularului din figura

3.4, formular prin intermediul căruia vom

alege prelucrările de date necesare.

Figura 3.4 – Formularul de configura-

re a opţiunilor statistice

Cristian Opariuc-Dan

315

Secţiunea „Descriptives for” determină afişarea statisticilor descripti-

ve pentru fiecare item inclus în analiză (la bifarea casetei „Item”), la nivelul

scalelor (bifând caseta „Scale”) şi pentru scală atunci când un item este eli-

minat (bifarea casetei „Scale if item deleted”). Acesta din urmă este şi un

element extrem de important, pe care îl vom discuta în detaliu ceva mai târ-

ziu.

Statisticile afişate la nivel de item se referă la media, abaterea stan-

dard şi numărul de cazuri pentru fiecare item analizat. La nivelul scalei, pro-

gramul prezintă media, varianţa şi abaterea standard a scalei (a tuturor

itemilor supuşi analizei) precum şi numărul total de itemi. Dacă alegem şi

afişarea compoziţiei scalei la eliminarea itemului, atunci SPSS va calcula,

pentru fiecare item, comportamentul scalei dacă acel item nu ar mai exista.

Astfel, se va include media şi varianţa scalei dacă acel item este eliminat,

precum şi corelaţia item-scală şi comportamentul noului coeficient de fideli-

tate, dacă itemul respectiv nu va mai fi inclus în scală.

Secţiunea „Inter-Item” vă oferă posibilitatea prezentării matricei de

corelaţii între toţi itemii scalei (bifând opţiunea „Correlations”) precum şi

cea a afişării matricei de covarianţă a itemilor scalei (bifând opţiunea „Co-

variances”), ambele elemente fiind extrem de utile atunci când dorim să stu-

diem detaliat compoziţia scalei.

Secţiunea „Summaries” furnizează statistici descriptive privind dis-

tribuţia itemilor în raport cu toţi ceilalţi itemi ai scalei. Bifând caseta

„Means” veţi putea calcula statisticile legate de media itemilor. Astfel, SPSS

va afişa cea mai mică şi cea mai mare medie a itemilor, media mediilor

itemilor, amplitudinea şi varianţa mediilor itemilor, precum şi numărul de

itemi incluşi în analiză. Bifarea casetei „Variances” determină calculul sta-

tisticilor centralizate pentru varianţa itemilor. La fel ca mai sus, se va calcula

varianţa cea mai mică, varianţa cea mai mare, media varianţelor, amplitudi-

nea şi varianţa varianţelor. Aceleaşi elemente vor fi calculate şi pentru cova-

Statistică aplicată în ştiinţele socio-umane

316

rianţe, la bifarea casetei „Covariances”, precum şi în cazul corelaţiilor dacă

alegem să bifăm caseta „Correlations”. Informaţiile sunt utile în cazul anali-

zei compoziţiei scalei, de aceea le vom relua ulterior.

Secţiunea „ANOVA Table” permite lansarea procedurilor de calcul

referitoare la egalitatea mediilor. Ştiu că deocamdată nu aveţi suficiente in-

formaţii pentru a înţelege bine aceste elemente, totuşi voi încerca să le prezint

cât mai clar cu putinţă. Un test de egalitate a mediilor pleacă de la ipoteza

nulă conform căreia toţi itemii scalei au aceeaşi medie. Dacă testul este sem-

nificativ, înseamnă că putem respinge ipoteza nulă, apreciind că mediile

itemilor sunt semnificativ diferite. Un test nesemnificativ ne spune că putem

considera itemii ca având medii egale. Desigur, discutând despre fidelitate,

vom observa că pentru scalele consistente sau pentru instrumentele fidele, de

obicei acest test nu este semnificativ.

Opţiunea „None” este cea mai simplă, deoarece comunică programu-

lui SPSS să nu calculeze niciun test de egalitate a mediilor.

Opţiunea „F test” realizează o analiză de varianţă cu măsurări repeta-

te în vederea stabilirii egalităţii mediilor. Procedeul se foloseşte pentru date

parametrice.

Opţiunea „Friedman chi-square” afişează coeficienţii de concordanţă

Friedman χ2 şi W Kendall. La modul forţat, aceşti coeficienţi pot fi conside-

raţi similari testului F, pentru date aflate la un nivel de măsură ordinal;

Opţiunea “Cochran chi-square” se foloseşte pentru date dihotomice,

afişând statisticile Q ale lui Cochran, oarecum analoage testului F.

Opţiunea „Hotelling’s T-square” reprezintă o versiune simplă a tabe-

lelor ANOVA, şi pleacă de la aceeaşi ipoteză nulă, ipoteza egalităţii mediilor

itemilor care compun scala.

Cristian Opariuc-Dan

317

Opţiunea „Tukey’s test of additivity” verifică dacă există interacţiuni

multiplicative între itemi. Dacă testul este semnificativ, înseamnă că aseme-

nea interacţiuni există.

Opţiunea „Intraclass correlation coefficient” determină evaluarea

consistenţei, adică evaluarea acordului la nivelul scorurilor fiecărui subiect.

Este o opţiune foarte interesantă, folosită mai ales la analiza fidelităţii inter-

evaluatori, şi presupune definirea mai multor elemente de calcul:

Alegerea modelului de calcul al coeficientului de corelaţie a

consistenţei la nivel de subiect, prin intermediul listei derulan-

te „Model”. Opţiunea „Two-Way Mixed” o puteţi folosi

atunci când efectele subiecţilor sunt aleatorii şi efectul

itemului (evaluatorului) este constant. Reprezintă cea mai fo-

losită opţiune, deoarece se presupune că subiecţi diferiţi vor

răspunde diferit la acel item, în funcţie de nivelul la care este

prezentă trăsătura. Dacă nu putem anticipa efectul itemului

(evaluatorului) – presupunând că itemul nu a fost suficient

studiat, nu se ştie în ce măsură acoperă varianţa trăsăturii –

vom folosi opţiunea „Two-Way Random”. În sfârşit, dacă

avem certitudinea că modificarea valorilor la nivelul itemilor

se datorează numai diferenţelor inter-individuale, adică numai

efectelor generate de către subiecţi, vom folosi opţiunea „One-

Way Random”.

Alegerea tipului de analiză, din cadrul listei derulante „Type”.

În funcţie de specificul cercetării, puteţi selecta între analiza

consistenţei „Consistency” şi analiza acordului „Absolute

Agreement”;

Statistică aplicată în ştiinţele socio-umane

318

Alegerea intervalului de încredere, în cadrul casetei „Confi-

dence interval”. De obicei, intervalul de încredere este cel im-

plicit, 95%;

Alegerea valorii de test cu care se vor compara valorile obser-

vate în cadrul casetei „Test

value”. Valoarea implicită

este zero, însă adeseori

această valoare va trebui

modificată.

III.2.1 Analiza consistenţei interne

Finalizând prezentarea opţiunilor, să

trecem la treabă. Mai uşor vom înţelege

conceptele exersând decât efectuând infini-

te speculaţii teoretice. În primul rând, baza

de date. Puteţi observa, în tabelul 3.5, mo-

dul de definire al variabilelor. Avem un

număr de 24 de itemi, toţi asimilaţi unui

nivel de măsură scalar, variabilele fiind

definite numeric, cu un singur caracter şi

fără valori zecimale. La sfârşitul bazei de

date, există variabila nominală „sexul”,

care stochează genul biologic al subiecţilor

şi variabila scalară „vârsta”.

În tabelul 3.6 observaţi şi modalita-

tea de codificare a genului biologic, proce-

dură care ar trebui să vă fie deja familiară.

Înainte de a prezenta efectiv datele, să ve-

dem câteva dintre particularităţile acestei baze de date. Să presupunem că

Tabelul 3.5– Structura bazei de date

Variabila Eticheta Nivelul de

măsură Format

item1 Itemul 1 Scale F1

item2 Itemul 2 Scale F1

item3 Itemul 3 Scale F1

item4 Itemul 4 Scale F1

item5 Itemul 5 Scale F1

item6 Itemul 6 Scale F1

item7 Itemul 7 Scale F1

item8 Itemul 8 Scale F1

item9 Itemul 9 Scale F1

item10 Itemul 10 Scale F1

item11 Itemul 11 Scale F1

item12 Itemul 12 Scale F1

item13 Itemul 13 Scale F1

item14 Itemul 14 Scale F1

item15 Itemul 15 Scale F1

item16 Itemul 16 Scale F1

item17 Itemul 17 Scale F1

item18 Itemul 18 Scale F1

item19 Itemul 19 Scale F1

item20 Itemul 20 Scale F1

item21 Itemul 21 Scale F1

item22 Itemul 22 Scale F1

item23 Itemul 23 Scale F1

item24 Itemul 24 Scale F1

Sexul Genul biologic

Nominal F1

Varsta Varsta

subiectilor

Scale F3

Variables in the working file

Cristian Opariuc-Dan

319

avem un chestionar cu 24 de itemi care măsoară orice doriţi dumneavoastră.

Din considerente practice, vom alege să vorbim despre un chestionar de eva-

luare a climatului organizaţional. Acest chestionar are un număr de şase sca-

le:7

„motivaţia” se referă la climatul motivaţional din

firmă, vizând aspecte precum retribuţia, promova-

rea, competenţa. Această scală este evaluată de

itemii 12, 13, 14, 15 şi 16;

„suportul” are în vedere resursele şi condiţiile de muncă pe care le asi-

gură organizaţia în vederea realizării unor activităţi performante. Itemii

corespunzători acestei scale sunt 17, 18, 19 şi 20;

„conducerea” evaluează stilul de conducere eficient, sprijinind perfor-

manţa individuală şi colectivă. Itemii 5, 6, 7 şi 8 sunt cei care se referă la

acest indicator;

„sarcina” este prezentată ca modul de definire al sarcinilor şi obiective-

lor, atât la nivelul organizaţiei cât şi la nivelul fiecărui angajat. Această

scală are în componenţă itemii 1, 2, 3, 4;

„structura” vizează modul de organizare a muncii, cu referire la eficien-

ţă, flexibilitatea şi adaptabilitatea posturilor şi a funcţiilor. Itemii compo-

nenţi sunt 21, 22, 23 şi 24;

„relaţiile” reprezintă indicatorul care evaluează calitatea relaţiilor dintre

angajaţi, cu referire la comunicare şi colaborare pe linie profesională.

Itemii caracteristici acestei scale sunt 9, 10 şi 11.

7 Chestionarul este absolut fictiv. Datele nu corespund unor cercetări reale. Descrierea scale-

lor a fost preluată din lucrarea „Evaluarea psihologică a personalului” – Ticu Constantin,

Editura Polirom, Iaşi, 2004.

Tabelul 3.6– Codificarea

variabilei sex

Valoare Etichetă

sexul 1 Barbati

2 Femei

Statistică aplicată în ştiinţele socio-umane

320

Până în acest moment, nu cred ca sunt neclarităţi. Chestionarul poate

fi tratat per ansamblu, ca un indicator total al climatului organizaţional, sau

pe scale, dacă dorim să investigăm componenţa acestuia. Itemii (întrebările)

acestui chestionar primesc răspunsuri pe o scală de la 1 la 7, unde 1 înseamnă

foarte puţin, iar 7 înseamnă foarte mult. Scorul total la nivelul chestionarului

poate varia între un minimum de 24 de puncte şi maximum 168 de puncte. La

nivelul scalelor, scorul poate varia între numărul de itemi (3, 4 sau 5), scorul

minim, şi de 7 ori numărul de itemi (21, 28 sau 35), scorul maxim.

Nu suntem interesaţi de modul de formulare al itemilor. Vom presu-

pune că itemii au fost bine concepuţi, au validitate teoretică şi validitate de

construct, per ansamblu chestionarul atingându-şi obiectivele. Pentru a verifi-

ca fidelitatea şi în vederea unei analize factoriale confirmatorii (pe care o

vom discuta în următoarele volume) vom considera o cercetare efectuată într-

o organizaţie de dimensiuni mari. Lotul de cercetare este format dintr-un nu-

măr de 160 de persoane. Puteţi observa, în tabelul 3.7, structura completă a

bazei de date. Desigur, pentru a putea analiza fidelitatea, ne interesează răs-

punsurile subiecţilor la fiecare item şi nu scorurile brute obţinute la nivelul

scalelor sau la nivelul întregului chestionar.

Nu vă speriaţi. Înarmaţi-vă cu răbdare şi completaţi toate aceste in-

formaţii, exact aşa cum vă sunt prezentate8.

8 Toate fișierele de date SPSS le puteți descărca de la adresa http://www.statistica-socială.ro

Tabelul 3.7– Baza de date pentru analiza fidelităţii

It1 It2 It3 It4 It5 It6 It7 It8 It9 It10 It11 It12 It13 It14 It15 It16 It17 It18 It19 It20 It21 It22 It23 It24 Sex Varsta

7 7 7 7 6 5 5 6 6 6 7 6 7 7 7 7 7 7 7 7 6 6 5 5 2 46

6 6 6 6 5 5 5 4 7 7 6 7 7 7 7 7 6 6 6 6 6 6 6 6 1 48

7 7 7 7 6 6 6 6 7 7 6 7 7 7 7 7 5 3 3 3 6 6 5 5 2 52

6 5 3 4 7 7 7 7 6 5 6 5 6 5 6 6 6 6 6 6 6 6 6 5 1 35

4 5 4 4 4 4 5 4 7 6 7 7 7 6 6 6 6 6 6 6 6 6 6 5 1 48

7 7 7 7 6 6 5 5 7 6 7 5 4 7 6 6 7 7 7 7 6 6 5 5 1 53

7 7 7 7 7 7 6 7 7 7 7 6 6 6 6 6 7 7 7 7 7 7 7 7 1 58

3 5 4 5 5 5 5 5 7 7 7 7 6 7 6 6 4 4 3 3 6 6 7 7 2 46

7 7 7 7 5 4 4 4 7 7 7 5 6 5 6 6 5 5 4 5 7 6 6 7 1 53

5 5 5 6 5 5 5 5 7 6 7 7 7 7 7 7 4 3 4 3 4 5 5 5 1 58

6 6 6 6 6 6 6 6 7 7 7 5 6 5 6 6 6 6 5 5 7 6 6 6 1 56

3 4 5 5 7 7 7 7 7 7 7 6 5 5 6 6 5 3 5 5 5 5 5 6 1 50

3 4 5 4 5 6 6 5 6 6 7 6 6 7 7 6 6 6 6 6 6 6 6 6 1 50

6 6 6 6 6 6 6 6 6 7 7 6 6 6 4 4 6 6 6 6 5 5 5 4 1 47

7 7 7 7 7 7 7 7 7 7 7 7 7 6 4 4 6 6 6 6 6 6 6 6 1 50

7 7 7 7 7 7 7 7 6 6 6 5 5 6 6 5 3 3 4 4 7 6 6 7 1 54

5 5 5 4 7 6 6 7 7 7 7 6 6 6 6 6 6 6 6 5 6 6 6 6 1 48

7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 3 5 4 5 7 7 7 7 1 39

6 4 5 4 7 7 7 6 6 6 6 5 5 6 6 6 5 6 6 6 6 6 6 5 1 31

6 6 5 4 7 7 7 6 6 6 6 6 6 5 6 6 6 6 7 7 5 5 3 4 1 48

7 7 7 7 7 7 7 7 7 7 7 6 6 6 5 5 7 7 7 7 5 5 5 6 2 50

6 6 6 6 4 4 4 4 7 7 7 7 7 7 7 7 6 6 6 6 6 6 6 6 1 43

6 6 6 6 6 6 6 6 7 7 7 4 5 5 5 4 6 6 6 6 7 6 6 6 1 54

7 7 7 7 7 7 7 7 7 7 7 5 6 5 6 6 3 4 5 5

1 55

6 6 6 6 5 5 5 5 7 6 6 7 7 7 6 7 7 7 7 7 7 7 7 7 1 46

5 3 5 4 6 6 6 6 6 7 7 4 4 4 5 5 7 7 7 7 7 7 7 7 2 44

7 6 6 6 6 6 6 6 6 7 7 5 5 5 5 4 6 6 6 6 6 6 6 6 1 50

7 7 7 7 7 7 7 7 7 7 7 6 6 6 6 6 7 7 7 7 6 5 5 5 1 54

6 6 6 5 6 6 6 6 7 7 7 5 6 5 6 6 4 5 4 5 7 6 6 7 1 31

7 7 7 7 5 7 7 6 7 7 7 5 5 4 4 4 7 7 7 7 7 7 7 7 1 57

3 4 5 5 6 3 4 5 5 5 6 5 5 4 4 4 6 6 6 6 5 5 5 6 1 53

4 4 4 4 7 7 7 7 7 7 7 7 7 6 6 6 7 7 7 7 6 6 6 6 1 58

7 7 7 7 7 5 7 7 7 7 7 6 6 6 7 7 7 7 7 7 6 6 6 6 1 35

6 6 6 6 6 6 6 6 7 6 6 4 4 5 5 5 6 6 6 6 7 7 6 6 1 53

6 6 6 6 6 5 6 4 7 7 7 6 7 7 7 7 6 6 6 6 6 6 6 7 1 36

Statistică aplicată în ştiinţele socio-umane

322

6 3 5 4 7 7 7 7 7 7 6 7 7 7 7 7 5 5 5 6 6 6 6 5 1 50

3 4 5 5 3 4 5 5 7 7 7 7 7 7 7 6 6 6 6 6 6 6 6 6 1 49

7 7 7 7 7 7 7 7 7 7 6 5 5 7 6 6 7 7 7 7 4 4 4 5 1 23

5 5 5 6 7 7 7 7 7 7 7 7 7 7 7 7 3 5 4 5 7 6 7 7 1 50

6 6 6 5 6 6 7 7 7 7 7 5 5 6 6 6 5 4 5 5 6 6 6 6 1 58

5 6 5 6 6 6 6 6 6 7 7 6 6 6 6 6 6 6 6 6 5 6 6 6 1 46

5 5 6 6 6 6 6 6 7 7 7 6 6 6 6 6 6 6 6 6 7 7 6 6 1 59

5 5 7 5 5 6 5 6 6 6 7 6 7 7 7 7 7 7 7 7 6 6 6 6 1 50

6 6 6 5 6 6 6 6 5 5 6 5 5 5 5 5 5 5 3 3 5 5 5 4 1 48

6 6 6 6 6 6 6 6 5 6 7 7 7 7 7 7 6 6 6 6 5 5 6 5 1 39

6 6 6 5 7 7 7 7 7 7 7 6 6 6 6 6 7 7 7 7 6 6 6 6 2 44

6 6 6 6 6 6 6 6 7 7 7 5 5 6 4 4 6 5 5 6 6 6 5 5 1 43

7 7 7 7 7 7 7 7 6 7 7 7 7 7 7 6 6 6 6 6 6 6 6 6 1 56

7 7 7 7 7 7 7 6 7 7 7 7 5 6 6 7 7 7 7 7 7 7 7 7 1 58

6 6 6 6 6 6 6 6 7 7 7 7 6 6 5 5 6 5 6 5 6 6 6 6 1 48

7 7 7 7 7 7 7 7 7 7 7 5 5 7 6 5 4 3 4 3 6 7 7 6 1 46

7 7 7 7 6 5 5 6 7 7 7 4 5 7 6 6 5 5 6 6 6 6 6 6 1 48

6 6 6 6 6 6 6 6 6 7 7 7 7 6 6 6 7 7 7 7 7 7 7 7 2 50

5 5 5 5 5 6 5 4 6 6 7 5 5 5 4 4 6 6 6 6 5 6 6 6 1 53

5 5 5 4 7 7 6 7 6 7 6 6 6 6 6 6 5 5 6 7 6 6 6 6 1 53

6 6 6 5 6 6 6 6 7 7 7 6 6 6 5 5 4 4 5 5 7 6 6 7 1 48

3 4 4 3 2 3 5 4 6 5 5 5 5 5 5 4 3 3 4 5 4 4 3 3 1 56

6 6 6 5 6 6 7 7 6 6 6 7 7 7 7 7 5 5 6 6 6 6 6 6 1 48

3 4 5 7 5 5 5 5 6 6 6 5 5 5 4 4 4 2 5 5 4 3 5 5 1 36

7 7 7 7 7 7 7 7 7 7 7 6 7 5 5 5 7 7 7 6 7 7 7 7 1 51

6 5 3 4 6 6 7 7 6 5 6 4 4 4 5 5 7 7 7 7 7 7 7 7 1 39

2 3 4 5 5 5 5 4 6 6 7 4 4 4 4 4 6 4 6 5 6 6 6 7 1 47

6 6 6 6 6 6 6 6 7 7 7 5 6 5 6 6 1 4 4 5 6 6 6 6 1 53

7 7 7 7 6 5 5 6 7 7 6 6 6 7 6 7 6 7 6 6 7 7 7 7 1 48

6 6 6 6 2 3 5 4 6 7 7 6 7 7 7 7 6 6 6 6 7 7 6 6 1 47

6 6 6 6 5 5 5 5 7 5 6 5 5 4 5 4 6 6 6 6 5 5 5 5 1 56

7 7 7 7 4 4 5 4 6 7 7 7 7 7 7 7 7 7 7 7 6 6 6 6 1 57

6 6 6 6 6 6 6 6 7 7 6 6 7 6 4 4 6 6 6 6 6 6 5 5 1 31

5 4 5 4 7 7 7 7 7 7 7 6 5 5 7 5 5 5 6 5 7 6 7 6 1 48

Cristian Opariuc-Dan

323

7 7 5 7 4 4 4 4 7 6 6 6 6 7 6 6 6 7 6 6 6 6 5 5 2 52

6 6 6 5 5 5 4 4 7 6 7 5 5 5 6 6 5 5 6 6 5 5 6 6 1 31

6 6 6 6 3 4 5 5 7 6 7 5 5 6 4 4 6 7 6 6 6 6 5 5 2 30

6 6 6 6 6 5 5 6 6 6 6 7 6 7 6 6 4 5 4 4 6 6 5 5 1 50

5 5 5 6 5 5 5 5 7 7 6 7 7 6 4 4 3 3 4 4 4 4 5 5 1 48

6 6 6 5 6 7 6 7 6 7 7 6 6 6 6 6 4 5 5 5 6 6 6 6 1 53

3 3 4 4 3 4 5 5 6 6 6 5 5 5 6 6 7 7 7 7 6 6 5 5 1 31

6 6 6 6 5 5 5 4 7 7 7 4 5 5 4 5 6 7 6 7 6 6 6 7 1 35

7 7 7 7 7 7 7 7 7 7 7 5 6 5 6 6 2 3 4 5 6 7 6 7 1 53

5 5 5 6 7 7 7 7 7 7 7 5 5 5 5 5 3 4 5 5 6 7 7 7 1 36

6 6 6 6 6 6 6 6 6 6 6 5 5 6 4 4 5 6 5 6 6 5 5 5 2 46

6 6 6 6 6 6 6 6 7 7 7 6 7 5 5 5 3 4 3 4 6 6 6 6 1 59

6 6 6 6 6 6 6 6 7 5 6 5 5 5 5 3 6 6 6 6 5 5 6 6 1 51

7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 6 6 6 6 6 7 7 7 7 1 48

3 3 4 4 6 6 7 7 6 5 6 6 6 6 6 6 7 6 5 5 7 7 7 7 1 57

4 4 4 4 5 4 5 5 7 6 7 5 5 7 6 6 7 7 7 7 6 6 5 5 1 43

7 7 7 7 7 7 7 7 6 6 6 5 5 6 6 6 3 4 5 5 7 7 7 7 1 58

7 6 6 7 6 6 6 6 7 7 7 6 6 7 7 6 7 7 7 7 5 5 5 4 1 31

6 6 6 5 6 6 7 7 7 7 6 6 6 6 6 6 5 4 5 5 6 6 6 6 1 49

6 6 6 6 5 5 7 5 7 7 7 5 5 6 6 6 6 6 6 7 5 6 4 5 1 57

5 4 5 4 7 6 7 6 7 7 7 5 5 5 5 5 7 7 7 7 7 7 7 7 1 56

7 6 7 5 5 4 5 5 6 6 6 6 5 7 6 6 6 6 6 6 6 6 6 7 1 50

6 6 6 6 5 6 6 5 7 7 7 4 4 6 4 4 4 5 5 5 4 5 5 5 1 31

6 6 6 6 6 6 6 6 7 7 7 7 7 6 7 7 7 6 7 6 6 6 6 6 1 53

6 6 6 6 5 6 5 6 7 7 6 5 5 6 6 6 3 3 4 4 5 5 7 7 2 52

6 6 7 7 7 7 7 7 7 7 7 5 6 5 6 6 6 6 6 7 7 6 6 6 1 50

5 5 3 3 4 4 4 4 6 7 7 6 7 7 7 7 6 6 6 6 6 6 7 7 1 59

5 7 6 7 6 5 6 7 6 6 6 6 6 6 5 5 7 7 7 7 6 6 5 5 1 58

5 6 7 7 4 5 5 5 7 7 7 5 6 5 6 6 7 7 6 6 7 7 7 7 2 52

6 3 5 4 6 6 7 7 6 6 6 6 6 6 6 5 6 6 6 6 4 3 5 5 1 51

5 5 5 6 3 4 5 4 6 7 7 7 5 5 6 6 6 6 6 6 6 6 6 6 1 53

4 3 3 4 6 6 6 6 7 7 7 7 7 7 7 7 6 6 6 6 7 7 7 7 1 53

7 7 7 7 6 6 6 6 7 7 7 7 7 7 7 7 7 7 7 7 7 7 77 7 1 45

4 4 4 5 6 6 6 6 7 6 7 5 4 4 5 4 7 7 7 7 7 7 7 7 1 55

Statistică aplicată în ştiinţele socio-umane

324

5 7 6 7 7 5 6 7 7 5 6 7 6 5 7 7 7 6 6 6 7 6 7 6 1 55

6 6 5 5 6 6 6 4 6 6 7 6 6 5 7 7 6 6 6 6 6 6 6 6 1 53

7 7 7 7 6 5 5 6 7 7 7 5 5 7 6 6 7 6 6 6 7 7 7 7 1 56

3 3 4 4 4 4 4 4 5 4 5 4 4 5 5 3 5 5 5 5 6 6 6 6 1 51

3 4 6 4 7 7 7 7 7 7 7 7 7 7 7 7 4 4 5 5 6 6 6 6 1 45

7 7 7 7 6 7 6 7 6 7 7 7 6 6 6 7 6 5 6 5 6 6 6 6 2 50

6 6 6 6 6 6 5 6 7 6 6 7 6 7 6 6 3 5 4 5 7 7 7 7 1 54

5 6 5 6 5 5 6 6 6 6 7 5 5 7 6 6 6 6 6 6 6 6 5 5 1 54

3 3 4 4 7 7 6 6 6 6 6 6 6 6 6 6 6 6 5 6 7 7 7 7 1 53

3 4 5 5 2 3 5 4 5 5 6 1 4 2 3 4 6 6 6 6 5 5 5 5 1 50

6 6 6 6 4 5 5 5 7 7 7 5 5 6 6 6 6 6 5 5 4 4 4 4 1 50

3 4 4 3 6 6 6 6 6 7 6 6 6 6 6 6 6 6 6 6 7 7 7 7 1 53

6 6 6 6 6 6 6 6 7 7 7 7 7 6 4 4 7 6 6 6 6 6 6 6 1 49

3 3 5 7 4 5 5 5 6 5 5 7 7 7 7 7 4 3 5 5 5 5 5 5 1 39

7 7 7 7 3 4 5 4 7 7 7 3 4 3 3 4 5 5 6 6 6 6 5 5 2 30

6 5 6 6 6 6 6 6 7 7 7 7 7 7 7 7 4 4 5 5 6 6 7 7 1 48

7 7 7 7 7 7 7 7 7 7 6 5 6 5 6 6 4 5 5 5 6 6 6 7 1 57

6 6 6 6 5 5 6 6 7 6 6 7 7 7 7 6 6 6 6 6 4 4 4 4 2 44

6 6 6 6 6 6 5 5 7 7 7 5 5 7 6 6 4 4 4 4 6 6 6 6 2 30

5 6 7 7 7 7 6 6 7 6 7 5 5 5 5 5 5 5 6 6 7 7 7 7 1 53

3 4 3 4 5 5 5 5 6 6 6 4 4 4 3 4 5 5 5 5 2 2 5 6 2 30

6 4 3 4 6 6 5 4 5 5 6 5 5 4 4 4 5 5 6 5 5 5 3 4 1 56

4 4 4 5 3 4 5 5 7 7 7 7 6 6 6 6 5 6 5 7 6 6 6 6 1 36

5 7 6 7 6 6 5 5 6 6 6 6 7 7 7 7 7 7 7 7 6 6 7 7 2 44

6 6 6 6 7 6 7 6 7 7 6 5 6 5 6 6 6 6 6 6 6 6 6 6 1 49

7 7 7 7 7 7 7 7 5 6 5 6 6 6 6 6 6 6 6 6 7 6 6 6 1 53

7 7 7 7 6 6 6 6 6 6 6 3 3 7 6 6 7 7 7 7 6 6 6 6 1 54

6 6 7 7 4 4 4 4 7 6 6 6 7 7 7 7 6 6 6 6 6 6 6 6 1 31

4 5 4 5 6 6 7 7 7 7 7 5 5 5 5 5 7 7 7 7 7 7 7 7 1 50

7 7 7 7 3 4 5 5 6 7 7 5 6 5 6 6 6 6 6 6 6 6 6 6 2 46

3 4 5 5 5 6 6 5 6 7 7 6 5 7 7 6 5 5 5 6 5 6 5 5 1 23

7 7 7 7 6 6 6 6 7 5 6 7 7 7 6 6 3 5 4 5 4 4 4 5 1 58

3 4 3 4 6 6 6 6 7 7 7 7 7 7 7 7 6 6 6 6 7 7 7 7 1 50

6 6 6 6 6 6 6 6 6 7 7 6 6 6 6 6 3 3 4 4 6 6 6 6 2 50

Cristian Opariuc-Dan

325

7 5 5 5 5 6 6 5 6 6 6 6 7 7 7 7 7 7 7 7 5 5 5 5 1 43

7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 6 3 4 4 5 5 4 4 4 1 45

5 5 6 6 5 5 5 5 7 6 6 5 5 5 6 6 6 6 6 6 6 6 6 7 1 55

7 7 7 7 7 7 7 7 7 7 7 6 6 6 7 7 6 5 5 6 5 5 5 5 1 57

6 7 6 7 6 6 7 7 7 6 7 4 5 5 5 4 6 6 6 6 6 7 7 7 1 53

7 7 5 6 5 7 6 7 5 6 7 7 7 6 5 4 7 7 7 7 6 6 6 6 1 50

3 4 5 5 6 6 6 6 6 6 6 7 7 7 7 7 7 7 7 7 7 7 7 7 1 53

6 7 6 7 5 6 6 5 6 7 7 6 5 5 5 6 7 7 7 7 4 4 4 5 1 50

5 6 7 7 6 6 6 7 6 6 6 6 6 6 6 7 7 7 7 7 5 5 5 5 1 56

6 6 7 7 5 6 6 5 6 6 6 5 6 7 7 6 7 7 7 7 5 5 4 5 1 47

7 7 7 5 5 7 7 7 7 6 7 7 6 6 4 4 6 6 6 7 7 7 7 7 1 59

5 5 5 5 7 7 7 7 7 7 7 7 7 7 7 7 4 4 5 5 6 6 6 6 1 54

6 6 6 6 6 6 6 6 6 7 7 7 7 7 7 7 6 6 7 7 6 7 6 6 1 48

5 5 7 7 6 6 6 6 6 6 7 7 7 7 7 7 7 6 6 6 7 7 7 7 1 57

6 7 5 7 6 5 6 5 6 6 6 5 6 6 5 5 7 7 7 7 6 6 5 5 1 45

5 5 4 4 7 7 7 7 6 6 6 6 6 5 6 5 5 5 5 6 7 6 7 6 1 57

6 6 6 6 6 6 6 6 6 7 7 6 6 6 6 5 6 7 6 6 5 5 4 5 1 53

6 6 6 6 6 6 6 6 6 6 6 7 5 7 6 6 6 6 6 6 6 6 6 6 1 23

5 6 5 5 7 7 7 7 6 6 6 5 5 4 4 4 5 5 4 3 4 4 5 5 1 54

7 7 7 7 3 4 5 4 7 6 6 5 5 5 5 5 4 5 5 5 5 6 5 5 1 23

3 4 3 4 2 3 5 4 4 5 5 5 5 5 3 4 6 6 6 6 5 5 5 5 1 46

5 5 5 6 7 7 7 7 7 7 7 7 7 7 7 7 3 4 5 5 7 6 7 7 1 35

6 6 6 6 6 6 6 6 7 7 6 7 7 6 7 7 7 7 7 7 6 6 5 5 1 48

Vă felicit pentru răbdare! Într-adevăr, aţi muncit ceva, iar acum să

vedem răsplata. Pentru început, vom analiza consistenţa internă a fiecărei

scale, folosind metoda α

Cronbach. Deoarece acest chesti-

onar are şase scale, analiza consis-

tenţei interne pentru întregul in-

strument nu are sens.

Vom începe cu scala „mo-

tivaţie”, itemii componenţi fiind

12, 13, 14, 15 şi 16.

În figura 3.5 am inclus

aceşti itemi în vederea analizei, am ales modelul de analiză (modelul Alpha)

şi am scris o etichetă descriptivă pentru

aceste proceduri în secţiunea „Scale label”.

În principiu, aceste informaţii sunt suficien-

te pentru ca programul să calculeze coefici-

entul dorit. Totuşi, fiind cercetători cu expe-

rienţă, vom dori să aflăm în detaliu şi com-

poziţia scalei. Accesând butonul „Statis-

tics…” vom alege, imediat, şi opţiunile care

ne interesează în mod deosebit.

Vom alege calculul statisticilor de-

scriptive la nivel de item, la nivel de scală şi

la nivel de scală atunci când eliminăm un

item. Matricele de corelaţie şi de covarianţă

sunt, de asemenea, foarte utile, precum şi statisticile cumulate (mediile,

varianţele, covarianţele şi corelaţiile). Nu vom proceda la analiza de varian-

ţă, însă vom dori să testăm ipoteza egalităţii mediilor prin testul T-square

Hotelling. Toate aceste configurări le puteţi urmări în figura 3.6.

Figura 3.5 – Analiza consistenţei interne pentru

scala „motivaţie”

Figura 3.6 – Analiza compoziţiei

scalei „motivaţie”

Cristian Opariuc-Dan

327

După ce am părăsit acest formular, prin apăsarea butonului „Conti-

nue”, va trebui să apăsăm butonul „OK” în vederea lansării procedurilor de

calcul.

Primul tabel din foaia de

rezultate se referă la sumarul

cazurilor analizate. Observăm că

studiul consistenţei interne s-a

realizat pe un număr de 160 de

subiecţi, toţi având rezultatele

completate corect, procentul de rezultate valide fiind de 100%. A doua linie

din tabel ne informează asupra cazurilor excluse din analiză. Dacă unii din-

tre subiecţi ar fi avut date lipsă la vreunul dintre cei cinci itemi, în această

linie ar fi fost prezentat numărul acestora. Desigur, într-o asemenea situaţie,

numărul de cazuri valide nu ar mai fi fost 160, ci un alt număr, diminuat cu

valoarea din linia cazurilor excluse. Din fericire, nu ne aflăm într-o aseme-

nea situaţie, iar SPSS nu raportează niciun caz exclus. În mod firesc, linia

„Total” reprezintă suma dintre cazurile valide şi cazurile excluse, număr

egal cu subiecţii din baza de

date.

Următorul tabel conţine

datele care ne interesează pe noi

cel mai mult, şi anume valoarea coeficientului de consistenţă internă. Ob-

servăm că scala analizată, formată din cinci itemi, are un coeficient de con-

sistenţă internă α Cronbach de 0,899, atât în formă brută cât şi în formă

standardizată. Diferenţa dintre cele două valori constă în procedura de lu-

cru. În forma brută, calculul de bazează pe numărul de itemi din scală şi pe

raportul dintre media covarianţelor inter-item şi media varianţelor itemilor.

Formula de calcul nu a fost prezentată în acest volum, preferând calculul

coeficientului standardizat. Acesta din urmă pleacă de la supoziţia că vari-

Tabelul 3.8– Sumarul cazurilor analizate

Case Processing Summary

N %

Cases Valid 160 100,0

Excludeda 0 ,0

Total 160 100,0

a. Listwise deletion based on all variables in the procedure.

Tabelul 3.9– Coeficientul de consistenţă internă α Cronbach

Reliability Statistics

Cronbach's Alpha Cronbach's Alpha Based

on Standardized Items

N of

Items

,899 ,899 5

Statistică aplicată în ştiinţele socio-umane

328

anţa itemilor este egală – aşa cum am discutat deja – şi se bazează pe core-

laţiile dintre itemi. Indiferent de metoda de lucru, am constatat că scala

„motivaţie” este o scală fidelă sub aspectul consistenţei interne (o scală con-

sistentă).

Tabelul următor pe care îl afi-

şează formularul de rezultate conţine

statisticile descriptive pentru fiecare

dintre cei cinci itemi analizaţi. Obser-

văm că SPSS a calculat, pentru fieca-

re dintre itemi, media şi abaterea

standard. Privind mediile, am putea

aprecia, la prima vedere, că acestea sunt relativ egale, fără diferenţe semni-

ficative între ele. Ne amintim, totuşi, că am ales un test statistic pentru a

verifica egalitatea mediilor – testul T-square – care pleacă de la ipoteza nulă

a egalităţii acestora. Ultimul tabel din formularul de rezultate arată rezulta-

tele administrării acestui test statis-

tic. Într-adevăr, ne-am fi înşelat

dacă am fi presupus că mediile sunt

egale. Testul este semnificativ

(F(4,156)=3,50, p<0,01), prin urmare

ipoteza nulă nu poate fi acceptată. Mediile nu sunt egale la nivelul celor

cinci itemi, existând diferenţe semnificative între răspunsurile subiecţilor la

aceste întrebări, fapt de

altfel pozitiv, care asigură

variabilitatea, eterogenita-

tea necesară.

Următoarele două

tabele vă arată matricele

de corelaţii şi de covarian-

Tabelul 3.10 – Statistici descriptive la nivel de itemi

Item Statistics

Mean Std. Deviation N

Itemul 12 5,77 1,059 160

Itemul 13 5,84 ,955 160

Itemul 14 5,92 1,009 160

Itemul 15 5,82 1,045 160

Itemul 16 5,72 1,065 160

Tabelul 3.11 – Testul de egalitate a mediilor

Hotelling's T-Squared Test

Hotelling's T-

Squared F df1 df2 Sig

14,277 3,502 4 156 ,009

Tabelul 3.12 – Matricea de corelaţii inter-itemi

Inter-Item Correlation Matrix

Itemul 12 Itemul 13 Itemul 14 Itemul 15 Itemul 16

Itemul 12 1,000 ,803 ,635 ,558 ,533

Itemul 13 ,803 1,000 ,567 ,570 ,562

Itemul 14 ,635 ,567 1,000 ,672 ,622

Itemul 15 ,558 ,570 ,672 1,000 ,880

Itemul 16 ,533 ,562 ,622 ,880 1,000

Cristian Opariuc-Dan

329

ţe inter-itemi. Tabelul 3.12 prezintă tocmai matricea de corelaţii dintre cei

cinci itemi, similară celei pe care am construit-o în capitolul anterior, la

calcularea manuală a acestui coeficient.

La o simplă privi-

re, observăm coeficienţi de

corelaţie ridicaţi între cei

cinci itemi, aceasta fiind

explicaţia obţinerii unei

fidelităţi ridicate la nivelul

scalei. Studiul covarianţe-

lor ne permite, de asemenea, aprecierea omogenităţii scalei. Într-adevăr,

diferenţele dintre itemi sunt relativ mici, subiecţii răspunzând compact pe

scala „motivaţie”, lucru care ne permite să deducem, din nou, existenţa unei

valori mari pentru fidelitatea scalei.

Tabelul 3.14 – Statistici cumulate la nivelul scalei

Summary Item Statistics

Mean Minimum Maximum Range Maximum /

Minimum Variance N of Items

Item Means 5,814 5,719 5,919 ,200 1,035 ,006 5

Item Variances 1,056 ,913 1,134 ,222 1,243 ,008 5

Inter-Item Covariances ,676 ,547 ,980 ,433 1,792 ,017 5

Inter-Item Correlations ,640 ,533 ,880 ,348 1,652 ,013 5

Dacă analiza corelaţiilor şi a covarianţelor nu v-a convins, haideţi să

abordăm perspectiva sintetică din tabelul 3.14. La nivelul mediilor, avem o

medie a mediilor celor cinci itemi de 5,81, cea mai mică medie fiind de 5,71

iar cea mai mare medie este de 5,91. Deşi amplitudinea dintre cea mai mică

medie şi cea mai mare este de doar 0,20, am observat că această diferenţă

este semnificativă (prin testul statistic de mai sus), în timp ce varianţa medi-

ilor este mică. Aceleaşi tendinţe le observăm şi la nivelul analizei varianţe-

lor, precum şi atunci când studiem sintetizat covarianţele şi corelaţiile.

Tabelul 3.13 – Matricea de covarianţă inter-itemi

Inter-Item Covariance Matrix

Itemul 12 Itemul 13 Itemul 14 Itemul 15 Itemul 16

Itemul 12 1,122 ,813 ,679 ,618 ,601

Itemul 13 ,813 ,913 ,547 ,569 ,572

Itemul 14 ,679 ,547 1,019 ,708 ,669

Itemul 15 ,618 ,569 ,708 1,093 ,980

Itemul 16 ,601 ,572 ,669 ,980 1,134

Statistică aplicată în ştiinţele socio-umane

330

Până în acest moment, avem toate motivele să credem că valoarea

coeficientului α Cronbach pe care am obţinut-o este, într-adevăr, o valoare

reală, iar scala poate fi considerată fidelă.

Un singur lucru mai avem de

făcut, şi anume să analizăm proprietă-

ţile scalei. În acest sens, avem la dis-

poziţie două tabele: tabelul statistici-

lor descriptive la nivel de scală şi tabelul relaţiilor dintre itemi şi scală.

În tabelul 3.15 observăm că scala „motivaţie” este formată din 5

itemi, are o medie de 29,07 puncte cu o abatere standard de 4,33 puncte.

Desigur, la acest nivel, informaţiile nu ne sunt de prea mare folos.

Tabelul 3.16 – Relaţii între itemi şi scală

Item-Total Statistics

Scale Mean if

Item Deleted

Scale Variance

if Item Deleted

Corrected Item-

Total Correlation

Squared Mul-

tiple Correla-

tion

Cronbach's

Alpha if Item

Deleted

Itemul 12 23,30 12,249 ,731 ,693 ,881

Itemul 13 23,23 12,880 ,729 ,671 ,881

Itemul 14 23,15 12,569 ,728 ,551 ,881

Itemul 15 23,25 11,950 ,796 ,802 ,866

Itemul 16 23,35 12,015 ,765 ,781 ,873

Situaţia se schimbă, însă, dacă analizăm şi tabelul 3.16. Se observă

că dacă eliminăm oricare dintre cei cinci itemi, media, varianţa dar şi core-

laţia dintre item şi scală vor scădea. Cel mai important item pare a fi itemul

14, deoarece dacă îl eliminăm, varianţa comună a scalei scade la 0,55. Prac-

tic acesta este itemul care introduce cele mai multe “distorsiuni”, care

biasează cel mai puternic scala. Folosind toţi cei cinci itemi, obţinusem un

coeficient de consistenţă internă de 0,89. Se poate constata că eliminarea

oricărui item nu duce la creşterea consistenţei interne ci, din contra, la di-

minuarea acesteia.

Tabelul 3.15 – Statistici descriptive la nivel de scală

Scale Statistics

Mean Variance Std. Deviation N of Items

29,07 18,794 4,335 5

Cristian Opariuc-Dan

331

În final, am adus suficiente dovezi în sprijinul fidelităţii acestei sca-

le, demonstrând că toţi cei cinci itemi sunt consistenţi, fidelitatea prin aceas-

tă metodă fiind bună, putem păstra scala în forma ei actuală. Desigur, în

general nu vom folosi toate aceste opţiuni statistice pentru calculul fidelită-

ţii prin metoda consistenţei interne. Spre exemplu, statisticile descriptive la

nivel de scală se folosesc, în special, pentru metoda split-half şi nu pentru

metoda consistenţei interne.

Pentru a clarifica problematica analizei de fidelitate prin metoda

consistenţei interne, vom considera o nouă scală – scala „sarcina”, formată

din itemii 1, 2, 3 şi 4. Înainte de a începe studiul acestei scale, să vedem ce

se întâmplă dacă avem un item „inversat”. Anterior, am afirmat că răspun-

surile subiecţilor se dau pe o scală de la 1 la 7, unde 1 înseamnă foarte puţin

iar 7 înseamnă foarte mult. De obicei, în chestionare nu veţi întâlni toţi

itemii prezentaţi în forma naturală a scalei (1 – foarte puţin, 7 – foarte

mult). Din când în când, veţi observa itemi la care 1 înseamnă foarte mult

iar 7 foarte puţin. Motivul pentru care cercetătorii folosesc un asemenea

sistem, cu itemi inversaţi, este unul foarte simplu. Se evită tendinţa de răs-

puns în sensul „pozitiv” sau „negativ” al scalei, şi obligă subiecţii să fie

atenţi la răspunsurile pe care le dau. Cu alte cuvinte, elimină rutina răspun-

surilor. Deşi practica este apreciată şi răspândită în lumea ştiinţifică, ea poa-

te crea probleme atunci când apare necesitatea analizei datelor.

Chestionarul nostru nu are itemi cu scale de răspuns inversate, însă

putem crea foarte uşor un item de acest tip. Care ar fi procedeul? În primul

rând, vom reține valoarea maximă a scalei de răspuns. În cazul nostru,

aceasta este valoarea 7 (variantele de răspuns sunt de la 1 la 7). Apoi adău-

găm o unitate la această valoare (7+1=8). Din valoarea astfel rezultată, scă-

dem scorul obţinut de către subiecţi la itemul respectiv.

De exemplu, dorim să inversăm itemul 4 din scala „sarcina”. Desi-

gur, subiecţii au răspuns la această scală de la 1 la 7, valoarea maximă fiind

Statistică aplicată în ştiinţele socio-umane

332

7. Adăugăm o unitate acestei valori şi obţinem 8. Până aici este clar. Acum,

observăm că primul subiect a dat răspunsul 7 la itemul 4. Atunci, 8-7=1,

aceasta fiind valoarea inversată pentru primul subiect. Al doilea subiect a

dat răspunsul 6 şi vom avea 8-6=2 ca valoare inversată. Al treilea subiect va

avea valoarea inversată 8-7=1 şi aşa mai departe. Practic, inversarea este o

operaţiune de „reflectare în oglindă” a scorurilor. Dacă scala ar fi de tipul 7

– foarte puţin şi 1 foarte mult, vă daţi seama că prin inversare vom restabili

sensul natural al acesteia.

Realizarea acestui lucru manual ar în-

semna „muncă de chinez bătrân”. Din fericire,

SPSS ne pune la dispoziţie un utilitar foarte

important, situat în cadrul meniului „Trans-

form”, opţiunea „Compute Variable…”. De-

spre acest meniu am discutat şi în volumul anterior, astfel încât aici ne vom

concentra doar pe elementele esenţiale.

În figura 3.8 aveţi rezultatul accesării acestui meniu. Chiar dacă nu

aţi lecturat lucrarea anterioară,

fereastra este destul de intuitivă.

Vă puteţi da seama că formularul

permite efectuarea diferitelor cal-

cule folosind variabilele din baza

de date. Vom folosi aceste proce-

duri pentru a inversa itemul 4 al

scalei „sarcina”.

În caseta „Target

Variable” vom include noul nume

al variabilei noastre. Vom conveni

ca noua variabilă creată să se nu-

mească „item4tr”, prescurtare pentru „itemul 4 transformat”. În caseta

Figura 3.7 – Meniul de trans-

formare a variabilelor

Figura 3.8 – Inversarea unui item

Cristian Opariuc-Dan

333

„Numeric Expression” scriem formula de calcul, în cazul nostru „8-item4”.

La apăsarea butonului „OK”, programul va crea o nouă variabilă, numită

„item4tr”, apoi va lua scorul fiecăruia dintre cei 160 de subiecţi şi îl va scă-

dea din valoarea 8, rezultatul fiind depozitat în variabila nou creată.

Ce am obţinut de fapt?

Dacă răspunsurile la itemul 4

original însemnau 1 – foarte

puţin şi 7 – foarte mult, răspun-

surile la itemul 4 transformat

vor însemna 1 – foarte mult şi 7

– foarte puţin. Iată metoda prin

care putem inversa itemii,

atunci când constatăm proble-

me în consistenţa scalei. Simplu şi elegant! Totuşi, care ar putea fi proble-

mele legate de consistenţa scalei? În secţiunea teoretică din cadrul acestui

capitol am discutat despre posibilitatea

obţinerii unui coeficient de consistenţă

internă foarte mic, sau chiar negativ, din

cauza existenţei itemilor inversaţi. A

venit momentul să ne şi confruntăm cu o

asemenea situaţie. Să ne imaginăm că

scala „sarcina” avea itemii 1, 2 şi 3 în

sensul natural al scalei iar itemul 4 era

inversat. Acum, ne interesează studiul

consistenţei interne a acestei scale.

Observăm, în figura 3.9, include-

rea celor patru itemi. Itemii 1, 2 şi 3 au

fost incluşi în forma originală, iar itemul

Figura 3.9 – Analiza fidelităţii scalei „sarcina”

Figura 3.10 – Statistici calculate pentru

scala „sarcina”

Statistică aplicată în ştiinţele socio-umane

334

4 a fost inclus în forma transformată (acest item îl găsiţi la sfârşitul bazei de

date, ultimul element din lista variabilelor din baza de date).

Calculele statistice sunt, de această dată, mult mai simple. Vom opta

doar pentru analiza statisticilor la nivel de item şi la nivel de scală dacă

itemul este eliminat şi, de asemenea, afişarea matricei de corelaţii inter-

item.

Să vedem acum ce minuni

obţinem. Surpriză, coeficientul de

consistenţă internă α Cronbach

este de 0,171 în forma brută şi

0,084 în formă standardizată, for-

ma bazată pe corelaţii. Primul impuls ar fi să credeţi că scala nu are consis-

tenţă internă şi să vă grăbiţi să umblaţi la itemi. Dar, să continuăm totuşi

analiza.

La nivelul itemilor, observăm

că mediile sunt apropiate pentru toţi

cei 3 itemi, singura medie diferită

fiind cea a itemului 4. În acelaşi timp,

abaterile standard sunt, din nou, des-

tul de apropiate. Problema poate fi,

prin urmare, la nivelul celui de-al patrulea item. Acesta ori nu corelează cu

ceilalţi, ori corelează negativ. Se pare că ne aflăm în cea de-a doua situaţie,

dacă vom privi tabelul 3.19.

Itemii 1, 2 şi 3 corelează

puternic între ei, având coe-

ficienţi de corelaţie cuprinşi

între 0,723 şi 0,834. Pe de

altă parte, şi itemul 4 core-

lează puternic cu itemii 1, 2

Tabelul 3.17 – Consistenţa internă a scalei „sarcina”

Reliability Statistics

Cronbach's

Alpha

Cronbach's Alpha Based

on Standardized Items

N of

Items

,171 ,084 4

Tabelul 3.18 – Statistici descriptive la nivel de itemi

Item Statistics

Mean Std. Deviation N

Itemul 1 5,61 1,304 160

Itemul 2 5,68 1,200 160

Itemul 3 5,74 1,124 160

Itemul 4 transformat 2,23 1,132 160

Tabelul 3.19 – Matricea de corelaţii inter-itemi

Inter-Item Correlation Matrix

Itemul 1 Itemul 2 Itemul 3

Itemul 4

transformat

Itemul 1 1,000 ,834 ,723 -,621

Itemul 2 ,834 1,000 ,780 -,779

Itemul 3 ,723 ,780 1,000 -,803

Itemul 4 transformat -,621 -,779 -,803 1,000

Cristian Opariuc-Dan

335

şi 3, coeficienţii fiind cuprinşi între 0,62 şi 0,80, singura problemă fiind

aceea că itemul 4 corelează negativ. Este foarte clar faptul că avem de a

face cu un item inversat.

În mod normal, analiza s-ar opri la această fază, după care vom pro-

ceda la inversarea sensului scalei itemului 4 şi reluarea studiului de fidelita-

te.

Tabelul 3.20 – Relaţii între itemi şi scală

Item-Total Statistics

Scale Mean if

Item Deleted

Scale Variance

if Item Deleted

Corrected Item-

Total Correlation

Squared Mul-

tiple Correla-

tion

Cronbach's Alpha

if Item Deleted

Itemul 1 13,64 1,931 ,799 ,723 -1,598a

Itemul 2 13,57 2,486 ,686 ,809 -1,062a

Itemul 3 13,51 3,082 ,552 ,730 -,653a

Itemul 4 trans-

format

17,02 11,239 -,790 ,718 ,912

a. The value is negative due to a negative average covariance among items. This violates reliability model

assumptions. You may want to check item codings.

Chiar şi SPSS şi-a dat seama de acest lucru, dacă observaţi subsolul

tabelului 3.20. Strict informativ, puteţi vedea ce se întâmplă dacă eliminăm

al patrulea item. Media şi varianţa scalei vor creşte, la fel şi coeficientul de

consistenţă internă. Totuşi, acesta nu este un item neconsistent ci un item

care corelează bine cu scala, singura sa problemă fiind aceea a sensului de

răspuns.

Reluând analiza, prin înlocuirea itemului 4 transformat cu itemul 4

original, vom obţine un coeficient de consistenţă internă de 0,92, aceasta

fiind şi cea mai mare valoare obţinută a consistenţei interne.

Exerciţii:

Efectuaţi analiza consistenţei interne a scalei „sarcina” folosind

itemul 4 original şi explicaţi diferenţele.

Statistică aplicată în ştiinţele socio-umane

336

Realizaţi analiza de fidelitate prin metoda consistenţei interne pen-

tru celelalte patru scale rămase.

Nu vom mai insista asupra acestei metode, deoarece consider că

aveţi deja suficiente informaţii pentru a realiza analize pertinente. Vreau

doar să menţionez, în final, că metoda consistenţei interne prin calculul coe-

ficientului α Cronbach nu este, de fiecare dată, cea mai bună variantă. S-au

analizat, anterior, limitele sale. De aceea, Raykov (1998) a pus la punct o

modalitate de analiză a consistenţei interne, numită fidelitate compozită sau

fidelitate Raykov ρ, care pleacă de la un principiu al analizei factoriale, con-

form căreia un set de variabile poate să acopere o singură dimensiune, un

singur factor. Această metodă este, la ora actuală, preferată metodei lui

Cronbach şi se consideră că estimează mult mai bine fidelitatea reală a unei

scale. Din nefericire, procedurile de calcul nu au fost încă implementate în

SPSS. Ele sunt însă disponibile în alte aplicaţii, precum EQS şi LISREL sau

AMOS.

Există controverse între cercetători privind ordinea analizelor. Unii

afirmă că este util, întâi, să studiem consistenţa internă, pentru a ne asigura

de fidelitatea scalei, apoi să verificăm unidimensionalitatea prin metoda

analizei factoriale. Alţii se situează la polul opus. Întâi vom verifica dimen-

siunile unui instrument, prin analiza factorială, apoi vom studia, pentru fie-

care dimensiune, fidelitatea acestora.

În realitate, au dreptate şi unii şi alţii. Dacă instrumentul este bine

conceput şi vizează o singură dimensiune, studiul iniţial al consistenţei poa-

te furniza informaţii preţioase, iar analiza factorială confirmatorie le va sus-

ţine. Pentru instrumente complexe, multidimensionale, este mai util să rea-

lizăm o analiză factorială sau o scalare multidimensională iniţială, pentru a

verifica numărul de dimensiuni şi modul în care acestea sunt saturate prin

itemi, iar apoi vom apela la studiul consistenţei interne.

Cristian Opariuc-Dan

337

Dacă instrumentul este greşit conceput, fără consistenţă, atunci nici

analiza factorială, nici consistenţa internă, nicio metodă nu-l poate repara.

În definitiv, nu putem face minuni cu procedeele statistice, dacă cercetătorul

a fost neinspirat sau diletant.

Analiza consistenţei interne nu se foloseşte, de obicei, independent,

ci este asociată cu alte metode de explorare ale dimensionalităţii instrumen-

telor. Cele mai utilizate proceduri asociate consistenţei interne sunt analiza

factorială, scalarea multidimensională sau analiza de cluster. Cu răbdare, le

vom aborda pe toate în decursul lucrărilor noastre.

III.2.2 Analiza fidelităţii prin metoda înjumătăţirii

Metoda înjumătăţi-

rii (split-half) poate fi uti-

lizată în SPSS în mod si-

milar procedeului de stu-

diu al consistenţei interne.

Singurul lucru pe care îl

avem de făcut este acela

de a alege modelul adecvat

(în cazul nostru, selectarea

opţiunii „Split-half” din

cadrul casetei derulante „Mo-

del”).

Să presupunem că dorim

să studiem fidelitatea, prin me-

toda înjumătăţirii, pentru între-

gul chestionar. După alegerea

Tabelul 3.21 – Sumarul cazurilor analizate

Case Processing Summary

N %

Cases Valid 159 99,4

Excludeda 1 ,6

Total 160 100,0

a. Listwise deletion based on all variables in the procedure.

Figura 3.11 – Analiza fidelităţii prin metoda split-half

Statistică aplicată în ştiinţele socio-umane

338

modelului, vom include, în vederea analizei, toţi cei 24 de itemi. În afară de

statisticile descriptive la nivelul scalei, nu avem nevoie de calculul altor

indicatori de acest tip.

Primul tabel din formula-

rul de rezultate se referă, după

cum bine ştiţi, la sumarul cazuri-

lor analizate. Observăm că dintr-

un număr de 160 de persoane, au

fost analizate doar 159. Probabil

că unul dintre subiecţi nu a com-

pletat răspunsul la unul sau la

mai mulţi itemi, acesta fiind un

motiv suficient pentru a fi exclus

din prelucrare. În orice caz, avem suficiente date pentru a putea trage con-

cluzii utile.

Ultimul tabel din

formularul de rezultate

conţine statisticile de-

scriptive la nivelul scalei.

Se observă că SPSS a

inclus primii 12 itemi din

chestionar într-o formă şi

ultimii 12 itemi în cealal-

tă formă.

Din primele in-

formaţii, aflăm că media

itemilor din prima formă este mai mare în comparaţie cu media itemilor din

cea de-a doua formă, iar varianţele sunt, din nou, diferite. A doua formă are

o varianţă mai mare în comparaţie cu prima formă. Dacă diferenţele dintre

Tabelul 3.22 – Statistici descriptive la nivel de scală

Scale Statistics

Mean Variance Std. Deviation N of Items

Part 1 71,33 53,728 7,330 12a

Part 2 70,16 93,884 9,689 12b

Both Parts 141,49 183,733 13,555 24

a. The items are: Itemul 1, Itemul 2, Itemul 3, Itemul 4,

Itemul 5, Itemul 6, Itemul 7, Itemul 8, Itemul 9, Itemul 10, Itemul 11, Itemul 12.

b. The items are: Itemul 13, Itemul 14, Itemul 15, Itemul 16,

Itemul 17, Itemul 18, Itemul 19, Itemul 20, Itemul 21, Itemul 22, Itemul 23, Itemul 24.

Tabelul 3.23 – Analiza fidelităţii prin metoda split-half

Reliability Statistics

Cronbach's Alpha Part 1 Value ,839

N of Items 12a

Part 2 Value ,572

N of Items 12b

Total N of Items 24

Correlation Between Forms ,254

Spearman-Brown Coefficient Equal Length ,405

Unequal Length ,405

Guttman Split-Half Coefficient ,393

a. The items are: Itemul 1, Itemul 2, Itemul 3, Itemul 4, Itemul 5, Itemul 6, Itemul 7, Itemul 8, Itemul 9, Itemul 10, Itemul 11, Itemul 12.

b. The items are: Itemul 13, Itemul 14, Itemul 15, Itemul 16, Itemul 17,

Itemul 18, Itemul 19, Itemul 20, Itemul 21, Itemul 22, Itemul 23, Itemul 24.

Cristian Opariuc-Dan

339

medii sunt sau nu semnificative, am fi putut afla utilizând unul dintre testele

statistice prezentate mai sus, sau prin construirea tabelelor de analiză de

varianţă. Dacă v-aţi format puţin „ochiul statistic”, deja puteţi suspecta ce-

va…. Oare despre ce este vorba? Să rezulte, oare, un coeficient de fidelitate

split-half cu o valoare mică?

Într-adevăr, aşa este! Să privim puţin tabelul 3.23, cel mai important

tabel generat de SPSS. Consistenţa internă pentru prima parte a instrumen-

tului este bună (0,839), în timp ce a doua parte are o consistenţă internă

aproape satisfăcătoare (0,572). Este firesc să obţinem un coeficient de core-

laţie între cele două părţi de numai 0,254. Mai mult decât atât, se observă o

fidelitate split-half redusă, de doar 0,40, estimată prin intermediul coeficien-

tului Spearman-Brown. Cele două forme, având un număr egal de itemi,

expresia acestui coeficient va fi prima valoare (Equal Length). Dacă forme-

le ar fi avut un număr inegal de itemi (de exemplu prima parte 12 itemi şi a

doua parte 13 itemi), am fi luat ca referinţă cea de-a doua valoare a coefici-

entului (Unequal Length).

Am văzut, totuşi, c