Statistica aplicata in stiintele socio umane. Volumul II
of 372
/372
-
Author
alexandra-spatariu -
Category
Marketing
-
view
441 -
download
14
Embed Size (px)
description
Transcript of Statistica aplicata in stiintele socio umane. Volumul II
- 1. STATISTIC APLICAT N TIINELE SOCIO-UMANE Analiza asocierilor i a diferenelor statistice Cristian Opariuc-Dan Constana, august 2011
- 2. Cristian Opariuc-Dan Fiicei mele, Riana-Ingrid 3
- 3. Statistic aplicat n tiinele socio-umane Cuprins Cuprins ............................................................................................................. 4 Prefa .............................................................................................................. 7 Cuvntul autorului ......................................................................................... 11 I. Relaii ntre variabile ............................................................................. 13 I.1 Coeficieni de corelaie neparametrici ............................................ 18 I.1.1 Coeficientul de corelaie a rangurilor (rho) Spearman ......... 19 I.1.2 Coeficientul de corelaie a rangurilor (tau) Kendall ............. 26 I.1.3 Coeficientul de contingen 2 (chi ptrat) .............................. 36 I.1.4 Coeficientul de asociere (phi), coeficientul V Cramer i coeficientul de contingen (cc), derivai din 2 .................................... 42 I.1.5 Coeficientul de asociere (lambda) Goodman i Kruskal ...... 48 I.1.6 Coeficientul de asociere (gamma) ........................................ 53 I.1.7 Coeficientul tetrachoric i polichoric....................................... 56 I.1.8 Coeficientul de concordan W Kendall .................................. 58 I.1.9 Coeficientul de corelaie rang biserial ................................... 62 I.2 Coeficieni de corelaie parametrici ................................................ 64 I.2.1 Coeficientul de corelaie r Bravais-Pearson ............................ 64 I.2.2 Coeficientul de corelaie biserial, punct biserial i triserial ..... 78 I.2.3 Coeficientul de corelaie eneahoric ......................................... 87 I.3 Corelaii pariale .............................................................................. 90 I.3.1 Corelaii semi-pariale ............................................................. 95 I.3.2 Corelaii pariale pentru date neparametrice ............................ 96 I.3.3 Semnificaia corelaiilor pariale............................................ 100 I.4 Interpretarea coeficienilor de corelaie ........................................ 102 4
- 4. Cristian Opariuc-Dan I.4.1 Grade de libertate ................................................................... 106 I.4.2 Efecte exercitate i varian ................................................... 107 I.4.3 Strategii de analiz i interpretare a corelaiilor .................... 109 I.5 Obinerea coeficienilor de corelaie n SPSS ............................... 117 I.5.1 I.5.2 Coeficieni de corelaie bazai pe date neparametrice ........... 134 I.5.3 II. Coeficieni de corelaie bazai pe date parametrice ............... 117 Raportarea studiilor corelaionale .......................................... 155 Diferene statistice bivariate ................................................................ 160 II.1 Planuri de cercetare ....................................................................... 161 II.1.1 Planuri de cercetare de baz .................................................. 165 II.1.2 Planuri de cercetare complexe ............................................... 174 II.2 Teste statistice pentru date neparametrice .................................... 182 II.2.1 Diferena dintre frecvene. Testul 2 ...................................... 182 II.2.2 Teste pentru eantioane independente ................................... 188 II.2.3 Teste pentru eantioane dependente ...................................... 200 II.3 Teste statistice pentru date parametrice ........................................ 205 II.3.1 Teste pentru un singur eantion ............................................. 206 II.3.2 Teste pentru dou eantioane independente .......................... 212 II.3.3 Teste pentru dou eantioane perechi .................................... 216 II.4 Teste statistice de normalitate i teste pentru valori aberante ....... 220 II.4.1 Teste pentru valori aberante................................................... 221 II.4.2 Teste de normalitate ............................................................... 226 II.5 Interpretarea testelor statistice ...................................................... 234 II.5.1 II.6 Puterea testului i mrimea efectului ..................................... 238 Realizarea testelor statistice n SPSS ............................................ 253 II.6.1 Procedee neparametrice ......................................................... 254 5
- 5. Statistic aplicat n tiinele socio-umane II.6.2 Procedee parametrice ............................................................. 267 II.6.3 Analiza normalitii i a scorurilor aberante .......................... 274 Analiza fidelitii .............................................................................. 283 III. III.1 Metode de analiz a fidelitii ................................................... 288 III.1.1 Metoda test-retest................................................................... 290 III.1.2 Metoda njumtirii .............................................................. 291 III.1.3 Metoda consistenei interne ................................................... 298 III.1.4 Metoda formelor paralele ...................................................... 306 III.1.5 Metoda acordului ntre evaluatori .......................................... 307 III.1.6 Interpretarea coeficienilor de fidelitate................................. 310 III.2 Analiza fidelitii n SPSS for Windows ................................... 312 III.2.1 Analiza consistenei interne ................................................... 318 III.2.2 Analiza fidelitii prin metoda njumtirii .......................... 337 III.2.3 Analiza fidelitii prin metoda formelor paralele .................. 341 III.2.4 Analiza fidelitii inter-evaluatori.......................................... 343 III.2.5 Analiza fidelitii test-retest (stabilitii) ............................... 346 III.2.6 Consideraii finale .................................................................. 347 Bibliografie .................................................................................................. 350 Anexe ........................................................................................................... 352 6
- 6. Cristian Opariuc-Dan Prefa Cartea domnului Cristian Opariuc-Dan, intitulat Statistic aplicat n tiinele socio-umane. Analiza asocierilor i diferenelor statistice este o continuare fireasc a primului volum aprut, nu cu mult timp n urm, la editura ASCR din Cluj-Napoca. Continuarea realizat n lucrarea de fa este semnului unei perseverene ludabile, dovad a pasiunii domniei sale fa de coninutul acestei onorabile discipline. Continuitatea se manifest i n partea stilului nvalnic, care parc vrea s spun totul dintr-o suflare, care vrea s epuizeze ultimele rezerve fa de disciplina statisticii din sufletul cititorului dornic de iniiere. Ca atare, exemplele sunt foarte numeroase i ct se poate de adecvate. Nu sunt aa de ndeprtate vremurile n care cunotinele statistice erau o raritate n arealul specialitilor din domeniul tiinelor socio-umane. n rndul psihologilor, acestea erau pstrate i rspndite de o elit intelectual, din care amintim numele lui Nicolae Mrgineanu ca fiind cel mai reprezentativ. ntre 1950 i 1989, pregtirea n sfera metodelor cantitative din domeniul psihologiei era destul de sumar, delimitat strict la prezentarea ctorva noiuni fundamentale i, mai ales, a distribuiei normale Gauss Laplace, n aspectul figurativ, nu de coninut. O bun parte dintre psihologii practicieni nu au terminat sau aprofundat studii de psihologie, ca atare, chiar construcia etaloanelor li se prea o tain de neptruns. Analizele multivariate preau realiti galactice, greu accesibile pentru psihologul practician care nu avea o ambian profesional de pregtire continu. ncercarea de lichidare a psihologiei din ultimii ani ai dictaturii comuniste prea s extind ignorana n privina metodelor tiinifice de abordare a acestui domeniu. Dup anul de cotitur 1989, nvmntul romnesc de psihologie s-a revigorat i a evoluat rapid, cred eu mai mult extensiv, situaie care s-a reper7
- 7. Statistic aplicat n tiinele socio-umane cutat i asupra domeniul statisticii aplicate. Au aprut o serie de autori competeni, cu deosebit potenial, cu stagii de pregtire n strintate, care au elaborat lucrri n domeniu comparabile cu cele din rile cu tradiie n cercetarea psihologic. Dintre aceti autori amintim pe Ilie Puiu Vasilescu, practic un deschiztor de drumuri n domeniu, dup 1989, Florin Sava, Mihai Hohn, Filaret Sntion, regretatul coleg Horia Pitariu, Drago Iliescu, Marian Popa, Adrian Viceniu Labr, Monica Albu. n acest cerc select cred c a reuit s intre i Cristian Opariuc-Dan. Ne putem ntreba: care este motivul pentru care autorul d dovad de pedantism n cursul lucrrii, care face coninutul comprehensibil i pentru persoane cu o slab pregtire academic? Pentru cineva care nu lucreaz n domeniul pe care l-a mbriat autorul crii, suprasaturarea cu explicaii pare de neneles. Adevrul este c statistica se prezint ca o disciplin greu asimilabil de ctre studenii de la psihologie. Venind s studieze psihologia, o disciplin prin excelen umanist, o parte dintre ei cred c au scpat definitiv de tabelele, ecuaiile i demonstraiile din anii de liceu, dar, constat c, chiar din primul an, rencep o disciplin matematizat pentru care nu au pasiune i nclinaii. n rile cu tradiie n studiul psihologiei au aprut articole care explic de ce studenii au aversiune fa de statistic i tratamente matematice. Strict vorbind, statistica nu este chiar matematic, ci mai mult o colecie de metode i teorii care vizeaz modul de gestionare a ansamblurilor de date rezultate din cercetarea i practica profesional, care implic parial tratament matematic. n plus, s nu uitm, exist n psihologie i n varii domenii un curent de gndire anti-statistic care exagereaz n ideea inadecvrii metodelor cantitative n abordarea unor areale ale preocuprilor academice caracterizate de hiper-complexitate structural i suplee funcional. Un exponent al unui astfel de mod de gndire este cuprins n bestsellerul libanezului Nassim Nicholas Taleb, intitulat Lebda Neagr. Impactul foarte puin probabilului, aprut la Curtea Veche Publishing n 2010. La pagina 265 a acestei cri, el spune: Uitai tot ce ai auzit n facultate despre statistic sau 8
- 8. Cristian Opariuc-Dan teoria probabilitilor. Dac nu ai urmat niciodat astfel de cursuri, e foarte bine. Ce putem s spunem despre astfel de reacii? A constata inadecvarea modelului gaussian, cum a fcut-o Taleb, nu i d dreptul s negi importana unei discipline tiinifice aflat n extindere rapid n aproape toate ndeletnicirile omeneti. Pentru psihologi, absena disciplinei Statistic din programul de pregtire universitar de baz ar nseamn lipsirea de un instrument absolut necesar de comunicare i de verificare a cercetrilor tiinifice. Contientiznd importana predrii acestei discipline pentru viitorul cercettor sau profesionist practician, cei care au proiectat curriculumul facultilor de psihologie au nregistrat statistica n rndul disciplinelor fundamentale, alturi de introducere n psihologie, psihologia dezvoltrii, psihologia social, fundamentele tiinifice ale psihoterapiei, psihodiagnostic, metodele de cercetare i psihologia diferenial. O anchet efectuat n Statele Unite ale Americii n rndul fotilor absolveni de psihologie, referitoare la importana disciplinelor tiinifice predate n facultate asupra succesului profesional, indic statistica pe locul al treilea, dup psihologia social i psihoterapie. Lucrarea domnului Opariuc-Dan are ca baz de pornire dificultile ntmpinate de studeni n nelegerea statisticii. Experiena n predarea disciplinei Statistic aplicat n psihologie, m-a ajutat s detectez dou puncte eseniale ale acestor dificulti: clara nelegere a noiunilor predate i aplicarea robotic a unor formule pentru a evidenia semnificaia rezultatelor cercetrii. Insuficienta insistare asupra acestor dou aspecte duce la formarea unor deprinderi procustiene, care vor avea drept consecin simplismul interpretativ. La aceiai concluzie pare s fi ajuns i autorul crii atunci cnd insist, precum Cato n senatul Romei, asupra combaterii proastelor deprinderi n practicarea statisticii. Imensa mainrie statistic numit SPSS este o invenie minunat, care ajut studenii, cercettorii i practicienii s scurteze la minimum timpul 9
- 9. Statistic aplicat n tiinele socio-umane acordat pentru realizarea unor activiti rutiniere, ns care nu poate fi utilizat fr cunoaterea suficient specificului aplicativ al unor proceduri. Nu ntmpltor, autorul insist att de mult pe corectitudinea unor aplicaii statistice i pe oportunitatea lor. n aplicarea unor tipuri de analize factoriale, realizatorii unor studii trebuie s cunoasc bine exigene referitoare dimensiunea scalar a datelor, la liniaritatea relaiilor ntre variabile i la numrul minim de subieci care trebuie s fie prezeni n cercetare. Dac nu suntem ateni la astfel de aspecte, riscm s fim catalogai drept creatori de artefacte n activitatea tiinific i de folosire abuziv, incompetent a unor creaii tehnice de excepie. Cristian Opariuc-Dan a relevat bine deficienele de nelegere ale statisticii de ctre studeni, i ne ofer o lucrare de un impresionant efort analitic i sintetic. Conf. univ. dr. Aurel Stan Universitatea Al. I. Cuza Iai Facultatea de Psihologie i tiine ale Educaiei 10
- 10. Cristian Opariuc-Dan Cuvntul autorului Bine v-am regsit! Dup ce am aprofundat aspectele referitoare la analiza unei singure variabile statistici pe care le-am numit statistici univariate , a venit timpul s ne concentrm asupra analizei relaiilor dintre dou sau mai multe variabile. Lucrurile nu sunt deloc complicate, n comparaie cu cele prezentate n prima lucrare. Avem i aici algoritmi clari de lucru, i ne ajut acelai pachet binecunoscut de programe, SPSS. De data aceasta, nu vom mai analiza n detaliu o singur variabil, ci ne vom concentra asupra legturilor care exist ntre variabile. Vom ncerca s aflm care este legtura dintre lungimea prului i coeficientul de inteligen, sau dac pletoii sunt, ori nu sunt, mai inteligeni n comparaie cu cei care au prul scurt. De asemenea, vom ncerca s vedem n ce mod o variabil poate fi influenat de alte variabile; dac inteligena unui copil poate fi apreciat n baza notelor pe care acesta le are la matematic, fizic, chimie, limba romn ori alte discipline. Pornind tot de la relaiile dintre variabile, vom ncerca s aflm dac din rspunsurile la ntrebrile unui chestionar putem afla un element comun, i ct de precis este acesta. n limbaj tehnic, vom studia elemente legate de corelaii, diferene i studiul fidelitii, toate cu referire la date parametrice i neparametrice. Unii vor spune c analiza fidelitii prezint un grad mai ridicat de dificultate, iar aceste elemente nu trebuie tratate mpreun. S vedem dac este chiar aa. Nu-i voi uita pe cei care m-au ajutat s scriu acest volum i care au contribuit, ntr-o form sau alta, la apariia crii. i mulumesc soiei mele, Iulia-Laura, pentru rbdarea pe care a avut-o cu mine, n lungile zile n care nu m-am desprit de computer, scriind aceste 11
- 11. Statistic aplicat n tiinele socio-umane rnduri. Scutindu-m, de multe ori, de treburile casnice, ncurajndu-m s scriu, soia mea a accelerat n mod semnificativ apariia acestui volum. Recunotina mea se ndreapt ctre profesorul universitar Ilie Puiu Vasilescu de la universitatea Wise din Virginia, Statele Unite, din ale crui cri am nvat statistic, i care a binevoit s analizeze critic documentul, corectndu-m atunci cnd am greit. De asemenea, profesorul universitar Corneliu Eugen Havrneanu i-a adus o important contribuie, fiind att cel de la care am nvat elementele de baz ale analizei de date, ct i cel care a avut rbdarea de a citi documentul, a-mi face observaii pertinente i a furniza impresiile sale referitoare la carte. Ca ntotdeauna, profesorul Aurel Stan s-a ocupat i de aceast carte, de la impresii i corectur la procesul redacional, lucru pentru care i sunt profund recunosctor. De asemenea, in s aduc mulumiri profesorului Filaret Sntion, de la universitatea Ovidius Constana, pentru numeroasele seri petrecute mpreun, momente n care discuiile noastre pe aceast tem au contribuit la consolidarea i sistematizarea acestui volum. Mulumiri speciale a dori s aduc doamnei profesor Monica Albu. Observaiile i criticile constructive aduse de domnia sa au contribuit, sper, la o calitate superioar a acestei lucrri. Exigena de care a dat dovad m ajut s m perfecionez i s pot, la un moment dat, s ating standardele la care doamna profesor se raporteaz. Nu n ultimul rnd, v mulumesc dumneavoastr, celor care ai cumprat aceast carte, onorndu-m astfel cu dorina de a nva. V-am promis n primul volum c v voi scoate la lumin, n ceea ce privete metoda statistic, aplicat n tiinele socio-umane. Consider c am fcut-o. Acum haidei s schimbm becul de 60 de wai, pe care l-am aprins n primul volum, cu un bec de 100 de wai, i s facem i mai mult lumin Constana, 9 august 2011 12
- 12. Cristian Opariuc-Dan I. RELAII NTRE VARIABILE n acest capitol se va discuta despre: Conceptul de covarian i corelaie; Calculul coeficienilor de corelaie parametrici i neparametrici; Analiza i interpretarea coeficienilor de corelaie; Reprezentarea grafic i analiza graficelor corelaiilor; Dup parcurgerea capitolului, cititorii vor fi capabili s: neleag diferena dintre covarian i corelaie; Calculeze coeficienii de corelaie parametrici i neparametrici; Analizeze i s interpreteze coeficienii de corelaie; Utilizeze SPSS n calculul coeficienilor de corelaie. n general, ntr-o cercetare tiinific, nu ne putem rezuma doar la studiul unei singure variabile, dei acest pas este important pentru stabilirea normalitii distribuiei. Faptul c notele obinute de ctre candidai la un examen de admitere la facultate sunt sau nu sunt distribuite normal, este de mare importan, att pentru aflarea nivelului candidailor respectivi, ct i n vederea stabilirii procedurilor ulterioare de analiz. Nu ne putem, ns, rezuma doar la acest lucru. Ne-ar interesa, poate, s aflm dac exist vreo legtur ntre aceste note i coeficientul de inteligen, s vedem dac, ntr-adevr, cei cu medii mari la admitere au i un coeficient de inteligen ridicat, sau din contra. Aceasta este o problem specific, ce poate fi abordat printr-un studiu corelaional. Ca n orice studiu tiinific, ncepem de la un fapt de observaie. De exemplu, constatm n ultimii ani o reducere a calitii sistemului de nvmnt universitar. Problema poate fi la nivelul cadrelor didactice, al 13
- 13. Statistic aplicat n tiinele socio-umane studenilor, sau poate reprezenta o combinaie a acestor elemente. Dup ce am citit o sut de articole referitoare la aceast tem, dup ce am studiat cercetrile existente, putem ajunge la concluzia investigrii relaiei dintre mediile anilor de studiu din liceu, media de la bacalaureat i coeficientul de inteligen. Putem, aadar, formula obiectivul studiului: investigarea relaiei dintre media de admitere la universitate i coeficientul de inteligen. n mod cert, dup stabilirea obiectivului, va trebui s formulm ipoteza sau ipotezele cercetrii. n cazul nostru, ipoteza de cercetare devine: H1: Exist o relaie ntre nivelul de inteligen i media de admitere a candidailor n nvmntul superior. Aceast ipotez este evident o ipotez bidirecional, i ne duce cu gndul la un studiu corelaional. Dup cum tim, ipoteza de cercetare nu poate fi confirmat sau infirmat. Toate analizele se fac pe baza ipotezei nule. n situaia de fa, ipoteza nul va fi: H0: Nu exist nicio relaie ntre nivelul de inteligen i media de admitere a candidailor n nvmntul superior. Din simpla parcurgere a ipotezei, putem identifica foarte uor att planul de cercetare evident un plan corelaional cu dou variabile continui ct i variabilele coeficientul de inteligen i media de admitere. Nu ne rmne dect s colectm datele prin administrarea unui test de inteligen i prin nregistrarea mediilor de admitere ale candidailor i astfel obinem baza de date a cercetrii noastre. Ambele variabile fiind scalare, n urmtoarea etap vom proceda la analiza normalitii distribuiei acestora. Dar dup aceea, ce facem? Bineneles, intenionm s studiem relaia dintre aceste dou variabile. Relaiile stabilite din analiza a dou variabile se numesc analize bivariate, deoarece este posibil s studiem relaiile dintre mai multe variabile, 14
- 14. Cristian Opariuc-Dan metode reunite sub numele de analize multivariate. Ai observat c prefer folosirea termenului de relaie i nu a celui de corelaie. Care ar fi diferena? ntregul concept al investigrii gradului de asociere ntre dou variabile se bazeaz pe covarian. Ce este, ns, covariana? V mai amintii de termenul de varian folosit n prima lucrare? Am definit atunci acest element ca fiind media abaterilor scorurilor fa de tendina central (Opariuc-Dan, 2009). Lucram atunci doar cu o singur variabil. Dac am include nc o variabil, am spune c cele dou covariaz dac scorurile celei de-a doua se abat n acelai sens de la medie, chiar dac magnitudinile abaterilor pot fi altele. +1,4 +0,4 +0,4 Var. X -0,6 -1,6 +0,8 +0,5 +2,3 Var Y -0,2 -0,6 Figura 1.1 Diferenele dintre scorul observat i medie pentru dou variabile, n cazul unui singur subiect examinat 15
- 15. Statistic aplicat n tiinele socio-umane Urmrii figura 1.1. Am reprezentat aici dou variabile, variabila X i variabila Y. Observm c scorurile primei variabile se abat negativ fa de medie n primele dou cazuri i pozitiv fa de medie n ultimele trei cazuri. Acelai model este urmat i de cea de-a doua variabil, dei magnitudinea abaterilor este diferit. Putem suspecta faptul c cele dou variabile covariaz, adic subiecii care au scoruri mici la prima variabil, au scoruri mici i la a doua variabil. Cei care au scoruri mari la prima variabil, au scoruri mari i la a doua variabil. Acesta este principiul covarianei. Problema care se pune este s stabilim magnitudinea acestei covariane, n acelai mod n care am aflat magnitudinea varianei pentru fiecare variabil luat separat. Cu alte cuvinte, se poate da un indicator unic, numeric, al covarianei, n mod similar coeficientului de varian (s2)? Rspunsul este, din fericire, pozitiv. V aducei aminte c, n cazul calculrii varianei unei singure variabile, am ridicat la ptrat fiecare abatere de la medie, pentru a compensa problemele legate de semn. Este necesar s facem acest lucru i aici? Gndii-v nainte de a rspunde! Ei bine, nu. Fiind dou variabile, nmulind, pentru fiecare subiect, abaterile de la medie ale fiecrei variabile, rezolvm aceast problem. Dac ambele abateri sunt ori pozitive, ori negative, vom obine un produs pozitiv, artnd faptul c variabilele covariaz n acelai sens (se abate pozitiv de la medie una, se abate pozitiv de la medie i cealalt; se abate negativ una, se abate negativ i cealalt). Dac o abatere este pozitiv i cealalt este negativ, vom obine un produs negativ, artnd faptul c variabilele covariaz invers (dac una se abate pozitiv de la medie, cealalt se abate negativ). Mai simplu nici nu se putea. Cum obinem ns o valoare numeric unic a acestor abateri? Nu este deloc complicat. Adunm toate produsele i mprim la numrul de cazuri minus unu (efectund corecia cunoscut pentru lucrul cu eantioane). Iat ce greu e: 16
- 16. Cristian Opariuc-Dan (formula 1.1) Am obinut, astfel, formula covarianei pe care o putem acum aplica datelor noastre. Cele dou variabile din exemplul de mai sus covariaz pozitiv (adic dac scorul la o variabil se afl peste medie, scorul la cealalt variabil se afl i el peste medie i invers), valoarea acestei covariaii fiind de 1,20. Marea problem a covarianei este aceea c relaiile dintre cele dou variabile depind de scala de msur. Dac avem dou instrumente ce msoar, fiecare, o singur variabil, unul cu 100 de itemi i unul cu 10 itemi, n condiiile n care itemii sunt cotai la fel, modul n care se vor abate scorurile individuale de la medie difer extrem de mult, coeficientul de covarian fiind foarte mare n comparaie cu situaia analog n care cele dou instrumente ar avea, fiecare, 10 itemi. n realitate acest coeficient nu ne spune, practic, nimic. Avem nevoie, aadar, de o msur standardizat a covarianei, iar aceast msur o regsim sub denumirea de corelaie. Corelaia exprim, practic, sub form numeric, gradul de asociere dintre variabile. Dou variabile sunt asociate, n situaia n care comportamentul uneia este legat de comportamentul celeilalte, cu alte cuvinte, dac nu sunt independente. Dou variabile independente arat c modificarea valorilor ntr-o variabil nu are niciun efect asupra valorilor din cealalt variabil. (Gibbons, 1993). n teorie e simplu. n practica tiinific din domeniul socio-uman, am artat c variabilele pot fi dificil msurate la un nivel de interval, majoritatea lor fiind, strict vorbind, la o scal de msur ordinal. Este greu s gsim o 17
- 17. Statistic aplicat n tiinele socio-umane relaie matematic ntre dou variabile. Ar fi mai degrab vorba de covariane dect de corelaii. Un alt aspect important, pe care muli l ignor, este acela c nu putem stabili legturi cauzale n urma studiilor corelaionale. Din corelaii nu se pot face inferene cauzale, nu putem stabili care este cauza i care este efectul. Dac n urma unui studiu ajungem la concluzia c exist o legtur puternic ntre anxietate i depresie, care este cauza i care este efectul? Anxietatea determin depresia sau depresia produce anxietate? Studiile corelaionale permit stabilirea intensitii i a sensului unei legturi ntre variabile, nu i stabilirea relaiei cauz-efect. Accentuez asupra acestui aspect, deoarece am ntlnit multe asemenea confuzii n care se vorbea despre relaii cauzale, fapt complet eronat din punct de vedere tiinific. Relaiile dintre dou variabile se studiaz n baza a dou categorii de indici de corelaie. Vorbim de indici de corelaie parametrici i indici de corelaie neparametrici, n funcie de condiiile ndeplinite de variabile i anume dac ndeplinesc sau nu cerinele de administrare ale statisticilor parametrice. I.1 Coeficieni de corelaie neparametrici Aceti coeficieni de corelaie se utilizeaz n cazul n care cel puin una dintre cele dou variabile nu ndeplinete condiiile unei distribuii normale, fie din cauza specificului datelor, fie din aceea a nivelului de msur la care se situeaz. Numii i coeficieni de asociere pentru distribuii libere, coeficienii de corelaie neparametrici pot fi folosii att n cazul n care distribuia este cunoscut, de obicei normal, dar mai ales n cazul n care distribuia nu se cunoate, nu este normal sau datele nu pot fi asociate unui nivel de msur cel puin de interval. Motivul este acela c, datele aflate la un nivel de interval ori de raport, pot fi uor convertite n ranguri sau n frecvene (la nivel ordinal ori nominal). Invers nu este, ns, posibil. 18
- 18. Cristian Opariuc-Dan n acest sens, exist mai muli indici ai relaiilor dintre variabile, utilizabili n funcie de tipul variabilelor. I.1.1 Coeficientul de corelaie a rangurilor (rho) Spearman Este un coeficient bazat pe ranguri, nu este influenat de reprezentativitatea mediei i se utilizeaz, n general, Tabelul 1.1 Rezultate obinute atunci cnd lotul de cercetare are dimensiuni de 10 elevi la matematic i fizic mici (sub 30 de cazuri), sau cnd cel puin Nr. Matematic Fizic 1 2 3 una dintre variabile nu ndeplinete condiiile 2 3 4 de administrare ale testelor parametrice. A 3 4 4 fost dezvoltat de psihologul englez Charles 4 5 5 5 6 6 Spearman i, datorit similaritii sale cu coe6 6 7 ficientul r Bravais-Pearson, acest indicator 7 7 7 este frecvent utilizat n tiinele socio-umane. 8 8 7 9 9 8 De fiecare dat cnd avei de calculat coefici10 10 9 entul de corelaie bivariat, iar datele dumneavoastr nu se distribuie normal pentru cel puin una dintre variabile, apelai cu ncredere la acest coeficient. Coeficientul nu face altceva dect s transforme scorurile originale n ranguri i s analizeze relaia dintre acestea. Formula de calcul nu este complicat i poate fi rezumat la: (formula 1.2) unde d reprezint diferena dintre rangurile valorilor msurate la un subiect, iar n se refer la numrul de subieci S considerm un exemplu n care avem un numr de 10 elevi de clasa a XI-a care obin urmtoarele rezultate la matematic i la fizic (tabelul 1.1). 19
- 19. Statistic aplicat n tiinele socio-umane Dup cum observm, cele dou variabile se afl la un nivel de msur scalar, ns numrul mic de subieci (n=10) nu permite analiza distribuiei rezultatelor, fiind sub 30 de cazuri. n aceast situaie, nu putem folosi coeficieni de corelaie parametrici. Pentru a uura lucrurile, notele la matematic i la fizic au fost ordonate astfel nct s putei nelege mai uor algoritmul. Vom decide s folosim coeficientul de corelaie a rangurilor Spearman. Evident, primul pas este acela al calculrii rangurilor. Nu intram n amnunte asupra acestei proceduri, deoarece a fost tratat n lucrarea anterioar, capitolul referitor la median i ranguri. Nr. 1 2 3 4 5 6 7 8 9 10 Tabelul 1.2 Calculul coeficientului de corelaie Spearman Matematic Fizic Rang Matematic Rang Fizic d 2 3 1 1 0 3 4 2 2,5 -0,5 4 4 3 2,5 0,5 5 5 4 4 0 6 6 5,5 5 0,5 6 7 5,5 6 -0,5 7 7 7 6 1 8 7 8 6 2 9 8 9 9 0 10 9 10 10 0 d2 d2 0 0,25 0,25 0 0,25 0,25 1 4 0 0 6 Dup calculul rangurilor, facem diferena dintre rangul primei variabile (matematic) i rangul celei de-a doua variabile (fizic). Valoarea d va fi, aadar, d=RangMatematic RangFizic. n urmtoarea etap, ridicm la ptrat diferena rangurilor, pentru a elimina problemele generate de semnul diferenelor, i facem suma ptratelor diferenelor. Rezultatele acestor etape sunt prezentate n tabelul 1.2. Avem acum toate datele necesare nlocuirii n formul. 20
- 20. Cristian Opariuc-Dan Iat i coeficientul de corelaie a rangurilor, n valoare de 0,96. Am obinut o corelaie pozitiv i puternic ntre notele obinute de ctre cei 10 elevi la matematic i fizic. Putem spune c cei care obin note mari la matematic, obin note mari i la fizic; cei cu note mici la matematic au note mici i la fizic. Calculul dup aceast formul poate fi efectuat numai n situaia n care nu exist ranguri egale. Atunci cnd apar ranguri egale (cum se poate observa i n cazul nostru), se folosete o formul uor diferit, formul de corecie pentru ranguri egale. Aceast formul se aplic n cazul n care ambele variabile au ranguri egale, sau atunci cnd ntlnim ranguri egale doar n situaia unei singure variabile. ) ( (formula 1.3) unde rx i ry reprezint rangurile celor dou variabile Revenind la exemplul nostru, vom avea un alt tip de tabel, ceva mai complex. Nr. 1 2 3 4 5 6 7 8 9 10 Mate 2 3 4 5 6 6 7 8 9 10 Tabelul 1.3 Calculul coeficientului de corelaie Spearman Fizic Rang Mate Rang Fizic RMxRF R M2 3 1 1 1 1 4 2 2,5 5 4 4 3 2,5 7,5 9 5 4 4 16 16 6 5,5 5 27,5 30,25 7 5,5 6 33 30,25 7 7 6 42 49 7 8 6 48 64 8 9 9 81 81 9 10 10 100 100 =55 =52 =361 =384,5 21 R F2 1 6,25 6,25 16 25 36 36 36 81 100 =343,5
- 21. Statistic aplicat n tiinele socio-umane Dup calculul rangurilor, am efectuat produsul rangurilor i ridicarea la ptrat a fiecrui rang. Apoi, am calculat sumele necesare. Nu rmne, n final, dect nlocuirea n formul. Rezultatul va fi, n acest caz, foarte apropiat cu cel de mai sus. Evident, numrul foarte mic de cazuri, face ca efectul coreciei pentru ranguri egale s fie, i el, foarte mic. ( ) Acest coeficient de corelaie, foarte uor de calculat, are, ns, o problem. Ai observat c cele dou variabile utilizate se situeaz la un nivel scalar de msur. Dup unii autori (Vasilescu, 1992, apud Yule i Kendall, 1969; Lohse, Kudwig i Rohr, 1986), acest coeficient de corelaie este inadecvat pentru ranguri, deoarece presupune c datele au, toate, proprietile necesare pentru calcularea coeficienilor parametrici. Indicatorul reduce, de fapt, datele de la un nivel scalar la un nivel ordinal. n acest sens, mai adecvat ar fi calcularea altor coeficieni, specifici pentru rang (Vasilescu, 1992). Totui, datorit uurinei calculrii acestui coeficient i a faptului c poate fi folosit pentru date parametrice care nu ndeplinesc condiiile aplicrii de teste parametrice, coeficientul Spearman are o larg utilizare. n general, folosim acest coeficient de corelaie atunci cnd ambele variabile se afl la un nivel de msur ordinal, cnd o variabil se afl la un nivel ordinal, iar cealalt la un nivel scalar, ori cnd ambele se afl la nivel scalar, dar cel puin una dintre ele nu prezint o distribuie normal. I.1.1.1 Semnificaia coeficientului de corelaie Spearman n cazul studiilor corelaionale, i nu numai, nu este suficient obinerea coeficientului de corelaie pentru a respinge sau nu ipoteza nul. tim foarte bine c avem nevoie i de pragul de semnificaie care ne arat, practic, 22
- 22. Cristian Opariuc-Dan ce anse avem ca indicatorul obinut s rezulte n urma unor erori de eantionare. Putem accepta semnificaia acestui indicator i respinge ipoteza nul, doar dac aceast ans este mai mic de 5%, cu alte cuvinte, dac ne situm la un prag de semnificaie mai mic de 0,05. Cea mai simpl metod de a determina semnificaia coeficientului de corelaie a rangurilor este aceea n care putem compara valoarea acestuia cu valoarea de referin pentru nivelul de semnificaie dorit, valoare publicat n tabele speciale. Stabilirea modului n care au fost construite aceste tabele nu face obiectul prezentei lucrri, deoarece calculele sunt mai complicate i s-au realizat n decursul anilor pe eantioane de diferite dimensiuni, folosindu-se distribuii teoretice de probabiliti. n anexa 1 am furnizat un asemenea tabel. Dac relum exemplul nostru, am obinut un coeficient de corelaie a rangurilor de 0,96, studiind un lot de cercetare de 10 elevi. n prima coloan avem mrimea eantionului. Dac nu gsim numrul exact de cazuri, vom lua valoarea inferioar cea mai apropiat. n situaia noastr, avem 10 subieci, iar rndul care ne intereseaz este al aselea rnd din acel tabel, unde avem numrul 10 pe coloana n. Observm c pentru a fi semnificativ la un prag de semnificaie mai mic de 0,05, coeficientul trebuie s aib cel puin valoarea 0,64. Dac dorim s fim mai riguroi, la un prag de semnificaie mai mic de 0,02, valoarea acestui coeficient trebuie s fie mai mare de 0,74 iar la un prag mai mic de 0,01, coeficientul trebuie s depeasc valoarea 0,794. Coeficientul nostru de corelaie a rangurilor este de 0,96 i constatm c ne aflm la un prag de semnificaie mai mic de 0,01. Putem spune c exist o legtur puternic ntre cele dou variabile, la un prag de semnificaie mai mic de 0,01. n condiiile n care numrul de subieci este mai mare de 10, putem testa semnificaia coeficientului de corelaie a rangurilor Spearman i n alt mod, folosind distribuia t, deoarece am artat faptul c acest coeficient nu 23
- 23. Statistic aplicat n tiinele socio-umane este altceva dect o variant ordinal a coeficientului r Bravais-Pearson, despre care vom discuta mai trziu. (formula 1.4) n situaia noastr, am obinut un coeficient de corelaie a rangurilor de 0,96 pentru un numr de 10 subieci. Valoarea testului t va fi: n tabelul din anexa 4 referitor la distribuia t, vom cuta semnificaia valorii testului t pentru un numr de 10-2=8 grade de libertate. La un numr de 8 grade de libertate, pentru a fi semnificativ corelaia, valoarea testului t trebuie s depeasc 1,86 la un prag de semnificaie mai mic de 0,05 i 2,89 la un prag de semnificaie mai mic de 0,01. Rezultatul obinut, 9,60, este mai mare de 2,89, rezultnd c acest coeficient de corelaie = 0,96 este semnificativ la un prag de semnificaie p < 0,01. O alt variant prin care putem testa semnificaia acestui coeficient de corelaie, are n vedere faptul c pentru eantioane mari, distribuia se apropie de o distribuie normal i putem calcula statistica z, dup formula: (formula 1.5) n situaia noastr, statistica z va fi 2,88. Raportat la distribuia z, coeficientul arat o valoare puternic semnificativ a corelaiei, la un prag de semnificaie mai mic de 0,01. Coeficientul de corelaie a rangurilor Spearman este un coeficient de corelaie direcional i poate avea valori cuprinse ntre -1 i +1. Valorile apropiate de +1 indic existena unei asocieri directe (pozitive) ntre cele do24
- 24. Cristian Opariuc-Dan u variabile, n timp ce valorile apropiate de -1 indic existena unei asocieri inverse (negative). Cu ct valorile se apropie mai mult de 1 (indiferent de semn), cu att asocierea este mai puternic, variabilele fiind mai legate ntre ele. Un coeficient de corelaie care are exact valoarea +1 arat c n cele dou variabile exist exact aceleai ranguri ale scorurilor. Dac Ionel obine rangul 5 la matematic, obine tot rangul 5 i la fizic; Viorel are rangul 7 la matematic i rangul 7 la fizic; Viorica are rangul 3 la matematic i rangul 3 la fizic i aa mai departe. Un coeficient de corelaie care are exact valoarea -1 arat c rangurile dintr-o variabil sunt inversul perfect al rangurilor din cealalt variabil. Dac Dan are rangul 8 la matematic, are rangul 3 la fizic; Mioara are rangul 6 la matematic i rangul 4 la fizic; Costel are rangul 9 la matematic i rangul 2 la fizic. Un coeficient de corelaie cu valoarea 0 semnific lipsa oricrei legturi ntre cele dou variabile i spunem c cele dou variabile sunt necorelate liniar ntre ele. n practic nu gsim aproape niciodat aceste extreme (-1; 0; +1), dect n cazul n care copiem, pur i simplu, datele dintr-o variabil ntr-o alt variabil i apoi calculm coeficientul de corelaie, ceea ce, fiind vorba ntre noi, s-a mai vzut pe la unii studeni n lucrrile lor tiinifice. Cu ct valorile coeficientului de corelaie se apropie mai mult de zero, cu att variabilele sunt necorelate, fr legtur ntre ele; cu ct sunt mai apropiate de 1, cu att sunt mai asociate, mai strns legate, au elemente comune. ntre aceste dou extreme, independen i covarian, se situeaz ntreaga filozofie i ntreaga putere a coeficienilor de corelaie. 25
- 25. Statistic aplicat n tiinele socio-umane Exist o legtur logic ntre mrimea coeficientului ce corelaie i semnificaia acestuia. Nu trebuie demonstrat faptul c n cazul n care coeficienii de corelaie se apropie de valoarea 1, deci variabilele sunt puternic asociate, aceast asociere este i semnificativ, pragul de semnificaie apropiindu-se de zero, n timp ce la apropierea coeficientului de corelaie de valoarea zero, pragul de semnificaie se apropie i el de 1, legtura nefiind semnificativ. Am fcut aceste precizri n cadrul primului coeficient de corelaie studiat, coeficientul de corelaie Spearman. Informaiile prezentate mai sus se aplic tuturor coeficienilor direcionali, astfel nct nu le vom mai repeta n cazul altor coeficieni de corelaie, ci ne vom axa doar asupra posibilelor completri i proceduri speciale de calcul. Un ultim aspect care merit a fi menionat: coeficientul de corelaie al rangurilor Spearman este, alturi de marea majoritate a coeficienilor de acest tip, adimensional i situat la un nivel ordinal. Adic nu are o unitate de msur i permite comparaii directe. Putem compara un coeficient cu un alt coeficient de corelaie, putem lucra cu mediana coeficienilor de corelaie, etc. Bineneles, fiind situat la un nivel de msur ordinal, nu putem calcula statistici metrice, nu putem vorbi de media coeficienilor de corelaie. I.1.2 Coeficientul de corelaie a rangurilor (tau) Kendall Tabelul 1.4 Rezultate obinute de 4 elevi la romn i chimie Nr. Romn Chimie 1 Satisfctor Nesatisfctor (2) (1) 2 Bine Foarte bine (3) (4) 3 Nesatisfctor Bine (1) (3) 4 Foarte bine Satisfctor (4) (2) Este un alt coeficient de corelaie pentru date neparametrice, dezvoltat de statisticianul englez Maurice Kendall n anul 1938, fiind mai precis dect Spearman n cazul variabilelor ce se situeaz ntr-un mod real la un nivel pur ordinal. Procedurile de calcul ale acestui coeficient difer ntre ele, ns toate se 26
- 26. Cristian Opariuc-Dan bazeaz pe numrarea inversiunilor (cazul n care un element care are un rang mai mare pentru o variabil, se situeaz n faa unui element cu un rang mai mic, datele fiind ordonate dup cealalt variabil) i a opusului acestora, numit i proversiuni (Vasilescu, 1992). Ca s nelegem mai bine cum stau lucrurile, s lum un exemplu. S presupunem c ntr-o clas au fost evaluai un numr de patru elevi la limba romn i la chimie, obinndu-se rezultatele din tabelul 1.4. Aceste date nu pot fi asociate unor date la un nivel scalar, fiind n mod cert date ordinale. Dac notm calificativul nesatisfctor cu 1, satisfctor cu 2, bine cu 3, foarte bine cu 4 i excepional cu 5, putem obine expresia numeric a acestor evaluri. V reamintesc faptul c aceste cifre nu reprezint dect nite coduri asociate calificativelor i nu au valoare n sine. La acest nivel putem doar ordona elevii n funcie de calificative (de la nesatisfctor la excepional) i nu putem preciza cu ct un elev este mai bun dect cellalt (vezi referinele la scale de msur din lucrarea anterioar). Calcularea numrului de inversiuni se face prin ordonarea datelor dup prima variabil. Ordonnd datele, tabelul se prezint n felul urmtor (tabelul 1.5). Tabelul 1.5 Ordonarea dup variabila Romn Inversiunile vor fi calculate n baNr. Romn Chimie Nesatisfctor Bine za celei de-a doua variabile (chimie) 3 (1) (3) urmrindu-se, pe rnd, ordinea natural a Satisfctor Nesatisfctor 1 rangurilor. Pentru prima linie, subiectul (2) (1) Bine Foarte bine are rangul 3 la chimie. Acest rang este 2 (3) (4) mai mare dect rangul la chimie pentru a Foarte bine Satisfctor 4 (4) (2) doua linie (1), deci avem de-a face cu o inversiune. Prima inversiune gsit este (3 1). Comparnd prima linie cu a treia (rangul 3 cu rangul 4, tot pe coloana chimie), observm c cele dou ranguri sunt n ordine natural, deci nu apare o inversiune n acest caz. O alt inversiune apare la compararea primei linii cu ultima (inversiunea 3 2). 27
- 27. Statistic aplicat n tiinele socio-umane A doua linie nu presupune inversiuni, toate comparaiile fiind n ordinea natural (att comparaia rangului 1 cu rangului 4 ct i comparaia rangului 1 cu rangului 2), lucru evident, deoarece rangul acestei linii este 1 i nu exist nici un rang mai mic dect 1. A treia linie presupune compararea rangului 4 cu rangul 2 (liniile 3 i 4). Observm, n sfrit, o ultim inversiune sub forma perechii 4 2. Aadar, n irul determinat de variabila chimie, avem un numr de 3 inversiuni (perechile 3 1, 3 2 i 4 2) i un numr de 3 proversiuni (perechile 3 4, 1 4 i 1 2). Calculul coeficientului Kendall se face diferit, n funcie de existena sau inexistena elementelor cu acelai rang. n cazul nostru, observm c nu exist elemente cu acelai rang, situaie n care putem aplica prima formul de calcul a coeficientului Kendall: (formula 1.6) unde I reprezint numrul de inversiuni, iar n numrul de subieci nlocuind n formula noastr, unde au fost 3 inversiuni i 4 subieci, obinem urmtorul coeficient de corelaie a rangurilor: Tabelul 1.6 Ordonarea dup variabila Romn Nr. Romn Chimie 1 Nesatisfctor Bine (1) (3) 2 Satisfctor Nesatisfctor (2) (1) 3 Bine Foarte bine (3) (4,5) 4 Foarte bine Satisfctor (4) (2) 5 Excepional Foarte bine (5) (4,5) Iat o prim situaie n care nu exist nici o legtur ntre cele dou variabile. Acest lucru se datoreaz, evident, numrului extrem de mic de subieci luai n calcul, faptului c informaia este insuficient pentru a ne permite formularea unor concluzii utile. Acest coeficient de corelaie se mai numete coeficientul de corelaie a. Exist i alte variante ale acestui coeficient, avnd exact aceeai semnificaie, (b i c), 28
- 28. Cristian Opariuc-Dan pe care nu le vom discuta aici. Menionm numai ca b se folosete n cazul variabilelor cu un numr egal de modaliti de realizare (tabele ptratice), iar c se folosete n cazul variabilelor cu un numr inegal de modaliti de realizare (tabele rectangulare). Dac exist elemente cu acelai rang n cazul celei de-a doua variabile, lucrurile se complic puin. Vom relua exemplul anterior pentru 5 subieci, la aceleai discipline (tabelul 1.6). Observm c n cazul primei variabile nu avem ranguri care se repet, n timp ce pentru variabila chimie avem dou cazuri n care se repet calificativul foarte bine. n aceste situaii, ordonm datele dup variabila care nu are elemente cu acelai rang n cazul nostru, dup variabila romn. tim c dac dou sau mai multe elemente ocup aceeai poziie, rangul lor devine media poziiilor pe care se afl. Cele dou elemente cu calificativul foarte bine ocup poziiile 4 i 5, rangul lor fiind acelai, 4,5. Aceste elemente poart numele de ambiversiuni i reprezint un nou concept n calculul coeficientului de corelaie, alturi de inversiuni i proversiuni. n condiiile n care nu sunt elemente cu ranguri egale, atunci putem spune c numrul inversiunilor i cel al proversiunilor este egal cu suma primelor n-1 numere naturale. Adic . Din acest lucru putem de- duce un alt element, numit suma lui Kendall i notat cu S. Suma lui Kendall se definete dup formula . Dac nu ar exista inversiuni, adic I=0, atunci s-ar obine valoarea maxim a acestei sume, astfel nct n baza acestor sume, formula generalizat a coeficientului de corelaie a rangurilor Kendall devine: (formula 1.7) 29
- 29. Statistic aplicat n tiinele socio-umane Practic nu am fcut dect s generalizm formula anterioar de calcul a acestui coeficient, pentru a include un alt element i anume cel de corecie a ambiversiunilor. Dac apar ambiversiuni, suma maxim se reduce cu acest element de corecie, dup formula urmtoare: (formula 1.8) unde fp este numrul de asocieri de p elemente i p se refer la numrul elementelor. n exemplul nostru, avem o singur pereche de elemente, i anume cele cu rangurile 4,5. Astfel, valoarea A devine . Pentru o clarificare mai bun a modalitii de calcul al acestui element, s lum un alt exemplu de ranguri: Note: 2; 3; 5; 5; 5; 6; 7; 7; 8; 9; 10; 10; 11; 12 Poziie: 1; 2; 3; 4; 5; 6; 7; 8; 9; 10; 11; 12; 13; 14 Rang 1; 2; 4; 4; 4; 6; 7,5; 7,5, 9; 10; 11,5; 11,5; 13; 14 Observm c avem dou perechi de elemente (7 cu rangurile 7,5 i 10 cu rangurile 11,5) i o asociere cu 3 elemente (5 cu rangurile 4). Aplicnd formula pentru ambiversiune, obinem ( ) ( ) . Existena acestor ambiversiuni reduce att numrul maxim de legturi ierarhice, ct i suma lui Kendall, cu valoarea inversiunilor (Vasilescu, 1992). Astfel, i, de asemenea, ( ) . Cu- noscnd acum aceste date i formula generalizat pentru coeficientul Kendall de corelaie a rangurilor, putem deduce cu uurin noua formul pentru cazul n care una dintre variabile are elemente de acelai rang. 30
- 30. Cristian Opariuc-Dan ( ) (formula 1.9) Relund exemplul de mai sus, avem un numr de 3 inversiuni (3 1; 3 2; 4,5 2) i o ambiversiune (4,5 4,5). Toate datele sunt cunoscute i nu ne rmne dect s nlocuim n formul, obinnd coeficientul Kendall de 0,55. Tabelul 1.7 Calificativele obinute la limba romn i la chimie Nr. Romn Chimie 1 Satisfctor Bine (2) (3) 2 Satisfctor Nesatisfctor (2) (1) 3 Bine Bine (3) (3) 4 Foarte bine Satisfctor (4) (2) 5 Excepional Foarte bine (5) (4) 6 Foarte bine Bine (4) (3) 7 Nesatisfctor Satisfctor (1) (2) 8 Bine Foarte bine (3) (4) ( )( Dei este puin mai complicat i presupune calculul unui indicator suplimentar, algoritmul nu pune probleme deosebite. S vedem n continuare modul de calcul al acestui coeficient n condiiile n care ambele variabile au elemente de acelai rang. De data aceasta, algoritmul implic mai multe etape, deoarece avem ambiversiuni att n cazul primei variabile, ct i n cazul celei de-a doua variabile. Suma Kendall va deveni iar suma maxim se calculeaz n baza formulei ), unde Ax i Ay sunt ambiversiunile din cele dou variabile, iar S- i S+ sunt sumele calculate numai din rangurile ce- 31
- 31. Statistic aplicat n tiinele socio-umane lei de-a doua variabile. Nu va speriai. Clarificm imediat aceste concepte abstracte. Avnd n vedere formula generalizat pentru coeficientul de corelaie Kendall i cunoscnd sumele, putem da expresia formulei de calcul a coeficientului, n condiiile n care gsim ambiversiuni att n prima, ct i n a doua variabil: ( (formula 1.10) )( ) Pentru a nu intra n detalii teoretice inutile, s considerm c un numr de 8 elevi au obinut urmtoarele calificative la limba romn i la chimie (tabelul 1.7). Datele din tabelul 1.7 nu sunt ordonate dup nicio variabil i putem observa cu uurin c att calificativele la limba romn, ct i cele de la chimie, vor conine elemente cu ranguri egale. Pentru a calcula S+, se ordoneaz cresctor elementele dup prima variabil (romn). n cazul n care ntlnim ranguri egale ale primei variabile (romn), elementele vor fi aranjate cresctor, n funcie de a doua variabil (chimie). Obinem, astfel, un nou ir numit n termeni de specialitate Y+, pe baza cruia calculm ambiversiunile Ay i inversiunile, dup care putem afla suma S+, n mod similar sumei prezentate n capitolul anterior. Vom rearanja tabelul de mai sus pentru a putea calcula mai uor aceste elemente. Tabelul 1.8 Rearanjarea rangurilor n vederea calculului S+ Numr elev 7 2 1 3 8 4 6 Calificativ romn 1 NS 2S 2S 3B 3B 4 FB 4 FB Poziie 1 2 3 4 5 6 7 Rang romn 1 2,5 2,5 4,5 4,5 6,5 6,5 Calificativ chimie 2S 1 NS 3B 3B 4 FB 2S 3B Rang chimie 2,5 1 5 5 7,5 2,5 5 32 5 5E 8 8 4 FB 7,5
- 32. Cristian Opariuc-Dan Suma S+ se va calcula innd cont doar de rangurile celei de-a doua variabile, n cazul nostru, chimia. Din tabelul 1.8 observm c apare de dou ori rangul 2,5, de trei ori rangul 5 i de 2 ori rangul 7,5. Numrul de legturi ambiverte (Ay) va fi, prin urmare, ( ) ( ) , deoarece avem dou legturi cu 2 elemente i o singur legtur cu 3 elemente. Perechile de inversiuni n variabila chimie vor fi (2,5 1), (5 2,5), (5 2,5), (7,5 2,5), (7,5 5), (5 7,5), vorbind, astfel, de un numr de 6 inversiuni. Cu toate aceste elemente putem acum calcula suma S+, aplicnd formula de mai sus i obinem valoarea 11. ( ) ( ) Tabelul 1.9 Rearanjarea rangurilor n vederea calculului SNumr elev 7 1 2 8 3 6 7 Calificativ romn 1 NS 2S 2S 3B 3B 4 FB 4 FB Poziie 1 2 3 4 5 6 7 Rang romn 1 2,5 2,5 4,5 4,5 6,5 6,5 Calificativ chimie 2S 3B 1 NS 4 FB 3B 3B 2S Rang chimie 2,5 5 1 7,5 5 5 2,5 5 5E 8 8 4 FB 7,5 Calcului sumei S- se face n mod similar, singura diferen este c la ranguri egale ale primei variabile, elementele celei de-a doua variabile se ordoneaz descresctor, obinndu-se irul Y-, restul algoritmului rmnnd neschimbat. Fiind acelai numr de ranguri egale n cea de-a doua variabil, indicele legturilor ambiverte nu se schimb. Se modific doar numrul de inversiuni n acest caz, astfel (2,5 1), (5 1), (5 2,5), (7,5 5), (7,5 5), (7,5 2,5), (5 2,5), (5 2,5), rezultnd un numr de 8 inversiuni. nlocuind n formul, vom avea S- n valoare de 7. 33
- 33. Statistic aplicat n tiinele socio-umane ( ) ( ) Avnd valorile pentru S+ i S-, putem acum calcula suma lui Kendall Pentru a putea calcula Smax ,va trebui s aflm doar numrul de legturi ambiverte din prima variabil (Ax), n cazul nostru limba romn. Avem trei legturi de cte 2 elemente, 2,5 4,5 i 6,5. tim acum formula de calcul i putem afla uor aceast valoare. ( ) Nu ne rmne dect s completm formula de calcul i obinem valoarea 23,97. ( )( ) ( )( ) Coeficientul de corelaie Kendall, n acest caz ca raport al celor dou sume, devine . Se pare c v-ai obinuit cu mai puine calcule n lucrarea anterioar. Aceasta este situaia. n definitiv, am trecut la stabilirea relaiilor dintre variabile, nu mai lucrm cu una, ci cu dou variabile n acelai timp i este normal s se complice puin i calculele. Din fericire, avei ceva mai mult de adunat, sczut sau nmulit iar formulele v pot speria doar la prima vedere. n definitiv, algoritmii de calcul sunt destul de simpli. Singura problem este aceea c la un numr mare de subieci trebuie s fii extrem de ateni, altfel v putei ncurca uor. Bine c avem, ns, computerele care ne scot din impas. Imaginai-v doar cum lucrau cercettorii prin anii `30 ai secolului XX i vei putea nelege ce norocoi suntem noi acum. 34
- 34. Cristian Opariuc-Dan Acest coeficient de corelaie se poate utiliza n condiiile n care ambele variabile sunt ordinale sau o variabil este ordinal, iar cealalt este scalar. I.1.2.1 Semnificaia coeficientului Kendall Care este semnificaia coeficientului de corelaie Kendall? Deoarece acest coeficient se bazeaz practic pe numrarea perechilor diferite provenite din dou iruri ordonate de date, ea nu reprezint altceva dect o diferen dintre probabilitatea elementelor de a fi n aceeai ordine i probabilitatea elementelor de a fi ntr-o alt ordine (Kenny, 1987). Coeficientul Kendall este un coeficient direcional, avnd aceeai semnificaie interpretativ ca i coeficientul Spearman. n anexa 2 am furnizat tabelele de referin ale valorilor acestui coeficient pentru diferite praguri de semnificaie. Deoarece la valori mari ale numrului de subieci, distribuia Kendall se apropie de distribuia normal, este posibil, atunci cnd numrul de subieci este mai mare de 30, s se calculeze statistica z pentru coeficientul de corelaie Kendall, dup formula urmtoare: (formula 1.11) Dac am obine un coeficient de corelaie Kendall de 0,42 pe un numr de 34 de subieci, atunci statistica z a acestui coeficient devine 5,25, valoare puternic semnificativ ce indic legtura dintre cele dou variabile analizate. 35
- 35. Statistic aplicat n tiinele socio-umane Statistica z a coeficientului de corelaie Kendall se raporteaz la distribuia z, pe baza tabelelor de distribuie z prezentate n anexa 8. I.1.3 Coeficientul de contingen 2 (chi ptrat) Este greu de definit 2. A fost conceput de Pearson i putem afirma, fr s ne nelm prea tare, c statisticile neparametrice ncep i se termin cu 2, att de mare este importana acestui indicator utilizat n studii corelaionale i factoriale cu date nominale. Rolul su este esenial n analiza datelor nominale, coeficientul putnd fi folosit n stabilirea relaiilor dintre dou variabile dihotomice, ale unei variabile dihotomice cu una nominal, i ale celor n care intervin o variabil nominal i una ordinal, sau o variabil nominal i una scalar. Practic, atunci cnd avem de a face cu o variabil nominal, cel mai pertinent indicator este acest 2. 2 este un coeficient de asociere ntre dou variabile nominale. El msoar gradul de contingen al celor dou variabile, verificnd dac sunt sau nu sunt asociate n vreun fel. n realitate, acest coeficient pare mai degrab un test statistic dect un indicator al gradului de asociere. Spre exemplu, avem o cercetare n care dorim s stabilim n ce msur se asociaz genul biologic al unor subieci i calitatea de fumtor. Suntem n situaia unei variabile nominale i a unei variabile dihotomice. n acest caz vom utiliza aa-numitele tabele de contingen, pe baza crora vom calcula 2. Tabelul 1.10 Tabelul de contingen cu frecvenele estimate pentru 2 Calitate fumtor Da Nu 35 64 Brbai Brbai (27,87) (71,12) 99 Gen biologic 23 84 Femei Femei (30,12) (76,87) 107 Fumtori Nefumtori Total 58 148 206 36
- 36. Cristian Opariuc-Dan La aceast cercetare au participat un numr de 206 persoane, 99 brbai i 107 femei. Dintre acetia, 58 sunt fumtori, iar 148 nefumtori. Ipoteza nul de la care pleac 2 este aceea conform creia nu exist nicio asociere ntre aceste dou variabile. Cu alte cuvinte, frecvenele de apariie ale cazurilor nu sunt diferite de situaia n care toate cele patru variante ar avea o frecven de apariie teoretic (frecvena corespunztoare situaiei n care cele dou variabile ar fi independente). Datorit acestui fapt, atunci cnd lucrm cu 2, ne putem exprima n frecvene relative sau n frecvene absolute. Ideea testului 2 este aceea a comparrii acestor frecvene observate cu situaia n care celulele ar avea frecvenele teoretice estimate, prin frecvene teoretice estimate nelegnd frecvenele pentru cazul n care cele dou variabile ar fi independente. Dac diferenele ntre frecvenele observate i cele estimate (teoretice) sunt mari, atunci vorbim de un 2 semnificativ, fapt care indic existena unei asocieri ntre cele dou variabile. Dar cum se obine practic acest lucru? Primul pas este acela al calculrii frecvenelor estimate pentru fiecare dintre cele patru celule care ne intereseaz. Acest lucru se face foarte simplu pe baza formulei: (formula 1.12) Pentru prima coloan (brbai fumtori) vom avea o frecven estimat de . Pentru brbai nefumtori avem , pentru femeile fumtoare frecvena ateptat devine , iar pentru femeile nefumtoare vom avea . Odat stabilite frecvenele teoretice (estimate), urmeaz calcularea coeficientului 2. La acest nivel putem distinge dou situaii. n cazul n care cel puin una dintre cele dou variabile are mai mult de dou categorii (de exemplu o variabil de tipul ocupa37
- 37. Statistic aplicat n tiinele socio-umane iei cu variantele muncitor, maistru i inginer), se aplic formula general a coeficientului 2. (formula 1.13) Dac cele dou variabile au exact cte dou categorii fiecare, atunci se aplic o formul de corecie pentru continuitate. | | (formula 1.14) Noi ne aflm n cea de-a doua situaie, astfel nct vom aplica, pentru fiecare dintre cele patru celule, formula corectat i vom obine valoarea 4,2 pentru coeficientul de contingen 2. | | | | | | | | | | Ce facem acum cu acest coeficient obinut? Va trebui s-l verificm la un prag de semnificaie stabilit, pentru a vedea dac putem sau nu respinge ipoteza nul. Dar nainte de aceasta vom stabili gradele de libertate. tiu c nu avei o idee prea clar referitoare la acest concept. Avei rbdare, o vom discuta imediat. n cazul nostru, gradele de libertate se calculeaz nmulind numrul categoriilor fiecrei variabile din care se scade unu. Adic, df=(CatX-1)(CatY-1). Noi avem dou variabile cu dou categorii i rezult (21)(2-1)=1 grad de libertate. n acest moment avem toate informaiile pentru a stabili dac acest coeficient de contingen este sau nu este semnificativ. 38
- 38. Cristian Opariuc-Dan Coeficientul de contingen 2, dup cum ai putut constata, este simplu de neles i de calculat. De aceea, voi risca s abordez, n cele ce urmeaz, o perspectiv ceva mai matematizat asupra datelor neparametrice, deoarece un stil asemntor l putei ntlni n cele mai multe lucrri din acest domeniu. Tabelele de contingen (asociere) sunt intens folosite atunci cnd lucrm cu date discrete. n momentul n care reprezentm, folosind un asemenea tabel, doar dou variabile, vorbim de tabele de contingen bidimensionale, deoarece exist posibilitatea reprezentrii mai multor variabile n acelai tabel, caz n care ne vom referi la tabele de contingen multidimensionale. n tabelul 1.11 v-am furnizat reprezentarea general a unui tabel de contingen bidimensional. Putem observa c variabila X are un numr de i categorii (unde, spre exemplu, i poate fi 2, n cazul variabilei sex masculin i feminin, ori 4 n cazul culorii ochilor albastru, verde, negru, cprui), iar variabila Y are un numr de j categorii. Prin nsumarea datelor, la nivelul fiecrei categorii, obinem un nou tip de rubric, numit seciunea datelor marginale. Coloana Total X, respectiv linia Total Y se refer exact la acest tip de date. Tabelul 1.11 Reprezentarea general a unui tabel de contingen bidimensional Categorie 1 Categorie 2 Variabila X . . Categorie i Total Y Categorie 1 n11 e11 n21 e21 . . ni1 ei1 nY1 eY1 Variabila Y Categorie 2 Categorie j n12 n1j e12 e1j n22 n2j e22 e2j . . . . ni2 nij ei2 eij nY2 nYj eY2 eYj 39 Total X nX1 eX1 nX2 eX1 . . nXi eX1 n e
- 39. Statistic aplicat n tiinele socio-umane Numrul de cazuri din fiecare categorie l notm, aa cum tim deja, cu litera n, creia i se adaug indici artnd numrul liniei i numrul coloanei. Astfel, subiecii din categoria 1 pentru variabila X i categoria 1 pentru variabila Y, se noteaz cu n11 (spre exemplu, brbaii cu ochi albatri). Subiecii din categoria 2 pentru variabila X i din categoria 1 pentru variabila Y se noteaz cu n21 (de exemplu femeile cu ochi albatri) i aa mai departe. Generaliznd parial, vom spune c subiecii din categoria 1 pentru variabila X i din categoria j pentru variabila Y se noteaz n1j; similar, subiecii din categoria 1 pentru variabila Y i din categoria i pentru variabila X se noteaz ni1. nelegnd acest stil de notare, vom spune c numrul de subieci din categoria i n cazul variabilei X i din categoria j n cazul variabilei Y se poate nota nij. Rezultatele marginale urmeaz aceeai logic. Toi subiecii aflai n categoria 1 a variabilei X sunt reprezentai de nX1 (de exemplu, toi brbaii, indiferent de culoarea ochilor). Toi subiecii aflai n categoria 1 a variabilei Y sunt reprezentai de nY1 (de exemplu, toi subiecii cu ochi albatri, indiferent de sex). n general, toi subiecii din categoria i a unei variabile i din categoria j a celeilalte variabile sunt reprezentai de nij. Referindu-de strict la 2, putem raiona n acelai mod atunci cnd vorbim despre frecvenele estimate, notate n cazul nostru cu e. Nu vom detalia raionamentul, v lsm pe dumneavoastr s o facei. Cunoscnd toate aceste date, s revedem formula pentru 2, n condiii de maxim generalitate. V reamintim formula iniial, apoi vom proceda la deducerea noii formule. 40 (formula 1.15)
- 40. Cristian Opariuc-Dan Nu s-a schimbat nimic n logica aplicrii formulei. S-a schimbat doar notaia i modul n care s-au abstractizat conceptele. Formula 1.15 este valabil doar dac cel puin una dintre variabile are mai mult de dou categorii. Desigur, intuiesc ntrebarea care v vine n minte n acest moment. Probabil c v gndii la ce folosete complicarea lucrurilor. Nu era suficient o singur formul? Nu ajunge prezentarea modalitii efective de calcul? De ce avem nevoie de formule generalizate i alte asemenea lucruri care in mai mult de o abordare matematic? Rspunsul comport o serie de aspecte. n primul rnd, formule de acest tip, i altele, mult mai complexe, gsii n lucrri de specialitate, comunicri tiinifice i articole. Este bine s le putei nelege i s putei lucra cu ele. n al doilea rnd, cel mai probabil c n carier vei fi pus n situaia de a redacta un articol tiinific. Normele de acceptare i de publicare ale unor asemenea lucrri impun prezentarea formulelor generalizate, folosindu-se notaii universale. n al treilea rnd, v dezvoltai, pas cu pas, gndirea matematic i v familiarizai cu limbajul. Vrem nu vrem, statistica este totui o ramur a matematicii, iar noi nu putem face abstracie de acest lucru. I.1.3.1 Semnificaia coeficientului de contingen 2 Acest coeficient este unul nedirecional i dimensional; nu putem compara acest coeficient cu ali coeficieni de asociere. Aceast ultim situaie creeaz probleme n interpretare, probleme legate de magnitudinea asocierii dintre cele dou variabile. Dup stabilirea gradelor de libertate, comparm coeficientul obinut cu valoarea de referin a distribuiei 2 pentru numrul de grade de libertate gsit. Tabelul distribuiei 2 pentru diferite grade de libertate este prezentat n anexa 3. n cazul nostru, avem o valoare 2 de 4,2 la un numr de 1 grade de libertate. Parcurgnd prima linie, corespunztoare unui singur grad de libertate, 41
- 41. Statistic aplicat n tiinele socio-umane observm c acest coeficient este semnificativ la un prag de semnificaie mai mic de 0,05, deoarece valoarea este mai mare de 3,84146, valoarea de referin pentru acest prag. Coeficientul nu este semnificativ la un prag de semnificaie mai mic de 0,02 sau mai mic de 0,01, deoarece 4,2, pe care l-am obinut, este mai mic dect valoarea de referin pentru pragul de semnificaie 0,02 sau 0,01 (5,02389, respectiv 6,63490). Nu putem deocamdat spune care este intensitatea, magnitudinea acestei asocieri, din motivele expuse mai sus. Coeficientul de contingen 2 permite doar identificarea unei contingene ntre variabile. Nu putem fi siguri, ns, de intensitatea acesteia. Observm c acest coeficient este sensibil la mrimea lotului de cercetare. Dac lotul de cercetare este prea mic, 2 va fi supraestimat; dac lotul de cercetare este prea mare, 2 poate fi subestimat. Va fi necesar, aadar, gsirea unei soluii de standardizare, soluie prin care s evitm aceste supra sau subestimri i s gsim magnitudinea contingenei. Pentru a se elimina aceste dezavantaje, au fost calculai ali coeficieni derivai din 2, i anume coeficientul de asociere , coeficientul V Cramer, coeficientul de contingen (cc) i alii. I.1.4 Coeficientul de asociere (phi), coeficientul V Cramer i coeficientul de contingen (cc), derivai din 2 Coeficientul de asociere este un coeficient foarte simplu, derivat din i se calculeaz pentru dou variabile dihotomice, care nregistreaz, n special, prezena sau absena unei caracteristici. Dac ne intereseaz relaia dintre ochii albatri i prul blond, vom putea concepe dou variabile prin care s stocm prezena i absena ochilor albatri, respectiv prezena i absena prului blond. Evident, ambele variabile sunt la un nivel nominal de msur, i se bazeaz pe un tip special de distribuie discret, astfel nct coeficientul este un coeficient ce lucreaz cu frecvene absolute sau relative. 2 La modul general, tabelul de lucru se prezint sub forma unei structuri cu 4 celule. 42
- 42. Cristian Opariuc-Dan Tabelul 1.12 Schema general de calcul a coeficientului Variabila X Absen X Prezen X Absent X Prezent X Prezen Y Prezent Y Prezent Y Variabila Y Prezent X Absent X Absen Y Absent Y Absent Y n calculul acestui coeficient suntem interesai doar de cteva cazuri: cazul n care sunt prezente caracteristicile pentru ambele variabile (celula Prezent X i Prezent Y), cazul n care este prezent doar variabila X (suma celulelor Prezent X, Prezent Y i Prezent X, Absent Y) i cazul n care este prezent doar variabila Y (suma celulelor Prezent X, Prezent Y i Absent X, Prezent Y). Formula de calcul a acestui coeficient este: (formula 1.16) Aceast formul nu este, practic, altceva dect rdcina ptrat din raportul dintre 2 i numrul de cazuri. Putem spune c . S relum exemplul legturii dintre prezena prului blond i prezena ochilor albatri. Tabelul 1.13 Coeficientul pentru relaia dintre prul blond i ochii albatri Ochi albatri Da Nu Blond fr ochi Blond cu ochi Da albatri albatri (n=54) (n=80) Pr blond Fr blond cu Fr blond, fr Nu ochi albatri ochi albatri (n=33) (n=48) Total albatri (80+33) (n=113) 43 Total blonzi (80+54) (n=134)
- 43. Statistic aplicat n tiinele socio-umane Avem urmtoarele date: un numr de 80 de blonzi cu ochi albatri (PXY), un numr total de 134 de blonzi (PX) i un numr total de 113 persoane cu ochi albatri (PY). Sigur c posedm toate datele necesare pentru a calcula coeficientul . Putem nlocui n formul aceste frecvene absolute sau putem converti frecvenele absolute n proporii, pentru evitarea numerelor kilometrice. n definitiv, rezultatul va fi acelai. La cercetarea noastr au participat un numr de 80+54+33+48=215 persoane. Proporia blonzilor cu ochi albatri este PXY=80/215=0,37, proporia blonzilor PX=134/215=0,62 i proporia celor cu ochi albatri este de PY=113/215=0,52. Aceste date pot fi acum introduse n formul, obinndu-se valoarea 0,21 pentru coeficientul de corelaie . Acest coeficient de corelaie se folosete doar ntr-un singur caz, respectiv cel n care ambele variabile sunt dihotomice. n cazul n care una dintre variabile nu mai este dihotomic, acest coeficient devine nerelevant. Pearson, autorul acestui coeficient, a sesizat aceast dificultate n utilizarea lui; dac dimensiunea tabelului de contingen crete (dac una dintre variabile nu mai este dihotomic), amplitudinea acestui coeficient crete i ea (Liebetrau, 1983). Pentru a contracara acest efect, s-a propus o variant ajustat, numit ajustarea Sakoda, rezultnd coeficientul de contingen Pearson. Coeficientul de contingen Pearson reprezint o alt variant derivat din 2, de fapt fiind vorba despre coeficientul ajustat, i se calculeaz n baza formulei urmtoare: (formula 1.17) 44
- 44. Cristian Opariuc-Dan Nu intrm n detalii legate de acest coeficient, simplitatea lui excluznd orice fel de comentarii. Vom nlocui doar n formul datele utilizate n exemplul anterior. Coeficientul de contingen nu este altceva dect o form ajustat a coeficientului de asociere , putnd fi utilizat pentru orice tip de variabile neparametrice. Dac nu m credei, aplicai a doua formul a coeficientului de asociere , bazat pe valoarea lui 2, i vei obine acelai rezultat. Coeficientul de contingen Tschuprow se noteaz cu t (nu este acelai lucru cu testul de diferen semnificativ ntre mediile eantioanelor, Student t) i are, la baz, de aceast dat, coeficientul . A fost propus n anul 1919 de ctre matematicianul rus Alexander Alexandrovici Tschuprow, formula de calcul fiind: (formula 1.18) Acest coeficient ine seama doar de numrul de categorii din cadrul fiecrei variabile i de valoarea lui , fiind vorba, de fapt, de o ajustare a acestui coeficient, similar celei efectuate de Pearson. Dac relum exemplul relaiei dintre ochii albatri i prul blond, n care am obinut =0,21, observm c fiecare variabil are doar dou categorii. n acest caz, coeficientul de contingen Tschuprow devine: Desigur, am obinut valoarea iniial a coeficientului . n realitate, acest coeficient ajusteaz valoarea lui n condiiile n care cel puin una 45
- 45. Statistic aplicat n tiinele socio-umane dintre variabile prezint mai mult de dou categorii, fiind o versiune mai precis a coeficientului de contingen Pearson. Coeficientul de asociere v Cramer se folosete n cazul n care cel puin una dintre variabile are mai mult de dou modaliti de realizare i poate fi definit dup formula urmtoare: (formula 1.19) unde l reprezint minimum dintre numrul liniilor i numrul coloanelor, iar n numrul subiecilor. Dac o variabil are 3 categorii i una 2 categorii, atunci l va lua valoarea 2, valoarea variabilei cu cele mai puine categorii. Relund exemplul utilizat la analiza coeficientului ce contingen 2, am avut fumtorii i genul biologic, variabile cu dou categorii fiecare, deci l va avea valoarea 2. n acelai timp, numrul total a fost de 206 subieci pentru care am obinut valoarea 4,2 pentru 2. nlocuind n formul, obinem 0,14 valoarea coeficientului de asociere v Cramer. I.1.4.1 Semnificaia coeficienilor de asociere Aceti coeficieni de asociere au fost stabilii n ideea compensrii dezavantajelor coeficientului de contingen 2. Prin urmare, toate interpretrile legate de semnificaia acestora se bazeaz pe interpretarea coeficientului 2, de aceea nu vom intra n detalii. Practic, nti se interpreteaz semnificaia lui 2 la un prag de semnificaie stabilit i apoi intensitatea asocierii n baza unuia dintre coeficieni. 46
- 46. Cristian Opariuc-Dan Dac lum exemplul coeficientului de contingen, acesta are valoarea 0,14. Am artat deja c aceast valoare este semnificativ la un prag de semnificaie mai mic de 0,05 (2 avea valoarea 4,2; pragul de semnificaie la un numr de 1 grade de libertate fiind mai mic de 0,05). Din coeficientul de contingen putem deduce faptul c asocierea dintre cele dou variabile este slab (vom vedea imediat ce nseamn acest lucru), ns semnificativ. Iat c pe baza acestor coeficieni derivai, putem stabili acum i intensitatea contingenei. Toi coeficienii sunt nedirecionali. Aceasta nseamn c pot lua valori cuprinse ntre 0 i 1, unde apropierea de zero indic lipsa asocierii dintre variabile, iar valorile apropiate de 1 arat puterea asocierii acestora. O singur observaie se mai impune la acest capitol. M vei ntreba, desigur, cum stabilesc semnificaia pentru coeficientul , dac aplic direct prima formul de calcul, fr s mai ajung la 2? Nu ntmpltor am dat a doua formul. Dac tii puin matematic, vei descoperi c: Putem, practic, extrage valoarea lui 2, dac tim numrul de subieci i valoarea lui . n exemplul nostru, avea valoarea 0,21, cercetare realizat pe 215 persoane. Atunci . Fiind un singur grad de libertate, observm c aceast valoare este semnificativ, la un prag de semnificaie mai mic de 0,01. Putem spune c exist o asociere slab ntre prul blond i ochii albatri. Adic, n majoritatea cazurilor, persoanele cu pr blond au i ochii albatri, restul situaiilor fiind excepii. 47
- 47. Statistic aplicat n tiinele socio-umane I.1.5 Coeficientul de asociere (lambda) Goodman i Kruskal Coeficientul a fost stabilit de Goodman i Kruskal, prin anul 1980, alturi de un alt coeficient similar, coeficientul de asociere Goodman i Kruskal, pe care nu-l vom aborda n aceast lucrare, deoarece se refer aproximativ la acelai lucru. Se calculeaz n situaia asocierii unei variabile nominale cu o variabil dihotomic, cu o alt variabil nominal, cu o variabil ordinal sau cu o variabil scalar, n condiiile n care aceasta este grupat n clase. Practic, acest coeficient se refer la cantitatea de cunotine cuprins ntr-o variabil, ce poate acoperi informaiile din cealalt variabil. Sau, cu alte cuvinte, avnd o anumit cantitate de informaie n variabila X, ct din variabila Y putem prezice? Formula de calcul este urmtoarea: ( ( ) ) (formula 1.20) unde nMi este cea mai mare frecven de pe rndul i i Max(Cj) este frecvena cea mai mare dintre frecvenele coloanelor, iar n se refer la numrul subiecilor. tii ce m bucur acum cel mai tare? Faptul c nu v mai speriai de formule. Ai observat c ele devin din ce n ce mai stufoase i, totui, n realitate, aplicarea lor este foarte simpl. S lum un nou exemplu. Presupunem c am desfurat o cercetare n cadrul creia dorim s studiem asocierea ntre dou variabile: preferina pentru un partid politic (1 PSD; 2 PNL; 3 PDL; 4 PC i 5 PRM) i nivelul de stres al subiecilor pe o scal Likert de la 1 la 5 (1 Foarte slab; 2 Slab; 3 Mediu; 4 Ridicat; 5 Foarte ridicat). Suntem n situaia asocierii dintre o variabil nominal (preferina pentru partide) i o variabil ordinal (nivelul de stres). Vom construi tabelul de contingen pentru cele dou variabile. 48
- 48. Cristian Opariuc-Dan Structura tabelului este clar. Dintre cei care prefer PSD, 12 persoane au un nivel de stres foarte sczut, 9 un nivel de stres sczut, 7 un nivel de stres mediu, 4 ridicat i o persoan prezint nivelul stresului foarte ridicat. Situaia este analog n cazul celorlalte partide. Avem partidele afiate pe linii i nivelul de stres pe coloane. n primul rnd, va trebui s stabilim, pentru fiecare linie, celula cu frecvena cea mai mare. Pentru PSD, categoria cu frecvena cea mai mare este reprezentat de nivelul de stres foarte sczut (12 persoane). Pentru PNL ntlnim categoria cu nivelul de stres sczut (45 de persoane), pentru PDL nivelul de stres mediu (42 de persoane), pentru PC tot nivelul de stres mediu (10 persoane), iar pentru PRM nivelul de stres sczut (5 persoane). Tabelul 1.14 Tabelul de contingen pentru calculul coeficientului Nivelul de stres 1 2 3 4 Foarte Sczut Mediu Ridicat sczut 1 PSD 9 7 4 12 2 PNL 8 21 6 45 3 PDL 7 19 13 Partidul 42 4 PC 8 4 7 10 5 - PRM 1 1 3 5 36 81 33 Total coloane 82 5 Foarte ridicat 1 5 1 3 2 12 Efectum acum totalul pe coloane. n mod clar, categoria cu frecvena cea mai mare este cea a stresului sczut (82 de persoane), n timp ce numrul total de participani la studiu a fost de 244 de persoane. n acest moment, informaiile sunt suficiente pentru a putea completa formula. ( ) ( ) Am obinut acum valoarea 0,19 pentru acest coeficient, valoare pe care o vom analiza din punctul de vedere al semnificaiei. 49
- 49. Statistic aplicat n tiinele socio-umane I.1.5.1 Semnificaia coeficientului Coeficientul este un alt coeficient nedirecional. Aceasta nseamn c poate lua valori ntre 0 i 1, unde apropierile de zero ne arat c informaiile coninute ntr-o variabil nu pot prezice cealalt variabil, variabilele neavnd nimic n comun, iar apropierile de 1 sunt semnificative pentru gradul de predicie a evoluiei unei variabile, n baza informaiilor coninute n cealalt variabil. Analiza semnificaiei acestui coeficient se face n baza statisticilor z, iar valorile vor fi raportate la distribuia z. Prin urmare, va trebui s definim formula de calcul pentru statistica z a coeficientului i apoi s comparm aceast valoare cu valorile de referin z la diferite praguri de semnificaie. Pentru a v reaminti de semnificaia notelor z, parcurgei capitolul referitor la distribuia normal din lucrarea anterioar. Formula de transformare a coeficientului n statistica z este urmtoarea: (formula 1.21) unde ref nseamn valoarea de referin , iar s reprezint valoarea varianei acestui coeficient. Deoarece acest coeficient msoar ct dintr-o variabil se poate gsi ntr-o alt variabil, valoarea de referin se exprim sub form de proporii. Dac presupunem c nivelul de stres influeneaz preferinele pentru partidele politice, sau cu alte cuvinte putem prezice preferina pentru partide n baza analizei nivelului de stres, atunci plecm de la o baz, de la o referin, n care presupunem, de exemplu, c 10% din nivelul de stres poate prezice preferina pentru partide. Aceast valoare de referin este aleas n funcie de necesitile cercetrii. Soluia pesimist este aceea conform creia valoarea de referin se apropie de zero. Altfel spus, nu avem niciun motiv s presupunem c cele dou variabile sunt legate n vreun fel. n acest caz, vom alege 50
- 50. Cristian Opariuc-Dan valori mici de referin, de 10%, 5%, 3% sau 1%. Exprimat sub form de proporii, valori de 0,10, 0,05, 0,03 sau 0,01 pentru ref. Dac avem motive suficiente s credem c exist legturi ntre cele dou variabile, atunci putem aborda soluii optimiste, n sensul c vom considera o mare parte dintre informaiile unei variabile ca fiind dependente de informaiile din cealalt variabil. n acest sens, putem alege valori de 50%, 60%, 70% pentru ref. Nu exist o regul de atribuire n acest sens. Personal, v recomand s fii sceptici i s nu considerai valori mai mari de 0,10 0,15 pentru ref. Evident, cu ct valorile lui ref se apropie cu zero, cu att legtura trebuie s fie mai puternic pentru a fi semnificativ. n exemplul nostru, am plecat de la presupunerea c doar 10% din nivelul de stres poate determina preferine pentru un anumit partid politic. Valoarea pentru ref va fi, aadar, 0,10 i vom analiza dac la acest nivel putem vorbi despre o legtur semnificativ. Urmtorul aspect din formula 1.21 se refer la variana coeficientului . Aceast varian poate fi calculat n baza relaiei urmtoare: ( ( )( ( ( )) ) ) (formula 1.22) unde nMi este cea mai mare frecven de pe rndul i, Max(Cj) cea mai mare frecven dintre frecvenele calculate pe coloane i este suma tuturor frecvenelor maxime asociate coloanei cu frecvena cea mai mare, m reprezentnd numrul de rnduri. Aceasta este chiar complicat, nu-i aa? Oare cum o calculm? Poate v gndii s o nvai pe de rost pentru examene. Sau poate o memorai s impresionai prietenul ori prietena. Nu are rost. n condiii de examen, ar trebui s vi se dea formula, iar dumneavoastr s tii s o aplicai. Pentru prie51
- 51. Statistic aplicat n tiinele socio-umane ten ori prieten, cred c putei s impresionai i altfel. Dac vei scrie formula asta ntr-o scrisoare de amor, n mod sigur nu vei reui dect s ndeprtai partenerul. Haidei totui s vedem ce ne cere formula i dac e att de complicat calculul. Vom relua tabelul de contingen. Numrul total de persoane este 244. l avem, aadar, pe n. Suma celor mai mari frecvene de pe rnduri o tim deja. Este 114 i nu reprezint altceva dect valoarea . Cea mai mare frecven dintre frecvenele calculate pe coloane este situat n a doua coloan i are valoarea 82. Iat c avem i rezultatul pentru ( ). Tabelul 1.15 Tabelul de contingen pentru calculul coeficientului Nivelul de stres 1 2 3 4 Foarte Sczut Mediu Ridicat sczut 1 PSD 9 7 4 12 2 PNL 8 21 6 45 3 PDL 7 19 13 Partidul 42 4 PC 8 4 7 10 5 - PRM 1 1 3 5 36 81 33 Total coloane 82 5 Foarte ridicat 1 5 1 3 2 12 Ce trebuie s mai facem? Trebuie s calculm suma tuturor frecvenelor maxime asociate coloanei cu frecvena cea mai mare. Am stabilit deja care este aceasta. Este a doua coloan. Care sunt frecvenele maxime din aceast coloan? Pe primul rnd avem frecvena 9, pe al doilea rnd frecvena 45, pe al treilea rnd frecvena 19, pe al patrulea rnd frecvena 4 i pe al cincilea rnd frecvena 5. Care este frecvena cea mai mare? Evident, cea de pe al doilea rnd, frecvena 45. Mai vedei i alte cifre de 45 acolo? Nu. Ei bine, aceasta este i suma mult cutat. Dac aveai 45 pe rndul 2 i 45 pe rndul 4, atunci suma frecvenelor maxime ar fi fost 90 (45+45). n cazul nostru, avem o singur frecven maxim, 45, i aceea reprezint valoarea pentru . Relaxai-v. V-am spus c formulele mai mult sperie prin aspect 52
- 52. Cristian Opariuc-Dan dect prin modalitatea de calcul. Acum haidei s nlocuim i s gsim variana coeficientului . ( )( ( ( ) ) ( )) Am gsit variana coeficientului. Nu trebuie dect s calculm statistica z dup formula de mai sus i obinem scorul z de 1,5. Acest scor l vom compara cu valoarea de referin z pentru pragul de semnificaie ales. Pentru un prag de semnificaie de 0,05, valoarea z este de 1,96. Valoarea noastr (1,5) este mai mic dect valoarea prag. Prin urmare, nu exist nicio legtur ntre nivelul de stres i preferina pentru partide politice, n condiiile n care 10% dintr-o variabil ar explica cealalt variabil. Drept exerciiu, calculai valoarea z pentru situaia n care presupunem c 50% din preferina pentru partide politice este influenat de nivelul de stres. Este aceast legtur semnificativ sau nu? Argumentai. I.1.6 Coeficientul de asociere (gamma) Un alt coeficient de asociere este coeficientul de asociere Goodman Kruskal. La fel ca i coeficientul de corelaie a rangurilor Kendall, i acest coeficient se bazeaz pe numrul de inversiuni i proversiuni, adic pe numrul de perechi concordante i discordante. Coeficientul se calculeaz foarte simplu pe baza formulei: 53
- 53. Statistic aplicat n tiinele socio-umane (formula 1.23) n care Pc reprezint numrul perechilor concordante, iar Pd numrul perechilor discordante. Vom considera un exemplu, astfel nct s lmurim rapid bazele acestui coeficient. S presupunem c efectum un studiu n mai multe orae, pentru a vedea dac exist o legtur ntre nivelul intelectual al primarilor i mrimea oraelor. Cele dou variabile au fost operaionalizate astfel: oraele pot fi considerate orae mici, medii i mari n funcie de numrul de locuitori, iar nivelul intelectual al primarilor poate fi considerat superior sau inferior. Ambele variabile se afl la un nivel ordinal de msur i pot fi ierarhizate. Menionez faptul c toate datele din lucrri sunt date fictive i nu au nicio legtur cu fapte sau persoane reale. De aceea, nimeni nu are niciun motiv s se simt lezat n vreun fel. Exemplele au fost alese astfel nct s se refere la fapte sociale d