Curs 10 - Statistica

8
1 Cursul 10 – Analiza corelaŃiei dintre variabile Aşa cum am văzut la începutul acestui curs de statistică şi econometrie, variabilele economice pot fi de mai multe tipuri, una dintre clasificări împărŃindu-le în variabile cantitative (exprimate numeric) şi variabile calitative (care surprind anumite caracteristici ale unităŃilor statistice sau apartenenŃa acestora la o anumită categorie). La rândul lor, variabilele calitative pot fi nominale sau ordinale. Variabilele calitative nominale surprind caracteristici care nu implică existenŃa unei relaŃii de ordine între valori, în timp ce variabilele calitative ordinale presupun existenŃa unei ierarhii între valorile posibile. După cardinalul mulŃimii observaŃiilor, există variabile binare (alternative), când spaŃiul de observaŃii e compus din două valori (0/1, masculin/feminin, rural/urban), variabile cu un număr finit de valori numerice (aici se încadrează variabilele calitative şi cele cantitative discrete) şi variabile cantitative continue, când mulŃimea specifică a valorilor individuale este un interval de numere reale. În cele ce urmează vom analiza legăturile care pot avea loc între variabilele economice, oprindu-ne pentru început asupra corelaŃiei dintre două astfel de variabile, pe care le vom nota prin X şi Y. O serie de date care suprinde evoluŃia concomitentă a două variabile este numită serie bivariată, în cazul nostru seria bivariată fiind deci formată din variabilele X şi Y. În general, metodele de analiză a corelaŃiei ajută la evidenŃierea intensităŃii legăturii dintre cele două variabile, fiind mai puŃin utile pentru ilustrarea cauzalităŃii (pentru a arăta că X determină pe Y sau invers). Cauzalitatea (direcŃia legăturii) este deseori sugerată de teoria economică sau de succesiunea evenimentelor. De exemplu, volumul vânzărilor de bunuri şi servicii depinde de venitul pe locuitor al populaŃiei, productivitatea muncii depinde de înzestrarea tehnică, complexitatea contractelor depinde de expunerea părŃilor la comportamentul oportunist etc. Testarea şi măsurarea legăturilor de cauzalitate se realizează prin analiza de regresie, unul dintre principalele instrumente ale econometriei, dar pe care îl vom prezenta începând din cursul următor. Ceea ce trebuie reŃinut acum este faptul că existenŃa unei corelaŃii între două variabile aleatoare nu implică o relaŃie de cauzalitate între acestea. Începem prezentarea metodelor de analiză a dependenŃei cu testul χ 2 , util atunci când sunt analizate variabile calitative, nu neapărat ordinale, cu un număr redus de valori. Testul χ 2 (hi pătrat) Prezentarea testului χ 2 începe cu o trecere în revistă a distribuŃiei χ 2 , una dintre cele mai folosite distribuŃii în teoria probabilităŃilor şi statistica inferenŃială. Dacă X 1 , X 2 , ..., X k sunt k variabile aleatoare distribuite N(0,1) şi independente, atunci variabila Q=X 1 2 +X 2 2 +...+X k 2 urmează o lege χ 2 cu k grade de libertate. Spre deosebire de distribuŃia normală, care este caracterizată de doi parametri (media şi dispersia), distribuŃia hi pătrat are un singur parametru, un număr întreg pozitiv care specifică numărul gradelor de libertate (numărul variabilelor X i ). Densitatea de repartiŃie a distribuŃiei hi pătrat este dată de funcŃia f:R + [0,1] , unde . 0 , ) 2 / ( 2 1 ) ; ( 2 / ) 1 2 / ( 2 / > Γ = - - x e x k k x f x k k

description

statistica

Transcript of Curs 10 - Statistica

Page 1: Curs 10 - Statistica

1

Cursul 10 – Analiza corelaŃiei dintre variabile

Aşa cum am văzut la începutul acestui curs de statistică şi econometrie,

variabilele economice pot fi de mai multe tipuri, una dintre clasificări împărŃindu-le în variabile cantitative (exprimate numeric) şi variabile calitative (care surprind anumite caracteristici ale unităŃilor statistice sau apartenenŃa acestora la o anumită categorie). La rândul lor, variabilele calitative pot fi nominale sau ordinale. Variabilele calitative nominale surprind caracteristici care nu implică existenŃa unei relaŃii de ordine între valori, în timp ce variabilele calitative ordinale presupun existenŃa unei ierarhii între valorile posibile.

După cardinalul mulŃimii observaŃiilor, există variabile binare (alternative), când spaŃiul de observaŃii e compus din două valori (0/1, masculin/feminin, rural/urban), variabile cu un număr finit de valori numerice (aici se încadrează variabilele calitative şi cele cantitative discrete) şi variabile cantitative continue, când mulŃimea specifică a valorilor individuale este un interval de numere reale.

În cele ce urmează vom analiza legăturile care pot avea loc între variabilele economice, oprindu-ne pentru început asupra corelaŃiei dintre două astfel de variabile, pe care le vom nota prin X şi Y. O serie de date care suprinde evoluŃia concomitentă a două variabile este numită serie bivariată, în cazul nostru seria bivariată fiind deci formată din variabilele X şi Y. În general, metodele de analiză a corelaŃiei ajută la evidenŃierea intensităŃii legăturii dintre cele două variabile, fiind mai puŃin utile pentru ilustrarea cauzalităŃii (pentru a arăta că X determină pe Y sau invers). Cauzalitatea (direcŃia legăturii) este deseori sugerată de teoria economică sau de succesiunea evenimentelor. De exemplu, volumul vânzărilor de bunuri şi servicii depinde de venitul pe locuitor al populaŃiei, productivitatea muncii depinde de înzestrarea tehnică, complexitatea contractelor depinde de expunerea părŃilor la comportamentul oportunist etc. Testarea şi măsurarea legăturilor de cauzalitate se realizează prin analiza de regresie, unul dintre principalele instrumente ale econometriei, dar pe care îl vom prezenta începând din cursul următor. Ceea ce trebuie reŃinut acum este faptul că existenŃa unei corelaŃii între două variabile aleatoare nu implică o relaŃie de cauzalitate între acestea.

Începem prezentarea metodelor de analiză a dependenŃei cu testul χ2, util atunci când sunt analizate variabile calitative, nu neapărat ordinale, cu un număr redus de valori.

Testul χ2 (hi pătrat)

Prezentarea testului χ2 începe cu o trecere în revistă a distribuŃiei χ2, una dintre cele mai folosite distribuŃii în teoria probabilităŃilor şi statistica inferenŃială.

Dacă X1, X2, ..., Xk sunt k variabile aleatoare distribuite N(0,1) şi independente, atunci variabila Q=X1

2+X2

2+...+Xk

2 urmează o lege χ2 cu k grade de libertate. Spre deosebire de distribuŃia normală, care este caracterizată de doi parametri (media şi dispersia), distribuŃia hi pătrat are un singur parametru, un număr întreg pozitiv care specifică numărul gradelor de libertate (numărul variabilelor Xi). Densitatea de repartiŃie a distribuŃiei hi pătrat este dată de funcŃia f:R+→[0,1],

unde .0,)2/(2

1);( 2/)12/(

2/>

Γ=

−−xex

kkxf

xk

k

Page 2: Curs 10 - Statistica

2

Simbolul Г reprezintă funcŃia gama, definită astfel: ∫∞

−−=Γ

0

1 .)( dtetztz

Graficul densităŃii de repartiŃie a distribuŃiei χ2 arată că, pentru k=1 sau 2,

densitatea de probabilitate este o funcŃie descrescătoare. Pentru k≥3, graficul are forma unui clopot mai mult sau mai puŃin simetric în funcŃie de mărimea lui k. Chiar dacă nu este reprezentat în figura de mai sus, menŃionăm că pentru valori mari ale lui k, peste 25, graficul densităŃii de repartiŃie se apropie de cel al distribuŃiei normale. Caracteristicile legii χ2: Dacă Q~χ2

k, atunci E(Q)=k şi V(Q)=2k. Pentru distribuŃia χ2 au fost construite tabele care, în funcŃie de valoarea lui k şi a unei constante χα

2, arată probabilitatea ca variabila X, distribuită χk2, să fie mai mare decât

χα2. Practic, alegând valoarea χα

2 şi cunoscând numărul gradelor de libertate k, tabelul distribuŃiei χ2 indică P(X> χα

2).

Testul χ2, dezvoltat de Karl Pearson, este folosit pentru identificarea dependenŃei dintre două variabile calitative. Pentru uşurinŃa expunerii, vom evidenŃia folosirea acestui test prin intermediul unui exemplu numeric, urmat apoi de un exerciŃiu. Trebuie să subliniem aici un aspect de ordin practic. Testul χ2 dă rezultate de încredere dacă numărul observaŃiilor este relativ mare. De aceea, testul χ2 nu este recomandat a se aplica în cazul în care tabelul observat conŃine, în oricare dintre celulele sale, mai puŃin de 5 observaŃii.

Exemplu: Într-o anumită regiune se află în jur de un milion de persoane cu drept de vot. Pentru a studia legătura dintre participarea la vot şi sexul indivizilor, presupunem că am extras un eşantion aleator de 10.000 de persoane cu drept de vot, pe care le-am întrebat dacă au votat la ultimele alegeri. Rezultatele obŃinute sunt prezentate în tabelul de frecvenŃe alăturat, care se mai numeşte şi tabelul observat (O).

BărbaŃi Femei Total Au votat 2.792 3.591 6.383

N-au votat 1.486 2.131 3.617 Total 4.278 5.722 10.000

Page 3: Curs 10 - Statistica

3

Pe baza acestui tabel se remarcă faptul că 42,78% din indivizii din eşantion sunt bărbaŃi iar 57,22% sunt femei. Apoi, tabelul observat arată că 63,83% din indivizii chestionaŃi au votat la ultimele alegeri, în timp ce 36,17% nu au participat la vot. Testul χ2 se aplică pentru variabilele calitative nominale (care nu implică existenŃa unei relaŃii de ordine între diversele categorii). Ideea de bază a acestui test este aceea că, pentru două evenimente independente A şi B, P(A∩B)=P(A)*P(B).

Astfel, dacă sexul şi prezenŃa la vot sunt variabile independente, atunci, folosind procentajele de mai sus, putem calcula valorile aşteptate pentru fiecare din cele 4 categorii de indivizi cu drept de vot (bărbaŃi care au votat, bărbaŃi care n-au votat, femei care au votat, femei care n-au votat). Practic, pe baza acestor procentaje putem calcula tabelul de mai jos, care se mai numeşte şi tabelul aşteptat (E).

BărbaŃi Femei Total

Au votat 2.731 3.652 6.383 N-au votat 1.547 2.070 3.617

Total 4.278 5.722 10.000

Tabelul aşteptat conŃine frecvenŃele absolute ce s-ar obŃine în cazul în care sexul indivizilor ar fi independent de participarea acestora la vot. Tabelul aşteptat este însă diferit de tabelul observat în practică. Dacă cele două tabele sunt diferite în mod semnificativ, atunci vom spune că, în practică, sexul şi prezenŃa la urne sunt variabile corelate, dependente. Dacă însă cele două tabele nu diferă în mod semnificativ, atunci vom spune că sexul şi prezenŃa la urne sunt variabile independente.

DiferenŃa dintre cele două tabele este calculată ca sumă a patru componente, fiecare dintre acestea cuantificând diferenŃa dintre celulele corespunzătoare. cij=(Oij-

Eij)2/Eij, i=1,2, j=1,2, iar Oij reprezintă valoarea observată, în timp ce Eij reprezintă

valoarea aşteptată. Astfel,

c11=(2.792-2.731)2/2.731=1,3625, c12=(3.591-3.652)2/3.652=1,0189,

c21=(1.486-1.547)2/1.547=2,4053, c22=(2.131-2.070)2/2.070=1,7976, iar χ2

=c11+c12+c21+c22=6,5843.

Acest indicator (statistică) χ2 este apoi comparat cu valoarea tabelată pentru distribuŃia hi pătrat cu k grade de libertate, unde k=(numărul rândurilor-1)*(numărul

coloanelor-1). În cazul nostru, k=(2-1)*(2-1)=1, şi folosim tabelul de la pagina 569 din Andrei, Stancu şi Pele. Pentru k=1, valoarea 5,024 corespunde unei probabilităŃi de 2,5%, iar valoarea 6,635 corespunde unei probabilităŃi de 1%. Întrucât valoarea calculată anterior, χ2

=6,5843, este situată între aceste două valori tabelate, spunem că probabilitatea cu care cele două variabile (sexul individului şi prezenŃa la urne) sunt independente este situată între 1% şi 2,5%. Înseamnă că, cu o probabilitate ridicată, situată între 97,5% şi 99%, putem afirma că, în regiunea studiată, prezenŃa la urne şi sexul individului sunt corelate. Mai mult, întrucât sexul respondentului este o caracteristică exogenă, fixată pentru individ, putem intui direcŃia cauzalităŃii: prezenŃa la

Page 4: Curs 10 - Statistica

4

urne depinde de sexul persoanei cu drept de vot, şi nu invers (datele de mai sus indică faptul că bărbaŃii au fost prezenŃi la vot într-o măsură mai mare decât femeile). ExerciŃiu: Se cunosc următoarele date cu privire la incidenŃa a trei tipuri de malarie (A, B şi C) în trei regiuni tropicale (Asia, Africa, America de Sud):

Asia Africa America de Sud Total Malaria de tip A 31 14 45 90 Malaria de tip B 2 5 53 60 Malaria de tip C 53 45 2 100

Total 86 64 100 250

Folosind testul χ2, apreciaŃi dacă există o legătură între tipul de malarie şi zona geografică, ignorând faptul că tabelul conŃine celule cu mai puŃin de 5 observaŃii. Rezolvare: Trebuie să construim tabelul aşteptat, dar pentru aceasta avem nevoie de probabilităŃile asociate fiecărei categorii (tipuri de malarie şi zonă geografică).

Din tabelul de mai sus, observăm că 34,4% (86/250*100) din cazuri au loc în Asia, 25,6% au loc în Africa, iar 40% au loc în America de Sud. Apoi, observăm că 36% (90/250*100) dintre cazuri sunt de malarie de tipul A, 24% sunt malarie de tipul B, iar 40% sunt de tipul C. Presupunând că tipul de malarie este independent de zona geografică, tabelul aşteptat se determină prin înmulŃirea procentelor corespunzătoare de mai sus şi a numărului total de cazuri observate (250). De exemplu, numărul aşteptat de cazuri de malarie de tipul A în Asia este 0,344*0,36*250=30,96. Apoi, numărul aşteptat de cazuri de malarie de tipul A în Africa este 0,256*0,36*250=23,04. Urmând acest raŃionament, tabelul aşteptat este:

Asia Africa America de Sud Total Malaria de tip A 30,96 23,04 36 90 Malaria de tip B 20,64 15,36 24 60 Malaria de tip C 34,40 25,60 40 100

Total 86 64 100 250

Se calculează apoi valorile cij=(Oij-Eij)2/Eij, unde Oij reprezintă valoarea observată

iar Eij valoarea aşteptată. c11=(31-30,96)2/30,96=0,00005 c12=(14-23,04)2/23,04=3,546 ... c33=(2-40)2/40=36,1

Statistica χ2 se calculează ca sumă a valorilor cij şi reprezintă o măsură a diferenŃei dintre tabelul observat şi cel aşteptat. În cazul nostru, χ2

=c11+c12+...+c33=125,52. Această valoare este apoi comparată cu valorile tabelate pentru distribuŃia χ2 cu k grade de libertate, unde k=(3-1)*(3-1)=4.

Page 5: Curs 10 - Statistica

5

Din tabelul distribuŃiei χ2 se observă că valoarea corespunzătoare lui k=4 şi unei probabilităŃi de 0,1% este 18,465, valoare mult mai mică decât 125,52. De aceea, cu o probabilitate de cel puŃin 99,9%, putem spune că datele indică existenŃa unei relaŃii de dependenŃă între tipurile de malarie şi zona geografică.

Metoda tabelului frecvenŃelor (a tabelului de corelaŃie sau de contingenŃă) Tabelul de contingenŃă este un tabel cu dublă intrare, care prezintă frecvenŃele

absolute ale unităŃilor statistice date fiind grupările realizate pe baza a două caracteristici X şi Y. Un tabel de corelaŃie are forma următoare:

Grupe după X Grupe după Y

1

2

...

k

fy

1 n11 n12 ... n1k n1.

2 n21 n22 ... n2k n2.

... nij

m nm1 nm2 ... nmk nm.

fx n.1 n.2 ... n.k n..

unde - variabila X poate lua k valori distincte (sau este grupată în k intervale) ordonate

crescător; - variabila Y poate lua m valori (sau este grupată în m intervale) ordonate crescător; - fx şi fy reprezintă frecvenŃele condiŃionate.

Metoda tabelului de corelaŃie poate fi folosită pentru două variabile cantitative discrete, două variabile cantitative continue, care au fost grupate într-un număr relativ redus de categorii, sau două variabile calitative ordinale. Întrucât este necesară ordonarea valorilor variabilelor X şi Y, această metodă nu poate fi aplicată pentru variabilele calitative ordinale.

Un tabel ca cel de mai sus poate indica sensul legăturii dintre variabilele X şi Y dar, într-o oarecare măsură, şi intensitatea acesteia. DirecŃia corelaŃiei dintre cele două variabile este apreciată în funcŃie de modul de distribuire a frecvenŃelor nij din tabel faŃă de diagonala principală, iar intensitatea legăturii poate fi apreciată în funcŃie de valorile acestor frecvenŃe absolute. Astfel, repartizarea frecvenŃelor în apropierea diagonalei principale indică o legătură directă între variabilele X şi Y, o repartizare în jurul diagonalei secundare indică o legătură inversă între cele două variabile, în timp ce repartizarea relativ uniformă a frecvenŃelor în tabel indică lipsa unei corelaŃii între variabila X şi Y.

Exemplu: Vezi punctul 1.5 din modelul de proiect din Statistică, autori E. Lilea, M. Vătui, D. Boldeanu şi Z. Goschin, carte disponibilă online în biblioteca digitală a ASE-ului, secŃiunea FinanŃe.

Page 6: Curs 10 - Statistica

6

(a)

Metoda grafică Această metodă se aplică pentru acelaşi gen de variabile ca şi metoda tabelului

frecvenŃelor, respectiv pentru variabile calitative ordinale sau pentru variabile cantitative, care nu trebuie însă a fi neapărat grupate.

Dat fiind că luăm în considerare două serii de date, X şi Y, graficul se construieşte pornind de la valorile (xi, yi), care se reprezintă în sistemul de axe rectangulare. Graficul rezultat poartă numele de corelogramă sau grafic al norului de puncte. Exemplele de grafice de mai jos sunt construite pentru valori pozitive ale lui X şi Y.

În graficul (a) din dreapta punctele

sunt dispersate la întâmplare, fapt pentru care se mai poate considera că aceste puncte sunt împrăştiate în jurul unei drepte paralele cu axa OX. Acest grafic arată că între cele două variabile nu există o legătură semnificativă.

Dacă însă punctele se concentrează în jurul unei anumite linii care nu este paralelă cu axa OX, acest fapt indică existenŃa unei corelaŃii între cele două variabile. Mai precis, concentrarea norului de puncte în jurul unei drepte cu pantă pozitivă, aşa cum este cazul graficului (b) de mai jos, indică existenŃa unei legături directe între variabilele X şi Y, în timp ce concentrarea în jurul unei drepte cu pantă negativă, aşa cum se întamplă în graficul (c), indică existenŃa unei legături inverse.

(b) (c)

Page 7: Curs 10 - Statistica

7

Exemplu: Graficul alăturat arată legătura dintre timpul care se scurge între două erupŃii şi durata erupŃiilor gheizerului Old Faithful (situat în Parcul NaŃional Yellowstone din statul Wyoming, SUA). Observăm că norul de puncte este plasat în jurul primei bisectoare, ceea ce indică existenŃa unei legături directe între cele două variabile (durata erupŃiilor şi intervalul la care acestea au loc). În plus, gruparea punctelor în două noruri relativ separate sugerează că erupŃiile ar putea fi de două feluri: erupŃii frecvente şi de scurtă durată şi erupŃii rare, dar de lungă durată. Graficul nu poate fi însă folosit în a indica direcŃia de cauzalitate a legăturii, şi anume dacă durata unei erupŃii (intensitatea sa) determină timpul până la următoarea erupŃie (e posibil să fie aşa) sau invers, timpul scurs între două erupŃii determină durata acesteia.

CovarianŃa

CovarianŃa este un indicator al dependenŃei liniare dintre două variabile cantitative, numerice. Pentru două caracteristici X şi Y, formula de calcul a covarianŃei,

deseori notată şi prin cov(x,y), este ∑=

−−=

n

i

iixy yyxxn

s1

),)((1

care se mai poate scrie

∑=

⋅−=

n

i

iixy yxyxn

s1

.1

În cazul în care seria de valori pentru cele două caracteristici este

dată sub forma unui tabel de contingenŃă (xi, yj, nij), i,j=1, 2, ..., n, atunci relaŃia de calcul

a covarianŃei devine ∑ −−=

ji

ijii nyyxxn

yx,

.))((1

),cov(

Definirea covarianŃei are la bază încadrarea celor n observaŃii, a celor n puncte (xi,yj) din cadrul unei serii bidimensionale, într-unul din cele patru cadrane definite de mediile celor două variabile. Pentru simplitatea expunerii, graficul alăturat ia în considerare două variabile ce pot lua doar valori pozitive.

Punctele din cadranele I şi III scot în evidenŃă o legătură directă între cele două caracteristici, în timp ce punctele situate în cadranele II şi IV evidenŃiază o dependenŃă inversă. Prin urmare, dacă majoritatea punctelor sunt dispuse în jurul primei bisectoare (în cadranele I şi III), atunci covarianŃa

I II

III IV

Page 8: Curs 10 - Statistica

8

va fi un număr pozitiv, ce va indica existenŃa unei dependenŃe liniare directe, iar dacă punctele sunt încadrate cu preponderenŃă în cadranele II şi IV, valoarea calculată a covarianŃei va fi negativă, indicând existenŃa unei legături inverse. Dacă punctele sunt distribuite neregulat în cele patru cadrane, atunci valoarea apropiată de zero a covarianŃei va indica faptul că cele două variabile sunt independente.

ProprietăŃi ale covarianŃei: • Acest indicator nu poate fi utilizat direct pentru aprecierea intensităŃii dependenŃei

dintre caracteristici întrucât nu este un indicator normalizat, depinzând de unitatea de măsură a acestora.

• CovarianŃa este o măsură simetrică: cov(x,y)=cov(y,x). • CovarianŃa a două variabile independente este egală cu zero. • CovarianŃa unei variabile numerice cu o constantă este egală cu zero. • CovarianŃa unei variabile numerice cu ea însăşi este varianŃa (dispersia) acelei

variabile: .))((1

),cov(1

22 ∑=

=−−==

n

i

xiix xxxxn

sxx σ

Dată fiind formula de calcul a covarianŃei, este evident că aceasta se calculează

pentru o serie bidimensională (formată din două variabile numerice). Pentru o serie multidimensională, care

cuprinde p>2 variabile, se poate construi matricea varianŃelor şi covarianŃelor, notată V. Pe diagonala principală, această matrice pătratică de mărime pXp va conŃine varianŃa (dispersia) fiecărei dintre cele p variabile, în timp ce deasupra diagonalei principale apar înscrise covarianŃele fiecărei perechi posibile pentru cele p variabile. Întrucât sxy=syx, valorile de deasupra diagonalei principale apar înscrise şi sub această diagonală.

=

21

323

22322

1131221

.

..

..

..

..

p

pp

p

p

p

s

s

ss

sss

ssss

V