curs 9

15
CURS STATISTICĂ - Unitatea de învăţare nr. 8 LEGĂTURI STATISTICE DINTRE VARIABILE Cuprins: 1. Noţiuni introductive privind legăturile statistice dintre variabile. 2. Tipuri de legături statistice 3. Metode simple de stabilire a existenţei şi a formei de legătură dintre fenomenele şi procesele economico-sociale 4. Metode neparametrice de măsurare a legăturilor dintre fenomene 5. Teme de control. 6. Rezumatul unităţii de învăţare. 7. Bibliografia unităţii de învăţare. 1. Noţiuni introductive privind legăturile statistice dintre variabile Teoria economică actuală, cu ajutorul căreia caracterizăm şi analizăm funcţionarea legăturilor mecanismului economic, pune în evidenţă multiplele interdependenţe care se manifestă în activitatea economică. Fundamentarea deciziilor de politică economică şi socială trebuie să ţină seama de astfel de dependenţe în egală măsură ca fundamentarea deciziilor la nivelul agentului economic. De aceea, selectarea dependenţelor 1

description

curs 9

Transcript of curs 9

Page 1: curs 9

CURS STATISTICĂ - Unitatea de învăţare nr. 8

LEGĂTURI STATISTICE DINTRE VARIABILE

Cuprins:

1. Noţiuni introductive privind legăturile statistice dintre variabile.

2. Tipuri de legături statistice

3. Metode simple de stabilire a existenţei şi a formei de legătură dintre fenomenele şi

procesele economico-sociale

4. Metode neparametrice de măsurare a legăturilor dintre fenomene

5. Teme de control.

6. Rezumatul unităţii de învăţare.

7. Bibliografia unităţii de învăţare.

1. Noţiuni introductive privind legăturile statistice dintre variabile

Teoria economică actuală, cu ajutorul căreia caracterizăm şi analizăm funcţionarea

legăturilor mecanismului economic, pune în evidenţă multiplele interdependenţe care se

manifestă în activitatea economică. Fundamentarea deciziilor de politică economică şi socială

trebuie să ţină seama de astfel de dependenţe în egală măsură ca fundamentarea deciziilor la

nivelul agentului economic. De aceea, selectarea dependenţelor care au caracter de stabilitate

şi măsurarea acestora a constituit o preocupare prioritară a teoriei şi cercetării economice.

Asupra fenomenelor social-economice acţionează o multitudine de factori, principali şi

secundari, esenţiali şi neesenţiali, cuantificabili şi necuantificabili sau cuantificabili cu

aproximaţie, care se găsesc într-o relaţie de interdependenţă reciprocă.

2. Tipuri de legături statistice

Legăturile ce se pot forma sunt legături stohastice, în care un fenomen este factor de

influenta, iar celălalt este efect. Statistica, printr-o gamă largă de procedee şi metode

1

Page 2: curs 9

specifice, poate studia manifestarea concretă a acestor legături, le poate exprima cantitativ şi

măsura intensitatea cu care se produc. Legătura (dependenţa) statistică se caracterizează prin

faptul că, la modificarea unui factor de influenţă, factorul influenţat răspunde cu o distribuţie

de valori.

Legăturile statistice se pot clasifica astfel:

1) După natura relaţiei de cauzalitate distingem:

a) legături funcţionale. Acestea se manifestă între două fenomene în care unul este cauza iar

celălalt efectul. Se întâlnesc în natură, tehnică etc. Dacă se notează fenomenul cauză cu “x” şi

fenomenul efect cu “y” atunci relaţia matematică este: y = f(x)

b) legături statistice (stohastice) apar atunci când fenomenul efect este rezultatul combinării

influenţei mai multor cauze, care pot acţiona în condiţii egale sau diferite. Relaţia matematică

este: y = f(x1,x2,………..,xn), unde: x1, x2, ..., xn – sunt valorile fenomenelor cauză care au fost

înregistrate; y = valorile fenomenului efect.

☺Exemplu

O legatura stohastica este legătura dintre capacitatea de cazare (x i) şi valoarea încasărilor din

activitatea hotelieră (yi). Între cele două caracteristici există o legătură statistică pentru că

asupra încasărilor acţionează şi alte cauze: tarifele practicate, gradul de confort etc.

2) După numărul de caracteristici incluse în modelul de corelaţie distingem:

a) legături simple. Acestea au la bază două caracteristici: una factorială, iar cealaltă

rezultativă (celelalte caracteristici factoriale chiar dacă sunt înregistrate se consideră cu

acţiune constantă).

☺Exemplu

Un exemplu de legătura simpla este cea dintre suprafaţa comercială şi valoarea vânzărilor.

b) legături multiple. Acestea au în vedere dependenţa unei caracteristici rezultative în funcţie

de mai mulţi factori înregistraţi sau dependenţa mai mulor variabile rezultative (y1, y2, ….. ,

yn) de o variabilă factorială (xi). Ecuaţiile de estimare sunt: y = f(x1, x2, x3,...,xn) şi y1, y2,...,

yi,...yn = f(xi).

☺Exemplu

Un exemplu de legătura multiplă este cea dintre valoarea încasărilor ce depinde de zona de

amplasare (x1), de categoria de confort (x2), de baza materială (x3) etc.

2

Page 3: curs 9

3) După direcţia legăturii distingem:

a) legături directe (pozitive): există atunci când, pe măsură ce se modifică nivelul de

dezvoltare al caracteristicii factoriale, se modifică în acelaşi sens şi nivelul caracteristicii

rezultative.

b) legături inverse (negative): au în vedere modificări în sens contrar nivelului de dezvoltare

(o variabilă creşte iar cealaltă scade).

4) După forma de exprimare a variabilelor corelate distingem:

a) legături de asociere. Acestea exprimă relaţia dintre două sau mai multe caracteristici

exprimate calitativ (prin cuvinte) sau într-o caracteristică calitativă şi una cantitativă

(exprimată numeric).

b) legături de corelaţie. Exprimă relaţia de interdependenţă dintre două sau mai multe

caracteristici statistice exprimate numeric.

5) După forma de realizare a legăturii distingem:

a) legăturile liniare exprimate printr-o funcţie liniară, de gradul intai;

b) legăturile neliniare exprimate printr-o curbă (exponenţială, parabolă, hiperbolă etc.);

6) După timpul în care se realizează:

a) legături sincrone: au loc în acelaşi timp şi se pot urmări în dinamică pentru

aceeaşi perioadă.

☺Exemplu

O astfel de legatura este legătura dintre dinamica desfacerilor de mărfuri şi dinamica

câştigului mediu salarial.

b) legături asincrone: influenţa caracteristicilor factoriale asupra variaţiei caracteristicii

rezultative apare după trecerea unei perioade de timp. Forma de realizare a legăturii

corespunde funcţiei matematice de regresie (de estimare) care se alege pe baza graficului de

corelaţie (corelogramei).

3. Metode simple de stabilire a existenţei şi a formei de legătură dintre fenomenele şi procesele economico-sociale

Pentru a caracteriza legătura dintre fenomene, se pot folosi mai multe procedee ce se

încadrează în categoria metodelor simple de caracterizare a legăturilor. Aceste metode sunt

uşor de aplicat şi se bazează pe analiza calitativă a variabilelor corelate, oferind informaţii

asupra naturii şi trăsăturilor esenţiale ale legăturii cercetate.

3

Page 4: curs 9

Metodele simple de caracterizare a legaturilor stohastice sunt urmatoarele:

1) Metoda seriilor paralele interdependente are la bază serii paralele de date, obţinute prin

operaţia de centralizare la nivelul unităţilor simple sau complexe, fără a fi grupate. Se pot

folosi serii: de timp, de spaţiu şi atributive. Această metodă ne oferă posibilitatea de a stabili

existenţa legăturii şi direcţia de realizare a acesteia, prin analiza valorilor perechii x, y.

Această metodă este mai puţin sugestivă în cazul seriilor formate dintr-un număr foarte mare

de termeni şi implică într-o măsură importantă subiectivismul cercetătorului.

2) Metoda grupărilor este o metodă de sistematizare a datelor pe baza căreia se pot cerceta

legăturile (conexiunile) statistice. Se poate folosi gruparea simplă sau gruparea combinată.

☺Exemplu

Despre 22 de salariaţi ce activează în ramura comerţului se cunosc datele:

Gruparea salariaţilor după vechime Număr salariaţi Valoarea încasărilor

(mil lei)

< 5 2 805 - 10 5 8310 - 15 7 8515 - 20 5 87

> 20 3 89Gruparea simplă presupune gruparea unităţilor statistice după o caracteristică

principală de grupare şi calculul şi interpretarea mediilor parţiale sau a mărimilor relative

parţiale pentru caracteristica rezultativă. Gruparea combinată se bazează pe împărţirea

unităţilor statistice în grupe concomitente după variaţia a două caracteristici de grupare (x,y),

iar rezultatele grupării se prezintă într-un tabelul combinat cu dublă intrare (vezi capitolul II).

Metoda grupării trebuie utilizată doar în cazul unui număr mare de observaţii statistice, când

aplicarea metodelor analitice de calcul nu se poate face fără o grupare prealabilă a datelor

înregistrate.

3) Metoda tabelului de corelaţie presupune utilizarea unui tabel combinat cu dublă

intrare care ne sugerează existenţa legăturii, direcţia de realizare a ei şi unele aprecieri

empirice privind intensitatea legăturii prin analiza modului în care frecvenţele comune (n ij) se

distribuie în rubricile interioare ale tabelului. Dacă frecvenţele nij tind a se concentra către cele

două diagonale trasate în tabelul următor, legătura între xi şi yj va fi intensă. În schimb, dacă

se împrăştie la întâmplare în reţeaua tabelului, legătura este slabă sau poate lipsi. În

concluzie, procedeul tabelului de corelaţie este o combinare a metodei grupării cu

principiile de construire şi interpretare a unei reprezentări grafice.

4

Page 5: curs 9

xi \ yj y1, y2, ……...…. yj ………..……. yp Total

xr

xr-1

:

xi

:

x2

x1

nij

nr·

nr-1·

:

ni·

:

n2·

n1·

Total n·1, n·2, ……...…. n·j ………..……. n·p

4) Metoda grafică. Graficul de corelaţie se mai numeşte corelogramă. Pentru

construcţia acestuia se utilizează sistemul de axe rectangulare, unde pe axa OX se înscriu

valorile caracteristicii principale de grupare (x), iar pe axa OY valorile caracteristicii

secundare de grupare (y). Intersecţia abscisei cu ordonata se concretizează printr-un număr de

puncte ce se dispun sub formă de nor, numărul punctelor fiind egal cu numărul de unităţi

statistice luate în calcul. După modul de distribuire a punctelor în reţeaua graficului, printre

acestea se trasează vizual o dreaptă sau o curbă ale cărei ecuaţii se cunosc. În cazul în care

curba sau dreapta se trasează pe prima diagonală, legătura este directă, dacă se trasează pe cea

de a doua diagonală, legătura este inversă. Metoda grafică se utilizează ca metodă empirică

pentru alegerea funcţiei matematice ce se analizează în cazul regresiei şi corelaţiei statistice.

4. Metode neparametrice de măsurare a legaturilor dintre fenomenele

economico-sociale

Aceste metode, pe lângă faptul că pot stabili intensitatea legăturii făcând abstracţie de

tipul de distribuţie, permit măsurarea intensităţii legăturii nu numai pentru caracteristicile

cantitative, dar şi pentru cele calitative. Poartă denumirea de metode neparametrice deoarece

nu iau în calcul întotdeauna valorile variabilelor corelate şi nici parametrii lor corespunzatori.

În concluzie, se folosesc în următoarele situaţii: când distribuţia variabilelor corelate nu e

normală sau asimptotic normală; când nu este cunoscută forma de distribuţie a variabilelor;

când variabilele corelate sunt asimetrice, deci prezintă asimetrie pronunţată sicând avem de-a

face cu variabile calitative şi cantitative care în prealabil necesită o anumită cuantificare.

Metodele neparametrice uzuale sunt:

5

Page 6: curs 9

1) Coeficientul de asociere a lui Yule presupune întocmirea tabelului de asociere, care

este un tabel combinat cu dublă intrare utilizat pentru variabilele de tip alternativ (DA/NU;

F/M; etc.). Tabelulul de asociere este format din două rânduri şi două coloane:

n11 n12

n21 n22

în care în capătul rândurilor se trec valorile celor două caracteristici asociate, iar în interiorul

tabelulului se trec frecvenţele corespunzătoare lor.

Exemplu: Dacă avem în vedere două variabile statistice “xi” şi “yi” şi considerăm că

sunt variabile de tip alternativ, atunci asocierea dintre “xi” şi “yi” se prezintă astfel:

yi

xiDA NU Total

DA

NU

n11

n21

n12

n22

n11 + n12

n21 + n22

Total n11 + n21 n12 + n22

(în interiorul tabelului se consemnează concomitent răspunsurile privind cele două variabile

corelate “xi” şi “yi”). Pentru stabilirea valorii numerice a coeficientului de asociere care să

indice existenţa şi intensitatea legăturii, se calculează coeficientul lui Yule conform relaţiei:

; unde Q [-1,1]

Dacă: Q = 0 lipsa de asociere între xi şi yi

Q 0 asociere redusă între xi şi yi

Q ±1 asociere puternică între xi şi yi

Q = ±1 asociere perfectă între xi şi yi

Produsul n11 · n22 = arată gradul de realizare a legăturii între caracteristicile corelate “x i” şi

“yi” si produsul n12 · n21 = arată lipsa legăturii dintre cele două variabile. Avantajul

utilizării: se poate calcula cu multă rapiditate, utilizându-se şi în cazul când datele provin de la

unităţi statistice complexe.

2) Coeficienţii de corelaţie a rangurilor

Coeficienţii de corelaţie se calculează înlocuind valorile individuale ale variabilelor cu

numărul lor de ordine numit RANG. Rangurile se atribuie după ce în prealabil s-au ordonat

datele individuale ale celor două variabile în ordine crescătoare, astfel încât va trebui să

vedem dacă există concordanţă între rangurile caracteristicii factoriale de la 1 n şi rangurile

caracteristicii rezultative de la 1 n. Avantajul utilizării acestora:

1) pot fi utilizaţi cu succes şi în cazul unor distribuţii asimetrice;

6

Page 7: curs 9

2) pot fi utilizaţi pentru un număr restrâns de unităţi pentru care nu se poate verifica

reprezentativitatea datelor parţiale.

a) Coeficientul de corelaţie a rangurilor Spearman este o aplicaţie a coeficientului de

corelaţie liniară simplă la distribuţiile celor două şiruri de ranguri. [3]

Acesta se calculează parcurgând următoarele etape:

1) se identifică cele două variabile corelate xi şi yi;

2) se acordă ranguri de regulă crescătoare în aceeaşi manieră atât pentru variabila “xi” cât şi

pentru variabila “yi”;

Rangurile sunt numere de ordine care evoluează în progresie aritmetică cu raţia egală cu 1.

3) se determină diferenţa dintre ranguri (di) şi se ridică la pătrat;

4) se aplică formula de calcul: [-1,1] ce măsoară intensitatea legăturii

dintre rangurile celor două variabile corelate, unde: di = diferenţa dintre rangurile variabilei

“xi” şi rangurile variabilei “yi”: Rx-Ry si n = numărul perechilor de valori corelate.

Dacă: rS = 0 între rangurile lui “xi” respectiv “yi” nu există legătură (independenţă,

statistică);

rS 0 legătură foarte slabă sau poate lipsi;

rS ± 1 legătură puternică;

rS = ± 1 legătură funcţională.

b) Coeficientul de corelaţie a rangurilor Kendall; pentru a-l determina se folosesc

valorile variabilelor corelate pentru care se acordă ranguri. Etapele de lucru sunt:

1) se identifică variabilele corelate “xi” şi “yi”;

2) se ordonează crescător variabila “xi” şi, în corespondenţă cu aceasta, se trec valorile

corespunzatoare variabilei “yi”;

3) se acordă ranguri crescătoare în aceeaşi manieră ca şi la coeficientul Spearman;

4) se determină concordanţa notată cu P şi discordanţa notată cu Q;

5) se calculează scorul sau diferenţa (S = P – Q);

6) se aplică formula de calcul: unde: ∑S = ∑P – ∑Q [-1, 1]

Concordanţa (P) este mereu pozitivă şi reprezintă numărul de ranguri superioare fiecarui

rang considerat al variabilei yi. Discordanţa (Q) este mereu negativă şi reprezintă numărul de

ranguri inferioare fiecărui rang considerat al variabilei y i. Coeficientul rangurilor calculat

7

Page 8: curs 9

după formula lui Kendall este de obicei mai mic decât cel calculat după formula lui

Spearman, având aceeaşi interpretare.

☺Exemplu

Pentru exemplificare, presupunem că notele înregistrate la examenul de bacalaureat şi media

înregistrată la examenul de admitere la Colegiu Comerţ pentru 10 candidaţi se caracterizează

prin datele:

Mediabacalaureat (xi)

Mediaadmisă

(yi)

Ranguri

Rx i ( ) Ry i ( )P Q S

7,007,077,757,807,908,008,158,659,259,80

6,906,506,007,207,106,807,257,307,807,60

12345678910

42165378109

9044090011

6774443200

3102100000

36723432-10

28 37 7 29

Pentru a caracteriza legătura dintre media la bacalaureat şi media la admitere folosind metode

neparametrice, vom determina cei trei coeficienţi prezentaţi anterior. (Yule, Spearmen,

Kendall). Pentru coeficientul de asociere Yule, se întocmeşte tabelul de asociere, stabilind

poziţia fiecărui candidat faţă de media celor 10 candidaţi: si

Asocierea dintre “xi” şi “yi”, în raport cu media, va fi:

yi

xiSub Peste Total

Sub n11 = 4 n12 = 2 6

Peste n21 = 0 n22 = 4 4

Total 4 6 10

[-1,1]

Se poate trage concluzia că asocierea dintre media la bacalaureat şi media la admitere

este directă şi foarte intensă deoarece Q = 1. Se calculează coeficientul Spearman conform

relaţiei: . Apreciem că legătura dintre rangurile notelor

8

Page 9: curs 9

la bacalaureat şi cele de la admitere este destul de intensă, deoarece coeficientul se încadrează

între 0,8 şi 0,9. Calculând coeficientul de determinaţie (rs)2 = (0,83)2 = 0,69 sau 69%, deci,

influenţa notelor la bacalaureat asupra mediei la admitere este în proporţie de 69%, restul de

31% reprezintă influenţa altor cauze (factori) care nu au fost luate (luaţi) în consideraţie.

Se calculează coeficientul Kendall conform relaţiei: care se

interpretează în aceeaşi manieră ca şi coeficientul Spearman.

5. Teme de control

1. Dintr-un sondaj efectuat pe un eşantion de 7 gospodării au rezultat următoarele date despre fiecare

gospodărie referitoare la veniturile zilnice din remunerare ale membrilor gospodăriei şi cheltuielile zilnice ale

gospodăriei din tabelul următor

Venituri <mii RON> 40

30 20 50 60 40 30

Cheltuieli <mii RON> 35

26 18 38 42 30 22

a. Reprezentaţi grafic legătura dintre cele două variabile prin graficul de împrăştiere;

b. Analizaţi intensitatea legăturii dintre cele două variabile printr-o metodă neparametrică

adecvată.

2. Dintr-un sondaj efectuat pe un eşantion de 7 gospodării au rezultat următoarele date

despre fiecare gospodărie referitoare la veniturile zilnice din remunerare ale membrilor

gospodăriei şi cheltuielile zilnice ale gospodăriei, în tabelul următor:

Numar membrii 4 3 2 5 6 4 3Venit pe membru al gospodariei <RON>

350 260 180 380 420 300 220

Analizaţi intensitatea legăturii dintre cele două variabile printr-o metodă neparametrică

adecvată.

6. Rezumatul Unităţii de învăţare

Asupra fenomenelor social-economice acţionează o multitudine de factori, principali şi secundari, esenţiali şi neesenţiali, cuantificabili şi necuantificabili sau cuantificabili cu aproximaţie, care se găsesc într-o relaţie de interdependenţă reciprocă. Legăturile ce se pot forma sunt legături stohastice, în care un fenomen este factor de influenta, iar celălalt este efect. Statistica, printr-o gamă largă de procedee şi metode specifice, poate studia manifestarea concretă a acestor legături, le poate exprima cantitativ şi măsura intensitatea cu care se produc. Legăturile statistice pot fi simple sau multiple, directe sau inverse, de asociere sau de corelaţie, liniare sau neliniare, sincrone sau

9

Page 10: curs 9

asincrone. Pentru caracterizarea statistică a legăturilor dintre variabile se pot folosi două categorii de metode: metode simple (metoda grafică, metoda tabelului de corelaţie, metoda grupărilor, metoda seriilor paralele interdependente) şi metode analitice (metoda regresiei, metoda covarianţei, metoda raportului de corelaţie, metoda coeficientului de corelaţie, metoda analizei dispersionale). În afara metodelor analitice menţionate mai sus, ce intră în categoria metodelor parametrice, legăturile dintre variabilele statistice se mai pot analiza cu ajutorul metodelor neparametrice (metoda coeficientului de asociere al lui Yule, metoda coeficientului de corelaţie a rangurilor Spearman şi metoda coeficientului de corelaţie a rangurilor Kendall).

7. Bibliografia Unităţii de învăţare

1. Cristache, S.E., Şerban, D., Lucrări aplicative de Statistică şi Econometrie, Ed. ASE,

Bucureşti, 2007, 433 pg. (191 - 416) ISBN 978 - 973 – 594 – 986 – 2;

2. Isaic Maniu, Al., Voineagu, V., Mitruţ, C., Baron, T., Ţiţan, E., Matache S., Şerban D.,

Voineagu, M., Statistică teoretică. Studii de caz şi aplicaţii, Ed. Economică, 255 pg. (189 -

219), Bucureşti, 1998, ISBN 973-590-086-6;

3. Isaic Maniu, Al., Mitruţ, C., Voineagu, V., Statistica Pentru afaceri, ed. Economică,

Bucuresti 2003.

10