curs 9
-
Upload
gabriela-schuster -
Category
Documents
-
view
214 -
download
0
description
Transcript of curs 9
CURS STATISTICĂ - Unitatea de învăţare nr. 8
LEGĂTURI STATISTICE DINTRE VARIABILE
Cuprins:
1. Noţiuni introductive privind legăturile statistice dintre variabile.
2. Tipuri de legături statistice
3. Metode simple de stabilire a existenţei şi a formei de legătură dintre fenomenele şi
procesele economico-sociale
4. Metode neparametrice de măsurare a legăturilor dintre fenomene
5. Teme de control.
6. Rezumatul unităţii de învăţare.
7. Bibliografia unităţii de învăţare.
1. Noţiuni introductive privind legăturile statistice dintre variabile
Teoria economică actuală, cu ajutorul căreia caracterizăm şi analizăm funcţionarea
legăturilor mecanismului economic, pune în evidenţă multiplele interdependenţe care se
manifestă în activitatea economică. Fundamentarea deciziilor de politică economică şi socială
trebuie să ţină seama de astfel de dependenţe în egală măsură ca fundamentarea deciziilor la
nivelul agentului economic. De aceea, selectarea dependenţelor care au caracter de stabilitate
şi măsurarea acestora a constituit o preocupare prioritară a teoriei şi cercetării economice.
Asupra fenomenelor social-economice acţionează o multitudine de factori, principali şi
secundari, esenţiali şi neesenţiali, cuantificabili şi necuantificabili sau cuantificabili cu
aproximaţie, care se găsesc într-o relaţie de interdependenţă reciprocă.
2. Tipuri de legături statistice
Legăturile ce se pot forma sunt legături stohastice, în care un fenomen este factor de
influenta, iar celălalt este efect. Statistica, printr-o gamă largă de procedee şi metode
1
specifice, poate studia manifestarea concretă a acestor legături, le poate exprima cantitativ şi
măsura intensitatea cu care se produc. Legătura (dependenţa) statistică se caracterizează prin
faptul că, la modificarea unui factor de influenţă, factorul influenţat răspunde cu o distribuţie
de valori.
Legăturile statistice se pot clasifica astfel:
1) După natura relaţiei de cauzalitate distingem:
a) legături funcţionale. Acestea se manifestă între două fenomene în care unul este cauza iar
celălalt efectul. Se întâlnesc în natură, tehnică etc. Dacă se notează fenomenul cauză cu “x” şi
fenomenul efect cu “y” atunci relaţia matematică este: y = f(x)
b) legături statistice (stohastice) apar atunci când fenomenul efect este rezultatul combinării
influenţei mai multor cauze, care pot acţiona în condiţii egale sau diferite. Relaţia matematică
este: y = f(x1,x2,………..,xn), unde: x1, x2, ..., xn – sunt valorile fenomenelor cauză care au fost
înregistrate; y = valorile fenomenului efect.
☺Exemplu
O legatura stohastica este legătura dintre capacitatea de cazare (x i) şi valoarea încasărilor din
activitatea hotelieră (yi). Între cele două caracteristici există o legătură statistică pentru că
asupra încasărilor acţionează şi alte cauze: tarifele practicate, gradul de confort etc.
2) După numărul de caracteristici incluse în modelul de corelaţie distingem:
a) legături simple. Acestea au la bază două caracteristici: una factorială, iar cealaltă
rezultativă (celelalte caracteristici factoriale chiar dacă sunt înregistrate se consideră cu
acţiune constantă).
☺Exemplu
Un exemplu de legătura simpla este cea dintre suprafaţa comercială şi valoarea vânzărilor.
b) legături multiple. Acestea au în vedere dependenţa unei caracteristici rezultative în funcţie
de mai mulţi factori înregistraţi sau dependenţa mai mulor variabile rezultative (y1, y2, ….. ,
yn) de o variabilă factorială (xi). Ecuaţiile de estimare sunt: y = f(x1, x2, x3,...,xn) şi y1, y2,...,
yi,...yn = f(xi).
☺Exemplu
Un exemplu de legătura multiplă este cea dintre valoarea încasărilor ce depinde de zona de
amplasare (x1), de categoria de confort (x2), de baza materială (x3) etc.
2
3) După direcţia legăturii distingem:
a) legături directe (pozitive): există atunci când, pe măsură ce se modifică nivelul de
dezvoltare al caracteristicii factoriale, se modifică în acelaşi sens şi nivelul caracteristicii
rezultative.
b) legături inverse (negative): au în vedere modificări în sens contrar nivelului de dezvoltare
(o variabilă creşte iar cealaltă scade).
4) După forma de exprimare a variabilelor corelate distingem:
a) legături de asociere. Acestea exprimă relaţia dintre două sau mai multe caracteristici
exprimate calitativ (prin cuvinte) sau într-o caracteristică calitativă şi una cantitativă
(exprimată numeric).
b) legături de corelaţie. Exprimă relaţia de interdependenţă dintre două sau mai multe
caracteristici statistice exprimate numeric.
5) După forma de realizare a legăturii distingem:
a) legăturile liniare exprimate printr-o funcţie liniară, de gradul intai;
b) legăturile neliniare exprimate printr-o curbă (exponenţială, parabolă, hiperbolă etc.);
6) După timpul în care se realizează:
a) legături sincrone: au loc în acelaşi timp şi se pot urmări în dinamică pentru
aceeaşi perioadă.
☺Exemplu
O astfel de legatura este legătura dintre dinamica desfacerilor de mărfuri şi dinamica
câştigului mediu salarial.
b) legături asincrone: influenţa caracteristicilor factoriale asupra variaţiei caracteristicii
rezultative apare după trecerea unei perioade de timp. Forma de realizare a legăturii
corespunde funcţiei matematice de regresie (de estimare) care se alege pe baza graficului de
corelaţie (corelogramei).
3. Metode simple de stabilire a existenţei şi a formei de legătură dintre fenomenele şi procesele economico-sociale
Pentru a caracteriza legătura dintre fenomene, se pot folosi mai multe procedee ce se
încadrează în categoria metodelor simple de caracterizare a legăturilor. Aceste metode sunt
uşor de aplicat şi se bazează pe analiza calitativă a variabilelor corelate, oferind informaţii
asupra naturii şi trăsăturilor esenţiale ale legăturii cercetate.
3
Metodele simple de caracterizare a legaturilor stohastice sunt urmatoarele:
1) Metoda seriilor paralele interdependente are la bază serii paralele de date, obţinute prin
operaţia de centralizare la nivelul unităţilor simple sau complexe, fără a fi grupate. Se pot
folosi serii: de timp, de spaţiu şi atributive. Această metodă ne oferă posibilitatea de a stabili
existenţa legăturii şi direcţia de realizare a acesteia, prin analiza valorilor perechii x, y.
Această metodă este mai puţin sugestivă în cazul seriilor formate dintr-un număr foarte mare
de termeni şi implică într-o măsură importantă subiectivismul cercetătorului.
2) Metoda grupărilor este o metodă de sistematizare a datelor pe baza căreia se pot cerceta
legăturile (conexiunile) statistice. Se poate folosi gruparea simplă sau gruparea combinată.
☺Exemplu
Despre 22 de salariaţi ce activează în ramura comerţului se cunosc datele:
Gruparea salariaţilor după vechime Număr salariaţi Valoarea încasărilor
(mil lei)
< 5 2 805 - 10 5 8310 - 15 7 8515 - 20 5 87
> 20 3 89Gruparea simplă presupune gruparea unităţilor statistice după o caracteristică
principală de grupare şi calculul şi interpretarea mediilor parţiale sau a mărimilor relative
parţiale pentru caracteristica rezultativă. Gruparea combinată se bazează pe împărţirea
unităţilor statistice în grupe concomitente după variaţia a două caracteristici de grupare (x,y),
iar rezultatele grupării se prezintă într-un tabelul combinat cu dublă intrare (vezi capitolul II).
Metoda grupării trebuie utilizată doar în cazul unui număr mare de observaţii statistice, când
aplicarea metodelor analitice de calcul nu se poate face fără o grupare prealabilă a datelor
înregistrate.
3) Metoda tabelului de corelaţie presupune utilizarea unui tabel combinat cu dublă
intrare care ne sugerează existenţa legăturii, direcţia de realizare a ei şi unele aprecieri
empirice privind intensitatea legăturii prin analiza modului în care frecvenţele comune (n ij) se
distribuie în rubricile interioare ale tabelului. Dacă frecvenţele nij tind a se concentra către cele
două diagonale trasate în tabelul următor, legătura între xi şi yj va fi intensă. În schimb, dacă
se împrăştie la întâmplare în reţeaua tabelului, legătura este slabă sau poate lipsi. În
concluzie, procedeul tabelului de corelaţie este o combinare a metodei grupării cu
principiile de construire şi interpretare a unei reprezentări grafice.
4
xi \ yj y1, y2, ……...…. yj ………..……. yp Total
xr
xr-1
:
xi
:
x2
x1
nij
nr·
nr-1·
:
ni·
:
n2·
n1·
Total n·1, n·2, ……...…. n·j ………..……. n·p
4) Metoda grafică. Graficul de corelaţie se mai numeşte corelogramă. Pentru
construcţia acestuia se utilizează sistemul de axe rectangulare, unde pe axa OX se înscriu
valorile caracteristicii principale de grupare (x), iar pe axa OY valorile caracteristicii
secundare de grupare (y). Intersecţia abscisei cu ordonata se concretizează printr-un număr de
puncte ce se dispun sub formă de nor, numărul punctelor fiind egal cu numărul de unităţi
statistice luate în calcul. După modul de distribuire a punctelor în reţeaua graficului, printre
acestea se trasează vizual o dreaptă sau o curbă ale cărei ecuaţii se cunosc. În cazul în care
curba sau dreapta se trasează pe prima diagonală, legătura este directă, dacă se trasează pe cea
de a doua diagonală, legătura este inversă. Metoda grafică se utilizează ca metodă empirică
pentru alegerea funcţiei matematice ce se analizează în cazul regresiei şi corelaţiei statistice.
4. Metode neparametrice de măsurare a legaturilor dintre fenomenele
economico-sociale
Aceste metode, pe lângă faptul că pot stabili intensitatea legăturii făcând abstracţie de
tipul de distribuţie, permit măsurarea intensităţii legăturii nu numai pentru caracteristicile
cantitative, dar şi pentru cele calitative. Poartă denumirea de metode neparametrice deoarece
nu iau în calcul întotdeauna valorile variabilelor corelate şi nici parametrii lor corespunzatori.
În concluzie, se folosesc în următoarele situaţii: când distribuţia variabilelor corelate nu e
normală sau asimptotic normală; când nu este cunoscută forma de distribuţie a variabilelor;
când variabilele corelate sunt asimetrice, deci prezintă asimetrie pronunţată sicând avem de-a
face cu variabile calitative şi cantitative care în prealabil necesită o anumită cuantificare.
Metodele neparametrice uzuale sunt:
5
1) Coeficientul de asociere a lui Yule presupune întocmirea tabelului de asociere, care
este un tabel combinat cu dublă intrare utilizat pentru variabilele de tip alternativ (DA/NU;
F/M; etc.). Tabelulul de asociere este format din două rânduri şi două coloane:
n11 n12
n21 n22
în care în capătul rândurilor se trec valorile celor două caracteristici asociate, iar în interiorul
tabelulului se trec frecvenţele corespunzătoare lor.
Exemplu: Dacă avem în vedere două variabile statistice “xi” şi “yi” şi considerăm că
sunt variabile de tip alternativ, atunci asocierea dintre “xi” şi “yi” se prezintă astfel:
yi
xiDA NU Total
DA
NU
n11
n21
n12
n22
n11 + n12
n21 + n22
Total n11 + n21 n12 + n22
(în interiorul tabelului se consemnează concomitent răspunsurile privind cele două variabile
corelate “xi” şi “yi”). Pentru stabilirea valorii numerice a coeficientului de asociere care să
indice existenţa şi intensitatea legăturii, se calculează coeficientul lui Yule conform relaţiei:
; unde Q [-1,1]
Dacă: Q = 0 lipsa de asociere între xi şi yi
Q 0 asociere redusă între xi şi yi
Q ±1 asociere puternică între xi şi yi
Q = ±1 asociere perfectă între xi şi yi
Produsul n11 · n22 = arată gradul de realizare a legăturii între caracteristicile corelate “x i” şi
“yi” si produsul n12 · n21 = arată lipsa legăturii dintre cele două variabile. Avantajul
utilizării: se poate calcula cu multă rapiditate, utilizându-se şi în cazul când datele provin de la
unităţi statistice complexe.
2) Coeficienţii de corelaţie a rangurilor
Coeficienţii de corelaţie se calculează înlocuind valorile individuale ale variabilelor cu
numărul lor de ordine numit RANG. Rangurile se atribuie după ce în prealabil s-au ordonat
datele individuale ale celor două variabile în ordine crescătoare, astfel încât va trebui să
vedem dacă există concordanţă între rangurile caracteristicii factoriale de la 1 n şi rangurile
caracteristicii rezultative de la 1 n. Avantajul utilizării acestora:
1) pot fi utilizaţi cu succes şi în cazul unor distribuţii asimetrice;
6
2) pot fi utilizaţi pentru un număr restrâns de unităţi pentru care nu se poate verifica
reprezentativitatea datelor parţiale.
a) Coeficientul de corelaţie a rangurilor Spearman este o aplicaţie a coeficientului de
corelaţie liniară simplă la distribuţiile celor două şiruri de ranguri. [3]
Acesta se calculează parcurgând următoarele etape:
1) se identifică cele două variabile corelate xi şi yi;
2) se acordă ranguri de regulă crescătoare în aceeaşi manieră atât pentru variabila “xi” cât şi
pentru variabila “yi”;
Rangurile sunt numere de ordine care evoluează în progresie aritmetică cu raţia egală cu 1.
3) se determină diferenţa dintre ranguri (di) şi se ridică la pătrat;
4) se aplică formula de calcul: [-1,1] ce măsoară intensitatea legăturii
dintre rangurile celor două variabile corelate, unde: di = diferenţa dintre rangurile variabilei
“xi” şi rangurile variabilei “yi”: Rx-Ry si n = numărul perechilor de valori corelate.
Dacă: rS = 0 între rangurile lui “xi” respectiv “yi” nu există legătură (independenţă,
statistică);
rS 0 legătură foarte slabă sau poate lipsi;
rS ± 1 legătură puternică;
rS = ± 1 legătură funcţională.
b) Coeficientul de corelaţie a rangurilor Kendall; pentru a-l determina se folosesc
valorile variabilelor corelate pentru care se acordă ranguri. Etapele de lucru sunt:
1) se identifică variabilele corelate “xi” şi “yi”;
2) se ordonează crescător variabila “xi” şi, în corespondenţă cu aceasta, se trec valorile
corespunzatoare variabilei “yi”;
3) se acordă ranguri crescătoare în aceeaşi manieră ca şi la coeficientul Spearman;
4) se determină concordanţa notată cu P şi discordanţa notată cu Q;
5) se calculează scorul sau diferenţa (S = P – Q);
6) se aplică formula de calcul: unde: ∑S = ∑P – ∑Q [-1, 1]
Concordanţa (P) este mereu pozitivă şi reprezintă numărul de ranguri superioare fiecarui
rang considerat al variabilei yi. Discordanţa (Q) este mereu negativă şi reprezintă numărul de
ranguri inferioare fiecărui rang considerat al variabilei y i. Coeficientul rangurilor calculat
7
după formula lui Kendall este de obicei mai mic decât cel calculat după formula lui
Spearman, având aceeaşi interpretare.
☺Exemplu
Pentru exemplificare, presupunem că notele înregistrate la examenul de bacalaureat şi media
înregistrată la examenul de admitere la Colegiu Comerţ pentru 10 candidaţi se caracterizează
prin datele:
Mediabacalaureat (xi)
Mediaadmisă
(yi)
Ranguri
Rx i ( ) Ry i ( )P Q S
7,007,077,757,807,908,008,158,659,259,80
6,906,506,007,207,106,807,257,307,807,60
12345678910
42165378109
9044090011
6774443200
3102100000
36723432-10
28 37 7 29
Pentru a caracteriza legătura dintre media la bacalaureat şi media la admitere folosind metode
neparametrice, vom determina cei trei coeficienţi prezentaţi anterior. (Yule, Spearmen,
Kendall). Pentru coeficientul de asociere Yule, se întocmeşte tabelul de asociere, stabilind
poziţia fiecărui candidat faţă de media celor 10 candidaţi: si
Asocierea dintre “xi” şi “yi”, în raport cu media, va fi:
yi
xiSub Peste Total
Sub n11 = 4 n12 = 2 6
Peste n21 = 0 n22 = 4 4
Total 4 6 10
[-1,1]
Se poate trage concluzia că asocierea dintre media la bacalaureat şi media la admitere
este directă şi foarte intensă deoarece Q = 1. Se calculează coeficientul Spearman conform
relaţiei: . Apreciem că legătura dintre rangurile notelor
8
la bacalaureat şi cele de la admitere este destul de intensă, deoarece coeficientul se încadrează
între 0,8 şi 0,9. Calculând coeficientul de determinaţie (rs)2 = (0,83)2 = 0,69 sau 69%, deci,
influenţa notelor la bacalaureat asupra mediei la admitere este în proporţie de 69%, restul de
31% reprezintă influenţa altor cauze (factori) care nu au fost luate (luaţi) în consideraţie.
Se calculează coeficientul Kendall conform relaţiei: care se
interpretează în aceeaşi manieră ca şi coeficientul Spearman.
5. Teme de control
1. Dintr-un sondaj efectuat pe un eşantion de 7 gospodării au rezultat următoarele date despre fiecare
gospodărie referitoare la veniturile zilnice din remunerare ale membrilor gospodăriei şi cheltuielile zilnice ale
gospodăriei din tabelul următor
Venituri <mii RON> 40
30 20 50 60 40 30
Cheltuieli <mii RON> 35
26 18 38 42 30 22
a. Reprezentaţi grafic legătura dintre cele două variabile prin graficul de împrăştiere;
b. Analizaţi intensitatea legăturii dintre cele două variabile printr-o metodă neparametrică
adecvată.
2. Dintr-un sondaj efectuat pe un eşantion de 7 gospodării au rezultat următoarele date
despre fiecare gospodărie referitoare la veniturile zilnice din remunerare ale membrilor
gospodăriei şi cheltuielile zilnice ale gospodăriei, în tabelul următor:
Numar membrii 4 3 2 5 6 4 3Venit pe membru al gospodariei <RON>
350 260 180 380 420 300 220
Analizaţi intensitatea legăturii dintre cele două variabile printr-o metodă neparametrică
adecvată.
6. Rezumatul Unităţii de învăţare
Asupra fenomenelor social-economice acţionează o multitudine de factori, principali şi secundari, esenţiali şi neesenţiali, cuantificabili şi necuantificabili sau cuantificabili cu aproximaţie, care se găsesc într-o relaţie de interdependenţă reciprocă. Legăturile ce se pot forma sunt legături stohastice, în care un fenomen este factor de influenta, iar celălalt este efect. Statistica, printr-o gamă largă de procedee şi metode specifice, poate studia manifestarea concretă a acestor legături, le poate exprima cantitativ şi măsura intensitatea cu care se produc. Legăturile statistice pot fi simple sau multiple, directe sau inverse, de asociere sau de corelaţie, liniare sau neliniare, sincrone sau
9
asincrone. Pentru caracterizarea statistică a legăturilor dintre variabile se pot folosi două categorii de metode: metode simple (metoda grafică, metoda tabelului de corelaţie, metoda grupărilor, metoda seriilor paralele interdependente) şi metode analitice (metoda regresiei, metoda covarianţei, metoda raportului de corelaţie, metoda coeficientului de corelaţie, metoda analizei dispersionale). În afara metodelor analitice menţionate mai sus, ce intră în categoria metodelor parametrice, legăturile dintre variabilele statistice se mai pot analiza cu ajutorul metodelor neparametrice (metoda coeficientului de asociere al lui Yule, metoda coeficientului de corelaţie a rangurilor Spearman şi metoda coeficientului de corelaţie a rangurilor Kendall).
7. Bibliografia Unităţii de învăţare
1. Cristache, S.E., Şerban, D., Lucrări aplicative de Statistică şi Econometrie, Ed. ASE,
Bucureşti, 2007, 433 pg. (191 - 416) ISBN 978 - 973 – 594 – 986 – 2;
2. Isaic Maniu, Al., Voineagu, V., Mitruţ, C., Baron, T., Ţiţan, E., Matache S., Şerban D.,
Voineagu, M., Statistică teoretică. Studii de caz şi aplicaţii, Ed. Economică, 255 pg. (189 -
219), Bucureşti, 1998, ISBN 973-590-086-6;
3. Isaic Maniu, Al., Mitruţ, C., Voineagu, V., Statistica Pentru afaceri, ed. Economică,
Bucuresti 2003.
10