Curs 1 Corelatie Si Regresia

25
Curs 1. Domeniul econometriei. Regresia și corelația Conf.univ. dr. Emilia Gogu 1 1 CURS 1. DOMENIUL ECONOMETRIEI ............................................................................ 2 1.1 Temenul de econometrie. Scurt istoric al dezvoltării .............................................. 2 1.2 Modelul econometric ................................................................................................ 3 2 CURS 2. METODA REGRESIEI ............................................................................................ 5 2.1 Tipuri de legături între fenomenele economice.......................................................... 6 2.2 Metode de analiză a interdependenţei dintre fenomene ............................................ 9 2.2.1 Metode parametrice simple ................................................................................ 10 2.2.2 Metode analitice de măsurare şi interpretare a legăturilor................................... 16 2.3 Metode şi procedee de analiză a legăturilor dintre fenomene ....................................... 18

Transcript of Curs 1 Corelatie Si Regresia

Page 1: Curs 1 Corelatie Si Regresia

Curs 1. Domeniul econometriei. Regresia și corelația Conf.univ. dr. Emilia Gogu

1

1 CURS 1. DOMENIUL ECONOMETRIEI ............................................................................ 2

1.1 Temenul de econometrie. Scurt istoric al dezvoltării .............................................. 2

1.2 Modelul econometric ................................................................................................ 3

2 CURS 2. METODA REGRESIEI ............................................................................................ 5

2.1 Tipuri de legături între fenomenele economice.......................................................... 6

2.2 Metode de analiză a interdependenţei dintre fenomene ............................................ 9

2.2.1 Metode parametrice simple ................................................................................ 10

2.2.2 Metode analitice de măsurare şi interpretare a legăturilor ................................... 16

2.3 Metode şi procedee de analiză a legăturilor dintre fenomene ....................................... 18

Page 2: Curs 1 Corelatie Si Regresia

Curs 1. Domeniul econometriei. Regresia și corelația Conf.univ. dr. Emilia Gogu

2

1 CURS 1. DOMENIUL ECONOMETRIEI

1.1 Temenul de econometrie. Scurt istoric al dezvoltării Econometrie în mod literal înseamnă măsurări economice. Este o combinație între

economie, matematică și statistică. Econometria, a cărei denumire îşi are originea în reunirea cuvintelor greceşti eikonomia

(economia) cu metron (măsură) are o evoluţie multiseculară. Dar denumirea ca atare a fost pusă în circulaţie în urmă cu aproximativ 70 de ani cu prilejul înfiinţării societaţii de econometrie.

Iniţiatorul întemeierii acestei societaţi este considerat Ragnar Frisch, profesor de economie la Oslo, laureat al premiului Nobel pentru economie în 1969 care, împreună cu matematicianul american C.F. Ross, au solicitat în acest sens ajutorul economistului si statisticianului I. Fisher. Ca urmare, în 29 decembrie 1930 este întemeiată la Cleveland aşa numita "Econometric Society".Scopul societăţii de econometrie a fost de a uni pe cei interesaţi într-o grupare internaţională în vederea dezvoltării teoriei economice în conjunctură cu statistica şi matematica.

În ce priveşte definiţiile econometriei, acestea au cunoscut în timp diverse nuanţări începand de la "econometria este ceea ce fac econometricienii" până la afirmaţii după care "econometria este o ramură a economiei (o economie de intenţie ştiinţifică, afirmă FR. Perroux) care se ocupă de analiza cantitativă a comportamentului economic".

În general, comportamentul economic descris de teoria economică stă la baza formulării ipotezelor pe care se construieşte un model teoretic al "mersului" economiei. Impactul dintre modelul teoretic si realitatea reflectată prin date, este analizat de economtrie apelând îndeosebi la metodele statisticii.

În ce priveşte precursorii econometriei, se cuvine să amintim cel puţin următoarele personalitaţi: � Francois Quesnay (1694 - 1774), medic şi economist francez, întemeietor al şcolii fiziocrate, susţinător al

politicii economice liber schimbiste. S-a remarcat îndeosebi prin aşa numitul "tablou economic" şi "analiza tabloului economic" - opere principale în care se face o analiza a capitalului, a reproducţiei sale, precum şi a circulaţiei materiale şi valorice a capitalului şi venitului naţional. A reuşit, deci, să prezinte, sub forma unei scheme, procesul reproducţiei redând dependenţa între compartimente prin corelaţii cifrice. Ecoul stârnit la timpul respectiv de către opera sa poate fi sugerat de afirmaţia lui Mirabeau: "în istorie sunt trei invenţii care au conferit stabilitate social-politică: scrisul de mână, banii, tabloul economic a lui Quesnay ".

� William Petty (1623 - 1687) - întemeietor al economiei politice moderne, inventator într-o anumita masura a statisticii - a căutat ca prin intermediul numerelor, a masurătorilor, sa descopere regularitaţi în domeniul fenomenelor sociale. Are de asemenea merite deosebite în demografie datorate cercetărilor sale în vederea stabilirii unei "legi matematice a mortalitaţii".

� Antoine Cournot (1801 - 1877) - matematician şi probabilist francez - a încercat o abordare matematică a economiei politice. Formularea matematică a legii cererii şi ofertei reprezintă un fericit exemplu pentru preocupările sale de introducere a conceptului de funcţie în cercetarea relaţiilor cauză-efect din economie. Lucrarea sa "Recherches sur les principles mathématiques de la théorie des richesses", elaborată in 1838, poate reprezenta un punct de referinţă pentru econometrie.

� Ernst Engel (1821 - 1896) - statistician şi economist german - a căutat să exprime matematic legităţi privind cererea de mărfuri. În acest scop a utilizat evidenţe (bugete de familie) privind veniturile si cheltuielile în familie.

� Bowley sir A.L.(1869 - 1957) - statistician, matematician, economist şi demograf englez. Preocupat îndeosebi de statistică atât ca profesor la Londra, căt şi ca director al institutului din Oxford, a avut remarcabile contribuţii în domeniul sondajului statistic, ca şi in domeniul dinamicii preţurilor şi salariilor, estimării venitului naţional.

� Marshall Alfred (1842 - 1924) - economist englez cu numeroase contribuţii în domeniul măsurării relaţiilor preţ-cerere, preţ-ofertă (indicatorul elasticitaţii cererii îi aparţine).

Contribuţii importante în domeniul introducerii rigurozităţii matematicii în economie au avut de asemenea: von Thünen, Pareto V., R. A. Fisher, L. Walras, iar mai recent J. Tinbergen, H. Wold, L.R. Klein, W. Leontief, G.Tintner.

Page 3: Curs 1 Corelatie Si Regresia

Curs 1. Domeniul econometriei. Regresia și corelația Conf.univ. dr. Emilia Gogu

3

1.2 Modelul econometric În cele ce urmează ne propunem să ne apropiem din ce în ce mai mult de domeniul de

studiu al econometriei, precum şi de obiectivele urmărite. Modelul econometric reprezintă o imagine simplificată a relaţiilor dintre variabilele

economice care priveşte atât reprezentarea anatomică a proceselor economice (definirea variabilelor) cât şi descrierea fiziologică (relaţii, conditionari, mecanisme de functionare). Modelul econometric prezentat fie sub forma unei scheme vizuale, fie prin ecuaţii, redă ce are esenţial agregatul economiei limitându-se la descrierea, deseori globală, a transformării cauzelor în efecte ce privesc principalele sectoare din economie.

Să exemplificăm un astfel de model de analiză economico-financiar1 având drept punct de plecare conceptele teoretice, ipotezele, precum şi unele considerente rezultate din practica economică ce privesc consumul, investiţiile şi veniturile.

Astfel, se consideră că cererea de consum (C) este condiţionată îndeosebi de mărimea veniturilor (V), precum şi de tradiţia consumului (C t-1 ). În ceea ce priveşte investiţiile (I) creşterea sau descreşterea acestora este sensibilă la rata dobânzii (DR), faţă de care se află într-un raport invers proporţional . Totodată, s-a constatat că un volum mare a investiţiilor (It-1) într-un an antrenează investiţii de nivel ridicat şi în anul urmator. În ce priveşte rata dobânzii (RD), aceasta depinde de nivelul veniturilor (V) dar şi de oferta de bani (masa de bani în circulaţie -B). În sfarşit masa veniturilor tuturor agenţilor economici (V) poate fi obţinută însumând cheltuielile populaţiei (Ch), valoarea investiţiilor (I), cheltuielile guvernamentale (V).

Cauzalitatea relațiilor transcrisă sub forma unor ecuaţii liniare devine un model econometric cu ecuaţii simultane de forma:

1 Analiza reprezintã o metodã de cercetare care constã în descompunerea sau desfacerea unui întreg

(obiect, fenomen sau proces) în elementele sale componente, procedând la identificarea factorilor, cauzelor si conditiilor care le-au generat si respectiv influentat.

Analiza activitãtii economico-financiare este disciplina care cerceteazã rezultatele activitãtii economice, pe baza datelor obtinute în activitatea verigilor organizatorice ale economiei, factorii care le-au determinat si cãile de îmbunãtãtire a acestor rezultate din punct de vedere al eficientei consumului de resurse în concordantã cu scopul activitãtii respective.

Analiza economico-financiarã reprezintã un ansamblu de concepte, metode, tehnici, procedee si instrumente care asigurã tratarea informatiilor interne si externe, în vederea formulãrii unor aprecieri pertinente referitoare la situatia economico-financiarã a unui agent economic, identificarea factorilor, cauzelor si conditiilor care au determinat-o, precum si a rezervelor interne de îmbunãtãtire a acesteia, din punctul de vedere al utilizãrii eficiente a resurselor umane, materiale si financiare.

Diversitatea activitãtilor desfãsurate de cãtre o firmã si varietatea situatiilor prin care aceasta trece, privind continutul, nivelul si caracteristicile performantelor economico-financiare ale acesteia presupun necesitatea utilizãrii mai multor tipuri de analizã, care pot fi structurate dupã mai multe criterii astfel: 1.Dupã raportul dintre momentul în care se efectueazã analiza si momentul desfãsurãrii fenomenului:

a) analizã post-factum, postoperativã sau analiza realizãrii obiectivelor - notiunea de post-factum defineste o activitate, proces sau eveniment care a avut loc sau care s-a încheiat, analiza acestuia efectuânduse ulterior producerii lui. Analiza post-factum presupune cercetarea unor fenomene încheiate, a modului de realizare a unor obiective pe baza descompunerii în elemente si a stabilirii factorilor.

b) analiza previzionalã sau prospectivã - presupune determinarea evolutiei viitoare a unui fenomen economic pe baza cercetãrii elementelor si factorilor care-l determinã. Ea este utilizatã de cãtre centrele de decizie economicã pentru stabilirea obiectivelor ce se au în vedere a fi atinse într-o perioadã viitoare.

2.Din punct de vedere al urmãririi însusirilor esentiale sau al determinãrilor cantitative ale fenomenelor: a) analiza calitativã - urmãreste esenta fenomenului, însusirile sale de bazã, factorii care sunt de aceeasi

naturã cu fenomenul si îl determinã. Potrivit principiului descompunerii se trece de la o analizã mai putin profundã cãtre alta mai profundã (metoda „top-down”).

b) analiza cantitativã - presupune cercetarea fenomenului prin determinãri cantitative exprimate prin mãrimi fizice (greutate, grad, suprafatã, volum, numãr, duratã etc.).

Page 4: Curs 1 Corelatie Si Regresia

Curs 1. Domeniul econometriei. Regresia și corelația Conf.univ. dr. Emilia Gogu

4

C = a + aV +aC t-1 + u1 - ecuaţia consumului (1.1) It = b + b RD + b It-1 + u2 - ecuaţia investiţiilor (1.2) RD = c +c V + c B + u3 - ecuaţia pieţii banilor (1.3) V = Ch +I +G - ecuația veniturilor tuturor agenţilor economici (1.4) Evident, modelul prezentat mai sus constituie o redare extrem de schematică a relaţiilor din

economie şi rolul său este doar de a facilita exemplificarea noţiunilor şi conceptelor specifice econometriei. Astfel, în modelul prezentat deosebim variabile, parametrii si relaţii, formând împreună o reprezentare structurală.

În ce priveşte modelul deosebim a) variabile predeterminate:

� exogene (independente, de intrare): RD , B ,G � retardate ( cu efect întrziat): Ch , I

b) variabile endogene (efect, dependente, de ieşire): Ch , I , RD , V c) variabile aleatoare (stochastice, perturbatoare): u1 , u2 , u3

În ce priveşte relaţiile acestea pot fi: a) relaţii funcţionale (de regresie) de tip

� comportamental (1.1) ,(1.2); � tehnologic; � istituţional;

b) relaţii de identitate (de balanţă, de echilibru) (1.4).

Parametrii, la randul lor, pot fi particularizaţi astfel: - parametrii de regresie a,a ,a ,b ,b ... - estimatori ai parametrilor de regresie (rezultaţi din calcule asupra datelor provenite

dintr-un sondaj statistic): â ,â ,â ,b^ ...; - parametrul "liber":a ,b ,c

Într-o formă concentrată modelul (1.1-1.4) poate apărea astfel: Φ(y, x, a, u)= 0 Unde: Φ - un set de ecuaţii suficiente pentru a obţine variabilele endogene (y) dacă celelalte elemente (x - variabilele predeterminate, a- parametrii, u - variabilele perturbatoare) sunt date.

Se pune problema de a determina pe "a" (de a găsi setul parametrilor "a" în mulţimea "A" a deciziilor) care maximizează o valoare aşteptată în condiţii date.

În afara modelelor de tipul celui prezentat, domeniul econometriei se extinde şi asupra altor aspecte din economie pentru care cuantificarea poate aduce mai multă rigoare şi în general, un plus de cunoaştere. Dar miezul tare al demersului econometric rămâne totuşi modelul bazat pe zeci sau sute de ecuaţii, în mare majoritate de regresie, prin care se caută reproducerea elementelor esenţiale din mecanismele de funcţionare ale economiei, începând cu economia casnică, trecând prin economia de firmă, economia naţională (aflată în centrul atenţiei econometricienilor) şi sfârşind cu mondoeconomia.

Perspectivele pe care le deschide modelarea econometrică pot fi redate succint astfel: � reprezintă o modalitate de a preîntâmpina surprizele economiei de piaţă printr-o

evaluare apriorică a comportamentului diverşilor agenţi economici; � permite anticiparea efectului unor decizii în vederea alegerii celei mai bune politici

economice (cu efecte benefice maxime şi cu implicaţii nedorite minime); � facilitează dezvoltarea teoriei economice, întrucât este greu de acceptat că se poate

face o teorie economică realistă fără a apela la măsurări (cuantificări, evaluări) iar evaluările (procedeele de măsurare) fără o teorie adecvată nu pot demonstra nimic.

Acest din urmă aspect sugerează existenţa, în orice caz necesitatea, unei relaţii de complementaritate între econometrie şi economie. Pentru o reciprocă avantajare este necesar ca

Page 5: Curs 1 Corelatie Si Regresia

Curs 1. Domeniul econometriei. Regresia și corelația Conf.univ. dr. Emilia Gogu

5

economia să-şi fundamenteze mai riguros conceptele şi categoriile, ceea ce ar avea efecte salutare asupra preciziei datelor, iar econometria la rândul ei, trebuie să-şi perfecţioneze metodele ţinând seama de specificul în care evoluează variabilele în economie ca şi de imposibilitatea experimentelor (controlate statistic) în acest domeniu. Numai sprijinindu-se reciproc teoria economică şi econometria pot face ca economia să atingă nivelul de rigurozitate al ştiinţelor naturale.

Legat de relaţia teorie economică - econometrie şi, în ultima instanţă, de caracterizarea econometriei ca o economie de intenţie ştiinţifică, merită toată atenţia părerea econometricianului R.Frisch, conform căreia "experienţa a arătat că fiecare din următoarele 3 puncte de vedere, al statisticii2, al teoriei economice şi al matematicii, este de o condiţie necesară, dar nu suficientă pentru o înţelegere efectivă a relaţiilor cantitative din economia modernă; unificarea lor este aceea care asigură eficienţa. Econometria este tocmai această unificare".

Două dintre scopurile principale ale econometriei sunt: furnizarea de măsurări empirice pentru teoria economică și verificarea teoriei cu ajutorul testelor. Spre exemplu, teoria economcă prezice ca funcția cererii se îndreaptă de sus in jos. Estimările econometrice pot verifica sau demostra falsul acestei preziceri, și măsura care este magnitutinea acestui fenomen.

Cel mai important model economic este regresia. Regresiile sunt importante pentru economiști pentru că aceștia nu pot folosi simulări în economie. Ei pot observa datele, iar modelele trebuie să fie interpretate pentru a înlătura problemele de observare sau de analiză.

2 Curs 2. Metoda regresiei

În domeniul fenomenelor şi proceselor social-economice, iau naştere o serie de legături,

de interdependenţe, determinate de acţiunea unor cauze şi condiţii diferite, care influenţează mai mult sau mai puţin fenomenele existente.

Complexitatea fenomenelor economice şi sociale, caracterizarea lor cantitativă şi calitativă determină folosirea combinată a diferitelor ştiinţe în investigarea relaţiilor de cauzalitate, care stau la baza apariţiei şi dezvoltării lor.

Printre metodele şi modelele care s-au impus în studiul interdependenţei cele care se folosesc cel mai frecvent sunt corelaţia şi regresia statistică

Utilizarea acestor metode este justificată de necesitatea crescândă a reflectării într-o formă numerică adecvată a interdependenţei obiective dintre fenomenele social-economice în ceea ce priveşte natura, direcţia şi gradul de intensitate a legăturilor, care se manifestă într-o anumită perioadă de timp sau în dinamică.

Teoretic şi practic se demonstrează în mod ştiinţific că fenomenele sociale apar şi se dezvoltă ca urmare a unor cauze variate, care pot acţiona m acelaşi sens sau în sens opus şi cu grad diferit de intensitate. Complexitatea interacţiunii dintre fenomene este cu atât mai mare, cu cât ele aparţin unor colectivităţi mai numeroase Reiese că fenomenele sociale nu sunt, de regulă, fenomene univoc determinate, fiind rezultatul conjugării influenţei mai multor fenomene-cauză, iar în sistemul acesta de legături nu toate raporturile de dependenţă au aceeaşi importanţă, acţiunea unora dintre factori compensându-se reciproc.

De aceea, în analiza a raporturilor de dependenţă dintre fenomene, problema care se pune este aceea a măsurării relaţiei care există între două sau mai multe caracteristici cuprinse în programul unei cercetări concrete a fenomenelor social-economice de masă. Aceasta presupune, în primul rând, să se constate dacă între caracteristica x - denumită caracteristica factorială sau

2 Analiza statistica urmareste: a. descoperirea a tot ceea ce este permanent, esential si logic in variatia proceselor statistice; b. masurarea influentei factorilor care determina variatii in timp si spatiu; c. masurarea influentei factorilor care determina variatii din punct de vedere calitativ.

Page 6: Curs 1 Corelatie Si Regresia

Curs 1. Domeniul econometriei. Regresia și corelația Conf.univ. dr. Emilia Gogu

6

independentă şi caracteristica y caracteristică rezultativă sau dependentă - există sau nu un raport de dependenţă şi, în al doilea rând, dacă această relaţie există să se exprime printr-un indicator simplu sau sintetic de corelaţie, măsura în care caracteristica factorială x contribuie la formarea caracteristicii rezultative y sub aspectul naturii, direcţiei şi formei de legătură între ele.

În acest stadiu de cercetare statistică analiza calitativă ce trebuie să preceadă aplicarea uneia sau a alteia dintre metodele statistice este deosebit de importantă şi are un vădit caracter interdisciplinar. Aceasta permite ca, din ansamblul de legături existente în mod obiectiv între fenomenele aceleiaşi colectivităţi statistice, să se desprindă acelea care au caracter permanent şi sunt determinante în formarea nivelurilor concrete de dezvoltare a caracteristicii rezultative. Acest lucru apare cu atât mai necesar, cu cât legitatea de apariţie şi dezvoltare a fenomenelor social-economice fiind valabilă pentru întregul ansamblu, nu este sesizabilă, de obicei, în cadrul cercetării empirice, decât dacă datele se referă la un număr mare de cazuri individuale concrete, diferite ca forme de manifestare, aparţinând aceleiaşi colectivităţi.

Având în vedere toate aceste aspecte, trebuie precizat că metoda corelaţiei nu poate da rezultate bune decât dacă se lucrează cu un număr suficient de mare de cazuri individuale în care distribuţia abaterilor este aproximativ normală. Dacă această condiţie nu este satisfăcută, câmpul de acţiune a legii numerelor mari este limitat, iar concluziile desprinse în urma obţinerii anumitor indicatori de corelaţie pot ,da naştere unei interpretări eronate, ca urmare a reflectării neveridice a fenomenelor supuse cercetării statistice. Şi cu această ocazie este necesar ca procesul de analiză să pornească de la simplu la complex, de la fenomene la esenţă, de la o esenţă de un anumit grad la o esenţă de grad superior. Aceasta presupune ca, în analiza legăturilor dintre fenomene, să se folosească metoda abstractizării succesive a factorilor, prin care să se poată studia atât legăturile simple, imediate dintre două fenomene legate printr-o relaţie de cauzalitate directă, cât şi interacţiunea dintre factori.

Studiul econometric al interdependenţei dintre fenomene necesită identificarea legăturilor studiate de la cauză la efect, precum şi legăturile realizate prin intermediul unui şir de cauzalităţi. în acest sens, este necesar ca relaţiile de cauzalitate din interiorul fenomenelor complexe să fie studiate şi prezentate tot sub o formă de tendinţă valabilă la nivelul întregului ansamblu şi nu la nivelul unor valori individuale izolate. Aceasta conduce în mod obligatoriu la folosirea unor metode statistice m care să se ţină seama de formele de distribuţie de frecvenţă ale fenomenelor pentru care se studiază interdependenţele dintre ele şi care nu pot fi interpretate decât pe baza indicatorilor medii şi a celor de variaţie.

Înainte de aplicarea modelelor econometrice de analiza interdependenţa, este necesar să facem distincţia între corelaţie şi covariaţie.

Covariaţia presupune existenţa unor forme de repartiţie în timp, spaţiu sau organizare, pentru 2 sau mai multe variabile, dar care sunt independente între ele.

Corelaţia se poate defini ca interdependenţa existentă între diferitele fenomene sau caracteristici exprimate prin numere (cantitativ) sau prin cuvinte (calitativ) manifestată în cadrul fenomenelor social-economice de masă. Corelaţia presupune găsirea funcţiei analitice cu care să descriem statistic legătura dintre variabilele studiate. Trebuie precizat că metoda corelaţiei nu poate da rezultate bune decât dacă se lucrează cu un număr suficient de mare de cazuri individuale în care distribuţia abaterilor este aproximativ normală.

2.1 Tipuri de legături între fenomenele economice

Formele de manifestare a relaţiilor de interdependenţă sunt extrem de variate şi adesea destul de greu de sesizat. Pentru a le studia este necesar să fie clasificate în funcţie de unele criterii, după care se pot deosebi unele de altele.

După natura relaţiei de cauzalitate, legăturile dintre fenomene pot fi legături funcţionale şi legături statistice sau stohastice

Page 7: Curs 1 Corelatie Si Regresia

Curs 1. Domeniul econometriei. Regresia și corelația Conf.univ. dr. Emilia Gogu

7

1. Legăturile funcţionale sunt univoce, realizate direct între un fenomen-cauză şi un fenomen-efect. Deci, fenomenul-efect depinde de o singură cauză, care poate fi identificată de câte ori se produce, ceea ce înseamnă că, dacă condiţiile rămân constante, atunci unei valori a caracteristicii factoriale îi corespunde o singură valoare a caracteristicii rezultative. Ele se mai numesc şi legături de tip determinist.

Relaţia matematică dintre fenomenul-efect şi fenomenul-cauză, pentru legăturile de tip funcţional (determinist) este: yi=f(xi).

Ex Un exemplu de astfel de legătură funcţională este aceea dintre nivelul productivităţii muncii şi consumul specific de timp de muncă pentru produsul respectiv în cadrul unei perioade de timp. Se poate, cu uşurinţă, demonstra că, pe măsură ce scade timpul de producere a unei mărfi, cu atât creşte productivitatea muncii pentru produsul respectiv.

2. legături statistice, denumite şi legături stohastice, de tip nedeterminist descrise prin funcţia matematică : ),...,,( 21 kiiii xxxfy = şi se referă la fenomene complexe, influenţate de

mai multe cauze, care se manifestă în condiţii diferite. În această relaţie de multicauzalitate unii factori au caracter esenţial, alţii întâmplător. Cu cât relaţiile de cauzalitate sunt mai numeroase, cu atât gradul de variabilitate a

fenomenului-efect este mai mare. În astfel de cazuri, la fiecare valoare a caracteristicii factoriale îi poate corespunde o

distribuţie de valori a caracteristicii rezultative. Specific legăturilor statistice este faptul că în variaţia unei caracteristici rezultative exista

întotdeauna şi o componentă aleatoare, care apare ca rezultat al interacţiunii dintre factorii esenţiali şi cei întâmplători şi care poate fi inclusă între cei n factori sau poate fi explicitată în afara lor. Dacă se explicitează componenta aleatoare factorială (e) relaţia va fi:

Dacă fenomenele sunt de tip stohastic, variaţia factorilor aleatori urmează o lege de distribuţie normală normată pentru care media este egală cu zero şi dispersia cu unu, ceea ce înseamnă că pentru un număr mai mare de cazuri observate abaterile într-un sens şi altul se compensează reciproc şi pentru ecuaţia medie de tendinţă se foloseşte funcția liniară cu care se pot determina numeric parametrii ecuaţiilor funcţiei de regresie care se utilizează.

Legăturile de tip stohastic sunt cele mai frecvente în domeniul fenomenelor sociale şi economice. în cazul legăturii statistice, identificând un factor de influenţă, se poate constata că, pe măsura variaţiei acestuia, variază într-o măsură mai mare sau mai mică şi caracteristica apreciată şi dependentă de factorul ales.

De exemplu, legătura dintre înzestrarea tehnică a muncii şi productivitatea muncii este o legătură de tip statistic. La o creştere a înzestrării tehnice a muncii se obţine o creştere diferită a productivităţii muncii, deoarece productivitatea muncii depinde şi de alţi factori. Pentru a studia gradul de dependenţă a productivităţii muncii de gradul de înzestrare tehnică este necesar ca aici să se folosească metoda abstractizării, în care să se considere că numai acest factor ar fi esenţial şi variabil, iar ceilalţi factori ar avea acţiune comună cu caracter constant, chiar dacă în realitate, ei au o influenţă hotărâtoare şi variabilă asupra productivităţii muncii.

Trebuie remarcat că legăturile de tip statistic pot fi reciproce, adică efectul se transformă, la rândul lui, în cauză imediată sau mediată prin intermediul unor relaţii de cauzalitate în lanţ.

Pentru a studia legăturile de tip statistic este necesar să se identifice şi să se ierarhizeze factorii esenţiali, precum şi formele sub care se manifestă relaţiile de cauzalitate. Acest lucru este posibil numai dacă se înregistrează toate unităţile care formează colectivitatea de fenomene ce depinde de aceleaşi cauze esenţiale.

Când analiza relaţiilor de cauzalitate se studiază pe baza unor observări parţiale este necesar să se verifice, în prealabil, gradul de reprezentativitate al colectivităţii de selecţie şi să se verifice apoi gradul de semnificaţie al indicatorilor de corelaţie care s-au calculat, prin aplicarea unor teste de semnificaţie. Şi aici, interpretarea relaţiilor de cauzalitate, folosind datele de selecţie, se face în sens probabilist.

Page 8: Curs 1 Corelatie Si Regresia

Curs 1. Domeniul econometriei. Regresia și corelația Conf.univ. dr. Emilia Gogu

8

Varietatea formelor de manifestare a legăturilor statistice necesită m continuare o clasificare a lor după mai multe criterii. Un prim criteriu este acela al numărului factorilor înregistraţi.

A. După numărul caracteristicilor-factori luate în studiu, legăturile statistice pot fi: legături simple şi legături multiple.

Legăturile simple (unifactoriale) sunt acelea în care caracteristica rezultativă se studiază numai în funcţie de o singură caracteristică factorială considerată principală şi variabilă, iar celelalte caracteristici factoriale, chiar dacă au fost identificate şi înregistrate, se consideră cu acţiune constantă în toate cazurile individuale înregistrate.

Legăturile multiple (bifactoriale şi multifactoriale) presupun să se studieze dependenţa unei caracteristici rezultative în funcţie de mai mulţi factori înregistraţi. Interpretarea statistică a legăturilor multiple implică şi analiza legăturilor simple dintre toate caracteristicile înregistrate pentru calculul corelaţiei multiple.

B. După conţinutul caracteristicilor incluse în analiza de corelaţie, legăturile pot fi: de asociaţie şi de corelaţie.

Asociaţia statistică (asocieri statistice – când legătura se stabileşte între variabile calitative) exprimă relaţia de interdependenţă dintre două sau mai multe caracteristici exprimate calitativ sau între o caracteristică numerică şi una calitativă. De exemplu, între aptitudini şi profesia aleasă există o legătură de tip stocastic sau între gradul de îndemânare şi productivitatea muncii.

La folosirea caracteristicilor calitative este necesar să se găsească o posibilitate de cuantificare, pentru a putea trece apoi la calculul indicatorilorde corelaţie.

Corelaţia statistică (corelaţii statistice – când legătura se stabileşte între variabile cantitative ) exprimă relaţia de interdependenţă dintre două sau mai multe caracteristici exprimate numeric şi se poate măsura prin indicatori statistici de corelaţie. De exemplu, între nivelul de productivitate a muncii, vechimea în producţie şi nivelul salariilor există legături de corelaţie, care pot fi analizate atât ca legături simple, cât şi ca o legătură multiplă.

C. După direcţia în care se produc, legăturile pot fi: directe şi inverse. Legăturile directe (pe măsură ce creşte variabila factorială creşte şi cea rezultativă)

sau în acelaşi sens se produc atunci când, pe măsură ce se modifică nivelul de dezvoltare a caracteristicii factoriale, se modifică în acelaşi sens şi nivelul caracteristicii rezultative. În exemplul precedent, atât productivitatea muncii, cât şi vechimea în producţie influenţează m acelaşi sens variaţia salariaţilor.

Legăturile inverse (pe măsură ce creşte variabila factorială descreşte cea rezultativă) sunt acelea în care, pe măsură ce se modifice nivelul de dezvoltare a caracteristicii factoriale, se modifică m sens contrai nivelul caracteristicii rezultative. De exemplu, între nivelul productivităţi muncii şi nivelul costului unitar există o legătură statistică inversă.

D. După forma legăturii, ele pot fi:

rectiliniare - a cărei linie de tendinţă se măsoară cu ecuaţia funcţiei liniare), şi curbiliniare, exprimate prin ecuaţia unei funcţii exponenţiale, parabolice, hiperbolice

etc. Identificarea formei de realizare a legăturii este determinantă pentru măsurarea corectă a

corelaţiei dintre fenomenele social-economice.

Page 9: Curs 1 Corelatie Si Regresia

Curs 1. Domeniul econometriei. Regresia și corelația Conf.univ. dr. Emilia Gogu

9

E. După timpul în care se realizează, legăturile statistice pot fi: concomitente (sincrone) şi cu decalaj (asincrone).

Legăturile sincrone (concomitente) sunt cele care pot fi urmărite în dinamică pentru aceeaşi perioadă de timp. De exemplu, dacă se analizează corelaţia dintre dinamica productivităţii muncii şi a salariilor, se poate observa că pe măsură ce creşte productivitatea muncii, creşte şi mărimea salariilor încasate de muncitorii aceleiaşi colectivităţi statistice.

Legături asincrone (cu decalaj) apar atunci când caracteristicile factoriale încep să acţioneze asupra variaţiei caracteristicii rezultative, după scurgerea unei perioade timp. În cadrul analizei în timp, a legăturilor, trebuie verificat dacă, există decalaj până la începerea corelaţiei şi necesitatea stabilirii perioadei de corelare a seriilor după eliminarea decalajului. De exemplu, între mărimea investiţiilor în maşini şi instalaţii şi creşterea productivităţii muncii există un decalaj necesar asimilării în masă a noilor tehnologii, sau între dezvoltarea unei ramuri noi de producţie şi mărimea exportului există un decalaj corespunzător asigurării competitivităţii produselor pe plan internaţional.

Problemele care trebuie rezolvate în aplicarea metodelor de analiză a corelaţiilor pot fi

sintetizate astfel: � identificarea şi ierarhizarea factorilor care determină în mod obiectiv variaţia

caracteristicii rezultative; � verificarea gradului de cuprindere a unităţilor înregistrate. Dacă unităţile observate provin

dintr-o cercetare parţială de tip selectiv trebuie ca la interpretarea rezultatelor să se ţină seama de principiile teoriei probabilităţilor;

� sistematizarea datelor observate, astfel încât să nu se modifice gradul şi forma de variaţie a caracteristicile la care se aplică metoda corelaţiei;

� verificarea existenţei şi formei de legătură dintre caracteristicile corelate, în vederea alegerii corecte a modelului utilizat la măsurarea dependenţei statistice;

� calcularea adecvată a indicatorilor de corelaţie m funcţie de forma de legătură şi de natura informaţiei de care se dispune;

� aplicarea testelor de semnificaţie a indicatorilor de corelaţie pentru cazul în care ei provin dintr-un sondaj statistic. Interpretarea rezultatelor, verificarea ipotezelor, aplicarea testelor de semnificaţie a

funcţiilor şi parametrilor lor se face potrivit particularităţilor fenomenelor studiate în funcţie de timp, loc şi formă de organizare.

Dacă datele provin dintr-un sondaj statistic trebuie să se verifice reprezentativitatea ansamblului şi să se interpreteze probabilistic indicatorii calculaţi.

2.2 Metode de analiză a interdependenţei dintre fenomene

Aplicarea metodei corelaţiei pentru cercetarea interdependenţei dintre fenomenele şi procesele sociale şi economice trebuie să ţină seama de forma obiectivă în care apar şi se dezvoltă legăturile care urmează să fie studiate, precum şi de posibilitatea reflectării lor prin expresii numerice adecvate.

Luând în considerare primul aspect - cunoaşterea formei obiective de manifestare a legăturii -, aceasta se realizează printr-o analiză logică, bazată pe cunoştinţele teoretice ale disciplinelor de specialitate din domeniul respectiv şi verificată prin metode de calcul şi interpretare statistică.

În ceea ce priveşte cel de-al doilea aspect - posibilitatea reflectării legăturilor statistice prin expresii numerice adecvate -, depinde de natura specifică a fenomenelor care intră în raport

Page 10: Curs 1 Corelatie Si Regresia

Curs 1. Domeniul econometriei. Regresia și corelația Conf.univ. dr. Emilia Gogu

10

de interdependenţă şi de posibilitatea de măsurare a acestora, respectiv de natura informaţiei de care se dispune şi se poate folosi în măsurarea şi interpretarea acestor legături.

Ţinând seama de aceste două aspecte, la cercetarea legăturilor dintre fenomene se pot folosi atât metode simple de interpretare a legăturii, cât şi metode analitice, bazate pe interpretarea formei de dependenţă.

Pentru interpretarea legăturilor dintre fenomene se pot folosi metode de sistematizare şi verificare a legăturilor:

A. Metode parametrice simple şi analitice, B. Metode neparametrice

2.2.1 Metode parametrice simple

Metodele de sistematizare şi verificare a corelaţiei sunt: a) seriile interdependente, b) metoda grupării, c) metoda grafică, d) metoda tabelului de corelaţie e) metoda balanţelor

a) Metoda seriilor interdependente pe baza unor analize complexe imprimă cu ştiinţele care studiază acelaşi domeniu să înregistrăm şi să înscriem în datele în funcţie de prima variabilă factorială.

Pentru aceasta se pot folosi serii cronologice, teritoriale, distribuţii statistice referitoare la aceeaşi perioadă de timp. Dacă vrem să analizăm într-o companie care este legată de numărul de ore lucrate şi salariu vom nota cu x numărul de ore lucrate şi cu y salariul.

Nr crt ore lucrate x

salariu y

1 2 3 . . . n

x1

x2

x3

.

.

.

xn

y1

y2

y3

.

.

.

yn Dacă există legătură între cele două, şi ea este directă, pe măsură ce creşte variabila

factorială, descreşte şi rezultativă. Deşi relativ simplu, acest procedeu de analiză a legăturilor dintre fenomene prezintă o

serie de avantaje şi dă posibilitatea aplicării în continuare a unor procedee analitice de calcul statistic.

Un prim avantaj pe care-1 prezintă acest procedeu de analiză a corelaţiei dintre fenomene este faptul că se pot folosi date din diferite publicaţii, constituite sub formă de serii statistice.

Se pot supune corelaţiei serii statistice de timp, de spaţiu sau de distribuţie. Acest procedeu de analiză a corelaţiei constă în înscrierea în paralel a unor serii de date

statistice, în ordinea raporturilor de dependenţă dintre ele, respectiv se înscriu datele ordonate după valorile caracteristicii factoriale (x) şi, condiţionat de ele, cele ale caracteristicii rezultative (y).

Şi în cazul seriilor statistice interdependente se pot urmări raporturi de corelaţie simplă sau multiplă.

Pentru folosirea corelaţiei multiple, deci a verificării interdependenţei dintre mai multe variabile statistice, o problemă esenţială este aceea de a stabili ordinea de influenţă a caracteristicilor factoriale. în această situaţie există două posibilităţi:

Page 11: Curs 1 Corelatie Si Regresia

Curs 1. Domeniul econometriei. Regresia și corelația Conf.univ. dr. Emilia Gogu

11

• caracteristicile factoriale sunt independente între ele şi atunci ordinea de fixare a lor în analiza raporturilor de interdependenţă este m funcţie de importanţa fiecăreia dintre ele pentru procesul de formare a caracteristicii rezultative;

• caracteristicile factoriale sunt corelate între ele şi, în acest caz, este necesar ca ordinea de stabilire a factorilor să se facă în raport cu natura obiectivă a existenţei legăturii dintre factori.

Procedând în acest fel, se pot analiza nu numai legături directe, imediate, ci şi interdependenţa dintre factori.

Când în analiza de corelaţie se folosesc serii cronologice sau teritoriale, timpul şi, respectiv, spaţiul nu sunt utilizate decât pentru ordonarea seriilor, respectiv pentru obţinerea unor serii condiţionate în funcţie de timp sau de unitatea teritorială, fără ca acestea să fie cuprinse în calculele de corelaţie.

Folosind acest procedeu se compară vizual dacă există o anumită tendinţă de corelare a valorilor înscrise pe acelaşi rând. Deci, pe baza acestui procedeu se poate face numai verificarea existenţei corelaţiei şi a direcţiei în care ea se manifestă. Pe baza aplicării sale nu se poate verifica nici forma şi nici gardul de dependenţă a variabilei rezultative de factorii care o determină.

Pentru a măsura intensitatea dependenţei, pornind de la seriile interdependente, este necesar să se aplice în continuare metodele analitice de calcul statistic.

b) Metoda grupărilor reprezintă un model de analiză prin excelenţă calitativ, capabil să

surprindă aspecte esenţiale ale legaturilor dinte variabile. Studiul legaturilor se realizează după ce unităţile colectivităţii se grupează în funcţie de caracteristica factorială, iar pentru caracteristica rezultativă se calculează indicatorii derivaţi (mărimile relative sau medii) specifici fiecărei grupe.

Această metodă de studiere a legăturilor dintre fenomene necesită calcularea mediilor condiţionate ale variabilei rezultative xiy pentru grupele obţinute după variabila factorială.

Pe baza tabelului de corelaţie se pot calcula următoarele medii de grupă:

∑=

=

=

m

1jij

m

1jijj

i

n

nyy

Cu ajutorul acestei metode se pot analiza corelaţii simple şi multiple. În cazul corelaţiei simple, gruparea se face după variaţia caracteristicii factoriale în

funcţie de gradul de amplitudine a variaţiei. Caracteristica rezultativă poate să apară cu valori centralizate pe grupele caracteristicii factoriale sau sub formă de distribuţii condiţionate.

De exemplu, dacă se analizează, pe baza grupării, legătura dintre nivelul productivităţii muncii (x) şi salariul obţinut (y), atunci se vor grupa unităţile colectivităţii m funcţie de amplitudinea variaţiei caracteristicii factoriale - productivitatea muncii.

După modelul m care se distribuie mediile condiţionate ale variabilei rezultative faţă de variaţia caracteristicii factoriale se poate aprecia dacă fenomenele cercetate sunt sau nu corelate şi care este direcţia în care se manifestă legătura.

În cazul grupării combinate, folosită la analiza corelaţiei simple, se obţine un tabel de corelaţie, care, dată fiind importanţa folosirii lui în calcule de corelaţie, se tratează ca un procedeu separat.

În cazul corelaţiei multiple înseamnă că se analizează o singură caracteristică rezultativă variabilă de mai mulţi factori. Aici se pot folosi fie grupări simple obţinute după variaţia unei singure caracteristici factoriale, fie grupări combinate după variaţia mai multor caracteristici factoriale. In prima variantă - gruparea simplă - valorile celorlalte caracteristici apar ca medii

Page 12: Curs 1 Corelatie Si Regresia

Curs 1. Domeniul econometriei. Regresia și corelația Conf.univ. dr. Emilia Gogu

12

condiţionate de primul factor de grupare; în cea de a doua variantă -gruparea combinată - se corelează caracteristicile factoriale în ordinea lor de interdependenţă şi pentru caracteristica rezultativă se calculează numai valorile mediilor condiţionate de variaţia factorilor respectivi de la o grupă la alta. De exemplu, pentru a studia corelaţia dintre vechimea în producţie şi salariul obţinut, s-a organizat o observare selectivă pentru un eşantion de 200 de muncitori.

În acest caz se consideră vechimea în producţie ca fiind prima caracteristică factorială (xi) care este legată m mod obiectiv de cea de-a doua caracteristică factorială - producţia obţinută {xi), iar salariile obţinute (y) pot fi considerate ca dependente de ambii factori.

Metoda grupării are însă şi ea un grad limitat de analiză a corelaţiei. Această metodă dă posibilitatea sistematizării materialului obţinut din observare, în vederea aplicării calculelor de corelaţie. Ca metodă independentă, ea nu permite decât să se constate dacă între caracteristicile studiate există sau nu o corelaţie statistică şi, dacă există, să se aprecieze direcţia în care se produce, eventual să se sesizeze forma în care se manifestă. Identificarea formei de legătură nu se poate face fără a se întocmi graficul de corelaţie, iar verificarea ei, fără efectuarea analizei dispersionale.

Pentru ca metoda grupării să permită aplicarea corectă a calculelor de corelaţie este necesar să se ţină seama de anumite principii, care asigură o grupare ştiinţifică a datelor.

În primul rând, trebuie să se aleagă pentru efectuarea grupării numai acele caracteristici care corespund unui raport obiectiv de interdependenţă şi pentru care se pot stabili grupele şi intervalele de grupare corespunzătoare scopului analizei. Odată precizate caracteristica factorială şi cea rezultativă este necesar să se stabilească, în continuare, numărul de grupe şi mărimea intervalelor în funcţie de amplitudinea variaţiei şi tendinţa manifestată în distribuirea frecvenţelor. Pentru a reda cât mai fidel forma de variaţie a caracteristicilor este indicat să se folosească un număr mai mare de grupe decât în cazul folosirii grupării ca metodă de analiză a structurii colectivităţii.

În al doilea rând, se recomandă ca, pe cât posibil, să se evite groparea pe intervale neegale pentru ca densitatea de repartiţie a frecvenţelor pe grupe să nu influenţeze în mod subiectiv asupra formei în care se manifestă legătura dintre caracteristicile studiate. In cazul în care sistematizarea datelor se face după două caracteristici de grupare şi se analizează o corelaţie simplă este indicat ca şi pentru caracteristica rezultativă să se folosească tot intervale egale de grupare şi acelaşi număr de grupe, deoarece în calculele de corelaţie apar totdeauna valori perechi, înregistrate la nivelul fiecărei unităţi sau al aceleiaşi grupe.

În al treilea rând, metoda grupării trebuie să fie combinată cu calcularea mediilor şi a indicatorilor relativi pe grupe. Folosind mediile de grupă se pot înlătură influenţele factorilor neesenţiali, păstrându-se ceea ce este esenţial şi tipic în formarea fenomenului studiat, legătura dintre fenomene realizându-se, după cum se ştie, numai ca o tendinţă-generală, valabilă în medie pentru întregul ansamblu de unităţi statistice.

De reţinut că metoda grupării nu trebuie folosită decât în cazul unui număr mare de observaţii, când aplicarea metodelor analitice de calcul nu se poate face fără gruparea prealabilă a datelor individuale.

c. Metoda grafică Cu ajutorul acestei metode se verifică dacă între fenomenele supuse corelaţiei există

legături statistice şi dacă ele există să se poată aprecia forma şi sensul în care ele se realizează. în plus, metoda grafică se poate folosi şi ca instrument de prezentare a rezultatelor analizei de corelaţie, după ce au fost calculaţi indicatorii care exprimă numeric gradul de legătură dintre fenomenele cercetate, servind astfel pentru compararea datelor distribuţiilor empirice cu valorile teoretice determinate prin aplicarea metodelor analitice de calcul.

Cel mai frecvent, metoda grafică se foloseşte pentru interpretarea legăturilor dintre două fenomene ce se pot exprima sub forma a două variabile statistice. Pentru aceasta se foloseşte sistemul axelor rectangulare, respectiv cadranul I, m care valorile lui x şi y sunt pozitive. Pentru

Page 13: Curs 1 Corelatie Si Regresia

Curs 1. Domeniul econometriei. Regresia și corelația Conf.univ. dr. Emilia Gogu

13

analiza datelor de corelaţie se reprezintă grafic pe axa OX (axa absciselor) - valorile caracteristicii factoriale, iar pe axa OY (axa ordonatelor), valorile caracteristicii rezultative. Pentru a uşura interpretarea datelor, cele două scări de reprezentare nu încep cu punctul de origine (unde x şi y au valoarea zero), ci în mod convenţional cu valorile cele mai apropiate de limitele inferioare înregistrate pentru cele două caracteristici, deci se face o întrerupere de canal pe ambele axe.

La stabilirea scărilor de reprezentare pe cele două axe se recomandă să se asigure o anumită proporţionalitate între ele în raport cu gradul de variaţie a ambelor caracteristici. Dacă se asigură o proporţie justă între cele două scări de reprezentare, atunci graficul este întocmit corect şi, într-adevăr, cu ajutorul lui se va putea prezenta forma obiectivă în care se produce legătura. Stabilind astfel cele două scări de reprezentare, se va asigura un câmp de corelaţie corespunzător tipului de dependenţă dintre cele două variabile.

Dacă se dispune de un număr mare de observaţii statistice, atunci se va obţine pe grafic un număr mare de puncte de intersecţie ale valorilor caracteristicii factoriale x cu cele ale caracteristicii rezultative y. Din această cauză, în literatura de specialitate, acest grafic este denumit „graficul norilor de puncte".

Graficul de corelaţie denumit şi corelogramă sau graficul norului de puncte, permite să

identifice cu ajutorul ajustării care este funcţia analitică corespunzătoare valorilor noastre. Prin ajustare înţelegim înlocuirea valorilor empirice obţinute pentru o observaţie statistică

cu valori teoretice calculate după un model statistic. În cazul în care am întocmit un grafic de corelaţie putem face o ajustare vizuală şi după aceea aplicăm modelul de calcul şi o ajustare numerică. Ajustarea vizuală constă în trasarea unei linii drepte sau a unei curbe care să treacă cât mai aproape de valorile empirice înscrise în grafic.

Cu ajutorul „graficului norilor de puncte" se pot rezolva, în principal, douâ aspecte ale analizei corelaţiei dintre fenomene:

a) existenţa şi direcţia legăturii; b) forma de legătură dintre cele două variabile. Interpretând modul de împrăştiere a punctelor pe grafic se poate aprecia care este tendinţa

de asociere a celor două caracteristici pentru flecare unitate în parte. Fenomenele de masă, după cum s-a mai arătat, sunt influenţate şi de existenţa unor factori întâmplători, care fac ca regularităţile de producere a legăturilor să se abată uneori de la forma teoretică de manifestare a legăturii. Astfel, analizând tendinţa pe care o prezintă pe grafic poziţia punctelor corespunzătoare frecvenţei de apariţie a valorilor individuale ale celor două caracteristici, se poate aprecia dacă în medie există legătură, sau fenomenele sunt independente între ele, iar în cazul în care există legătură - care este sensul producerii ei.

Cel mai des, în legăturile existente între două variabile din domeniul economic, distribuţia punctelor pe grafic apare sub cele trei variante prezentate în figurile de mai jos:

Interpretând foram de legătură putem avea corelaţii :

0

2

4

6

8

10

0 5 10 15 20

0

1

2

3

4

5

6

7

8

9

10

0 5 10 15 20

Page 14: Curs 1 Corelatie Si Regresia

Curs 1. Domeniul econometriei. Regresia și corelația Conf.univ. dr. Emilia Gogu

14

Legătură liniară directă Legătură liniară inversă

Lipsă de legătură

Metoda grafica este utilizată cu bune rezultate pentru alegerea funcţiei analitice care se

studiază (în cazul regresiei şi corelaţiei). Faţă de celelalte metode prezentate anterior, metoda grafică prezintă avantajul că, cu

ajutorul ei, se poate constata nu numai existenţa legăturii şi sensul ei, dar mai ales forma către care tinde să se realizeze. Metoda grafică se poate folosi, deci, atât ca metodă independentă de prezentare a corelaţiei, cât şi ca instrument de stabilire a formei de legătură, fiind considerată calea cea mai sigură de a alege corect funcţia analitică avută spre studiu.

d. Metoda tabelului de corelaţie care are la baza tabelul de corelaţie, tabel cu dublă intrare reprezentând o formă specială a unei grupări combinate, în care separarea pe grupe a unităţilor se face după variaţia ambelor caracteristici – factorială şi rezultativă.

Cu ajutorul tabelului de corelaţie în funcţie de modul de distribuţie a frecvenţelor, în tabel

se obţin informaţii cu privire la existenţa şi direcţia legăturii dintre cele două variabile În unele cazuri direcţia legăturii este dată de poziţia diagonalei în jurul căreia se grupează

frecvenţele: când diagonala leagă unghiul stâng de sus al tabelului cu unghiul drept de jos - legătura este directa, iar când uneşte unghiul stâng de jos cu unghiul drept de sus, se apreciază că între cele două caracteristici există o legătură în sens invers.

Procedeul tabelului de corelaţie este, de fapt, o combinare a metodei grupării cu

principiile de construire şi interpretare a unei reprezentări grafice. Tabelul de corelaţie este o formă specială de prezentare a rezultatelor unei grupări

combinate obţinute după variaţia celor două caracteristici. În cazul tabelului de corelaţie, gruparea unităţilor se face după ambele caracteristici, atât

după variaţia caracteristicii factoriale, cât şi după variaţia caracteristicii rezultative. La întocmirea tabelului de corelaţie trebuie să se respecte anumite reguli stabilite prin analogie cu construcţia graficului de corelaţie, ţinând seama şi de condiţiile impuse de metoda grupării.

În primul rând, se recomandă ca pentru ambele caracteristici după care se face gruparea să se stabilească intervale egale de grupare, în raport cu amplitudinea variaţiei fiecărei caracteristici.

În al doilea rând, se recomandă să se folosească, pe cât posibil, un număr egal de grupe atât pentru caracteristica factorială, cât şi pentru caracteristica rezultativă. Pentru a desprinde cât mai bine modul de corelare a celor două caracteristici este indicat să se folosească un număr suficient de mare de grupe în scopul asigurării unui câmp cât mai mare de corelaţie şi al redării corecte a formei obiective a relaţiei de interdependenţă.

0

1

2

3

4

5

6

7

8

9

10

0 5 10 15 20

Page 15: Curs 1 Corelatie Si Regresia

Curs 1. Domeniul econometriei. Regresia și corelația Conf.univ. dr. Emilia Gogu

15

În al treilea rând, se recomandă ca modul de înscriere a celor două caracteristici în tabelul de corelaţie să fie analog modului de prezentare a lor în graficul de corelaţie. Potrivit acestui principiu, grupele după variaţia caracteristicii factoriale se trec pe orizontală, în ordine crescătoare, în capetele coloanelor, iar grupele formate după variaţia caracteristicii rezultative se trec pe verticală, în ordine descrescătoare, în capetele rândurilor. Numărul unităţilor colectivităţii cercetate, purtătoare a celor două caracteristici (frecvenţele), se trec în rubricile formate din întretăierea coloanelor cu rândurile tabelului. După modul de distribuţie, în tabel se pot aprecia existenţa, intensitatea şi direcţia legăturii dintre cele două caracteristici studiate. Interpretarea tabelului de corelaţie se face ca şi în cazul graficului de corelaţie, adică, dacă frecvenţele se concentrează către prima bisectoare, atunci legătura este directă; dacă tind să se concentreze către cea de-a doua bisectoare legătura este inversă şi dacă se împrăştie fără nici o regularitate pe toată suprafaţa tabelului, variaţia celor două caracteristici este independentă una de alta.

Tabelul de corelaţie, alcătuit în mod analog cu graficul de corelaţie, are următoarea schemă:

Valorile

caracteristicii de grupare X

Variantele sau valorile caracteristicii dependente Y

Volumul grupei

y1 y2 … yj … ym x1 n11 n12 ... n1j … n1m n1. x2 n21 n22 … n2j … n2m n2. ... ... ... … ... … ... ... xi ni1 ni2 … nij … nim ni. ... ... ... … ... … ... ... xr nr1 nr2 … nrj … nrm nr.

Total n.1 n.2 … n.j … nm ∑=∑==

m

1jj

r

1ii nn ..

Acest tabel de corelaţie se prezintă astfel în cele patru unghiuri ale sale: a) unghiul din stânga jos: x şi y au valori minime; b) unghiul din stânga sus: x are valoare minimă, iar y are valoare maximă; c) unghiul din dreapta sus: x şi y au valori maxime; d) unghiul din dreapta jos: x are valoare maximă, iar y are valoare minimă. După modul de asociere a nivelurilor celor două caracteristici se distribuie frecvenţele m

cadrul tabelului şi se poate interpreta care este tendinţa de formare a raportului de corelaţie între cele două variabile, x şi y.

Dacă tabelul prezintă în titlurile rândurilor variabila „x;" şi în titlurile coloanelor variabila „y,", atunci direcţia legăturii se interpretează invers decât m graficul de corelaţie.

Modul de aşezare a frecventelor în jurul diagonalei ne dă posibilitatea să apreciem

intensitatea legăturii: concentrarea intensă a frecventelor în jurul diagonalelor indică existenţa unei legaturi strânse între caracteristici. În alte cazuri, frecventele se grupează pe diverse curbe. Dacă frecvenţele se repartizează pe întregul tabel fără nici o regularitate, atunci ori nu există legătura, ori aceasta este foarte slabă.

e) Metoda balanţelor. Această metodă serveşte pentru analiza relaţiilor care există în

cadru unui proces stocastic în care se pot analiza relaţiile de interdependenţă dintre diferitele elemente ale procesului, dintre diferitele laturi ale lui sau dintre diferitele etape sau momente în care el se desfăşoară.

Spre deosebire de metodele prezentate anterior, care se referă la analiza interdependenţei dintre variabile statistice, metoda balanţelor serveşte pentru analiza relaţiilor care există în cadrul unui proces stocastic. In cazul unui proces stocastic, se pot analiza relaţiile de interdependenţă

Page 16: Curs 1 Corelatie Si Regresia

Curs 1. Domeniul econometriei. Regresia și corelația Conf.univ. dr. Emilia Gogu

16

dintre diferitele elemente ale procesului, dintre diferitele laturi ale lui sau dintre diferitele etape sau momente în care el se desfăşoară.

Ca metodă, balanţele sunt, de fapt, o dezvoltare a metodei grupărilor aplicate, nu a unor date individuale, ci a unor mărimi sintetice, caracteristice procesului social-economic analizat. Şi în acest caz, metoda grupării pe elemente sau laturi ale procesului se foloseşte împreună cu mărimile medii şi mărimile relative, care permit reliefarea legăturilor obiective existente ce se formează la nivelul întregului ansamblu, prin compensarea abaterilor individuale din interiorul procesului analizat.

În forma sa cea mai generală, metoda balanţei este folosită pentru analiza procesului reproducţiei sociale şi economice a întregii economii. Cu ajutorul ei se interpretează corelaţiile care se formează în mod obiectiv între elementele procesului de reproducţie, pe ramuri şi forme de proprietate; corelaţiile dintre producţie, consum şi acumulare; între reproducţia avuţiei naţionale şi a produsului intern brut şi net.

Un loc din ce în ce mai important, în sistemul de balanţe al economiei naţionale, îl ocupă balanţa legăturilor dintre ramuri - întocmită sub formă de balanţă şah, denumită şi balanţa input-output.

În cadrul balanţei şah, aceleaşi grupe se trec atât în subiectul, cât şi în predicatul tabelului, iar în rubricile ei se înregistrează schimbarea unui fenomen care are ca puncte de plecare grupele din predicatul tabelului. Aceasta înseamnă că în subiectul tabelului se vor întâlni ramurile, în calitatea lor de producători, iar în predicatul tabelului, aceleaşi ramuri, m calitate de consumatori sau de elemente de acumulare. Pe baza datelor din balanţă se pot caracteriza multiplele legături reciproce ce se formează în mod obiectiv pe linie de producţie-consum-acumulare-investiţii, care iau naştere între grupele colectivităţii m cadrul procesului reproducţiei sociale. Balanţa şah permite deci caracterizarea în expresie numerică a legăturilor de corelaţie multiplă dintre agregatele ce măsoară într-un mod unitar întregul mecanism al ramurilor şi subramurilor, pe unităţi administrative şi economice ale economiei unei ţări. Caracterizarea acestor interdependenţe, deosebit de complexe, bazate pe un bogat material informativ, se face cu ajutorul calculului matriceal, folosind echipamentele modeme de calcul.

Metoda balanţelor este deci caracteristică analizei proceselor sociale şi economice ce se produc pe baza unor legături de tip stocastic, a căror interpretare nu este posibilă decât prin folosirea unui sistem de indicatori totalizatori sau medii. Prin interpretarea datelor din balanţă se pot stabili legăturile, precum şi gradul de intensitate a acestora, prin utilizarea unor indicatori de corelaţie care să exprime numeric relaţiile ce se manifestă în interiorul procesului social-economic analizat.

2.2.2 Metode analitice de măsurare şi interpretare a legăturilor În paragraful precedent au fost prezentate metodele de verificare a legăturilor dintre

fenomenele şi procesele economice de masă, ca momente iniţiale ale cercetării statistice a corelaţiile dintre fenomene; cu ajutorul lor se face o sistematizare a informaţiilor necesare aplicării metodelor analitice de calcul şi interpretare statistică.

Aplicarea metodelor analitice trebuie să aibă în vedere, în primul rând, aspectele scoase în evidenţă în urma efectuării analizei calitative care trebuie să preceadă orice fel de cercetare statistică, deci cunoaşterea conţinutului social-economic al relaţiilor de cauzalitate dintre fenomene şi, în al doilea rând, să folosească cu discernământ concluziile formulate prin aplicarea metodelor simple de corelaţie, prin care s-au verificat existenţa, direcţia şi forma în care se realizează legătura dintre fenomene.

În cazul în care nu se ţine cont de aceste principii, calculul statistic devine un simplu exerciţiu formal pentru determinarea unor indicatori de corelaţie nesemnificativi.

Page 17: Curs 1 Corelatie Si Regresia

Curs 1. Domeniul econometriei. Regresia și corelația Conf.univ. dr. Emilia Gogu

17

Pentru a evidenţia legea care se manifestă în fiecare legătură în parte, pentru a măsura statistic tendinţa sa de manifestare se folosesc ecuaţiile de estimare corespunzătoare unei funcţii analitice care exprimă forma de legătură dintre caracteristica factorială şi cea rezultativă. Această funcţie este cunoscută sub denumirea de funcţie de regresie, iar reprezentarea ei grafică se face prin linia (curba) de regresie. Alegerea corectă a funcţiei de regresie, care să exprime cel mai bine legătura dintre cele două caracteristici, este deosebit de importantă pentru determinarea valorii statistice a indicatorilor de corelaţie. Forma legăturii dintre cele două caracteristici se calculează în funcţie de modul de corelare a valorilor caracteristicii rezultative cu valorile caracteristicii factoriale alese. Dacă funcţia de regresie nu a fost aleasă în mod corespunzător, atunci rezultatele analizei, respectiv valorile indicatorilor de corelaţie, vor fi denaturate.

Pentru alegerea corectă a funcţiei de regresie este necesar să se reprezinte legătura dintre cele două serii de distribuţie printr-un grafic de corelaţie, care să permită interpretarea vizuală a tendinţei de asociere a celor două caracteristici perechi. Pe baza reprezentării grafice se poate aprecia apoi dacă legătura este de formă rectilinie sau curbilinie. Tot ca instrument de verificare a veridicităţii funcţiei de estimare, pentru măsurarea legături dintre cele două variabile în cadrul colectivităţii înregistrate, se pot folosi şi metodele de analiză dispersională, cu interpretarea corespunzătoare rezultatelor în urma aplicării ei.

Funcţia de regresie exprimă statistic modul în care caracteristica rezultativă (y) s-ar modifica dacă ar varia numai valorile caracteristicii factoriale (x), iar ceilalţi factori ar fi consideraţi cu acţiune constantă în toate cazurile observate. Celelalte caracteristici, fiind considerate ca neesenţiale şi cu acţiune constantă asupra tuturor unităţilor la care se măsoară raportul de interdependenţă, înseamnă că influenţa lor este sintetizată într-o singură valoare cu caracter de medie. Legătura dintre cele două variabile se realizează tot sub formă de tendinţă, ceea ce înseamnă că pentru estimare se va folosi tot o ecuaţie medie de tendinţă corespunzătoare formei identificate pe grafic.

Metoda analizei regresiei şi corelaţiei s-a născut în legătură cu cercetările din biologie, s-a dezvoltat pe baza experimentelor în genetică şi agrobiologie, extinzându-se apoi la alte domenii ştiinţifice, tehnice şi economice, cunoscând astăzi aplicaţii m mai toate domeniile.

Apariţia şi dezvoltarea acestei metode sunt legate în Anglia de numele lui Francis Galton (1822-1911), biolog şi matematician, şi al lui Karl Pearson (1857-1936) matematician, biolog şi filosof. Primul coeficient de corelaţie se pare că a fost formulat de matematicianul şi statisticianul francez Auguste Bravaia (1811-1863).

Un promotor al dezvoltării metodelor statistice aplicate a fost revista „Biometrika", înfiinţată în 1901, unde s-au expus cele mai importante contribuţii la teoria şi tehnica regresiei şi corelaţiei.

Un rol important în dezvoltarea metodelor statistice 1-a avut celebra staţiune Rothamsted, unde au lucrat şi R.A. Fisher, M.G. Kendall şi alţii.

Problema de la care au plecat Galton şi Pearson, în anii 1890, în analiza regresiei a fost din domeniul eredităţii. Galton a studiat corelaţia dintre mărimea medie a părinţilor şi mărimea medie a copiilor, constatând o strânsă legătură care poate fi studiată cu ajutorul unei funcţii analitice. Constatând că, în timp, se manifestă o tendinţă de scădere a înălţimii descendenţilor, ecuaţiile funcţiei analitice cu care a măsurat această tendinţă a numit-o ecuaţie de regresie, iar metoda de calcul şi analiză a corelaţiei cu ajutorul funcţiilor analitice de estimare, metoda regresiei.

Această metodă a corelaţiei din domeniul biologiei s-a extins şi în domeniul agrobiologiei şi, mai târziu, şi în domeniul economic.

Iniţial, regresia şi corelaţia erau legate numai de repartiţia normală. Mai târziu s-au cercetat şi fenomene care nu aveau o repartiţie normală, dar erau corelate între ele. De asemenea, trebuie menţionat faptul că metoda corelaţiei s-a aplicat avându-se în vedere două posibilităţi în funcţie de volumul datelor de care se dispune: aplicarea în cazul unei colectivităţi generale şi

Page 18: Curs 1 Corelatie Si Regresia

Curs 1. Domeniul econometriei. Regresia și corelația Conf.univ. dr. Emilia Gogu

18

aplicarea în cazul unui eşantion obţinut cu ajutorul unor metode de sondaj, pentru corelaţii simple şi multiple, liniare şi neliniare. În cel de-al

doilea caz, după cum s-a mai arătat, interpretarea se face cu ajutorul probabilităţilor.

2.3 Metode şi procedee de analiză a legăturilor dintre fenomene

Corelaţia liniară simplă prin metoda regresiei Metodele de studiere a legaturilor prezentate anterior au ca deficienţă principală faptul că

deşi permit constatarea legăturii şi caracterulul ei, nu o pot măsura printr-un indicator sintetic. Acest inconvenient este înlăturat prin utilizarea metodei regresie.

Metoda regresiei constituie o metoda statistică analitică de cercetare a legăturii dintre variabile cu ajutorul unor funcţii denumite funcţii de regresie.

Notând cu Y variabile dependenta şi cu x1 , x2 ... xn variabilele independente obţinem ecuaţia de regresie y = f (x1 , x2 ... xn).

După ce am stabilit funcţia care devine funcţia de ajustare, trecem la măsurarea corelaţiei cu ajutorul metodei regresiei. Această metodă presupune să aibă înregistrate datele cu privire la variabilele factorială şi a celei rezultative.

În cazul în care, prin reprezentarea grafică, se observă o tendinţă de legătură de tip liniar, în care variaţia caracteristicii rezultative prezintă o anumită tendinţă de uniformitate a modificării sale absolute sub influenţa caracteristicii, considerată ca fiind determinantă, ecuaţia care exprimă această formă de legătură va fi:

ix bxaY +=

în care:

ixY - valoarea ecuaţiei de regresie medie;

xi – variabilă factorială Ecuaţia de regresie, ( xY ) se notează, de obicei, ca medie, deoarece mărimea sa exprimă

tendinţa de realizare a corelaţiei dintre cele două variabile x şi y, valabilă pentru întregul ansamblu de date şi nu în fiecare caz în parte care se măsoară prin ecuaţiile individuale de regresie. Dacă, într-adevăr, legătura este liniară şi factorul este determinant, atunci valorile ecuaţiilor de regresie, calculate pentru toate unităţile observate pe baza valorii individuale a variabilei x, trebuie să prezinte abateri minime faţă de valorile empirice. Pentru măsurarea tendinţei de realizare a legăturii, în ecuaţia medie de regresie liniară cei doi parametri au şi ei conţinut de valori medii şi trebuie să fie reprezentativi pentru cele mai multe dintre unităţile observate.

Parametrul “a” reprezintă ordonata la origine şi arată la ce nivel ar fi ajuns valoarea

caracteristicii Y dacă toţi factorii - mai puţin cel înregistrat - ar fi avut o acţiune constantă asupra formării ei. În acest caz, valorile individuale ale caracteristicii rezultative ar fi fost egale între ele şi deci egale cu media lor. În sens geometric este valoarea de la care începe să apară corelaţia cu factorul ales.

Parametrul “b” se mai numeşte şi coeficient de regresie şi reprezintă, în sens

geometric, panta liniei drepte. Coeficientul de regresie “b“ arată care este gradul de influenţă a caracteristicii alese drept caracteristică factorială x şi măsoară cu cât se schimbă în medie variabila Y în cazul în care variabila X se modifică cu o unitate.

Page 19: Curs 1 Corelatie Si Regresia

Curs 1. Domeniul econometriei. Regresia și corelația Conf.univ. dr. Emilia Gogu

19

Coeficientul de regresie arată nu numai gradul de influenţă a factorului x asupra variabilei y, ci şi sensul în care se realizează legătura. Valoarea coeficientului de regresie b poate fi mai mare decât zero, mai mică decât zero şi egală cu zero.

În cazul în care b > 0, atunci legătura de corelaţie este directă, deoarece pe măsură ce cresc valorile lui x, cresc şi valorile ecuaţiei de regresie calculate.

În cazul în care b < 0, legătura este de sens invers, adică pe măsură ce creşte valoarea aracteristicii-factor, scade valoarea caracteristicii rezultative.

Când b = 0, cele două variabile sunt independente între ele şi atunci xy = a, deci

valoarea medie a ecuaţiei de regresie este egală cu valoarea medie a caracteristicii rezultative (

xy = y ). Aceasta înseamnă că variabila y nu este în funcţie de variabila x, care s-a considerat ca

factor de influenţă, ci variaţia ei depinde de ceilalţi factori, care s-au considerat ca fiind cu acţiune constantă pentru toate unităţile colectivităţii.

Pentru a determina ecuaţia medie de regresie, şi, cu ajutorul ei, valorile ecuaţiei de regresie corespunzătoare tuturor valorilor variabilei x, este necesar să se calculeze valorile celor doi parametri a şi b.

Dacă factorul x este determinant pentru variabila y, atunci valorile estimate prin funcţia de regresie trebuie să dea abateri minime faţă de cele înregistrate pentru variabila rezultativă. Cum aceste abateri se pot produce într-un sens sau altul, ele sunt ridicate la pătrat şi, din această cauză, metoda de verificare a acestei condiţii se mai numeşte şi metoda celor mai mici pătrate.

Cu alte cuvinte, dacă y depinde de x, atunci trebuie să se îndeplinească condiţia ca suma pătratelor abaterilor valorilor empirice de la valorile ecuaţiilor lor de regresie să fie minimă.

Parametrii “a” şi “b” se determină din sistemul de ecuaţii normale obţinut prin metoda

celor mai mici pătrate (∑ =− minim)( 2

ixi Yy ).

Dacă modelul ales este corelaţia liniară simplă corespunde datelor empirice, atunci ecuaţia de regresie consideră că valorile teoretice obţinute prin celor mai mici pătrate să prezinte

abateri minime. (Pentru tendinţa liniară această ecuaţie este : [ ]∑ =+− minim)( 2ii bxay ).

Parametri ecuaţiei în acest caz se determină prin rezolvarea următorului sistem de ecuaţii:

=+

=+

∑∑∑∑∑

iiii

ii

yxxbxa

yxbna2

Dacă se foloseşte metoda determinanţilor se obţine:

∑∑∑∑∑∑

∑∑∑∑∑∑∑

−== 22

2

2

2

)( ii

iiiii

ii

i

iii

ii

xxn

xyxxy

xx

xn

xyx

xy

a

∑∑∑∑∑

∑∑∑∑∑∑

−==

22

2

)( ii

iiii

ii

i

iii

i

xxn

yxyxn

xx

xn

yxx

yn

b

Acest procedeu mai simplu permite obţinerea cu uşurinţă a sistemului de ecuaţii normale

şi pentru corelaţia liniară multiplă, unde se lucrează cu un număr mai mare de parametri corespunzător numărului caracteristicilor factoriale .

Page 20: Curs 1 Corelatie Si Regresia

Curs 1. Domeniul econometriei. Regresia și corelația Conf.univ. dr. Emilia Gogu

20

Rezolvând sistemul de ecuaţii, se obţin valorile lui a şi b şi se calculează care este ecuaţia de regresie pentru fiecare valoare a caracteristicii factoriale. Aceste valori ale ecuaţiilor de regresie se mai numesc şi valorile teoretice ale caracteristicii y în funcţie de x, iar operaţia de înlocuire a termenilor reali y cu valorile ecuaţiilor de regresie (valori teoretice) se numeşte ajustare.

Deci, prin ajustarea unei serii statistice de distribuţie se înţelege înlocuirea

termenilor empirici (termeni reali obţinuţi prin observare) cu termeni teoretici, calculaţi pe baza unui model matematic, care arată tendinţa de variaţie a caracteristicii rezultative, dacă ar fi depins numai de variaţia lui x considerat.

În analiza corelaţiei dintre fenomene, valorile ecuaţiilor de regresie au un rol important. Ele pot fi considerate ca valori teoretice, care exprimă tendinţa de manifestare a interdependenţei dintre fenomene. Dacă în procesul de interacţiune dintre ele nu ar interveni şi alţi factori esenţiali sau întâmplători care să modifice gradul de legătură pentru fiecare unitate în parte.

Coeficientul de corelaţie Coeficientul de corelaţie liniară simplă poate să ia valori între -1 şi +1. Între -1 şi 0, legătura dintre cele două variabile este de sens invers şi este cu atât mai

intensă, cu cât se apropie de –1. Între 0 şi +1, legătura dintre cele două variabile este directă şi este cu atât mai intensă, cu

cât se apropie de 1. Formulă de calcul simplificat pentru seria bidimensională simplă

[ ] [ ]2222/)()(

))((

∑∑∑∑∑∑∑

−⋅−

−=

iiii

iiii

xyyynxxn

yxyxnr

Pentru verificarea semnificaţiei coeficientului de corelaţie liniară simplă, se aplică, cel mai frecvent, testul t:

21 2

/

/−⋅

−= n

r

rt

xy

xy

unde, n reprezintă numărul de perechi de valori. Valoarea calculată se compară cu cea tabelară stabilită probabilistic pentru un nivel de

semnificaţie 2/1 σ−=P şi cu n-2 grade de libertate. Dacă tabelarcalculat tt > , se verifică ipoteza semnificaţiei coeficientului de corelaţie iar dacă

tabelarcalculat tt < , legătura este nesemnificativă şi trebuie căutat un alt factor esenţial cu care să se

studieze corelaţia. Raportul de corelaţie În cazul în care dispunem de un număr mic de perechi de valori (xi, yi), negrupate:

• pornind de la devianţa factorială :

∑∑

−=

2

2

/ )(

)(

yy

yYR

i

xxy

i sau

• pornind de la devianţa reziduală :

∑∑

−−=

2

2

/)(

)(1

yy

YyR

i

xixy

i

unde ixY reprezintă valorile ajustate indiferent de modelul de regresie selectat.

Page 21: Curs 1 Corelatie Si Regresia

Curs 1. Domeniul econometriei. Regresia și corelația Conf.univ. dr. Emilia Gogu

21

Raportul de corelaţie poate lua valori de la zero la +1; interpretarea sensului legăturii se face după funcţia de regresie.

Dacă xyxy rR // = se confirmă ipoteza legăturii liniare şi această relaţie este considerată

un test de verificare a legăturii.

În cazul unei serii bidimensionale avem abaterile: - abaterea dintre yi şi ecuaţia de regresie; - abaterea dintre ecuaţia de regresie şi medie; - abaterea dintre yi şi media lor

între cele 3 abateri există relaţia ( ) ( )yYYyyyii xxii −+−=−

Astfel putem determina: Dispersia totală

n

yy i

y

∑ −

=

2

2

)(

σ

• Dispersia de grupă:

n

YyIXi

ry

∑ −

=

2

2/

)(

σ

Dispersia dintre grupe

n

yYi

xy

∑ −

=

2

2/

)(

σ

Regula adunării dispersilor:

2/

2/

2xyry σσσ +=

Pe baza regulii de adunare a dispersiilor se pot calcula: Coeficientul de determinaţie )( 2

/ xyR :

1002

2/2

/ ⋅=σ

σ xy

xyR

• Coeficientul de nedeterminaţie:

1002

2/2

/ ⋅=σ

σ ry

xyK

Interpretând cele două dispersii putem avea două variante: Dacă: 2

/ xyR > 2/ xyK rezultă legătură între x şi y

Dacă: 2/ xyR < 2

/ xyK tendinţă spre independenţă

Trebuie subliniat, încă o dată, că toate aceste metode şi procedee de calcul şi interpretare

a corelaţiei nu se pot aplica decât dacă, prin cunoştinţele de care se dispune, s-a stabilit că în mod logic între fenomenele cercetate pot exista raporturi obiective de interdependenţă. Aceasta este cu atât mai necesar cu cât fenomenele social-economice pot prezenta, în general, o anumită simetrie în covariaţia lor, în jurul valorilor medii fie sub aspectul gradului de împrăştiere a abaterilor, fie sub aspectul direcţiei producerii legăturii. Desigur că această relaţie de covariaţie numerică nu este suficientă pentru a afirma că între caracteristicile respective există şi o legătură

Page 22: Curs 1 Corelatie Si Regresia

Curs 1. Domeniul econometriei. Regresia și corelația Conf.univ. dr. Emilia Gogu

22

de corelaţie. Pentru ca o anumită covariaţie numerică între două sau mai multe variabile statistice, care, în general, au o dispersie asemănătoare, să fie considerată în acelaşi timp şi legătură de corelaţie, este indispensabilă analiza raporturilor calitative dintre fenomenele cercetate. Numai în urma unei astfel de analize, cunoscându-se raporturile obiective dintre fenomene, dependenţa între două sau mai multe caracteristici statistice se poate aprecia că există o legătură de corelaţie, şi, în consecinţă, se poate trece la măsurarea ei. Pentru a putea reflecta într-o formă cât mai veridică raporturile de cauzalitate existente, influenţele factorilor esenţiali asupra variaţiei caracteristicii rezultative este necesar ca metodele şi procedeele de calcul şi interpretare statistică să se aplice în mod diferenţiat m raport cu posibilităţile de identificare a factorilor-cauză, de cuantificare a fenomenelor, de cuprindere a unităţilor care formează colectivitatea supusă cercetării.

Page 23: Curs 1 Corelatie Si Regresia

Curs 1. Domeniul econometriei. Regresia și corelația Conf.univ. dr. Emilia Gogu

23

EXEMPLE Ex. Corelaţia liniară simplă (date negrupate) Se prezintă următoarele date cu privire la numărul de otre lucrate şi salariu net lunar

Nr. crt Ore lucrate

(xi)

Salariul net lunar (lei) (yi)

1. 140 2200 2. 146 2555 3. 151 2642 4. 163 2852 5. 169 2957 6. 173 3027 7. 176 3080 8. 187 3272 9. 190 3325

10. 190 3325 Dintre metodele simple de cercetare a legaturilor statistice recurgem la :

A) Metoda seriilor paralele interdependente Concluzie: Valorile xi fiind ordonate crescător se poate observa că şi valorile yi cresc în

cea mai mare parte, ceea ce sugerează o legătură directă. B) Metoda grafică este o altă cale de a stabili legătura dintre fenomene.

Graficul de asemenea confirmă o legătură directă de formă liniară.

Datele necesare calculării celor doi parametri sunt prezentate în tabelul de mai jos.

0

500

1000

1500

2000

2500

3000

3500

4000

140 146 151 163 169 173 176 187 190

mii lei

ore

Corelaţia dintre numărul de ore lucrate şi salariul net linar

Page 24: Curs 1 Corelatie Si Regresia

Curs 1. Domeniul econometriei. Regresia și corelația Conf.univ. dr. Emilia Gogu

24

Nr ctr.

xi yi x2 xiyi Yxi=-425,62+19,87xi

1. 140 2200 19600 308000 2357 2. 146 2555 21316 373030 2476 3. 151 2642 22801 398942 2576 4. 163 2852 26569 464876 2814 5. 169 2957 28561 499733 2933 6. 173 3027 29929 523671 3013 7. 176 3080 30976 542080 3073 8. 187 3272 34969 611864 3291 9. 190 3325 36100 631750 3351 10. 190 3325 36100 631750 3351

Total 1685 29235 286921 4985696 29235

62,425168528692110

1685498569628692129235

)( 222

2

−=−⋅

⋅−⋅=

−=

∑∑∑∑∑∑

ii

iiiii

xxn

xyxxya

87,19)1685(28692110

292351685498569610

)( 222 =−⋅

⋅−⋅=

−=

∑∑∑∑∑ii

iiii

xxn

yxyxnb

Funcţia de regresie este: Yxi=-425,62+19,87xi

Valorile funcţie de regresie se obţin înlocuind xI cu valorile empirice. Parametrul b=19,87 se interpretează astfel: pentru fiecare ora lucrata salariului net creşte ,

în medie cu 19,87 lei. a) Raportul de corelaţie liniară simplă se ca calcula cu formula:

∑∑

−−=

2

2

/)(

)(1

yy

YyR

i

xixy

i

Nr. crt xi yi Yxi (yi - Yxi)

2 (yi - y )2 2iy

1. 140 2200 2357 24659.9 523452.3 4840000 2. 146 2555 2476 6195.1 135792.3 6528025 3. 151 2642 2576 4399.4 79242.3 6980164 4. 163 2852 2814 1430.0 5112.3 8133904 5. 169 2957 2933 555.0 1122.3 8743849 9. 173 3027 3013 197.5 10712.3 9162729 7. 176 3080 3073 55.1 24492.3 9486400 8. 187 3272 3291 369.1 121452.3 10705984 9. 190 3325 3351 667.7 161202.3 11055625

10. 190 3325 3351 667.7 161202.3 11055625

Page 25: Curs 1 Corelatie Si Regresia

Curs 1. Domeniul econometriei. Regresia și corelația Conf.univ. dr. Emilia Gogu

25

1685 29235 29235 39196.5 1223782.5 86692305

Unde: /vzlei mii 5,292310

29235==y

9838,05,1223782

5,391961/ =−=xyR

Se poate spune că legătură este strânsă (r/x=0,9838) şi gradul de determinaţie 22

/ 9838,0=xyR este de 0,968 sau de 96,8%.

b) Metoda coeficientului de corelaţie Intensitatea legăturii se măsoară prin coeficientul de corelaţie (ry/x).

[ ] [ ]

[ ] [ ]0,9838

29235-8669230510168528692110

292351685498569610

)()(

22

2222/

=⋅⋅−⋅

⋅−⋅=

=−⋅−

−=

∑∑∑∑∑∑∑

iiii

iiii

xy

yynxxn

yxyxnr

Rezultă că legătura dintre aceste două variabile este directă (rz/x>0) şi puternică. Există

legătură liniară intensă deoarece ry/x=Ry/x.