11-12 Analiza de Regresie Si de Corelatie 151120111500

download 11-12 Analiza de Regresie Si de Corelatie 151120111500

of 14

  • date post

    07-Oct-2014
  • Category

    Documents

  • view

    287
  • download

    3

Embed Size (px)

Transcript of 11-12 Analiza de Regresie Si de Corelatie 151120111500

MasterMSS20112012

1

Metode de analiza si prognoza pentru managementul sanitar

Analiza de regresie 1 i de corelaieEfectuarea de prognoze economice privind valorile variabilei endogene Y n funcie de diferitele valori exogene X presupune acceptarea ipotezei c legitatea de dependen dintre Y i X este corect specificat i identificat, avnd un caracter de relativ stabilitate i repetabilitate. Primul scop al analizei de regresie este de arta cum este legat o variabil de una sau mai multe variabile Y cu ajutorul unei ecuaii care d posibilitatea de a previziona variabilele dependente n funcie de valorile cunoscute ale variabilelor independente X (x1, x2, , xn). In general, prin analiza de regresie se face o comparaie statistic a relatiilor anterioare ntre diferii factori. Dependena statistic este o dependen care se manifest nu ntre elemente i fenomene individuale, ci ntre colectiviti de fenomene. Msurile de asociere elaborate de statistica matematic permit depistarea i ierarhizarea dependenelor statistice, care se manifest ntre fenomenele i procesele istorice. Msurile de asociere statistic deschid astfel posibilitatea descoperirii legitilor statistice specifice acelor relaii de condiionare dintre fenomenele i procesele istorice, care prezint caracteristici statistice cuatificabile. Tabelul 1. Analiza de regresie i analiza de corelaiePrin analiza regresiei se nelege o clas de metode prin care, folosind o ecuaie de regresie determinat pe baza unor date experimentale, pot fi estimate (previzionate) valorile unor variabile date, presupunnd cunoscute ori previzionate valorile altor variabile. Analiza corelaiei are ca obiectiv evaluarea gradului de interdependen (asociere) ntre variabilele considerate ntrun model de regresie, n particular ntre variabila dependent i cele independente (obiectiv care se realizeaz prin estimarea coeficienilor de corelaie i a coeficientului de determinare).

Natura stochastic a modelului de regresie face ca valoarea lui Y s nu poat fi prevzut exact, incertitudinea aprnd ca rezultat la mrimea aleatoare e (eroarea). Distribuia probabilistic a lui Y i caracteristicile sale sunt determinate de valorile lui e i de distribuia sa probabilistic. Ipotezele de aplicare ale metodelor de regresie sunt: - variabilele Y i X nu sunt afectate de erori de msurare. Legitatea de dependen a lui yi este condiionat de realizarea valorilor x1,x2, , xn ale variabilei exogene X; - variabila aleatoare (rezidual) este de medie 0, iar dispersia ei este independent de X (ipoteza de homoscedasticitate 2 - se admite c legtura dintre Y i X este relativ stabil); - valorile variabilei reziduale nu sunt autocorelate (nu depind unele de altele); - legea de probabilitate a variabilei reziduale este legea normal cu media 0 i abatere standard Sy/x. Dac aceste ipoteze se verific, metoda celor mai mici ptrate asigur obinerea unor estimatori de maxim verosimilitate. Respectarea acestor ipoteze permite aplicarea unor teste statistice: a. verificarea semnificaiei estimatorilor funciei de regresie (aplicarea unor teste statistice 3 ); b. verificarea verosimilitii modelului de ajustareThe equation used to draw the best-fit straight line is called a regression equation and was first used by Sir Francis Galton (1822-1911) to show that when tall or short couples have children their heights tend to regress, or revert to the mean height of their parents. 2 Homoscedasticitatea este o proprietate a variaiei termenului de perturbare dintr-o ecuaie de regresie n care aceast variaie rmne constant n toate cazurile observate (condiie impus ca estimatorul celor mai mici ptrate s fie cel mai bun estimator liniar). 3 Un test statistic este o mrime calculat pentru testarea ipotezelor. In condiiile ipotezei nule H0, aceast mrime statistic urmeaz o distribuie de probabilitate pe care nu ar urmao n condiiile ipotezei alternative. Cu ct valoarea mrimii statistice de test se abate de la valorile critice ale distribuiei, cu att este mai puin plauzibil ca ipoteza nul s fie adevrat.1

MasterMSS20112012

2

c. elaborarea de prognoze pe baza unui interval de ncredere. In general, previziunile bazate pe analiza regresiei se refer la: - valori medii condiionate ale variabilelor dependente (condiionarea fa de valori date ori prognozate ale variabilelor independente); - valori individuale ale valorilor dependente Y. Ambele tipuri de previziuni se obin din ecuaia de regresie determinat pe baza datelor experimentale: se obin aceleai valori numerice, deosebirea constnd n semnificaia acestor valori i n nivelul lor de precizie al estimrilor astfel obinute. Pentru estimarea unei valori individuale a variabilei dependente, nivelul de precizie este mai mic dect n cazul estimrii unei valori medii condiionate a variabilei respective.

Interpretarea statistic a rezultatelor regresieiBaza informational pentru modelul liniar Y = a + b * x Serii de date neceesare ptr. regresia simpl: - pentru variabila explicativ/independent/exogen: Y1, Y2, ...Yn - pentru variabila explicat/dependent/endogena: x1, x2, ..., xn Calculul coeficientului a: a = y b x Calculul coeficientului b: b =n x i y i xi y ii =1 i =1 i =1 n 2 n n n

n n x x2 i =1 i =1 Calculul valorilor ajustate: Yi = a + b * xi

sau b =

(xi =1

n

i

x) ( y i y )i

(xi =1

n

x) 2

Evaluarea erorilor de previziune se realizeaz folosind estimri cu intervale de ncredere, o astfel de estimare fiind cu att mai bun cu ct lungimea intervalului este mai mic i nivelul de semnificaie mai apropiat de 1. In general, un interval de ncredere cu nivelul de ncredere , ( 0 ,1 ) , pentru o caracteristic numeric a unei variabile aleatoare este un interval de numere reale de forma: (-t , +t ) unde: este o estimare a caracteristicii de interes, este o msur a mprtierii estimrilor posibile, t se determin din tabelele asociate unor repartiii probabilistice uzuale. Extremitile t ale unui interval de ncredere cu nivel de ncredere se stabilesc astfel nct s se poat spune c exist 100% anse ca estimarea a caracteristicii cercetate s se abat cu cel mult t de la valoarea real a acestei caracteristici (n mod echivalent, se spune c exist 100 (1-)% anse s omitem o eroare mai mic dect ). Din acest motiv, nivelul de ncredere se alege apropiat de 1 (de regul, 0,95 sau 0,99), echivalent cu faptul c diferena 1- (numit i prag / nivel de semnificaie) este apropiat de zero. Prin analiza de corelaie se urmrete: msurarea gradului de interdependen ntre variabila dependent Y i variabilele independente Xi, interdependen explicat prin ecuaia de regresie utilizat; evaluarea gradului de asociere ntre variabilele independente, atunci cnd ecuaia de regresie conine cel puin dou variabile independente Xi. Aceasta arat n ce msur dou valori sunt legate ntre ele intensitatea legturii este exprimat cu ajutorul a doi indicatori: coeficientul de corelaie (R) msoar puterea relaiei de dependen liniar printr-o valoare numeric ntre 1 i 1;

MasterMSS20112012

3

R=

( x

x2 k

k

yk n x y

n x )

( y

2 k

n y)

o Dac R = 0 nu exist corelaie de tip liniar ntre Y i X (dar pot exista alte tipuri de dependen, de exemplu, neliniar) o Dac R > 0 i apropiat de valoarea 1, atunci creterile factorului X vor determina creteri ale variabilei Y o Dac R < 0 i apropiat de -1, atunci scderi ale factorului X vor determina scderi pentru Y. coeficientul de determinare (R2) care msoar reducerea relativ n variaia lui Y ce poate fi atribuit cunoaterii factorilor Xi i a relaiei Y = f(X). 2 2 exp Sy/ x n 2 2R =2 tot

=1

S2

n1

De exemplu, o valoare R2=0.76 indic c aproximativ 76% din variaia total a variabilei Y poate fi explicat prin variabilele dependente X incluse n model (o valoare 0.8 este considerat acceptabil).

Coeficientul corectat de determinare ( R ) se folosete atunci cnd numrul de observri este egal cu numrul coeficienilor estimai (deoarece fiecare punct de observare se va situa pe funcia de regresie, mrimea eantionului trebuie s fie suficient de mare pentru a estima coeficienii de regresie):

2

R = R2

2

k 1 ( 1 R 2 ) unde: nk

n reprezint numrul de observaii reale k este numrul coeficienilor de regresie.In cazul regresiei multiple, R2 sau R reprezint o msur a efectului combinat al ansamblului variabilelor independente asupra variabilei dependente.2

Semnificaia statistic a parametrilor modeluluiDistribuia t (Student) 4 se folosete n testele ipotezelor pe eantioane mici i n care variana variabilei respective trebuie estimat n raport cu datele. Este o distribuie de probabilitate n form de clopot, n care valoarea medie este egal cu zero, dispersia variabilelor n jurul valorii medii fiind dependent de gradele de libertate 5 dictate de mrimea eantionului. Gradele de libertate arat numrul de elemente informaionale care pot varia independent unul de altul; se spune c un eantion de n observaii are n grade de libertate. De exemplu, calcularea unei medii simple a eantionului implic pierderea unui grad de libertate deoarece variaiile independente n n-1 din observaiile din eantion vor necesita o schimbare compensatorie n cel de al n lea grad de libertate, pentru a se menine valoarea medie a eantionului. Tot astfel, calcularea valorilor pentru un numr de k parametri n cadrul unui exemplu econometric implic pierderea a k grade de libertate, rmnnd (n-k).

4

Testul t este testul cel mai des utilizat n analizele economice cantitative i este definit ca raportul dintre o variabil

normal i o variabil 2 mprit la numrul gradelor de libertate. 5 Gradele de libertate arat numrul de elemente informaionale care pot varia independent unul de altul. Se spune c un eantion de n observaii are n grade de libertate. Totui, calcularea mediei simple a eantionului i