Modelul de Regresie Liniara Simpla

15
MODELUL DE REGRESIE LINIARĂ SIMPLĂ Idei de bază despre regresia liniară Regresia este o metodă de modelare a legăturilor dintre variabile. Este cel mai important instrument de lucru al econometriei Analiza de regresie se ocupă cu descriere şi evaluarea legăturii dintre o variabilă dată (numită variabilă dependentă sau explicată) şi una sau mai multe alte variabile (cunoscute ca variabile independente sau explicative) cu scopul de a estima şi a previziona valoarea medie a variabilei dependente, cunoscându-se valorile fixate ale variabilelor independente (valori fixate în urma unor eşantionări repetate). Originea termenului de regresie Termenul de regresie îşi are originea în studiile statisticianului englez Francis Galton (1822-1911), în domeniul eredităŃii. Acesta a observat că înălŃimea fiilor proveniŃi din taŃi foarte înalŃi se apropie mai mult de de înălŃimea medie decât de înălŃimea taŃilor. Galton a constatat că avea loc o regresie sau o revenire la înălŃimea medie. Obiectivele Analizei de Regresie 1. Să estimeze valoarea medie a variabilei dependente, date fiind valorile var. indep. 2.Să testeze ipoteze despre natura dependenŃei (ipoteze sugerate de teorie economică) 3.Să previzioneze valoarea medie a var. dep., cunoscând valoarea var. indep. Denumiri ale variabilelor în analiza de regresie Variabila Y Variabilele X 1 ,X 2 ,...,X k 1 2 3 4 5 6 7 Variabilă dependentă Variabilă explicată Regresant Variabilă estimată Variabilă efect Variabilă edogenă Variabilă Ńintă Variabile independente Variabile explicative Regresori Estimatori Variabile cauzale Variabile exogene Variabile de control Modelul este instrumentul de bază din analiza de regresie Modelul econometric cel mai simplu este modelul de regresie unifactorială, în care o variabilă dependentă Y este explicată printr-o singură variabilă independentă X. DependenŃa deterministă vs. dependenŃa statistică DependenŃa deterministă dintre var. Y şi X este descrisă complet prin intermediul unei ecuaŃii de tip determinist. O astfel de ec.conŃine toŃi termenii care intervin în procesul studiat. DependenŃa statistică (stochastică, aleatoare) dintre Y şi X este aceea care nu generează valori unice pentru Y, ci o mulŃime de valori, în cazul unor valori date ale lui X şi care poate fi descrisă în termeni probabilistici. Regresie vs. cauzalitate Deşi Analiza de regresie se ocupă cu relaŃiile dintre o variabilă dependentă şi una sau mai multe alte variabile independente, ea nu implică, în mod necesar, cauzalitate, adică nu înseamnă neapărat că variabilele independente sunt cauza şi variabila dependentă este efectul. Dacă există cauzalitate între variabila independentă şi variabila dependentă, aceasta trebuie justificată pe baza unei anumite teorii economice. De exemplu, legea cererii sugerează o relaŃie inversă între cantitatea cerută dintr-un anumit produs şi preŃul său, cu condiŃia ca toate celelalte variabile care influenŃează cererea, să fie menŃinute constante. Aici, teoria microeconomică sugerează că preŃul poate fi cauza, iar cantitatea cerută ar fi efectul.

description

Modelul de Regresie Liniara Simpla

Transcript of Modelul de Regresie Liniara Simpla

  • MODELUL DE REGRESIE LINIAR SIMPL Idei de baz despre regresia liniar Regresia este o metod de modelare a legturilor dintre variabile. Este cel mai important instrument de lucru al econometriei Analiza de regresie se ocup cu descriere i evaluarea legturii dintre o variabil dat (numit variabil dependent sau explicat) i una sau mai multe alte variabile (cunoscute ca variabile independente sau explicative) cu scopul de a estima i a previziona valoarea medie a variabilei dependente, cunoscndu-se valorile fixate ale variabilelor independente (valori fixate n urma unor eantionri repetate). Originea termenului de regresie Termenul de regresie i are originea n studiile statisticianului englez Francis Galton (1822-1911), n domeniul ereditii. Acesta a observat c nlimea fiilor provenii din tai foarte nali se apropie mai mult de de nlimea medie dect de nlimea tailor. Galton a constatat c avea loc o regresie sau o revenire la nlimea medie. Obiectivele Analizei de Regresie 1. S estimeze valoarea medie a variabilei dependente, date fiind valorile var. indep. 2.S testeze ipoteze despre natura dependenei (ipoteze sugerate de teorie economic) 3.S previzioneze valoarea medie a var. dep., cunoscnd valoarea var. indep. Denumiri ale variabilelor n analiza de regresie

    Variabila Y Variabilele X1,X2,...,Xk 1 2 3 4 5 6 7

    Variabil dependent Variabil explicat Regresant Variabil estimat Variabil efect Variabil edogen Variabil int

    Variabile independente Variabile explicative Regresori Estimatori Variabile cauzale Variabile exogene Variabile de control

    Modelul este instrumentul de baz din analiza de regresie Modelul econometric cel mai simplu este modelul de regresie unifactorial, n care o variabil dependent Y este explicat printr-o singur variabil independent X. Dependena determinist vs. dependena statistic Dependena determinist dintre var. Y i X este descris complet prin intermediul unei ecuaii de tip determinist. O astfel de ec.conine toi termenii care intervin n procesul studiat. Dependena statistic (stochastic, aleatoare) dintre Y i X este aceea care nu genereaz valori unice pentru Y, ci o mulime de valori, n cazul unor valori date ale lui X i care poate fi descris n termeni probabilistici. Regresie vs. cauzalitate Dei Analiza de regresie se ocup cu relaiile dintre o variabil dependent i una sau mai multe alte variabile independente, ea nu implic, n mod necesar, cauzalitate, adic nu nseamn neaprat c variabilele independente sunt cauza i variabila dependent este efectul. Dac exist cauzalitate ntre variabila independent i variabila dependent, aceasta trebuie justificat pe baza unei anumite teorii economice. De exemplu, legea cererii sugereaz o relaie invers ntre cantitatea cerut dintr-un anumit produs i preul su, cu condiia ca toate celelalte variabile care influeneaz cererea, s fie meninute constante. Aici, teoria microeconomic sugereaz c preul poate fi cauza, iar cantitatea cerut ar fi efectul.

  • inem minte c: -regresia nu implic neaprat cauzalitate. -cauzalitatea trebuie justificat de teoria economic care fundamenteaz fenomenul care este testat empiric. Regresie vs. corelaie Analiza de corelaie msoar gradul de asociere dintre 2 variabile. Analiza de regresie estimeaz valoarea medie a unei variabile, cunoscnd valorile fixate ale altei variabile.

    Analiza de corelaie Analiza de regresie Tratarea variabilelor simetric asimetric

    Tipul variabilelor Variabile aleatoare Var.dependent este var.aleatoare Variabilele independente: fixate

    Definirea, specificarea i identificarea modelului unifactorial de regresie Definirea modelului - se face printr-o rel.matem. care presupune c var.Y este rezultatul a 2 categorii de factori: -un factor esenial, X -toi ceilali factori neeseniali, specificai printr-o variabil aleatoare de perturbaie Specificarea i identificarea modelului se face pe baza teoriei economice a fen.observat i const n precizarea variabilei dependente, a variabilei independente i n alegerea unei funcii matematice pentru a descrie valorile lui Y numai n funcie de valorile variabilei X. Exemple de relaii de dependen: Cheltuieli de consum Venit nlime - Vrst Cererea pentru un produs Preul produsului Venituri din vnzri Cheltuieli cu publicitatea Cheltuieli pentru aprare - PIB Considerm dou variabile economice X i Y pentru care cunoatem n perechi de observaii: ),(),...,,(),,( 2211 nn yxyxyx . Ne intereseaz cum se modific var.Y sub

    aciunea variabilei X. Reprezentarea datelor de observaie ntr-o diagram a mprtierii poate da informaii despre existena unei relaii ntre cele dou variabile i despre tipul de relaie, n caz c aceasta exist. O funcie de regresie, este o funcie care leag valorile lui X, de mediile condiionate corespunztoare )|( 1xXYE = ,..., )|( nxXYE = .

    )()|( ii xfxXYE == este funcia de regresie la nivelul populaiei (FRP). Forma ei este dat de teoria economic. Ex: Consumul depinde liniar de Venit. Dac funcia de regresie este liniar, se obine modelul de regresie liniar unifactorial.

    ii xxXYE +== )|( Exemplu. Considerm modelul lui Keynes privind consumul. Consumul=f(Venit,Ali factori) Consumul=+Venit+ Legea psihologic fundamental afirm c o persoan este dispus, de regul i n medie s i creasc consumul pe msur ce crete venitul, dar nu n aceeai msur,

    este sintetizat n relaia 10

  • modelului de regresie. este nclinaia marginal spre consum (variaia consumului mprit la variaia venitului). Pe baza unui ansamblu de observaii referitoare la C i V, se pot estima parametrii i . Rezultatele anticipate sunt

    0> i 10

  • ii xy += se numete valoarea ajustat a lui iy . Definim iii yy = diferena (abaterea) dintre valoarea observat i valoarea ajustat.

    i se numete reziduu sau eroare estimat sau variabil de perturbaie ajustat. Pentru reziduurile i se folosete i notaia ie . n vreme ce variabilele i sunt neobservabile, reziduurile i , sunt observabile. Relaia dintre FRP i FRS este dat de ecuaia iii yy += . Primul obiectiv al analizei de regresie este de a estima FRP, iii xy ++= , pe

    baza FRS, iii xy ++= , deoarece analiza se bazeaz, de cele mai multe ori, pe un singur eantion extras din populaie.

    Figura 1.1. Valoarea observat iy , valoare ajustat iy , i reziduul i

    Fiecare selecie determin o FRS diferit, adic sunt determinate valori numerice diferite pentru i . Nici una din FRS nu este identic cu FRP. Fiecare este doar o aproximare a FRP reale. Cum putem alege cea mai bun dreapt? Cutm dreapta care face distanele verticale de la puncte la dreapt, ct mai mici posibil. -Valoarea ajustat = distana vertical de la axa orizontal la dreapt, iar -reziduul = distana vertical de la dreapt la punctul considerat. Reziduurile arat ct de mult difer valorile observate de valorile ajustate. Observaie. n discutarea modelelor de regresie, s-a dovedit incomod s se fac distincie, din punct de vedere al notaiei, ntre variabile aleatoare i realizri ale acestora, aa nct practica standard este de a folosi litere mici n ambele situaii.

    i

    X

    y

    Panta

    Residuul

    yi

    xi

    iy

    Realizarea real

  • Interpretarea termenului de regresie liniar I) Liniaritatea n variabile nseamn c valoarea medie condiionat a variabilei dependente este o funcie liniar de variabilele independente. O funcie )(xfy = este liniar n raport cu x dac variabila x apare doar la puterea 1 i nu apare nmulit sau mprit prin alt variabil, z. II) Liniaritatea n parametri nseamn c valoarea medie condiionat a variabilei dependente este o funcie liniar n parametrii ce apar n ecuaie, dar poate s nu fie liniar n variabilele independente. Vom folosi termenul de regresie liniar pentru modelele care sunt liniare n parametri. Estimarea parametrilor modelului prin metoda celor mai mici ptrate Metoda celor mai mici ptrate (MCMMP): se minimizeaz suma ptratelor abaterilor dintre valorile reale iy i valorile ajustate iy .

    Vom folosi i notaia OLS (Ordinary Least Squares) Suma ptratelor reziduurilor sau erorilor estimate este o funcie de dou necunoscute,

    i (sau a i b), n raport cu care se va face minimizarea. Avem:

    ===

    ====n

    i

    ii

    n

    i

    ii

    n

    i

    i xyyyS1

    2

    1

    2

    1

    2 min)()(),( , sau

    ===

    ====n

    i

    ii

    n

    i

    ii

    n

    i

    i xbayyyebaS1

    2

    1

    2

    1

    2 min)()(),(

    ),( baS este minim cnd derivatele pariale ale funciei n raport cu a i b sunt egale cu zero, adic:

    ==

    ==

    =

    =n

    i

    iii

    n

    i

    ii

    xbxayb

    baS

    bxaya

    baS

    1

    1

    0))((2),(

    0)1)((2),(

    =

    =

    = = =

    = =n

    i

    n

    i

    n

    i

    iiii

    n

    i

    n

    i

    ii

    xbxayx

    xbnay

    1 1 1

    2

    1 1

    0

    0

    Rezult sistemul de ecuaii normale ale lui Gauss:

    =+

    =+

    iiii

    ii

    yxxbxa

    yxban2

    Soluiile sistemului se pot obine folosind metoda determinanilor:

    22

    2

    )(

    =

    =

    ii

    iiiiia

    xxn

    yxxxya (1)

    22 )(

    =

    =

    ii

    iiiib

    xxn

    yxyxnb (2)

    Dac mprim prima ecuaie normal prin n, obinem: xbya = (3)

    Dup nlocuirea lui a n a doua ecuaie normal obinem:

    22 xnx

    yxnyxb

    i

    ii

    = (4)

    Avem nevoie de cteva rezultate privind nsumrile: 2222222 2)2()( xnxxxxxxxxxxx iiiiii =+=+= (5)

    0)( === yxnynxyxyxyyx ii (6) yxnyxyxxyyxyyxx iiiiiiii === )()()()( (7)

  • Relaia (4) devine: = 2)()()( xxbyyxx iii Cu condiia ca 0)( 2 > xxi , panta estimat va fi dat de relaia

    22)(

    ))((

    x

    xy

    xx

    xy

    i

    ii

    S

    S

    S

    S

    xx

    yyxxb ==

    =

    (8)

    La numrtor este covariana de selecie dintre x i y n

    yyxxS

    ii

    xy

    = ))((

    La numitor este dispersia (variana) de selecie a lui x n

    xxS

    i

    x

    =2

    2)(

    Notm c estimaiile pentru a i b sunt unice. Artm c soluia obinut este un minim. Considerm derivatele de ordinul doi ale sumei ptratelor reziduurilor:

    na

    baS2

    ),(2

    2

    =

    , = 2

    2

    2

    2),(

    ixb

    baS, =

    ixba

    baS2

    ),(2.

    Matricea hessian

    =

    222

    22

    ii

    i

    xx

    xnH este pozitiv definit, pentru c avem:

    021 >= n

    ==== )(4))((4444 22222 xnxnxnxnxnxxxn iiiii 0)(4 2 >= xxn i . nseamn c soluia obinut este un minim.

    Figura 1.2. Observaiile, dreapta real i dreapta estimat Cea mai bun dreapt pentru a aproxima norul de puncte de observaie este cea care minimizeaz suma ptratelor erorilor estimate. Ea se numete dreapta de regresie a lui y n raport cu x. Valorile a i b obinute prin MCMMP, pentru un anumit eantion s.n. estimaii ale parametrilor reali i .

    X

    Y Relaia real

    uxy ++=

    Relaia estimat

    xy +=

  • Pentru eantioane diferite rezult estimaii diferite. Ansamblul lor descrie estimatorii parametrilor i . Proprieti numerice ale valorilor estimate a i b, obinute prin MCMMP. 1) 0= ie , adic suma reziduurilor este zero, ceea ce este adevrat att timp ct exist o constant n regresie. Aceasta implic faptul c dreapta de regresie trece totdeauna prin mediile de selecie, deci prin punctul ),( yx . Ecuaia (3) poate fi scris sub forma xbay += .

    2) 0= ii xe . Deoarece aceast relaie poate fi gndit ca o covarian, fiind egal cu zero, rezult c reziduurile i variabilele explicative sunt necorelate.

    3) = ii yy , sau yy = , cu alte cuvinte, valorile ajustate i valorile reale ale lui y au aceeai medie. Din iii yy += rezult: =+=+= iiiiii yyyy )( . 4) 0 = ii ye , adic reziduurile i valorile ajustate, sunt necorelate. Observaie: Deoarece exist numeroase pachete de programe statistice care efectueaz calcule pentru estimarea coeficienilor de regresie, nu trebuie s ne preocupe problema dificultii calculelor. Ipoteze statistice asupra modelului care genereaz datele n statistic se utilizeaz numai estimaii de maxim verosimilitate, care se obin doar n contextul satisfacerii anumitor condiii. Se fac, de obicei, 6 ipoteze standard pentru modelul de regresie. A1) Forma funcional: nixy iii ,...,2,1, =++= . A2) Erorile au media zero: .,...,2,1,0)( niE i ==

    A3) Homoscedasticitatea: niVar i ,...,2,1,)(22 === .

    A4) Erorile nu sunt autocorelate: 0),cov( =ji pentru ji

    A5) Necorelarea ntre regresor i erori: 0),cov( =ii x pentru orice i i j.

    A6) Erorile au distribuie normal: ),0(~ 2 Ni . Comentarii despre ipoteze. A1) Ipoteza de liniaritate se refer la parametrii modelului. Modelul trebuie s fie de forma iii xy ++= fie n variabilele iniiale, fie dup ce au fost fcute transformrile potrivite. A2) Erorile au media zero. nseamn c, n medie, termenul eroare nu are efect asupra lui Y, ntr-un fel sau altul. Valorile pozitive i negative ale lui se anuleaz ntre ele. A3) Variana fiecrei erori este constant sau homoscedastic: 222))(()()( ==== iiii EEDVar . Pe baza acestei ipoteze se poate admite c legtura dintre Y i X este relativ stabil. nseamn c valorile individuale iy se situeaz n jurul valorii medii cu aceeai

    varian. Deoarece valorile ix sunt fixate, singura surs de variaie din Y este de la

    eroarea . Deci, dat fiind ix , variana lui iy este aceeai cu a lui i , adic 2)|()|( == iiii xVarxyVar .

    Deoarece 0)( =iE , ipoteza de homoscedasticitate poate fi scris ca: 22 )( =iE .

    Dac aceast ipotez nu este ndeplinit, termenul eroare se numete heteroscedastic. A4) Erorile nu sunt autocorelate. Nu exist corelaie ntre doi termeni eroare. nseamn c termenii eroare sunt aleatori. Se scrie sub forma: 0),cov( =ji sau 0)( =jiE pentru ji .

  • A5) Variabila independent x este necorelat cu termenul eroare . Variabila x nu este stochastic, adic valorile ix sunt fixate n selecii repetate. nseamn c se regsesc aceleai valori dac se face o nou selecie. n plus, se presupune c factorul x prezint variabilitate i deci, poate fi evideniat rolul acestui factor. A6) Erorile urmeaz o distribuie normal: ),0(~ 2 Ni . Teorema Limit Central: Dac exist un numr mare de v.a. independente i identic distribuite (iid), atunci distribuia sumei lor tinde s fie o distribuie normal, cnd numrul variabilelor crete indefinit. Orice funcie liniar de variabile distribuite normal este distribuit normal. Se demonstreaz c estimatorii a i b sunt normal distribuii. Observaie. Distincia dintre parametru, estimator i estimaie. n analiza de regresie trebuie s facem distincie ntre urmtoarele trei concepte: parametru, estimator i estimaie. Astfel: -parametrul , al colectivitii generale, nu se cunoate i trebuie estimat;

    -estimatorul este o variabil statistic, o formul de calcul; -estimaia este un numr obinut prin introducerea valorilor observate n formula de calcul a estimatorului.

    Estimatorii i , obinui prin MCMMP, sunt funcii de datele de selecie. Ne vom referi la ei, uneori, ca fiind estimatori OLS (ordinary least squares). Varianele i erorile standard ale estimatorilor Varianele estimatorilor i sunt date de urmtoarele relaii:

    ==

    2

    2

    )()()(

    xxbVarVar

    i

    =

    +==

    2

    22

    2

    22

    )()(

    1)()(

    xxn

    x

    xx

    x

    naVarVar

    i

    i

    i

    Matricea varianelor i covarianelor estimatorilor modelului liniar de regresie simpl

    =

    22

    22

    2

    2

    )(

    1

    )(

    )()(

    )(),cov(

    ),cov()(

    xxxx

    x

    xx

    x

    xx

    x

    Var

    Var

    ii

    ii

    i

    Erorile standard ale estimatorilor parametrilor

    ==

    2)()()(

    xxbsese

    i

    ,

    =

    +==

    2

    2

    2

    2

    )()(

    1)()(

    xxn

    x

    xx

    x

    nasese

    i

    i

    i

    Estimaia este cu att mai precis, cu ct: -eroarea standard este mai mic, - mai mic, -numrul de observaii mai mare i -variana valorilor variabilei explicative este mai mare. Estimarea varianei erorilor Variana erorilor este 2 dar este necunoscut i trebuie estimat.

    Un estimator nedeplasat pentru 2 este: 2

    2

    22

    == n

    es

    i

    e .

  • Estimaiile erorilor standard ale estimatorilor parametrilor modelului

    ==

    2)(

    1)()(

    xxsbsese

    i

    e

    +=

    ==

    2

    2

    2

    2

    )(

    1

    )()()(

    xx

    x

    ns

    xxn

    xsasese

    i

    e

    i

    i

    e

    Proprieti statistice ale estimatorilor coeficienilor de regresie 1) Liniaritatea Estimatorii i sunt funcii liniare de nyy ,...,1 . Expresia estimatorului lui va putea fi scris n forma:

    = 2)(

    )(xx

    yxx

    i

    ii sau = ii yw

    unde

    =

    2)( xx

    xxw

    i

    ii . Ponderile iw pot depinde de nxx ,...,1 dar nu depind de

    nyy ,...,1 i au urmtoarele proprieti: === 22 )(/1;1;0 xxwxww iiiii . 2) Nedeplasarea Teorem. n condiiile A1-A4 avem: =)(E i =)(E pentru orice valori ale

    lui i , ceea ce nseamn c estimatorul este estimator nedeplasat pentru parametrul , iar este estimator nedeplasat pentru parametrul . 3) Eficiena estimatorilor. Un estimator este eficient dac este nedeplasat i variana sa este mai mic dect a oricrui alt estimator nedeplasat al parametrului. Cel mai bun estimator liniar, nedeplasat (BLUE). Teorema Gauss-Markov : n ipotezele A1-A5, estimatorii obinui prin MCMMP sunt liniari, nedeplasai i eficieni, deci sunt cei mai buni estimatori liniari i nedeplasai pentru parametrii populaiei. Forma scurt pentru referirea la cel mai bun estimator liniar i nedeplasat al unui parametru al populaiei este de estimator BLUE (Best Linear Unbiased Estimator). Teorema Gauss-Markov ofer justificarea teoretic pentru a folosi metoda celor mai mici ptrate pentru estimarea parametrilor unui model de regresie liniar.

    4) Consistena estimatorilor. Estimatorii i sunt estimatori consisteni pentru

    parametrii populaiei, adic, atunci cnd volumul seleciei este mare, i vor avea valori apropiate de parametrii reali ai populaiei, cu o probabilitate foarte mare. Coeficientul de corelaie de selecie Coeficientul de corelaie de selecie este un indicator ce caracterizeaz direcia i intensitatea legturii liniare dintre dou variabile. Semnul acestui coeficient indic direcia legturi iar valoarea sa indic intensitatea legturii.

    [ ][ ]

    ===

    22 )()(

    ))((),cov(

    yyxx

    yyxx

    SS

    S

    SS

    yxr

    ii

    ii

    yx

    xy

    yx

    xy sau

    ( )[ ] ( )[ ]

    =

    2222iiii

    iiii

    xy

    yynxxn

    yxyxnr

    Valoarea coeficientului de corelaie este ntre -1 i 1. O valoare apropiat de 1 arat o legtur direct puternic

  • O valoare apropiat de -1 arat o legtur invers puternic.

    22)(

    ))((x

    xy

    i

    ii

    S

    S

    xx

    yyxx=

    =

    rezult

    y

    x

    xyS

    Sr = .

    Rezult c xyr are acelai semn cu coeficientul de regresie pant, . Testarea semnificaiei coeficientului de corelaie se face utiliznd testul t. Se testeaz urmtoarele ipoteze:

    0:0 =H ( coeficientul de corelaie nu este semnificativ statistic) 0:1 H ( coeficientul de corelaie este semnificativ statistic).

    Statistica testului este:

    21 2

    = nr

    rt

    xy

    xy

    calculat .

    Dac criticcalculat tt > , respingem 0H i acceptm 1H , adic este semnificativ statistic. Inferena statistic n modelul de regresie liniar simpl Testarea ipotezelor despre un coeficient de regresie Inferena statistic folosete informaia dintr-o selecie de date pentru a trage concluzii despre populaia din care a fost efectuat selecia aleatoare a datelor. n scopul de a testa ipoteze cu privire la parametrii i , ai populaiei, este

    necesar cunoaterea distribuiilor de selecie ale estimatorilor i . Pentru a realiza acest lucru putem proceda n dou moduri. O variant se bazeaz pe utilizarea ipotezei A6, care stabilete c variabilele de perturbaie i sunt distribuite normal avnd media zero, variana constant

    2 . A doua variant: putem apela la teorema limit central aplicat estimatorilor OLS i folosim selecii suficient de mari pentru ca distribuia estimatorului s fie asimptotic normal. n ambele variante, estimatorii OLS sunt distribuii normal, cu mediile i varianele determinate deja. De asemenea, rezult c iy sunt distribuii normal : ),(~

    2 ii xNy + . Teste de bonitate. Teste de semnificaie Testarea semnificaiei parametrului

    0:0 =H , (parametrul nu este semnificativ statistic; modelul nu este valid)

    0:1 H , (parametrul este semnificativ statistic; modelul este valid). Sub ipoteza nul avem statistica:

    2 ~)(

    = ntse

    t

    dac 0= .

    Dac 2;

    2

    =>

    ncritic ttt atunci respingem 0H la un nivel de semnificaie de % .

    Cnd ipoteza nul este adevrat, valoarea calculat t trebuie s fie aproape de zero,

    iar cnd 0 valoarea calculat t trebuie s fie diferit de zero. Inferena folosind p-value n mod alternativ, se poate calcula unde este estimaia obinut n distribuia estimatorului. Aceast p-value reprezint rspunsul la ntrebarea: care este cel mai mic nivel de semnificaie la care ipoteza nul ar trebui respins? Valoarea de

  • probabilitate, sau p-value, asociat cu valoarea de selecie calculat a statisticii de test, este definit ca cel mai mic nivel de semnificaie la care poate fi respins ipoteza nul. Toate pachetele software relevante furnizeaz p-valori pentru testele de ipoteze, astfel nct nu mai este nevoie s se caute n tabele valorile critice. O valoare de probabilitate mic (aproape de 0) constituie argumentul evident contra ipotezei nule, n timp ce o valoare de probabilitate mare (aproape de 1), constituie un argument slab contra ipotezei nule. n concluzie, p-value este egal cu cel mai mic nivel de semnificaie la care putem respinge 0H . Regula de decizie este urmtoarea:

    1. Dac p-value ntt , atunci respingem 0H la un nivel de

    semnificaie de % . Totui, ipoteza 0= este lipsit de interes. Testarea semnificaiei parametrului 2 Aceasta se bazeaz pe o statistic ce urmeaz o distribuie hi-ptrat cu )2( n grade

    de libertate. Se aplic testul 2 bilateral pentru a verifica ipoteza 202

    0 : =H ,

    contra alternativei 202

    1 : H , unde 20 este valoarea lui

    2 sub 0H . Se consider statistica:

  • 222

    2

    ~)2(

    = nobsn

    U

    .

    Regula de decizie este: dac 2 2/>obsU sau 2

    2/1

  • Pentru fiecare sum se consider numrul gradelor de libertate. Media ptratelor = suma ptratelor/numr grade de libertate. Statistica testului este

    2,1~)2/(

    1/

    = nFnSSE

    SSRF sau 2,12

    2

    ~)2(1

    = nFnR

    RF

    dac se exprim cele dou sume cu ajutorul coeficientului de determinaie. Se testez ipoteza 0: 20 =RH care nseamn c variabila x nu are efect asupra

    variabilei y. Se compar valoarea calculat sau observat F cu valoarea critic

    obinut din tabelele repartiiei F. Se aplic regula de decizie: dac )2,1(;1 > nFF se

    respinge ipoteza nul n favoarea ipotezei alternative. Interpretarea coeficientului de determinaie 100 2R este procentul din variaia valorilor lui y care este explicat prin x.

    2ie este o msur a unei ajustri greite. Dac are o valoare mic, atunci potrivirea modelului cu datele de observaie este bun i 2R este mare. Pentru o potrivire perfect, cnd toate valorile observate se afl pe dreapta ajustat, avem ii yy = i

    0 =i , ceea ce nseamn c: 02 = i i 12 =R . n situaia n care 0 2 = iy avem

    0 =iy pentru fiecare i, ceea ce nseamn c yyi = pentru orice i, dreapta de regresie

    este o linie orizontal la yy = , 02 =R i variabila independent x nu are nici o putere explicativ ntr-o relaie liniar cu y.

    2R are dou semnificaii alternative: este ptratul coeficientului de corelaie dintre iy

    i iy i, pentru cazul regresiei simple, este ptratul coeficientului de corelaie dintre x

    i y. Aceasta nseamn c, nainte de a determina regresia lui y n raport cu x, se poate calcula coeficientul de corelaie i 2xyr ne arat proporia din variaia lui y care va fi

    explicat prin x. Dac acest numr este prea mic avem o legtur liniar slab ntre y i x i atunci tim c vom avea o calitate slab a ajustrii. Dac valoarea gsit este apropiat de 1, nseamn c exist o legtur puternic ntre x i y i ele variaz n acelai sens. Dac valoarea gsit este apropiat de 1 , nseamn c exist o legtur puternic ntre x i y i ele variaz n sens contrar. Analiza reziduurilor n aproape orice analiz de regresie este util un grafic al reziduurilor (pe axa vertical) raportate la valorile ajustate ale variabilei dependente (pe axa orizontal). O bun aproximare are nu numai valori mici pentru reziduuri dar i o reprezentare grafic a acestora n jurul axei orizontale fr un model aparent, specific. Un grafic al reziduurilor care arat un anumit model cum ar fi o mulime de reziduuri pozitive urmate de o mulime de reziduuri negative, indic o violare a uneia din ipotezele impuse modelului de regresie sau indic folosirea unei forme funcionale greite. Predicii (previziuni) pe baza modelului de regresie liniar simpl Se pot obine previziuni punctuale sau previziuni pe intervale de ncredere. Prin previziunea punctual se estimeaz valoarea variabilei y pentru o valoare cunoscut a variabilei x. Prin previziunea pe interval de ncredere se estimeaz un interval de ncredere pentru y, pentru o valoare cunoscut a lui x. Presupunem c 0x este o valoare cunoscut a regresorului i suntem interesai de a

    prognoza 0y , adic valoarea variabilei y, asociat cu 0x . Se pot face dou feluri de

    predicii: pentru o valoare individual 0y , sau pentru valoarea medie a acesteia

  • )( 0yE . Este evident c, n general, dac x ia valoarea 0x , valoarea previzionat

    pentru 0y este 00 bxay += . Previziunea mediei Media condiionat a prediciei lui y cnd 0xx = este

    )|()()()|( 0000 xxyEbxaxbEaExxyE ==+=+== . Astfel 00 bxay += este o

    prognoz condiionat nedeplasat a lui 0y .

    Interval de ncredere pentru predicia valorii medii

    Avem:

    += 2

    202

    0 )(

    )(1)(

    xx

    xx

    nsyVar

    i

    e .

    Eroarea standard a estimatorului 0y este

    +=2

    20

    0 )(

    )(1)(

    xx

    xx

    nsyse

    i

    e .

    Distribuia de eantionare a estimatorului 0y este o distribuie normal cu media

    00 )( xyE += i variana dat de relaia de mai sus

    Statistica )(

    0

    00

    yse

    yyt

    = are o distribuie Student cu )2( n grade de libertate.

    Se poate construi un interval de ncredere )%1( pentru 000 )|( xxyE += , de forma:

    )()|()( 02,

    2

    000002,

    2

    0 ysetyxxyEysetynn

    ++=

    ,

    unde 2,

    2n

    t este valoarea critic din distribuia Student cu )2( n grade de libertate.

    Interval de ncredere pentru predicia individual Dorim s obinem 000 ++= xy , dar prognozm aceasta ca fiind 00 bxay += .

    0y difer de )( 0yE prin 0 . Eroarea de predicie sau eroarea de prognoz este

    00000 )()( ++== xbayye . Rezult c 0)()( 000 == yyEeE .

    ++= 2

    202

    00)(

    )(11)(

    xx

    xx

    nsyyVar

    i

    e iar eroarea standard va fi:

    ++=2

    20

    00 )(

    )(11)(

    xx

    xx

    nsyyse

    i

    e .

    Statistica )(

    00

    00

    yyse

    yyt

    = are o distribuie Student cu )2( n grade de libertate.

    Pentru un nivel de semnificaie fixat, (de cele mai multe ori 05,0= ), se poate construi un interval de ncredere )%1( pentru 0y , de forma:

    )()( 002,

    2

    00002,

    2

    0 yysetyyyysetynn

    +

    ,

    unde 2,

    2n

    t este valoarea critic din distribuia Student cu )2( n grade de libertate.

    Diferena nu este ntre predictorul individual i predictorul valorii medii ci n varianele ataate acestora. Trebuie remarcat faptul c se obine un interval de lungime mai mare pentru 0y dect pentru )( 0yE . Banda de ncredere este mai mic atunci

    cnd 0x se apropie de media de selecie x .

  • Regresia prin origine Uneori, modelul de regresie poate s nu conin termen constant:

    .,...,2,1, nixy iii =+=

    Ecuaia de regresie estimat, n cazul regresiei prin origine este nixy ii ,...,2,1, == .

    n acest caz ie nu trebuie s fie zero iar = 22 )( iii xye . Prin aplicarea MCMMP se obin relaiile:

    =

    2

    i

    ii

    x

    yx ,

    +=+=

    22

    )(i

    ii

    i

    iii

    x

    x

    x

    xx

    ,

    =

    2

    2

    )(ix

    Var

    , 1

    2

    22

    == n

    es

    i

    Pentru modelul de regresie fr constant coeficientul de determinaie poate fi negativ. Dac nu exist motive teoretice, este mai bine ca modelul s conin explicit un parametru de interceptare. Raportarea rezultatelor analizei de regresie n general, rezultatele analizei de regresie se prezit n diferite moduri. Pentru un model de regresie liniar simpl se scrie ecuaia de regresie estimat (aici este cazul unui eantion de volum 10), plus alte rezultate importante. Prezentarea rezultatelor obinute se poate face sub forma urmtoare:

    iy = 0537,31 + ix4626,0

    se = (22,2075) (0,0784) 8132,02 =R t = (1,3986) (5,9008) 8=df p = (0,1994) (0,0003) 8196,34=F Sub ecuaia de regresie estimat apar erorile standard ale coeficienilor de regresie, pe rndul urmtor apar valorile estimate ale rapoartelor t, iar pe ultima linie sunt valorile probabilitilor asociate cu valorile estimate ale coeficienilor de regresie. n partea din drepta apare coeficientul de determinaie, numrul gradelor de libertate i valoarea statisticii F. Pentru un numr de grade de libertate 8=df , probabilitatea de a obine o valoare egal cu 1,3986 sau mai mare este de 0,19 iar probabilitatea de a obine o valoare egal cu 5,9008 sau mai mare este de 0,0003. Astfel, sub ipoteza nul c parametrul de interceptare este zero, p-value de a obine o valoare t de 1,3986 este de 0,19. Rezult c nu putem respinge ipoteza nul. Estimaia parametrului de interceptare nu este statistic semnificativ. Dac se calculeaz intervalul de ncredere pentru acest parametru, se observ c acesta nu conine valoarea zero. De asemenea, sub ipoteza nul c parametrul pant este zero, p-value de a obine o valoare t de 5,9008 este de 0,0003. Astfel, respingem ipoteza nul c panta dreptei de regresie estimate este zero. Panta este statistic semnificativ. Se obine c nici intervalul de ncredere construit pentru acest parametru nu conine valoarea zero.