022_prezentare Curs 5,6 - Testarea Ipotezelor Modelului Liniar de Regresie

36
MODELUL DE REGRESIE CLASIC Ipotezele modelului de regresie liniară Facultatea de CSIE, Specializarea Informatică Economică Curs 5, 6 – 2, 9 noiembrie 2009 Conf.univ.dr. Cristina BOBOC

Transcript of 022_prezentare Curs 5,6 - Testarea Ipotezelor Modelului Liniar de Regresie

Page 1: 022_prezentare Curs 5,6 - Testarea Ipotezelor Modelului Liniar de Regresie

MODELUL DE REGRESIE CLASIC

Ipotezele modelului de regresie liniară

Facultatea de CSIE, Specializarea Informatică Economică

Curs 5, 6 – 2, 9 noiembrie 2009

Conf.univ.dr. Cristina BOBOC

Page 2: 022_prezentare Curs 5,6 - Testarea Ipotezelor Modelului Liniar de Regresie

IV. Ipotezele modelului de regresie liniară

Pentru obţinerea unor estimatori de calitate ai parametrilor de regresie se fac, de obicei, şase presupuneri (ipoteze) standard:

1. Forma funcţională liniară: yi = + xi + i, i=1,n

2. Media zero a erorilor: μ(i)=0 i

3. Homoscedasticitatea: σ2(i)= constantă i

4. Non autocorelarea erorilor: Cov(i,j)=0 ij

5. Normalitatea erorilor: i sunt repartizate normal

2

Page 3: 022_prezentare Curs 5,6 - Testarea Ipotezelor Modelului Liniar de Regresie

Ipoteza 1: Forma funcţională

Forma generală: f(yi)= +g(xi)+i

Page 4: 022_prezentare Curs 5,6 - Testarea Ipotezelor Modelului Liniar de Regresie

Ipoteza 1: Forma funcţională

Page 5: 022_prezentare Curs 5,6 - Testarea Ipotezelor Modelului Liniar de Regresie

Ipoteza 1: Forma funcţională

Page 6: 022_prezentare Curs 5,6 - Testarea Ipotezelor Modelului Liniar de Regresie

Ipoteza 1: Forma funcţională

Ipoteza de linearitate a modelului include şi aditivitatea

erorilor:

y = + x + ,

Exemplu:

eAxy

Axy

ln(y)=ln(A)+ln(x)+

Nu poate fi transformat în model liniar

Page 7: 022_prezentare Curs 5,6 - Testarea Ipotezelor Modelului Liniar de Regresie

Ipoteza 2: media erorilor este zero

Eroarea este văzută ca suma efectelor individuale, cu semne diferite.

Dacă media erorilor este diferită de zero, ea poate fi considerată ca o parte sistematică a regresiei:

μ()= + x + = (+) + x + (-)

Această presupunere indică faptul că media valorilor Y, condiţionat de X:

(Y/X = Xi) = + Xi

adică nu există variabile omise asociate cu regresia în populaţie.

Page 8: 022_prezentare Curs 5,6 - Testarea Ipotezelor Modelului Liniar de Regresie

Ipoteza 3 : Homoscedasticitatea erorilorDefinire

a) Erori homoscedastic b) Erori heteroscedastice

Homoscedasticitatea:

σ2(i)= constantă i2

Page 9: 022_prezentare Curs 5,6 - Testarea Ipotezelor Modelului Liniar de Regresie

Ipoteza 3 : Homoscedasticitatea erorilor Definire

X

Y

Densitatea

1 + 2 Xi

X

Y

Densitatea

1 + 2 Xi

Page 10: 022_prezentare Curs 5,6 - Testarea Ipotezelor Modelului Liniar de Regresie

Ipoteza 3 : Homoscedasticitatea erorilorCauze de apariţie a heteroscedasticităţii

1. Modelele de învăţare din erori

2. Pe măsura creşterii veniturilor, cresc posibilităţile de

alegere în distribuirea acestora

3. Erorile de măsură

4. Strategiile de eşantionare

5. Transformarea incorectă a datelor

6. Specificarea eronată a formei funcţionale:

Page 11: 022_prezentare Curs 5,6 - Testarea Ipotezelor Modelului Liniar de Regresie

Ipoteza 3 : Homoscedasticitatea erorilor Consecinţele heteroscedasticităţii

Consecinţele heteroscedasticităţii asupra estimatorilor

obţinuţi prin metoda celor mai mici pătrate

Utilizarea metodei celor mai mici pătrate în condiţiile în care

ipoteza homoscedasticităţii nu este verificată conduce la

estimatori deplasaţi ai variaţiei coeficienţilor modelului liniar de

regresie şi estimatori ne-eficienţi ai coeficienţilor modelului

liniar de regresie, existând alţi estimatori cu varianţa mai mică.

Page 12: 022_prezentare Curs 5,6 - Testarea Ipotezelor Modelului Liniar de Regresie

Ipoteza 3 : Homoscedasticitatea erorilorDepistarea heteroscedasticităţii

Depistarea heteroscedasticităţii

Pentru depistarea heteroscedasticităţii pot fi

folosite metode empirice, formale sau informale:

metoda grafică

testul White

testul Goldfeld-Quandt

Page 13: 022_prezentare Curs 5,6 - Testarea Ipotezelor Modelului Liniar de Regresie

Ipoteza 3 : Homoscedasticitatea erorilor Depistarea heteroscedasticităţii

Metoda grafică

Se reprezintă grafic ei2 în funcţie de xi şi se observă dacă

există o legătură sistematică între acestea.

xi

ei2

Page 14: 022_prezentare Curs 5,6 - Testarea Ipotezelor Modelului Liniar de Regresie

Ipoteza 3 : Homoscedasticitatea erorilor Depistarea heteroscedasticităţii

Testul White Etapa 1. Se estimează parametrii modelului de regresie

multifactorial: Y=X prin metoda celor mai mici pătrate şi se obţine seria reziduurilor (ei)i=1,n

Etapa 2. Se explicitează seria (ei2)i=1,n în raport cu una

sau mai multe variabile exogene, astfel:

1.

2.

i

k

jjij

k

jjiji vxbxae

1

2

1

2

iiiiiiii vxxcxbxbxaxae 211222

2112211

2

Page 15: 022_prezentare Curs 5,6 - Testarea Ipotezelor Modelului Liniar de Regresie

Ipoteza 3 : Homoscedasticitatea erorilor Depistarea heteroscedasticităţii

Etapa 3. Ipotezele testului:H0: a1=...=ak=b1=...=bk=0 model homoscedastic

H1: ai 0 sau bj 0 model heteroscedastic

Se demonstrează că în cazul ipotezei nule, nR2 este repartizată 2r,

unde r este numărul de parametri din modelul erorilor folosit.Deci, statistica testului este:

LM=nR2 2r

unde: n este numărul observaţiilor folosite pentru estimarea parametrilor şi

erorilor R2 este raportul de determinare evaluat pentru unul din modelele

erorilor r este numărul de parametri din modelele erorilor

Page 16: 022_prezentare Curs 5,6 - Testarea Ipotezelor Modelului Liniar de Regresie

Etapa 4. Pentru r grade de libertate şi o probabilitate de garantare a rezultatelor de 95% se determină valoarea 2

,r . Dacă LM>2

,r  atunci se respinge H0, deci modelul este heteroscedastic.

Dacă LM<2,r  atunci se acceptă H0, deci modelul este

homoscedastic.

Ipoteza 3 : Homoscedasticitatea erorilor Depistarea heteroscedasticităţii

Page 17: 022_prezentare Curs 5,6 - Testarea Ipotezelor Modelului Liniar de Regresie

Observaţii: O creştere a lui r conduce la diminuarea puterii testului. Când sunt un număr mare de variabile exogene se

recomandă utilizarea modelului 1. Când sunt un număr moderat de variabile exogene se

recomandă utilizarea modelului 2.

Ipoteza 3 : Homoscedasticitatea erorilor Depistarea heteroscedasticităţii

Page 18: 022_prezentare Curs 5,6 - Testarea Ipotezelor Modelului Liniar de Regresie

Ipoteza 3 : Homoscedasticitatea erorilor Depistarea heteroscedasticităţii

Exemplul 2: Se consideră modelul de regresie ce descrie legătura, presupusă liniară, între valoarea investiţiilor realizate şi rata dobânzii, înregistrate în perioada 1995-2004.

Etapa 1 : Se estimează parametrii modelului liniar de regresie :

Etapa 2 : Se calculează erorile ei=yi- iar pentru acestea se estimează modelul :

şi se obţine:cu R2=0,568

Etapa 3: Se calculează statistica testului White :

>LM. Deci se acceptă ipoteza H0, modelul fiind homoscedastic.

An 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004

Investiţii (mld. lei) 15424,9 24998,5 53540,1 67919,9 96630,4 151947,2 241153,6 322836 422535,1 526555,8

Rata dobânzii (%) 36,5 38,1 51,6 38,3 45,4 32,4 26,2 18,4 10,8 11,3

ii xy 11731013,554842ˆ

iy

iiii xbxbe 210

2

22 1842359788264420ˆ iii xxe

68,5568,010 LM

99,522;05,0

Page 19: 022_prezentare Curs 5,6 - Testarea Ipotezelor Modelului Liniar de Regresie

Ipoteza 3 : Homoscedasticitatea erorilorMăsuri corective ale heteroscedasticităţii

i2 cunoscut

Metoda celor mai mici pătrate ponderată

unde x0i=1 pentru orice i. i

i

i

i

i

i

i

i uxxy

1

00

***1

*0

*0

*iiii uxxy n1,i ,1)( * iuVar

Page 20: 022_prezentare Curs 5,6 - Testarea Ipotezelor Modelului Liniar de Regresie

Ipoteza 3 : Homoscedasticitatea erorilorMăsuri corective ale heteroscedasticităţii

deci variaţia erorii este proporţională cu

pătratul variabilei explicative, modelul se transformă astfel:

unde x0i=1 pentru orice i.

222ii x

i

i

i

i

i

i

x

u

x

x

x

y 1

00

*1

*0

*iii uxy

n1,i ,)()( 22

22*

i

i

i

ii x

x

x

uVaruVar

Page 21: 022_prezentare Curs 5,6 - Testarea Ipotezelor Modelului Liniar de Regresie

Ipoteza 3 : Homoscedasticitatea erorilorMăsuri corective ale heteroscedasticităţii

deci variaţia erorii este proporţională cu

variabila explicativă, modelul se transformă astfel:

unde x0i=1 pentru orice i.

ii x22

i

ii

i

i

i

i

x

ux

x

x

x

y 1

00

**1

*00

*iiii uxxy

n1,i ,)()( 22

*

i

i

i

ii x

x

x

uVaruVar

Page 22: 022_prezentare Curs 5,6 - Testarea Ipotezelor Modelului Liniar de Regresie

Ipoteza 3 : Homoscedasticitatea erorilorMăsuri corective ale heteroscedasticităţii

Transformarea logaritmică este adesea folosită pentru înlăturarea heteroscedasticităţii, deoarece reduce dispersia variabilelor iniţiale. Astfel se estimează prin metoda celor mai mici pătrate modelul:

iii uxy lnln 21

Page 23: 022_prezentare Curs 5,6 - Testarea Ipotezelor Modelului Liniar de Regresie

Ipoteza 4: Non autocorelarea erorilorDefinire

Variabilele aleatoare εi sunt statistic independente una de alta, adică

(non-autocorelarea reziduurilor).

Dacă există i ≠ j astfel încât cov(εi, εj) ≠ 0, spunem că erorile sunt autocorelate.

0,cov ji ji

Page 24: 022_prezentare Curs 5,6 - Testarea Ipotezelor Modelului Liniar de Regresie

Ipoteza 4: Non autocorelarea erorilorDefinire

timp

u

0

timp

u

timp

u

Page 25: 022_prezentare Curs 5,6 - Testarea Ipotezelor Modelului Liniar de Regresie

Ipoteza 4: Non autocorelarea erorilorCauzele apariţiei autocorelării erorilor

Absenţa uneia sau mai multor variabile explicative

importante

Modelul de regresie nu este corect specificat

Modele autoregresive

Transformarea datelor

Page 26: 022_prezentare Curs 5,6 - Testarea Ipotezelor Modelului Liniar de Regresie

Ipoteza 4: Non autocorelarea erorilorConsecinţele autocorelării erorilor

Utilizarea metodei celor mai mici pătrate în condiţiile în care erorile sunt autocorelate, conduce estimatori nedeplasaţi şi consistenţi, dar nu şi eficienţi, ai coeficienţilor modelului liniar de regresie, existând alţi estimatori cu varianţa mai mică.

Page 27: 022_prezentare Curs 5,6 - Testarea Ipotezelor Modelului Liniar de Regresie

Ipoteza 4: Non autocorelarea erorilorDepistarea autocorelaţiei erorilor

Metoda grafică Testul Durbin Watson Testul Goldfeld-Quandt

Page 28: 022_prezentare Curs 5,6 - Testarea Ipotezelor Modelului Liniar de Regresie

Ipoteza 4: Non autocorelarea erorilorDepistarea autocorelaţiei erorilor

Metoda grafică

Valorile erorilor observate pot fi reprezentate printr-o cronogramă. În cazul în care evoluţia temporală a variabilei reziduale urmează anumite pattern-uri, sugerează faptul că erorile sunt autocorelate.

Pentru identificarea unei autocorelaţii de ordinul 1 pentru erori, se pot reprezenta grafic printr-o corelogramă

valorile observate pentru ut şi ut-1.

Page 29: 022_prezentare Curs 5,6 - Testarea Ipotezelor Modelului Liniar de Regresie

Ipoteza 4: Non autocorelarea erorilorDepistarea autocorelaţiei erorilor

Testul Durbin Watson detectează doar autocorelarea de ordin 1 şi se bazează pe

câteva ipoteze restrictive: modelul de regresie trebuie să cuprindă termen liber: în cazul în

care modelul nu are termen liber trebuie să se revină şi să se transforme datele pentru obţinerea unui model de regresie cu termen liber;

matricea X trebuie să fie nestochastică; erorile sunt determinate printr-un proces autoregresiv de ordin

1: ; erorile sunt presupuse a fi distribuite normal; modelul de regresie nu cuprinde ca variabilă explicativă,

variabila endogenă cu decalaj

Page 30: 022_prezentare Curs 5,6 - Testarea Ipotezelor Modelului Liniar de Regresie

Ipoteza 4: Non autocorelarea erorilorDepistarea autocorelaţiei erorilor

Etapa 1. Se estimează parametrii modelului de regresie prin metoda celor mai mici pătrate şi se obţine seria reziduurilor (ei)i=1,n. Ipotezele ce trebuie testate sunt:

H0: = 0 şi H1: ≠ 0

unde este coeficientul de autocorelare a erorilor de ordin 1.

Etapa 2. Se calculează statistica Durbin Watson :

n

tt

n

ttt

e

eeDW

1

2

2

21)(

Page 31: 022_prezentare Curs 5,6 - Testarea Ipotezelor Modelului Liniar de Regresie

Ipoteza 4: Non autocorelarea erorilorDepistarea autocorelaţiei erorilor

Etapa 3. Se determină valorile critice ale statisticii Durbin Watson, d1 şi d2, în funcţie de numărul de variabile exogene incluse în modelul de regresie (p), de numărul de observaţii (n) şi de pragul de semnificaţie ales ().

Etapa 4. Se compară statistica Durbin Watson cu valorile critice ale statisticii şi rezultă următoarele zone de decizie:

0<DW<d1 : erorile sunt autocorelate pozitiv; d1<DW<d2 : nu se poate spune dacă erorile sunt corelate pozitiv; d2<DW<4-d2 : erorile nu sunt autocorelate; 4-d2<DW<4-d1: nu se poate spune dacă erorile sunt corelate

negativ; 4-d1<DW<4 : erorile sunt autocorelate negativ.

Page 32: 022_prezentare Curs 5,6 - Testarea Ipotezelor Modelului Liniar de Regresie

Ipoteza 4: Non autocorelarea erorilorDepistarea autocorelaţiei erorilor

Testul Durbin-Watson pentru α= 5 %.

n k = 1 k = 2 k = 3 k = 4 k = 5 d1 d2 d1 d2 d1 d2 d1 d2 d1 d2

15 1,08 1,36 0,95 1,54 0,82 1,75 0,69 1,97 0,56 2,21 20 1,20 1,41 1,10 1,94 1,00 1,68 0,90 1,83 0,79 1,99 30 1,35 1,49 1,28 1,57 1,21 1,65 1,14 1,74 1,07 1,83 40 1,44 1,54 1,39 1,60 1,34 1,66 1,29 1,72 1,23 1,79 50 1,50 1,59 1,46 1,

63 1,42 1,67 1,38 1,72 1,34 1,77

100 1,65 1,69 1,63 1,72 1,61 1,74 1,59 1,76 1,37 1,78

Page 33: 022_prezentare Curs 5,6 - Testarea Ipotezelor Modelului Liniar de Regresie

Ipoteza 4: Non autocorelarea erorilorExemplu

Se consideră modelul de regresie ce descrie legătura, presupusă liniară, între rata de solvabilitate bancară şi totalul sumelor datorate către bănci în miliarde lei. Se doreşte testarea autocorelării erorilor folosind testul Durbin Watson.

Luna Rata solvabilitate Total sume datorate Luna Rata solvabilitate Total sume datorate

ian.02 28,18 166599 iun.03 22,82 296198

feb.02 27,5 172543 iul.03 22,48 296029

mar.02 27,24 184806 aug.03 21,88 314975

apr.02 26,11 196550 sep.03 21,36 321995

mai.02 27,47 201206 oct.03 20,72 336362

iun.02 27,09 206722 nov.03 20,62 341096

iul.02 27,26 208508 dec.03 21,09 364528

aug.02 26,73 215573 ian.04 21,24 354209

sep.02 26,22 220474 feb.04 20,99 370735

oct.02 25,77 227831 mar.04 20,46 386328

nov.02 24,86 241042 apr.04 20,06 397065

dec.02 25,04 252625 mai.04 20,1 407180

ian.03 24,97 257288 iun.04 20,34 435333

feb.03 24,36 260337 iul.04 19,86 458771

mar.03 25,02 268130 aug.04 19,57 467051

apr.03 23,42 278585 sep.04 19,74 484288

mai.03 23,26 286370

Page 34: 022_prezentare Curs 5,6 - Testarea Ipotezelor Modelului Liniar de Regresie

Ipoteza 4: Non autocorelarea erorilorMăsuri corective ale autocorelării erorilor

Dacă în urma aplicării unui test de diagnostic al autocorelaţiei erorilor, a rezultat prezenţa acesteia, se decide dacă aceasta nu este rezultatul unei erori de specificare a modelului. În acest caz dacă:

forma funcţionalei este necorespunzătoare, se alege o nouă funcţie de regresie;

au fost omise variabile importante pentru descrierea modelului, acestea sunt incluse în model;

variabilele necesită transformări suplimentare, acestea sunt realizate.

În cazul autocorelaţiei pure, se poate aplica metoda celor mai mici pătrate generalizată descrisă în continuare.

Page 35: 022_prezentare Curs 5,6 - Testarea Ipotezelor Modelului Liniar de Regresie

Ipoteza 4: Non autocorelarea erorilorMăsuri corective ale autocorelării erorilor

Se consideră modelul de regresie :

Se presupune că seria erorilor (ui)i=1,n, urmează un proces

autoregresiv de ordinul întâi:

Atunci:

Notând:

t

p

jjtjt uxy

10

ttt uu 1

t

p

jjtjt uxy

10 1

1101 )()1(

tt

p

jjtjtjtt uuxxyy

1

00

1*

1*

)1(

ttt

jtjtjt

ttt

uu

xxx

yyy

t

p

jjtjt xy

1

*0

*

Page 36: 022_prezentare Curs 5,6 - Testarea Ipotezelor Modelului Liniar de Regresie

Ipoteza 5: normalitatea erorilor

Se presupune că variabila aleatoare i este normal distribuită :

Distribuţia de probabilitate pentru i