035_prezentare Curs 9 Regresie Multi Factorial A

37
MODELUL DE REGRESIE LINIAR MULTIFACTORIAL

Transcript of 035_prezentare Curs 9 Regresie Multi Factorial A

Page 1: 035_prezentare Curs 9 Regresie Multi Factorial A

MODELUL DE REGRESIE LINIAR MULTIFACTORIAL

Page 2: 035_prezentare Curs 9 Regresie Multi Factorial A

1. Specificarea, definirea şi identificarea modelului liniar multifactorial

Exemple:

1. În medie ne-am aştepta ca la un nivel mai ridicat de educaţie,

nivelul venitului să crească:

venit = 1 + 2educaţie +  

Însă venitul depinde şi de vârstă: venit = 1 + 2educaţie +3vârstă +

2. (funcţia Cobb Douglas):  Producţia = f(capital, forţă de muncă) +

Page 3: 035_prezentare Curs 9 Regresie Multi Factorial A

1. Specificarea, definirea şi identificarea modelului liniar multifactorial

3. În analiza raportului dintre cererea şi oferta unui produs vom putea studia cantitatea cerută pentru un anumit produs numai în funcţie de preţ, stabilind astfel un model simplu de regresie:

qt = + ·pt + t,

unde qt reprezintă cantitatea cerută, pt este preţul unitar, iar t este o variabilă reziduală ce cuantifică influenţa altor variabile asupra cererii.

Cererea dintr-un anumit produs este influenţată într-o mare măsură şi de alţi factori, precum calitatea produselor, veniturile disponibile etc.

Vom reprezenta, de exemplu, în acest caz modelul de regresie prin următoarea relaţie:

qt = + ·pt + t+ t,

unde în plus faţă de modelul anterior t cuantificã venitul disponibil al populatiei.

Page 4: 035_prezentare Curs 9 Regresie Multi Factorial A

1. Specificarea, definirea şi identificarea modelului liniar multifactorial

În multe situaţii, variabila rezultativă supusă studiului este determinată de mai mulţi factori de influenţă

Modelul regresiei multiple se prezintă sub forma ecuaţiei:y = 1x1 + 2x2 + … + kxk + .

În cazul acestei ecuaţii de regresie se identifică urmãtoarele variabilele: grupul de variabile exogene sau independente, ce se reprezintă sub

forma variabilei vectoriale X = (X1, X2, …, Xk ). o variabilă endogenă, notată prin Y.

Page 5: 035_prezentare Curs 9 Regresie Multi Factorial A

1. Specificarea, definirea şi identificarea modelului liniar multifactorial

Se realizează o selecţie de volum n Pentru fiecare unitate i vom avea seria de valori xi1, xi2, …, xik Pentru fiecare variabilă ansamblul datelor observate pentru cele n unităti vor fi

reprezentate prin vectorul coloană xi cu i=1,…k Ansamblul datelor pentru variabilele exogene vor fi prezentate sub forma

matricei:

În cazul modelului liniar de regresie cu termen liber prima coloană a matricei de mai sus este in fapt egală cu un vector cu n elemente egale cu 1. Vom scrie în

acest caz x1=1, unde 1=

11 21 1

12 22 21 2 ( , )

1 2

...

..., ,..., .

.... .... .... ....

...

k

kk n k

n n kn

x x x

x x xX x x x M

x x x

1

1

Page 6: 035_prezentare Curs 9 Regresie Multi Factorial A

1. Specificarea, definirea şi identificarea modelului liniar multifactorial

Pentru cele n unităti sunt înregistrate valorile y1, y2, …, yn, ce reprezintă elementele vectorului coloană y, deci valorile variabilei endogene vor fi reprezentate prin:

Cu notaţiile de mai sus vom scrie modelul de regresie prin următoarea ecuaţie:

y = 1x1 + 2x2 + … + kxk + .

ny

y

y

2

1

y

Page 7: 035_prezentare Curs 9 Regresie Multi Factorial A

1. Specificarea, definirea şi identificarea modelului liniar multifactorial

este vectorul coloană al parametrilor βj, j=1,…,k

de dimensiune (k,1).

vectorul coloană al variabilei aleatoare, de dimensiune (n,1)

Modelul liniar multifactorial se scrie:

Y = X +

k

...

2

1

n

...

2

1

Page 8: 035_prezentare Curs 9 Regresie Multi Factorial A

1. Specificarea, definirea şi identificarea modelului liniar multifactorial

Y

X1

X2

Variaţia explicată de X1 şi X2

Variaţia explicată de X1

Variaţia explicată de X2

Variaţia neexplicată de X1 sau X2

Page 9: 035_prezentare Curs 9 Regresie Multi Factorial A

1. Specificarea, definirea şi identificarea modelului liniar multifactorial

Y

X1 X2

Page 10: 035_prezentare Curs 9 Regresie Multi Factorial A

2. Ipotezele modelului liniar multifactorial

1. Y = X +

2. Media zero a erorilor: μ()=0 μ(Y) = X

3. Homoscedasticitatea: cov(’)=2I

4. Necorelarea între variabila independentă şi erori: cov(,X)=0

5. Matricea X este de rang k cu coloane independente două câte două

6. Normalitatea erorilor: N(0,2I)

Page 11: 035_prezentare Curs 9 Regresie Multi Factorial A

Estimarea parametrilor prin MCMMP

Minimizăm suma pătratelor erorilor de ajustare:

Folosind scrierea matriceală:

Minimizarea lui S se realizează în raport cu parametrii modelului de regresie Astfel, vom avea:

În dezvoltarea ultimei expresii s-a luat în considerare faptul că este un scalar real.

2 21 1 2 2

ˆ ˆ ˆ ˆ( ) ( ... )i i i i k kii i

S e y x x x i

iy .)'ˆ( 2ix

1

221 2

1

ˆ( ) ( ... ) 'n

i ni

n

e

eS e e e e

e

e e

ˆ

ˆ ˆ ˆ ˆ ˆ ˆ[min] ( ) ' ( ) '( ) ' ' ' ' .2 'S e e Y X Y X Y Y X Y X X

ˆ ' 'X Y

Page 12: 035_prezentare Curs 9 Regresie Multi Factorial A

Estimarea parametrilor prin MCMMP

Derivînd în raport cu avem:

Din ipoteza V matricea X’X este nesingulară, deci estimatorul vectorului parametrilor modelului de regresie multiplă este:

Dar atunci

Ultima expresie este pozitiv definită, deci soluţia este optimă.

ˆ ˆ ˆ ˆ ˆ ˆ( ) [ ' 2 ' ' ' ' ] [ ' ' ] ˆ2 ' 2 ' 2 ' 0ˆ ˆ ˆ

S Y Y X Y X X X XX Y X Y X X

.1ˆ ( ' ) 'X X X Y ˆ( ) ˆ2 ' 2 '

ˆS

X Y X X

XX

S'2

'ˆˆ)ˆ(2

Page 13: 035_prezentare Curs 9 Regresie Multi Factorial A

Interpretarea parametrilor

Considerăm modelul:

Atunci, dacă x2, … xk sunt constante se obţine următoarea egalitate:

Interpretare

este rata marginală de substituţie a variabilei endogene în raport cu variabila exogenă X1

arată cu câte unităţi creşte sau se micşorează caracteristica Y, dacă caracteristica X1 se modifică cu x1i unităţi, în condiţiile în care celelalte caracteristici X2, …, Xp rămân constante.

În cazul în care variabilele endogene sunt necorelate, atunci semnul coeficientului fiecărei variabile din modelul multiplu de regresie coincide cu semnul coeficientului din modelul simplu de regresie de analiză al variabilei endogene funcţie de fiecare variabilă exogenă în parte.

1 1 2 2ˆ ˆ ˆ... .i i i k kiy x x x

ii xy 11i

i

x

y

11

1

Page 14: 035_prezentare Curs 9 Regresie Multi Factorial A

3. Estimarea parametrilor modelului liniar multifactorial

Modelul de regresie în eşantion în formă matricială este:

Y = XB + E

Estimatorii parametrilor se determină după relatia:

Valorile previzionate:

Erorile:

YXXXB ')'( 1

XBY ˆ

YYE ˆ

Page 15: 035_prezentare Curs 9 Regresie Multi Factorial A

Verificarea validităţii modelului multifactorial de regresie liniară

I. Testarea validităţii modelului de regresie folosind metoda analizei de varianţă

II. Determinarea măsurii calităţii ajustării şi intensităţii legăturii între variabile

III. Testarea parametrilor modelului de regresie

IV. Verificarea ipotezelor modelului de regresie

Page 16: 035_prezentare Curs 9 Regresie Multi Factorial A

I. Testarea validităţii modelului de regresie folosind metoda analizei de varianţă

Ipotezele testate:

H0: (influenţa variabilelor X nu este diferită de cea a factorilor

aleatori, deci modelul nu poate fi validat)

H1: (influenţa variabilelor exogene X este semnificativ mai mare decât cea a factorilor aleatori)

Testul statistic F (Fisher):

Regula de decizie: Dacă Fcalc≤ Fα,k,n-k-1, atunci se acceptă H0 şi deci modelul nu este

semnificativ statistic; Dacă Fcalc> Fα,k,n-k-1, atunci se respinge H0, se acceptă H1, deci

modelul este semnificativ statistic (valid).

1/ 22/ exy ss

1/ 22/ exy ss

1

ˆ:

ˆ 22

2

2/

kn

yy

k

yy

s

sF iii

e

xy

Page 17: 035_prezentare Curs 9 Regresie Multi Factorial A

I. Testarea validităţii modelului de regresie folosind metoda analizei de varianţă

ANOVA

Sursa variaţiei

Varianţa (suma pătratelor)

Gradele de libertate

Dispersia corectată (media pătratelor)

Statistica F

Datorată regresiei (explicată de model)

Reziduală(neexplicată de model)

k

n-k-1

Totală

n-1–

n

iiy yyS

1

2)(

n

iixy yyS

1

2/ )ˆ(

n

iiie yyS

1

2)ˆ(

k

Ss

xyxy

/2/

12

kn

Ss ee

12

n

Ss

yy

2

2/

e

xy

s

sF

Page 18: 035_prezentare Curs 9 Regresie Multi Factorial A

II. Determinarea măsurii calităţii ajustării

Pentru a măsura calitatea ajustării în cazul regresiei liniare multifactoriale se calculează: Coeficientul de determinaţie (indicator relativ) Abaterea medie pătratică (eroarea standard) a

reziduurilor (măsură absolută a calităţii ajustării pe baza regresiei în eşantion)

Coeficientii liniari de regresie parţială

Page 19: 035_prezentare Curs 9 Regresie Multi Factorial A

II. Determinarea măsurii calităţii ajustării

Coeficientul de determinaţie:

ia valori în intervalul [0,1] Este o măsură a proporţiei varianţei explicate de model Măsoară intensitatea dependenţei variabilei endogene de factorii de

regresie (variabilele exogene) Valoarea coeficientului de determinaţie sporeşte odată cu creşterea

numărului variabilelor exogene folosite în definirea modelului de regresie

Coeficientul de determinaţie ajustat: se ajustează coeficientul de determinaţie cu gradele de libertate

este întotdeauna mai mic decât coeficientul de determinaţie

y

e

y

xy

S

S

S

SR 1/2

2

22 1

)1/(

)1/(1

y

e

y

e

s

s

nS

knSR

Page 20: 035_prezentare Curs 9 Regresie Multi Factorial A

II. Determinarea măsurii calităţii ajustării

Abaterea medie pătratică a erorilor în eşantion este:

1

ˆ

11

2

2

kn

yy

kn

Sss

n

iii

eee

unde este un estimator nedeplasat al dispersiei reziduurilorse este util în compararea modelelor. Dacă avem la dispoziţie câteva modele dintre care trebuie să alegem, cel mai potrivit a fi utilizat este cel pentru care se este mai scăzut.

2es

2

Page 21: 035_prezentare Curs 9 Regresie Multi Factorial A

II. Determinarea măsurii calităţii ajustării

Corelaţia parţială în eşantion:

Studiază intensitatea dependenței dintre variabila endogenă și o parte din variabilele exogene, în condițiile în care celelalte sunt cu acțiune constantă

În cazul a trei variabile y, x1 și x2 coeficientul corelației

parțiale dintre y și x1 când x2 rămâne constant se

calculează după relația:

)1)(1( 22,

212

2121

21

xxyx

xxyxyxxyx

rr

rrrr

Page 22: 035_prezentare Curs 9 Regresie Multi Factorial A

Exemplu: Dacă se consideră modelul de regresie

yt=1x1t+ 2x2t + t

sunt reținute următoarele posibilități pentru caracterizarea

gradului de dependență a caracteristicii endogene de variabilele

exogene ce definesc acest model:

Folosind coeficientul de determinare

Măsurând variația caracteristicii endogene explicată de fiecare variabilă exogenă prin coeficienții de coelație: ry/x1, ry/x2

Măsurând variația variabilei endogene sub influența a două variabile exogene în condițiile în care a treia variabilă este considerată cu acțiune constantă: ry/x1,X2, ry/x2,x1

II. Determinarea măsurii calităţii ajustării

Page 23: 035_prezentare Curs 9 Regresie Multi Factorial A

III. Testarea parametrilor modelului de regresie

Testarea parametrilor modelului de regresie

Ipotezele:

Testul statistic: unde

Regula de decizie: se respinge H0, deci parametrul i este

seminificativ

0:

0:

1

0

i

i

H

H

ii b

i

b

ii

s

b

s

bt

12

2

2

2

2 )'(...

2

1

XXdiags

s

s

s

s e

b

b

b

B

k

1,2/ kncalc tt

1,2/ kncalc tt

Page 24: 035_prezentare Curs 9 Regresie Multi Factorial A

Ipoteza de non multicolinearitate

Multicolinearitatea în sens restrâns:

Multicolinearitatea în sens larg:

0...2211 ppxxx

0...2211 ippxxx

Page 25: 035_prezentare Curs 9 Regresie Multi Factorial A

Cauze de apariţie a multicolinearităţii

Metoda de colectare a datelor: în cazul în care datele nu au fost observate complet aleator, ori au fost excluse anumite grupuri de indivizi din eşantion, poate apare fenomenul de multicolinearitate a variabilelor observate, fără ca acesta să fie real;

Restricţiile asupra modelului sau asupra populaţiei eşantionate: în cazul unor restricţii care elimină indivizii ce diferenţiază variabilele observate, apare multicolinearitatea variabilelor;

Specificarea modelului

Model supradeterminat: în cazul în care un model are mai multe variabile explicative decât observaţii.

Ipoteza de non multicolinearitate

Page 26: 035_prezentare Curs 9 Regresie Multi Factorial A

Consecințele multicolinearității

Dacă există multicolinearitate perfectă det(X’X)=0 şi nu se poate

defini inversa matricei X’X, deci nu pot fi determinaţi estimatorii

coeficienţilor de regresie.

În cazul unei multicolinearităţi puternice dar nu perfecte,

determinantul matricei X’X nu va fi identic zero, dar va tinde către

zero. Componentele matricei X’X vor tinde către infinit, deci şi

variaţia estimatorilor parametrilor de regresie va tinde către infinit.

Ipoteza de non multicolinearitate

Page 27: 035_prezentare Curs 9 Regresie Multi Factorial A

Depistarea multicolinearităţii Criteriul Klein

Pentru modelul de regresie complet se calculează raportul de corelaţie Ry2

Se determină matricea de corelaţie liniară a variabilelor exogene:

Două variabile exogene xi şi xj sunt coliniare dacă:

Criteriul factorului de inflaţie

Se regresează fiecare variabilă exogenă (j) în funcţie de toate celelalte

variabile exogene, notându-se cu coeficientul de determinare.

Se calculează factorul de inflaţie:

Dacă Fij este foarte mare există fenomenul de multicolinearitate datorat

variabilei j

njixx ji

r,1,/

ji xxy rR /2

21

1

jj R

FI

2jR

Ipoteza de non multicolinearitate

Page 28: 035_prezentare Curs 9 Regresie Multi Factorial A

Eliminarea fenomenului de multicolinearitate Partiţionarea matricei variabilelor exogene

În cazul apariţiei multicolinearităţii, după determinarea variabilelor exogene ce

conduc la aceasta, se va partiţiona matricea variabilelor explicative X, în două

submatrice cu coloanele liniar independente (variabilele corelate sunt separate în submatrici diferite) : X=(Xm, Xp-m).

Se consideră modelul de regresie, în care sunt incluse variabilele exogene din

prima matrice:

y=Xmm+m

Se estimează parametrii modelului anterior şi se calculează:

Se consideră apoi modelul de regresie, cu variabilele exogene din a doua matrice:

y*=Xrr+r

Se estimează parametrii acestui nou model de regresie.

mmXyy *

Ipoteza de non multicolinearitate

Page 29: 035_prezentare Curs 9 Regresie Multi Factorial A

Eliminarea mecanică a multicolinearităţii În cazul unei multicolinearităţi puternice, cea mai simplă metodă ar fi

eliminarea câte uneia din variabilele corelate. Însă prin eliminarea unei

variabile explicative din model se produce o eroare de specificare.

Transformarea variabilelor Pentru reducerea multicolinearităţii, în cazul seriilor temporale, se apelează

adesea la transformarea variabilelor iniţiale, folosind diferenţele de ordinul

întâi.

Astfel în locul modelului general:

se vor estima parametrii modelului:

tptptt uxxy ...110

1111111 )(...)( ttptptptttt uuxxxxyy

Ipoteza de non multicolinearitate

Page 30: 035_prezentare Curs 9 Regresie Multi Factorial A

Estimarea valorilor variabilei dependente

01'

01,2/0 '1ˆ XXXXsty ekn

ˆ0xY

Valoarea punctuală previzionată atunci când elementele vectorului x0 sunt fixate este:

Intervalul de încredere pentru valoarea previzionată este:

Page 31: 035_prezentare Curs 9 Regresie Multi Factorial A

Exemplu

Se consideră modelul de regresie liniară ce descrie legătura între: variabila endogenă: ritmul anual de modificare a

consumului final (yi) variabilele exogene: ritmul anual de creştere a

câştigului salarial mediu (x1i) şi rata inflaţiei (x2i)

AnRata

inflaţieiRitmul anual de creştere a

salariului mediuRitmul anual de modificare a consumului

final

1995 32,3 48,9 10,8

1996 38,8 51,9 7

1997 155 96,8 -4,3

1998 59,1 64,9 1,1

1999 45,8 46,1 -2,5

2000 45,7 62,8 1,4

2001 34,5 41,2 6,3

2002 22,5 25,5 4,9

2003 15,3 27,7 6,9

2004 11,9 23,3 10,3

Page 32: 035_prezentare Curs 9 Regresie Multi Factorial A

Exemplu

Fie modelul liniar multifactorial de regresie:

Se fac n=13 observatii asupra celor trei variabile si se obtin matricile:

Sa se determine estimatorii parametrilor ecuatiei de regresie si sa se previzioneze ecuatia de regresie pentru x1=64 si x2=23

ii xxy 2211

43438452205

845219828452

20545213

'XX

38769

82495

2034

'YX

Page 33: 035_prezentare Curs 9 Regresie Multi Factorial A

Exemplu:Nr.

familii (X1)

Supr.comerciala (X2)

Cifra de afaceri (Y)

70 21 19835 26 20955 14 19725 10 15628 12 8543 20 18715 5 4333 28 21123 9 1204 6 6245 10 176

Page 34: 035_prezentare Curs 9 Regresie Multi Factorial A

Exemplu – rezultate Excel:

Regression Statistics Multiple R (R) 0,9251 R Square (R2) 0,8558 Adjusted R Square 0,8270 Standard Error (se) 27,8500 Observations (n) 13

Interpretări: R : legătura dintre Xi şi Y este puternică. R2 : 85,6% din variaţia lui Y este determinată de influenţa lui X1,X2 (este explicată de model)

Page 35: 035_prezentare Curs 9 Regresie Multi Factorial A

Exemplu – rezultate Excel:ANOVA

df SS MS F Significance F

Regression k = 2 2

/ xy = 46033,02 2/ xys = 23016,51 Fcalc = 29,67 0,00006234

Residual n-k-1 = 10 2e = 7756,21 2

es = 775,62

Total n-1 = 12 2y = 53789,23

Interpretări: Modelul de regresie este semnificativ statistic (valid) (adică se acceptă H1) pentru o probabilitate de cel mult 100-0,0062=99,9938%>95%

Page 36: 035_prezentare Curs 9 Regresie Multi Factorial A

Exemplu – rezultate Excel:

Coefficients Standard

Error t Stat P-value Lower 95%

Upper 95%

Intercept a =

37,5023 sa =

17,6461

calct =

2,1252 0,059496 -1,82 76,82

Nr. familii b1 =

1,4963 sb1 =

0,5534

1calct =

2,7039 0,022165 0,26 2,73

Supr.com b2 =

4,2446 sb2 =

1,0650

2calct =

3,9856 0,002578 1,87 6,62

Interpretări: Parametrul α nu este semnificativ, deoarece probabilitatea cu care se poate accepta

H1 (care susţine că este semnificativ) este de cel mult 100-5,95=94,05%<95%. 82,7682,1

Parametrul β1 este semnificativ, deoarece probabilitatea cu care se poate accepta H1 (care susţine că este semnificativ) este de cel mult 100-2,2=97,8%>95%

73,226,0

Parametrul β2 este semnificativ, deoarece probabilitatea cu care se poate accepta H1 (care susţine că este semnificativ) este de cel mult 100-0,26=99,74%>95%

62,687,1

Page 37: 035_prezentare Curs 9 Regresie Multi Factorial A

RESIDUAL OUTPUT

Observation Predicted Cifra

afaceri Residuals 1 231,38 -33,38 2 200,23 8,77 3 179,22 17,78 4 117,36 38,64 5 130,33 -45,33 6 186,74 0,26 7 81,17 -38,17 8 205,73 5,27 9 110,12 9,88

10 68,96 -6,96 11 147,28 28,72 12 101,39 15,61 13 274,10 -1,10

Exemplu – rezultate Excel: