regresie_multipla

9
Din activitatea unei societăţi comerciale se cunosc următoarele date pentru perioada 1995-2004: Anul Producţia (mii buc.) Număr de salariaţi Capitalul fix (mii lei preţuri comparabile) 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 20 24 28 32 34 40 40 42 44 46 1000 1200 1400 1100 1500 1700 1900 1900 2000 2100 4000 4200 4400 4600 4600 4200 4600 4800 4800 5000 Presupunând că între cele 3 variabile există o dependenţă liniară, se cere: a) să se estimeze parametrii modelului de regresie; b) să se determine erorile reziduale; c) să se măsoare intensitatea legăturii dintre producţie şi cele două variabile; d) să se testeze validitatea modelului de regresie folosit. Rezolvare : Notăm cu: y = producţia; x 1 = numărul de salariaţi; x 2 = valoarea capitalului fix. Ecuaţia de regresie este: ^ y=a 0 +a 1 x 1 +a 2 x 2 unde ^ y reprezintă valorile ajustate sau teoretice ale variabilei y în funcţie de cele două variabile factoriale x 1 şi x 2 . Determinarea parametrilor modelului de regresie se face prin metoda celor mai mici pătrate: i ( y i −^ y i ) 2 min i ( y i a 0 a 1 x i 1 a 2 x i2 ) 2 min

Transcript of regresie_multipla

Page 1: regresie_multipla

Din activitatea unei societăţi comerciale se cunosc următoarele date pentru perioada 1995-2004:

Anul Producţia(mii buc.) Număr de salariaţi

Capitalul fix(mii lei preţuri comparabile)

1995199619971998199920002001200220032004

20242832344040424446

1000120014001100150017001900190020002100

4000420044004600460042004600480048005000

Presupunând că între cele 3 variabile există o dependenţă liniară, se cere:a) să se estimeze parametrii modelului de regresie;b) să se determine erorile reziduale;c) să se măsoare intensitatea legăturii dintre producţie şi cele două variabile;d) să se testeze validitatea modelului de regresie folosit.

Rezolvare:Notăm cu:

y = producţia;x1 = numărul de salariaţi;x2 = valoarea capitalului fix.

Ecuaţia de regresie este:y=a0+a1 x1+a2 x2

unde y reprezintă valorile ajustate sau teoretice ale variabilei y în funcţie de cele două variabile factoriale x1 şi x2.

Determinarea parametrilor modelului de regresie se face prin metoda celor mai mici pătrate:

∑i

( y i− yi )2 min ⇔ ∑i

( y i−a0−a1 xi1−a2 x i 2)2 min ⇔

{∂

∂ a0=0

∂∂a1

=0

∂∂ a2

=0

{na0+a1∑

ix i1+a2∑

ix i2=∑

iy i

a0∑i

xi 1+a1∑i

x i 12 +a2∑

ix i 1 x i 2=∑

ix i1 y i

a0∑i

x i2+a1∑i

x i1 x i2+a2∑i

x i22 =∑

ix i2 y i

Calculele ajutătoare pentru rezolvarea sistemului sunt prezentate în tabelul următor:

Page 2: regresie_multipla

y i x i1 xi2 x i12 xi2

2 x i1 xi2 x i1 y i x i2 y i

20242832344040424446

10121411151719192021

40424446464246484850

100144196121225289361361400441

1600176419362116211617642116230423042500

4005046165066907148749129601050

200288392352510680760798880966

800100812321472156416801840201621122300

350 158 452 2638 20520 7226 5826 16024

{10a0+a1⋅158+a2⋅452=350a0⋅158+a1⋅2638+a2⋅7226=5826

a0⋅452+a1⋅7226+a2⋅20520=16024

{a0=−23 ,13a1=1 , 67a2=0 , 70

Deci:y=−23 ,13+1 ,67 x1+0 ,70 x2

Se observă că la o creştere cu 100 a numărului de salariaţi, producţia va crete cu 1,67 mii bucăţi, iar la o creştere a capitalului fix cu 100 mii lei, producţia va creşte cu 0,7 mii bucăţi.

Matricial, sistemul se rezolvă astfel:A=( X ' X )−1 X ' Y

X=(1 10 401 12 421 14 441 11 461 15 461 17 421 19 461 19 481 20 481 21 50

) ;

X ' X=(10 158 452158 2638 7226452 7226 20526 )

; |X ' X|=55640

( X ' X )−1=(34 ,73 −0 , 41 −0 , 91−0 , 41 0 ,017 −0 , 015−0 , 91 −0 ,015 0 , 025 )

;

X ' Y=(350582616024)

Page 3: regresie_multipla

A=(−23 ,131 , 670 , 70 )

b) Erorile sau valorile variabilei reziduale sunt: ui= y i− yi , iar rezultatele sunt prezentate în tabelul de mai jos:

y i y i ui ui2

20242832344040424446

21,6526,4031,1527,5334,2234,7640,9142,3243,9947,07

-1,65-2,40-3,154,47

-0,225,24

-0,91-0,320,01

-1,06

2,725,769,92

19,980,05

27,460,830,100,001,12

c) Pentru măsurarea intensităţii legăturii dintre producţie şi cele după variabile folosim raportul de corelaţie multiplă:

R y /x1 , x2=√1−

∑i=1

n

( y i− y i )2

∑i=1

n

( y i− y )2=√1−67 , 95

706 =0 , 95

y=∑i=1

10

y i

10=350

10=35

∑i=1

10

( yi− y)2= (20−35 )2+(24−35 )2+. . .+ (46−35 )2=67 , 95

Deoarece R y /x1 , x2

=0 ,95 →1 înseamnă că între cele 3 variabile există o legătură directă,

puternică.

d) Testarea validităţii modelului de regresie- se stabileşte ipoteza nulă: H0: modelul nu este valid;- se stabileşte ipoteza alternativă: H1: modelul este valid;- se calculează testul F:

Fcalc=s x1 , x2

2

su2 =

319 ,059 , 69 =32 , 89

sx1 , x2

2 =SSRk

=∑i=1

10

( y i− y )2

k=638 ,10

2=319 , 05

Page 4: regresie_multipla

su2= SSE

n−l−1=∑i=1

10

( y i− y )2

n−l−1=67 , 890

8=9 , 69

k = numărul variabilelor factoriale = 2

- se compară Fcalc cu F; k; n-k-1:F0,05; 2; 7 = 4,74

Deoarece Fcalc = 32,89 F0,05; 2; 7 Respingem ipoteza nulă şi acceptăm alternativa, deci modelul este valid.

Rezolvarea în programul EXCEL:

Se introduc valorile variabilei rezultative y în celulele A2-A11Se introduc valorile variabilei x i1în celulele B2-B11Se introduc valorile variabilei x i2 în celulele C2-C11Se selectează din meniul principal opţiunea Tools, apoi Data Analysis şi apoi Regression şi

se va deschide următoarea fereastră:

Rezultatele obţinute cu ajutorul EXCEL-ului sunt :

Page 5: regresie_multipla

SUMMARY OUTPUT

Page 6: regresie_multipla

Regression StatisticsMultiple R 0.950698331R Square 0.903827316Adjusted R Square 0.876349406Standard Error 3.114434486Observations 10

ANOVAdf SS MS F Significance F

Regression 2 638.1020848 319.051 32.89287 0.000275855Residual 7 67.89791517 9.699702Total 9 706

Coefficients StandardError t Stat P-value Lower

95%Upper 95%

Intercept -23.13515457 18.27935628 -1.26564 0.246136 -66.35893281 20.08862X Variable 1 1.672178289 0.395220664 4.230999 0.003883 0.73763059 2.606726X Variable 2 0.701653487 0.496840815 1.41223 0.20076 -0.473187514 1.876494

RESIDUAL OUTPUT

Observation Predicted Y Residuals1 21.65 -1.652 26.40 -2.403 31.15 -3.154 27.53 4.475 34.22 -0.226 34.76 5.247 40.91 -0.918 42.32 -0.329 43.99 0.01

10 47.06 -1.06

Explicitarea datelor din tabelele de mai sus:SUMMARY OUTPUT

Regression Statistics

Multiple RRaportul de corelatie

(R)0.950698331 Ry , x1 , x 2=√∑i=1

n

( yi− y )2

∑i=1

n

( yi− y )2=√1−

∑i=1

n

( y i− y i )2

∑i=1

n

( y i− y )2

R SquareCoeficientul(gradul ) de determinaţie

0.903827316 R2=Δ y /x

2

Δ y2 =1−

Δe2

Δ y2 =

∑i=1

n

( y i− y )2

∑i=1

n

( y i− y )2

Page 7: regresie_multipla

Adjusted R SquareValoarea ajustată a coeficientului de

determinaţie

0.876349406 R2=1−Δu

2/n−k−1

Δy2 /n−1

Standard ErrorAbaterea medie

pătratică a erorilor în eşantion

3.114434486su=√ Δu

2

n−2=√∑i=1

n

( y i− y i )2

n−2Observations

Numărul observaţiilor (n)

10

Tabel 2.ANOVA

Sursa variaţiei

df(grade de libertate)

SS (varianţa)(suma pătratelor)

MS =SS/df(media pătratelor)

(dispersia corectată)

F SignificanceF

Regression (variaţiadatorată regresiei)

2 (k)

SSR=

Δx2=∑

i=1

n

( y i− y )2=

638.1020848

sx2=

Δx2

k =319.051

TestulF=32.89287

F=sx2

/su2

0.000275855< 0.05

(resping H0 – model valid)

Residual(variaţia

reziduală)7 (n-k-1)

SSE=

Δu2=∑

i=1

n

( y i− y i )2=

67.89791517

su2=

Δu2

n−k−1 =9.699

Total (variaţia totală)

9 (n-1)

SST=

Δ y2=∑

i=1

n

( y i− y )2=

706SST=SSR + SSE

s y2=

Δ y2

n−1

Tabel 3

Coefficients(Coeficienţi)

Standard Error(Abaterea

mediepatratică)

t Stat P-value Lower95%

Upper95%

Limita inf. aintervalului de

încredere

Limita sup. aintervalului de încredere

Intercept(termenul

liber)

a0=-23.1351545

sa0 =18.27935628

ta0 =-1.26564

0.246136>0,05 -66.35893281 20.08862

Numărul de salariaţi

a1 =1.672178289

sa1 =0.395220664

ta1 =4.230999

0.003883<0,05 0.73763059 2.606726

Capitalul fix

a2 =0.701653487

sa2 =0.496840815

ta 2 =

1.412230.20076>

0,05 -0.473187514 1.876494

Tabel4.RESIDUAL OUTPUT

Page 8: regresie_multipla

Observation Predicted y iResidualsy i− y i

1 21.65 -1.652 26.40 -2.403 31.15 -3.154 27.53 4.475 34.22 -0.226 34.76 5.247 40.91 -0.918 42.32 -0.329 43.99 0.01

10 47.06 -1.06

Interpretare rezultate din tabelul SUMMARY OUTPUT : R = 0.950698331 arată că între cele trei variabile există o legătură puternică

directă. R2 = 0.903827316arată că 90% din variaţia producţiei este explicată de model; Abaterea medie patratica a erorilor su = 3.114434486. În cazul în care acest

indicator este zero înseamnă că toate punctele sunt pe dreapta de regresie.

Interpretare rezultate din tabelul ANOVA :În acest tabel este calculat testul F pentru validarea modelului de regresie. Întrucât F =

32.89287, iar Significance F (pragul de semnificaţie) este 0.000275855 (valoare mai mica de 0.05) atunci modelul de regresie construit este valid şi

poate fi utilizat pentru analiza dependenţei dintre cele trei variabile.

Interpretarea rezultatelor din tabelul 4: Intercept este termenul liber, deci coeficientul a0 este -3.1351545.

Termenul liber este punctul în care variabilele explicative (factorială) sunt 0.

Deoarece t a0 = -1.26564iar pragul de semnificaţie P-value este 0.246136 > 0,05

înseamnă că acest coeficient este nesemnificativ. De altfel faptul că limita inferioară a intervalului de încredere

(-66.35893281 ¿α 0≤ 20.08862) pentru acest parametru este negativă, iar limita superioară este pozitivă arată că parametrul din colectivitatea generală este aproximativ zero.

Coeficientul a1 este 1.672178289, ceea ce însemnă că la numărului de salariaţi cu o sută, producţia va creşte cu 1.672178289 mii bucăţi. Deoarece t a1 = 4.230999 iar pragul de semnificaţie P-value este 0.003883 < 0,05 înseamnă că acest coeficient este semnificativ. Intervalul de încredere pentru acest parametru este 0.73763059 ¿α 1≤ 2.606726

Coeficientul a2 este 0.701653487, ceea ce însemnă că la capitalului fix cu o sută mii lei, producţia va creşte cu 0.701653487 mii bucăţi. Deoarece t a 2= 1.41223 iar pragul de semnificaţie P-value este 0.20076 > 0,05 înseamnă că acest coeficient nu este semnificativ.

117d4f72437be22801438cc22f3c2439.