regresie_multipla
-
Upload
alexandra-codrescu -
Category
Documents
-
view
31 -
download
3
Transcript of regresie_multipla
Din activitatea unei societăţi comerciale se cunosc următoarele date pentru perioada 1995-2004:
Anul Producţia(mii buc.) Număr de salariaţi
Capitalul fix(mii lei preţuri comparabile)
1995199619971998199920002001200220032004
20242832344040424446
1000120014001100150017001900190020002100
4000420044004600460042004600480048005000
Presupunând că între cele 3 variabile există o dependenţă liniară, se cere:a) să se estimeze parametrii modelului de regresie;b) să se determine erorile reziduale;c) să se măsoare intensitatea legăturii dintre producţie şi cele două variabile;d) să se testeze validitatea modelului de regresie folosit.
Rezolvare:Notăm cu:
y = producţia;x1 = numărul de salariaţi;x2 = valoarea capitalului fix.
Ecuaţia de regresie este:y=a0+a1 x1+a2 x2
unde y reprezintă valorile ajustate sau teoretice ale variabilei y în funcţie de cele două variabile factoriale x1 şi x2.
Determinarea parametrilor modelului de regresie se face prin metoda celor mai mici pătrate:
∑i
( y i− yi )2 min ⇔ ∑i
( y i−a0−a1 xi1−a2 x i 2)2 min ⇔
{∂
∂ a0=0
∂∂a1
=0
∂∂ a2
=0
{na0+a1∑
ix i1+a2∑
ix i2=∑
iy i
a0∑i
xi 1+a1∑i
x i 12 +a2∑
ix i 1 x i 2=∑
ix i1 y i
a0∑i
x i2+a1∑i
x i1 x i2+a2∑i
x i22 =∑
ix i2 y i
Calculele ajutătoare pentru rezolvarea sistemului sunt prezentate în tabelul următor:
y i x i1 xi2 x i12 xi2
2 x i1 xi2 x i1 y i x i2 y i
20242832344040424446
10121411151719192021
40424446464246484850
100144196121225289361361400441
1600176419362116211617642116230423042500
4005046165066907148749129601050
200288392352510680760798880966
800100812321472156416801840201621122300
350 158 452 2638 20520 7226 5826 16024
{10a0+a1⋅158+a2⋅452=350a0⋅158+a1⋅2638+a2⋅7226=5826
a0⋅452+a1⋅7226+a2⋅20520=16024
{a0=−23 ,13a1=1 , 67a2=0 , 70
Deci:y=−23 ,13+1 ,67 x1+0 ,70 x2
Se observă că la o creştere cu 100 a numărului de salariaţi, producţia va crete cu 1,67 mii bucăţi, iar la o creştere a capitalului fix cu 100 mii lei, producţia va creşte cu 0,7 mii bucăţi.
Matricial, sistemul se rezolvă astfel:A=( X ' X )−1 X ' Y
X=(1 10 401 12 421 14 441 11 461 15 461 17 421 19 461 19 481 20 481 21 50
) ;
X ' X=(10 158 452158 2638 7226452 7226 20526 )
; |X ' X|=55640
( X ' X )−1=(34 ,73 −0 , 41 −0 , 91−0 , 41 0 ,017 −0 , 015−0 , 91 −0 ,015 0 , 025 )
;
X ' Y=(350582616024)
A=(−23 ,131 , 670 , 70 )
b) Erorile sau valorile variabilei reziduale sunt: ui= y i− yi , iar rezultatele sunt prezentate în tabelul de mai jos:
y i y i ui ui2
20242832344040424446
21,6526,4031,1527,5334,2234,7640,9142,3243,9947,07
-1,65-2,40-3,154,47
-0,225,24
-0,91-0,320,01
-1,06
2,725,769,92
19,980,05
27,460,830,100,001,12
c) Pentru măsurarea intensităţii legăturii dintre producţie şi cele după variabile folosim raportul de corelaţie multiplă:
R y /x1 , x2=√1−
∑i=1
n
( y i− y i )2
∑i=1
n
( y i− y )2=√1−67 , 95
706 =0 , 95
y=∑i=1
10
y i
10=350
10=35
∑i=1
10
( yi− y)2= (20−35 )2+(24−35 )2+. . .+ (46−35 )2=67 , 95
Deoarece R y /x1 , x2
=0 ,95 →1 înseamnă că între cele 3 variabile există o legătură directă,
puternică.
d) Testarea validităţii modelului de regresie- se stabileşte ipoteza nulă: H0: modelul nu este valid;- se stabileşte ipoteza alternativă: H1: modelul este valid;- se calculează testul F:
Fcalc=s x1 , x2
2
su2 =
319 ,059 , 69 =32 , 89
sx1 , x2
2 =SSRk
=∑i=1
10
( y i− y )2
k=638 ,10
2=319 , 05
su2= SSE
n−l−1=∑i=1
10
( y i− y )2
n−l−1=67 , 890
8=9 , 69
k = numărul variabilelor factoriale = 2
- se compară Fcalc cu F; k; n-k-1:F0,05; 2; 7 = 4,74
Deoarece Fcalc = 32,89 F0,05; 2; 7 Respingem ipoteza nulă şi acceptăm alternativa, deci modelul este valid.
Rezolvarea în programul EXCEL:
Se introduc valorile variabilei rezultative y în celulele A2-A11Se introduc valorile variabilei x i1în celulele B2-B11Se introduc valorile variabilei x i2 în celulele C2-C11Se selectează din meniul principal opţiunea Tools, apoi Data Analysis şi apoi Regression şi
se va deschide următoarea fereastră:
Rezultatele obţinute cu ajutorul EXCEL-ului sunt :
SUMMARY OUTPUT
Regression StatisticsMultiple R 0.950698331R Square 0.903827316Adjusted R Square 0.876349406Standard Error 3.114434486Observations 10
ANOVAdf SS MS F Significance F
Regression 2 638.1020848 319.051 32.89287 0.000275855Residual 7 67.89791517 9.699702Total 9 706
Coefficients StandardError t Stat P-value Lower
95%Upper 95%
Intercept -23.13515457 18.27935628 -1.26564 0.246136 -66.35893281 20.08862X Variable 1 1.672178289 0.395220664 4.230999 0.003883 0.73763059 2.606726X Variable 2 0.701653487 0.496840815 1.41223 0.20076 -0.473187514 1.876494
RESIDUAL OUTPUT
Observation Predicted Y Residuals1 21.65 -1.652 26.40 -2.403 31.15 -3.154 27.53 4.475 34.22 -0.226 34.76 5.247 40.91 -0.918 42.32 -0.329 43.99 0.01
10 47.06 -1.06
Explicitarea datelor din tabelele de mai sus:SUMMARY OUTPUT
Regression Statistics
Multiple RRaportul de corelatie
(R)0.950698331 Ry , x1 , x 2=√∑i=1
n
( yi− y )2
∑i=1
n
( yi− y )2=√1−
∑i=1
n
( y i− y i )2
∑i=1
n
( y i− y )2
R SquareCoeficientul(gradul ) de determinaţie
0.903827316 R2=Δ y /x
2
Δ y2 =1−
Δe2
Δ y2 =
∑i=1
n
( y i− y )2
∑i=1
n
( y i− y )2
Adjusted R SquareValoarea ajustată a coeficientului de
determinaţie
0.876349406 R2=1−Δu
2/n−k−1
Δy2 /n−1
Standard ErrorAbaterea medie
pătratică a erorilor în eşantion
3.114434486su=√ Δu
2
n−2=√∑i=1
n
( y i− y i )2
n−2Observations
Numărul observaţiilor (n)
10
Tabel 2.ANOVA
Sursa variaţiei
df(grade de libertate)
SS (varianţa)(suma pătratelor)
MS =SS/df(media pătratelor)
(dispersia corectată)
F SignificanceF
Regression (variaţiadatorată regresiei)
2 (k)
SSR=
Δx2=∑
i=1
n
( y i− y )2=
638.1020848
sx2=
Δx2
k =319.051
TestulF=32.89287
F=sx2
/su2
0.000275855< 0.05
(resping H0 – model valid)
Residual(variaţia
reziduală)7 (n-k-1)
SSE=
Δu2=∑
i=1
n
( y i− y i )2=
67.89791517
su2=
Δu2
n−k−1 =9.699
Total (variaţia totală)
9 (n-1)
SST=
Δ y2=∑
i=1
n
( y i− y )2=
706SST=SSR + SSE
s y2=
Δ y2
n−1
Tabel 3
Coefficients(Coeficienţi)
Standard Error(Abaterea
mediepatratică)
t Stat P-value Lower95%
Upper95%
Limita inf. aintervalului de
încredere
Limita sup. aintervalului de încredere
Intercept(termenul
liber)
a0=-23.1351545
sa0 =18.27935628
ta0 =-1.26564
0.246136>0,05 -66.35893281 20.08862
Numărul de salariaţi
a1 =1.672178289
sa1 =0.395220664
ta1 =4.230999
0.003883<0,05 0.73763059 2.606726
Capitalul fix
a2 =0.701653487
sa2 =0.496840815
ta 2 =
1.412230.20076>
0,05 -0.473187514 1.876494
Tabel4.RESIDUAL OUTPUT
Observation Predicted y iResidualsy i− y i
1 21.65 -1.652 26.40 -2.403 31.15 -3.154 27.53 4.475 34.22 -0.226 34.76 5.247 40.91 -0.918 42.32 -0.329 43.99 0.01
10 47.06 -1.06
Interpretare rezultate din tabelul SUMMARY OUTPUT : R = 0.950698331 arată că între cele trei variabile există o legătură puternică
directă. R2 = 0.903827316arată că 90% din variaţia producţiei este explicată de model; Abaterea medie patratica a erorilor su = 3.114434486. În cazul în care acest
indicator este zero înseamnă că toate punctele sunt pe dreapta de regresie.
Interpretare rezultate din tabelul ANOVA :În acest tabel este calculat testul F pentru validarea modelului de regresie. Întrucât F =
32.89287, iar Significance F (pragul de semnificaţie) este 0.000275855 (valoare mai mica de 0.05) atunci modelul de regresie construit este valid şi
poate fi utilizat pentru analiza dependenţei dintre cele trei variabile.
Interpretarea rezultatelor din tabelul 4: Intercept este termenul liber, deci coeficientul a0 este -3.1351545.
Termenul liber este punctul în care variabilele explicative (factorială) sunt 0.
Deoarece t a0 = -1.26564iar pragul de semnificaţie P-value este 0.246136 > 0,05
înseamnă că acest coeficient este nesemnificativ. De altfel faptul că limita inferioară a intervalului de încredere
(-66.35893281 ¿α 0≤ 20.08862) pentru acest parametru este negativă, iar limita superioară este pozitivă arată că parametrul din colectivitatea generală este aproximativ zero.
Coeficientul a1 este 1.672178289, ceea ce însemnă că la numărului de salariaţi cu o sută, producţia va creşte cu 1.672178289 mii bucăţi. Deoarece t a1 = 4.230999 iar pragul de semnificaţie P-value este 0.003883 < 0,05 înseamnă că acest coeficient este semnificativ. Intervalul de încredere pentru acest parametru este 0.73763059 ¿α 1≤ 2.606726
Coeficientul a2 este 0.701653487, ceea ce însemnă că la capitalului fix cu o sută mii lei, producţia va creşte cu 0.701653487 mii bucăţi. Deoarece t a 2= 1.41223 iar pragul de semnificaţie P-value este 0.20076 > 0,05 înseamnă că acest coeficient nu este semnificativ.
117d4f72437be22801438cc22f3c2439.