Proiect econometrie (regresie liniara, regresie multipla, serii de timp)
Probleme Regresie Signed
-
Upload
lenuta-duplava -
Category
Documents
-
view
48 -
download
6
description
Transcript of Probleme Regresie Signed
-
1. n tabelul urmtor avem date referitoare la 15 ageni de asigurri angajai ai unei companii de asigurri de via i anume: timpul mediu, n minute, petrecut de un agent cu un potenial client i numrul de polie ncheiate ntr-o sptmn. Dac X reprezint timpul mediu, iar Y reprezint numrul de polie, avem datele sistematizate astfel:
Timpul mediu,
(min) X Numrul de polie
Y
25 23
30
25
20
33
18
21 22
30
26
26
27
29
20
10 11
14
12
8
18
9
10 10
15
11
15
12
14
11
Se cere:
a) s se estimeze parametrii modelului liniar de regresie;
b) s se testeze semnificaia parametrilor modelului pentru un prag de semnificaie = 5%; c) s se determine erorile reziduale;
d) s se testeze validitatea modelului de regresie pentru un nivel de semnificaie = 5%; e) msurai intensitatea legturii dintre cele dou variabile folosind un indicator adecvat i testai
semnificaia acestuia pentru un nivel de ncredere de 0,5%; f) efectuai o previzionare punctual i pe interval de ncredere a numrului de polie ncheiate de un
agent care petrece n medie 24 de minute cu un potenial client.
Rezolvare:
Pentru a determina forma modelului de regresie se va construi corelograma:
6
8
10
12
14
16
18
20
16 18 20 22 24 26 28 30 32 34
Nu
mr
ul d
e p
oli
e
Timpul mediu, (min)
-
a) ii xaay 10
Parametrii a i b se determin cu ajutorul metodei celor mai mici ptrate:
minxaayminyyi
2i10i
i
2ii
n
1iii
n
1i
2i1
n
1ii0
n
1ii
n
1ii10
yxxaxa
yxana
15n
Pentru a rezolva sistemul vom folosi urmtorul tabel n care sunt prezentate valorile intermediare:
ix iy 2i
x iiyx iy 2
iy 2i yy
2i xx
25
23 30
25 20 33
18 21
22 30
26 26 27
29 20
10
11 14
12 8
18
9 10
10 15
11 15 12
14 11
625
529 900
625 400
1089
324 441
484 900
676 676 729
841 400
250
253 420
300 160 594
162 210
220 450
286 390 324
406 220
12
10.9 14.7
12.0 9.3 16.4
8.2 9.8
10.4 14.7
12.5 12.5 13.1
14.2 9.3
100
121 196
144 64
324
81 100
100 225
121 225 144
196 121
4
1 4
0 16 36
9 4
4 9
1 9 0
4 1
0
4 25
0 25 64
49 16
9 25
1 1 4
16 25
375
x i
180
y i
9639
x 2i
4645
yx ii
iy
180 2262
y2i
102 264
46459639a375a
180375aa15
10
10
5492,0a
73,1a
1
0
Deci:
iix5492,073,1y
b) Testarea semnificaiei parametrilor modelului: Ecuaia de regresie la nivelul colectivitii generale este:
ii10iuxy
Y = 0,5492x - 1,73
R = 0,7808
6
8
10
12
14
16
18
20
16 18 20 22 24 26 28 30 32 34
Nu
mr
ul d
e p
oli
e
Timpul mediu, (min)
-
iar la nivelul eantionului este:
ii10iuxaay
Testarea semnificaiei parametrului 1: 1) se stabilete ipoteza nul:
H0 : 1 = 0 2) se stabilete ipoteza alternativ:
H1 : 1 0, adic 1 este semnificativ diferit de zero, adic 1 este semnificativ statistic. 3) se calculeaz testul statistic:
deoarece n = 15 30 avem eantion de volum redus i pentru testare vom utiliza testul t:
8,608,0
5492,0
s
a
s
0a
s
at
111 a
1
a
1
a
11
0064,0
264
7199,1
xx
ss
i
2i
2u2
ai
7199,1
215
35,22
1kn
yy
s i
2ii
2u
k reprezint numrul variabilelor factoriale (n cazul modelului unifactorial k = 1).
2515
375
15
x
x
15
1ii
Pentru un prag de semnificaie de 5% valoarea tabelat a testului este: t0,05/2; 13 = t0,025; 13 = 1,35
Testarea semnificaiei parametrului 0:
1) se stabilete ipoteza nul: H0: 0 = 0;
2) se stabilete ipoteza alternativ: H1: 0 0; 3) se calculeaz testul statistic:
84,0096,2
73,1
s
a
s
0a
s
at
000 a
0
a
0
a
10
186,4
264
25
15
171,1
xx
x
n
1ss
i
2i
22u
2a0
35,1t84,0t 2n;2/calc se accept ipoteza nul, adic parametrul a0 nu este
semnificativ statistic.
c) Erorile reziduale sunt iii yyu i sunt prezentate n tabelul de mai jos:
ui -14,99 -27,57 -0,91 18,38 16,58 7,37 5,03
-20,62 9,90 27,22 -19,95 -17,48 -5,09 5,42 16,70
d) Testarea validitii modelului de regresie:
-
1) se stabilete ipoteza nul: H0: mprtierea valorilor ty datorate factorului nu difer semnificativ de
mprtierea acelorai valori datorate ntmplrii, deci modelul nu este valid. 2) se stabilete ipoteza alternativ: H1: modelul este valid; 3) se calculeaz testul F:
3,4671,1
64,79
s
sF
2u
2x
64,79
1
64,79
k
yy
s i
2i
2x
71,1
215
35,22
1kn
yy
s i
2ii
2u
1215
180
15
y
y
15
1ii
67,4FFF 13,1;05,01kn;calc
Deoarece Fcalc Ftab modelul este valid.
e) Intensitatea legturii dintre cele dou variabile se face cu coeficientul de corelaie liniar:
0188,0
180226215375963915
180375464515
yynxxn
yxyxnr
22
2i
2i
2i
2i
iiii
Rezult c ntre cele dou variabile exist o legtur direct foarte puternic. Testarea semnificaiei coeficientului de corelaie:
- se stabilete ipoteza nul: H0: nu este semnificativ statistic;
- se stabilete ipoteza alternativ: H1: este semnificativ statistic; - se calculeaz testul t:
75,6
88,01
1388,0
r1
2nr
s
rt
22r
16,2ttt 13;05,01kn;calc
Coeficientul de corelaie este semnificativ statistic. Msurarea intensitii legturii cu raportul de corelaie R:
88,0
1
2
1
2
n
i
i
n
i
i
yy
yy
R
Deoarece R = r = 0,88, apreciem c exist o legtur liniar, puternic i direct ntre cele dou variabile.
Testarea raportului de corelaie se face cu testul F:
09,461
13
78,01
78,0
k
1kn
R1
RF
2
2
Cum:
-
67,4FF 13;1;05,0calc
R este semnificativ statistic.
f)
12~45,11245492,073,1y 1n polie (aceasta este estimarea punctual).
Pentru estimarea pe interval de ncredere vom avea:
1n1n y1kn;2/1n1ny1kn;2/1nstyysty
35,1t12y35,1t12 13;025,01n13;025,0
82,1264
)2524(
15
1171,1
11
2
2
2
122
1
i
i
nuy
xx
xx
nss
n
35,1s1ny
8225,13y1775,10 1n
Intervalul de ncredere pentru numrul de polie ncheiate este:
14y10 1n
Rezolvarea problemei cu ajutorul programului informatic EXCEL:
Se selecteaz din meniul principal opiunea Tools, apoi Data Analysis, apoi Regression i se deschide urmtoarea fereastr:
i se obin urmtoarele rezultate:
-
SUMMARY OUTPUT
Regression Statistics
Multiple R 0.883621 R Square 0.780786
Adjusted R
Square
0.763923
Standard Error 1.311483
Observations 15.000000
ANOVA
df SS MS F Significance F
Regression 1.000000 79.640152 79.64015
2
46.30272
7
0.000013
Residual 13.000000 22.359848 1.719988 Total 14.000000 102.00000
0
Coefficients
Standard Error
t Stat P-value Lower 95%
Upper 95%
Intercept -1.731061 2.046120 -0.846021 0.412843 -6.151434 2.68931
3
X Variable 1 0.549242 0.080716 6.804611 0.000013 0.374866 0.723619
RESIDUAL OUTPUT
Observation Predicted Y Residuals
1.000000 12.000000 -2.000000
2.000000 10.901515 0.098485 3.000000 14.746212 -0.746212
4.000000 12.000000 0.000000
5.000000 9.253788 -1.253788 6.000000 16.393939 1.606061
7.000000 8.155303 0.844697
8.000000 9.803030 0.196970 9.000000 10.352273 -0.352273
10.000000 14.746212 0.253788
11.000000 12.549242 -1.549242 12.000000 12.549242 2.450758
13.000000 13.098485 -1.098485
14.000000 14.196970 -0.196970 15.000000 9.253788 1.746212
Explicitarea datelor din tabelele de mai sus:
SUMMARY OUTPUT
Regression Statistics
Multiple R
Raportul de corelatie (R) 0.883621
n
1i
2i
n
1i
2ii
n
1i
2i
n
1i
2i
yy
yy
1
yy
yy
x,Ry
-
R Square
Coeficientul (gradul ) de
determinaie
0.780786
n
1i
2i
n
1i
2i
2y
2e
2y
2x/y2
yy
yy
1R
Adjusted R Square
Valoarea ajustat a coeficientului de
determinaie
0.763923
1n/
1kn/1R
2y
2u2
Standard Error
Abaterea medie ptratic a erorilor n eantion
1.311483
2n
yy
2ns
n
1i
2ii2
uu
Observations
Numrul observaiilor (n) 15
Tabel 2.
ANOVA
Sursa
variaiei
df
(grade de
libertate)
SS (variana)
(suma ptratelor)
MS =SS/df
(media ptratelor)
(dispersia
corectat)
F Significance F
Regression
(variaia
datorat regresiei)
1 (k) SSR=
n
1i
2i
2x yy =
79.640152 k
s2x2
x
=
79.640152
Testul
F=46.302727
F=2
xs /2
us
0.000013< 0.05
(resping H0 model valid)
Residual
(variaia rezidual)
13 (n-k-1) SSE=
n
1i
2ii
2u yy
= 22.359848
1kns
2u2
u
=
1.719988
Total
(variaia total)
14 (n-1)
SST=
n
1i
2i
2y yy
= 102.000000 SST=SSR + SSE
1n
s
2y2
y
Tabel 3
Coefficients
(Coeficieni)
Standard
Error
(Abaterea
medie
patratic)
t Stat P-value Lower 95% Upper 95%
Limita inf. a
intervalului
de ncredere
Limita sup. a
intervalului
de ncredere
Intercept
(termenul
liber)
a0= -1.731061 0as
=2.046120 0a
t = -0.846021 0.412843
> 0,05 -6.151434 2.689313
Timpul
mediu a1 = 0.549242 1a
s
=0.080716 1at = 6.804611
0.000013
< 0,05 0.374866 0.723619
Tabel 4.
RESIDUAL OUTPUT
Observation Predicted iy
Numrul de polie
Residuals
ii yy
1 338.5796 -14.9986
2 371.2542 -27.5722
3 376.1748 -0.9108
4 332.8525 18.3895
-
5 311.8281 16.5889
6 310.6962 7.3728
7 325.9235 5.0355
8 287.8659 -20.6299
9 310.9763 9.9067
10 382.3073 27.2277
11 336.2188 -19.9568
12 369.2938 -17.4878
13 338.7504 -5.0954
14 367.2528 5.4262
15 346.0917 16.7043
Interpretare rezultate din tabelul SUMMARY OUTPUT:
R= 0.883621 arat c ntre numrul de polie ncheiate i timpul mediu petrecut cu un potenial client exist o legtur puternic.
R2 =0.780786 arat c 78% din variaia numrului de polie ncheiate este explicat de timpul mediu petrecut de un agent cu un potenial client.
Abaterea medie patratica a erorilor us = 1.311483. n cazul n care acest indicator este zero
nseamn c toate punctele sunt pe dreapta de regresie.
Interpretare rezultate din tabelul ANOVA: n acest tabel este calculat testul F pentru validarea modelului de regresie. ntruct F=46.302727, iar
Significance F (pragul de semnificatie) este 0.000013 (valoare mai mica de 0.05) atunci modelul de regresie
construit este valid i poate fi utilizat pentru analiza dependenei dintre cele dou variabile.
Interpretarea rezultatelor din tabelul 4:
Intercept este termenul liber, deci coeficientul a0 este -1.731061. Termenul liber este punctul n care variabila explicativ (factorial) este 0. Deci numrul de polie ncheiate, dac timpul petrecut este 0.
Deoarece 0a
t = -0.846021iar pragul de semnificaie P-value este 0.412843>0,05 nseamn c acest
coeficient este nesemnificativ. De altfel faptul c limita inferioar a intervalului de ncredere
(-6.151434 0 2.689313) pentru acest parametru este negativ, iar limita superioar este pozitiv
arat c parametrul din colectivitatea general este aproximativ zero. Coeficientul a1 este 0.549242, ceea ce nsemn c la creterea timpului petrecut cu un minut, numrul
de polie ncheiate va crete cu 0,549242. Deoarece 1at = 6.804611 iar pragul de semnificaie P-value
este 0.000013
-
Problema 2
2. n tabelul urmtor avem informaii privind veniturile obinute de 20 de gospodrii selectate aleator i taxele pltite de ctre aceste gospodrii:
Venitul
(mii euro)
x
Taxele
(euro)
y
Venitul
(mii euro)
x
Taxele
(euro)
y
17,5
37,5
47,5
25,0
55,5
35,0 15,5
12,0
32,0
42,3
35,0
60,5
88,5
70,5
125,0
63,0 30,0
30,0
65,0
80,0
28,0
22,5
25,0
29,5
65,0
51,0 39,3
33,0
45,0
75,0
75,0
70,0
60,0
65,0
150,0
100,0 75,0
40,0
75,0
200,0
Se cere: a) s se specifice modelul econometric ce descrie legtura dintre cele dou variabile; b) s se estimeze parametrii modelului; c) s se verifice ipotezele metodei celor mai mici ptrate;
d) s se verifice semnificaia parametrilor modelului de regresie pentru = 0,1; e) s se testeze validitatea modelului de regresie; f) s se testeze intensitatea legturii dintre cele dou variabile i s se testeze semnificaia indicatorilor
utilizai; g) s se estimeze punctual i pe interval de ncredere nivelul taxelor care trebuie pltite dac venitul
este de 40 mii euro pentru o probabilitate de 95%.
Rezolvare:
a) Se va reprezenta grafic legtura dintre nivelul taxelor i venit pentru cele 20 de gospodrii prin corelogram sau diagrama norului de puncte:
Din grafic se poate observa c distribuia punctelor (xi, yi) poate fi aproximat cu o dreapt, deci modelul econometric care descrie legtura dintre cele dou variabile este un model liniar:
uxy10
20
70
120
170
220
10 20 30 40 50 60 70 80
Taxe
le (e
uro
) y
Venitul (mii euro) x
-
0, 1 parametrii modelului;
1 0 (panta dreptei) deoarece legtura dintre cele dou variabile este direct. b) Pentru estimarea parametrilor modelului de regresie utilizm metoda celor mai mici ptrate:
20,1iuxaayi10i
i10ixaay
minxaayminyyi
2i10i
i
2ii
6886453,31991a1,733a
5,1557a1,733a20
10
10
2997,2a
4201,6a
1
0
Deci, modelul este:
iix2997,24201,6y
2997,2
53,319911,733
1,73320
688641,733
5,155720
xx
xn
yxx
yn
a
2ii
i
iii
i
1
4201,6xaya 10
c) Ipotezele metodei celor mai mici ptrate: c1) Variabilele observate nu sunt afectate de erori de msur. Aceast ipotez se poate verifica cu ajutorul urmtoarelor relaii:
xix s3xxs3x
yiy s3yys3y
unde:
99,15
20
74,5119
n
xx
s
n
1i
2i
x
y = 2,2997x - 6,4201
R = 0,8431
0
20
40
60
80
100
120
140
160
180
200
10 20 30 40 50 60 70 80
Taxe
le (e
uro
) y
Venitul (mii euro) x
Taxele (euro) y
Predicted Taxele (euro) y
-
07,40
20
44,32116
n
yy
s
n
1i
2i
y
655,3620
1,733
20
x
n
x
x
20
1ii
n
1ii
875,7720
5,1557
20
y
y
20
1ii
99,153655,36x99,153655,36 i
625,84x315,11 i (adevrat)
07,403875,77y07,403875,77 i
085,201y335,42 i (adevrat)
Ipoteza poate fi acceptat fr nici un dubiu.
c2) Variabila aleatoare (rezidual) u este medie nul i dispersia variabilei reziduale este constant i independent de variabila factorial (ipoteza de homoscedasticitate).
Ipoteza de homoscedasticitate poate fi verificat cu metoda grafic (corelograma). Se reprezint grafic pe axa OX valorile variabilei factoriale x, iar pe axa OY se reprezint valorile
variabilei reziduale u.
Va trebui s calculm valorile variabilei reziduale: iii yyu
Rezultatele sunt prezentate n tabelul de mai jos:
variabila
rezidual iu Venitul (mii
euro) x
1,18 17,5
-19,32 37,5
-14,32 47,5
19,43 25
3,79 55,5
-11,07 35
0,77 15,5
8,82 12
-2,17 32
-10,86 42,3
17,03 28
24,68 22,5
8,93 25
3,58 29,5
6,94 65
-10,86 51
-8,96 39,3
-29,47 33
-22,07 45
33,94 75
-
Deoarece graficul punctelor prezint o evoluie oscilant putem accepta ipoteza c variabila factorial i cea rezidual sunt independente.
c3) Valorile variabilei reziduale nu sunt autocorelate, adic sunt independente ntre ele: Verificarea acestei ipoteze se poate face prin:
- metoda grafic (corelograma); - testul Durbin-Warson. Prin metoda grafic se construiete corelograma trecndu-se pe axa OX valorile variabilei rezultative
yi, iar pe axa OY valorile variabilei reziduale:
Distribuia erorilor este oscilant, adic nu avem alternativ sistematic sub form de dini de
fierstru, deci putem accepta ipoteza c erorile sunt independente, adic nu sunt autocorelate. Testarea ipotezei cu ajutorul testului Durbin-Watson: - se stabilete ipoteza nul:
H0: variabila rezidual nu este autocorelat. - se stabilete ipoteza alternativ:
H1: variabila rezidual este autocorelat. - se calculeaz testul Durbin-Watson:
-40
-30
-20
-10
0
10
20
30
40
0 10 20 30 40 50 60 70 80
vari
abila
re
zid
ual
Venitul (mii euro) x
-40,0
-30,0
-20,0
-10,0
0,0
10,0
20,0
30,0
40,0
0 50 100 150 200
vari
abila
rez
idua
l
Taxele (euro) y
-
48,1
26,5040
87,7508
u
uu
dn
1i
2i
n
1i
21ii
calc
Pentru a efectua calculul lui d vom prezenta rezultatele intermediare n urmtorul tabel:
iu 1iu 21ii uu 2i
u
1,18
-19,32
-14,32
19,43 3,79
-11,07
0,77
8,82
-2,17
-10,86
17,03 24,68
8,93
3,58
6,94
-10,86
-8,96
-29,47 -22,07
33,94
-
1,18
-19,32
-14,32 19,43
3,79
-11,07
0,77
8,82
-2,17
-10,86 17,03
24,68
8,93
3,58
6,94
-10,86
-8,96 -29,47
-22,07
-
420,19
25,04
1138,90 244,71
220,80
140,30
64,86
120,79
75,47
777,77 58,47
248,14
28,63
11,29
317,00
3,62
420,66 54,81
3137,41
1,38
373,21
204,94
377,43 14,34
122,53
0,60
77,86
4,71
117,88
289,97 608,95
79,70
12,81
48,16
118,04
80,25
868,48 486,93
1152,10
7508,87 5040,26
- se compar dcalc cu cele dou valori d1 i d2 din tabelul testului Durbin-Watson pentru pragul de
semnificaie = 0,05 pentru numrul variabilelor exogene k = 1 i pentru n = 20: d1 = 1,20 d2 = 1,41
2calc2 d4dd
59,248,141,1 erorile sunt independente. Tot pentru testarea ipotezei privind autocorelarea erorilor poate fi utilizat i coeficientul de
autocorelaie de ordinul I:
14,026,5040
41,709
u
uu
rn
1i
2i
n
1i1ii
1
Deoarece r1 este apropiat de 0 putem aprecia c valorile variabilei reziduale nu sunt autocorelate, adic sunt independente.
c4) Valorile variabilei reziduale sunt normal distribuite:
Pentru a testa aceast ipotez se folosete metoda grafic (corelograma). Pe axa OX se reprezint
valorile ajustate iy , iar pe axa OY se reprezint valorile variabilei reziduale:
-
Se observ c valorile reziduale ui se nscriu n banda construit, deci putem accepta ipoteza de
normalitate a erorilor pentru un prag de semnificaie de = 0,05.
d) Testarea semnificaiei parametrilor modelului
Testarea semnificaiei parametrului 0: - se stabilete ipoteza nul:
H0: 0 = 0 - se stabilete ipoteza alternativ:
H1: 0 0 - se calculeaz testul t:
15,082,41
4201,6
s
at
0a
0
68,1449
75,5119
53,3199101,280
xx
x
ss
i
2i
i
2i
2u
2a0
01,280
18
26,5040
2n
yy
s i
2ii
2u
- se compar tcalc cu t/2; n-2 = t0,05; 15 = 2,101
Deoarece 18;05,0calc tt este foarte probabil ca estimatorul a0 s provin dintr-o colectivitate cu 0
= 0 deci 0 nu este diferit semnificativ de zero.
Testarea semnificaiei parametrului 1:
- se stabilete ipoteza nul: H0: 1 = 0
- se stabilete ipoteza alternativ: H1: 1 0 - se calculeaz testul t:
99,923,0
2997,2
s
at
1a
1
05,0
75,5119
01,280
xx
ss
20
1i
2i
2u2
a1
- se compar tcalc cu t/2; n-2 = t0,05; 18 = 2,101
Deoarece 18;05,0calc tt apreciem c parametrul 1 este semnificativ statistic.
-40,0
-30,0
-20,0
-10,0
0,0
10,0
20,0
30,0
40,0
0,0 30,0 60,0 90,0 120,0 150,0 180,0
vari
abila
re
zid
ual
Y
+ t0,05; 18su
- t0,05; 18su
-
Intervalul de ncredere pentru parametrul 1 este:
11 a2n;2/11a2n;2/1stasta
23,0101,22997,223,0101,22997,2 1
78293,281647,1 1
e) Testarea validitii modelului de regresie: - se stabilete ipoteza nul: H0: modelul nu este valid. - se stabilete ipoteza alternativ: H1: modelul este valid; - se calculeaz testul F:
69,9601,280
18,27076
s
sF
2u
2x
18,27076
1
18,27076
k
yy
s
20
1i
2i
2x
- se compar Fcalc cu F; k; n-k-1 = F0,1; 1; 18 = 8,28
18;1;1,0calc F69,96F se respinge ipoteza nul i se accept alternativa, deci modelul este
valid.
f) Intensitatea legturii dintre cele dou variabile se apreciaz cu ajutorul: - coeficientului de corelaie; - raportului de corelaie.
Coeficientul de corelaie:
918,0
yynxxn
yxyxn
r2
ii
i
2i
2
ii
i
2i
ii
ii
iii
x/y
Deoarece ry/x = 0,918 1, apreciem c ntre cele dou variabile exist o legtur liniar, direct, foarte puternic.
Testarea semnificaiei coeficientului de corelaie pentru colectivitatea general:
- se stabilete ipoteza nul: H0: = 0 ( nu este semnificativ statistic);
- se stabilete ipoteza alternativ: H1: 0 ( este semnificativ statistic);
- coeficientul de corelaie la nivelul colectivitii generale - se calculeaz testul t:
82,9
918,01
18918,0
r1
2nrt
22calc
- se compar calct cu 878,2tt 18;1,02n;
Deoarece 18;1,0calc tt respingem ipoteza nul i acceptm alternativa, deci coeficientul de corelaie
este semnificativ statistic.
Raportul de corelaie R:
918,0
44,32116
26,50401
yy
yy
1R
1i
2i
1i
2ii
Deoarece R = ry/x, apreciem c ntre cele dou variabile exist, ntr-adevr, o legtur liniar. Testarea semnificaiei raportului de corelaie: - se stabilete ipoteza nul: H0: R nu este semnificativ statistic; - se stabilete ipoteza alternativ: H1: R este semnificativ statistic;
-
- se calculeaz testul F:
5,94918,01
918,0
1
18
R1
R
k
1knF
2
2
2
2
calc
- se compar calcF cu 28,8FF 18;1;1,01kn;k;
Deoarece 18;1;1,0calc FF se respinge ipoteza nul i se accept alternativa, deci raportul de corelaie
este semnificativ statistic.
g)
5679,85402997,24201,6y 1n euro (estimarea punctual)
Pentru estimarea pe interval de ncredere vom avea:
1n1n y1kn;2/1n1ny1kn;2/1nstyysty
16,17t5679,85y16,17t5679,85 552,218;025,01n552,218;025,0
59,294
75,5119
)655,3640(
20
1101,280
xx
xx
n
11ss
2
n
1i
2i
21n2
u2y 1n
Deci, intervalul de ncredere pentru taxele pltite pentru un venit de 40 mii euro la nivelul populaiei
este:
)euro(36,129y)euro(77,41 1n
Rezolvarea problemei cu ajutorul programului informatic EXCEL:
Se selecteaz din meniul principal opiunea Tools, apoi Data Analysis, apoi Regression i se va deschide urmtoarea fereastr:
i se obin urmtoarele rezultate:
-
SUMMARY OUTPUT
Regression Statistics
Multiple R 0.918184588
R Square 0.843062937
Adjusted R Square 0.834344212
Standard Error 16.73363108
Observations 20
ANOVA
df SS MS F Significance F
Regression 1 27076.17814 27076.18 96.69566 1.15588E-08
Residual 18 5040.259363 280.0144
Total 19 32116.4375
Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
Intercept -6.4201 9.3533 -0.6864 0.501209 -26.0708 13.23058
X Variable 1 (Venitul) 2.2996 0.2338 9.8334 1.16E-08 1.80836 2.791023
RESIDUAL OUTPUT
Observation Predicted Y Residuals
1 33,82 1,18 2 79,82 -19,32 3 102,82 -14,32 4 51,07 19,43 5 121,21 3,79 6 74,07 -11,07 7 29,23 0,77
8 21,18 8,82 9 67,17 -2,17
10 90,86 -10,86 11 57,97 17,03 12 45,32 24,68 13 51,07 8,93 14 61,42 3,58 15 143,06 6,94 16 110,86 -10,86 17 83,96 -8,96 18 69,47 -29,47 19 97,07 -22,07
20 166,06 33,94
-
Explicitarea datelor din tabelele de mai sus:
SUMMARY OUTPUT
Regression Statistics
Multiple R
Raportul de corelaie (R) 0.918184588
n
1i
2i
n
1i
2ii
n
1i
2i
n
1i
2i
yy
yy
1
yy
yy
x,Ry
R Square
Coeficientul (gradul ) de determinaie
0.843062937
n
1i
2i
n
1i
2i
2y
2e
2y
2x/y2
yy
yy
1R
Adjusted R Square
Valoarea ajustat a coeficientului de determinaie
0.834344212
1n/
1kn/1R
2y
2u2
Standard Error
Abaterea medie ptratic a erorilor n eantion
16.73363108
2n
yy
2ns
n
1i
2ii2
uu
Observations
Numrul observaiilor (n) 20
Tabel 2.
ANOVA
Sursa
variaiei
df
(grade de
libertate)
SS (variana) (suma ptratelor)
MS =SS/df
(media ptratelor) (dispersia
corectat)
F Significance
F
Regression
(variaia datorat regresiei)
1 (k) SSR=
n
iix yy
1
22 =
27076.17814 k
s xx
22 =
27076.18
Testul
F=96.69566
F=2
xs /2
us
1.15588E-08< 0.05
(resping H0 model valid)
Residual
(variaia rezidual)
18 (n-k-1) SSE=
n
iiiu yy
1
22 =
5040.259363 1
22
kns uu =
280.0144
Total
(variaia total)
19 (n-1)
SST=
n
1i
2
i2y yy =
32116.4375 SST=SSR + SSE
1
2
2
ns
y
y
Tabel 3.
Coefficients
(Coeficieni)
Standard Error
(Abaterea medie
patratic) t Stat P-value Lower 95% Upper 95%
Limita inf. a
intervalului de
ncredere
Limita sup. a
intervalului de
ncredere
Intercept
(termenul
liber)
a0=
-6.42014248 0a
s =
9.353374888 0a
t =
-0.6864 0.501209>0,05 -26.07086914 13.23058
Venitul a1 =
2.299690151 1a
s =
0.233865325 1at =
9.833395 1.16E-08
-
Tabel 4. RESIDUAL OUTPUT
Observation Predicted iy
taxe pltite
Residuals
ii yy
1 33,82 1,18
2 79,82 -19,32
3 102,82 -14,32
4 51,07 19,43
5 121,21 3,79
6 74,07 -11,07
7 29,23 0,77
8 21,18 8,82
9 67,17 -2,17
10 90,86 -10,86
11 57,97 17,03
12 45,32 24,68
13 51,07 8,93
14 61,42 3,58
15 143,06 6,94
16 110,86 -10,86
17 83,96 -8,96
18 69,47 -29,47
19 97,07 -22,07
20 166,06 33,94
Interpretare rezultate din tabelul SUMMARY OUTPUT:
R= 0.918184588 arat c ntre impozitele pltite i venitul anual, exist o legtur puternic. R2=0.843062937 arat c 84% din variaia impozitelor este explicat de venit
Abaterea medie patratica a erorilor us = 16.73363108. n cazul n care acest indicator este zero nseamn c
toate punctele sunt pe dreapta de regresie.
Interpretare rezultate din tabelul ANOVA:
n acest tabel este calculat testul F pentru validarea modelului de regresie. ntruct F=96.69566, iar Significance F (pragul de semnificaie) este 1.15588E-08 (valoare mai mica de 0.05) atunci modelul de regresie construit este valid i poate fi utilizat pentru analiza dependenei dintre cele dou variabile.
Interpretarea rezultatelor din tabelul 4:
Intercept este termenul liber, deci coeficientul a0 este -6.42014248. Termenul liber este punctul n care variabila explicativ (factorial) este 0. Deci impozitele care ar trebui pltite, dac nu s -ar obine nici un venit.
Deoarece 0a
t = -0.6864 iar pragul de semnificaie P-value este 0.501209>0,05 nseamn c acest coeficient
este nesemnificativ. De altfel faptul c limita inferioar a intervalului de ncredere ( -26.07086914 013.23058) pentru acest parametru este negativ, iar limita superioar este pozitiv arat c parametrul din colectivitatea general este aproximativ zero.
Coeficientul a1 este 2.299690151, ceea ce nsemn c la creterea venitului cu o mie euro, taxele vor crete cu
2,299690151 euro. Deoarece 1at = 9.833395 iar pragul de semnificaie P-value este 1.16E-08