Probleme Rezolvate Regresie Liniara Simpla
-
Upload
oana-georgiana -
Category
Documents
-
view
1.811 -
download
69
Transcript of Probleme Rezolvate Regresie Liniara Simpla
Problema 1.
Un analist doreşte să studieze legătura dintre cheltuielile pentru promovarea produselor şi nivelul
vânzărilor realizate. În acest scop el sistematizează date pentru 15 mărfuri alimentare privind
cheltuielile lunare cu promovarea produsului (mii lei) şi încasările lunare realizate (mii lei):
Nr. crt. Cheltuieli promovare
(mii lei) Încasări lunare
(mii lei) 1 20,0 2190 2 14,8 1900 3 20,5 1990 4 12,5 1210 5 18,0 1500 6 14,3 1980 7 24,9 3340 8 16,5 1880 9 24,3 3100 10 20,2 2130 11 22,0 2880 12 19,0 3120 13 12,3 1860 14 14,0 1730 15 16,7 1740
a) Analiza legaturii pe baza metodei grafice:
Pentru analiza de regresie liniară simplă vom construi corelograma:
Figura 4.8 Distribuţia încasărilor în funcţie de cheltuieli
Analizând corelograma remarcăm că între cele două variabile există o legătură liniară directă ce
poate fi descrisă printr-o ecuaţie de forma:
yi = a + bxi + ei
b) Determinam modelul de regresie liniara in esantion.
Calculele necesăre estimării parametrilor ecuaţiei de regresie sunt redate în tabelul următor:
Tabelul 4.2 Nr. crt.
Chelt. (X)
Încas. (Y)
2x 2y xy y
) yy)
− 2)yy()
− yy− 2)yy( −
Cheltuieli de promovare (mil. lei)
Inca
sari
(m
il. l
ei)
1000
1400
1800
2200
2600
3000
3400
3800
10 12 14 16 18 20 22 24 26
Nr. crt.
Chelt. (X)
Încas. (Y)
2x 2y xy y
) yy)
− 2)yy(
)− yy− 2)yy( −
1 12,30 1860 151,29 3459600 22878 1448,83 411,17 169058,30 -310 96100 2 12,50 1210 156,25 1464100 15125 1474,14 -264,14 69767,30 -960 921600 3 14,00 1730 196,00 2992900 24220 1663,90 66,10 4369,21 -440 193600 4 14,30 1980 204,49 3920400 28314 1701,85 278,15 77365,75 -190 36100 5 14,80 1900 219,04 3610000 28120 1765,11 134,89 18195,85 -270 72900 6 16,50 1880 272,25 3534400 31020 1980,18 -100,18 10035,03 -290 84100 7 16,70 1740 278,89 3027600 29058 2005,48 -265,48 70478,04 -430 184900 8 18,00 1500 324,00 2250000 27000 2169,94 -669,94 448819,60 -670 448900 9 19,00 3120 361,00 9734400 59280 2296,45 823,55 678234,60 950 902500 10 20,00 2190 400,00 4796100 43800 2422,96 -232,96 54270,36 20 400 11 20,20 2130 408,04 4536900 43026 2448,26 -318,26 101290,70 -40 1600 12 20,50 1990 420,25 3960100 40795 2486,22 -496,22 246229,33 -180 32400 13 22,00 2880 484,00 8294400 63360 2675,98 204,02 41624,16 710 504100 14 24,30 3100 590,49 9610000 75330 2966,95 133,05 17701,50 930 864900 15 24,90 3340 620,01 11155600 83166 3042,86 297,14 88292,77 1170 1368900
Total 270,00 32550 5086,00 76346500 614492 32549,10 0,90 2095732,52 0 5713000
Sistemul de ecuaţii, pentru determinarea coeficienţilor a şi b este:
=+
=+
614492 5086b 270a
32550 270b15a
şi rezultă:
a = -107,24 şi b = 126,51
Ecuaţia de regresie este:
ii x,,y 5112624107 +−=)
Pe baza datelor din tabelul 4.1 putem determina coeficientul de corelaţie:
( )796,0
325507634650015)(270508615
3255027061449215r
22=
−⋅−⋅
⋅−⋅= , ceea ce ne arată o legătură directă şi de
intensitate destul de puternică între cele două variabile.
c) Vom valida modelul de regresie determinat mai sus:
Tabelul 4.4 Sursă
variaţiei Suma pătratelor
(SS-Sum of Squares) Grade de libertate
(df- degree of
freedom)
Media pătratelor (MS- Mean of
Squares)
Testul Fisher (testul F)
Datorată regresiei
2x/y∆ =3617268
k=1
2x/ys =3617268
Reziduală 2e∆ =2095732 n – k – 1=15-
2=13 2es =161210,2
Totală 2y∆ =5713000 n – 1=15-1= 14
2161210
3617268
,Fcalc = =22,438
Pentru testarea validităţii modelului se formulează cele două ipoteze:
H0: model nevalid statistic, cu alternativa
H1: model valid statistic
Valoarea teoretică pentru un prag de semnificaţie α = 0,05 şi 1, respectiv 13 grade de libertate,
preluată din tabelul repartiţiei Fisher este 1−−kn;k;Fα =4,67.
Întrucât Fcalc> 1−−kn;k;Fα se respinge H0, adică se concluzionează că modelul este valid.
d) Pe baza datelor din exemplul de mai sus putem calcula şi testa:
1) Raportul de corelaţie
7960633205713000
5220957321 ,,
,R ==−= ,ceea ce ne arată o legătură destul de puternică între
variabile.
Valoarea teoretică pentru un prag de semnificaţie α = 0,05 şi 1, respectiv 13 grade de
libertate, preluată din tabelul repartiţiei Fisher este 1−−kn;k;Fα =4,67.
Întrucât Fcalc> 1−−kn;k;Fα se respinge H0, adică se concluzionează că R este semnificativ
statistic.
2) Coeficientul de determinaţie
R2 = 0, 6332 ceea ce arată că 63,32% din variaţia încasărilor se explică prin variaţia cheltuielilor
de promovare a produsului.
Observăm, de asemenea, că r =R =0,796, ceea ce arată că modelul de regresie este liniar.
e) Testarea semnificatiei parametrilor modelului de regresie si determinarea intervalelor lor de
incredere.
1) parametrul β
Ipotezele sunt:
H0 : β = 0 (µb = β = 0),
H1 : β ≠ 0.
Deoarece volumul eşantionului este mic (n<30), vom utiliza testul t:
bb
bcalc
s
b
s
bt
0−=
−=
µ, statistică ce urmează o distribuţie t cu (n – 2) grade de libertate.
=calct 4,736, iar bs = 26,7
Pentru un prag de semnificaţie de 5%, valoarea teoretică a testului este tα/2;13 = 2,16 . Deoarece
calct >tα/2;13 vom concluziona că este foarte improbabil ca estimatorul b să provină dintr-o populaţie cu
β=0 ( adică β este semnificativ diferit de zero).
438221
12
2
,R
R
k
knF =
−⋅
−−=
Intervalul de încredere pentru parametrul β , coeficientul de regresie din colectivitatea generală, este:
bn,/bn,/ stbstb ⋅+≤≤⋅− −− 2222 αα β , adică 211848168 ,, ≤≤ β
2) parametrul a
Ipotezele sunt:
H0 : α = 0,
H1 : α ≠ 0
Statistica t este:
aa
acalc
s
a
s
at
0−=
−=
µ.
calct = -0,218, iar as =491,8
Pentru un prag de semnificaţie de 5%, valoarea teoretică a testului este tα/2;13 = 2,16 . Deoarece
calct <tα/2;13 vom concluziona că este foarte probabil ca estimatorul a să provină dintr-o populaţie cu
α=0 ( adică α nu este semnificativ diferit de zero).
Intervalul de încredere pentru parametrul α este dat de:
an,/an,/ stasta ⋅+≤≤⋅− −− 2222 αα α , adică -1169,69 ≤≤ α 955,22.
Un argument suplimentar pentru concluzia că parametrul α este nesemnificativ statistic este acela că
intervalul de încredere include şi valoarea zero.
Problema 2. Proprietarul unui minihotel dezvoltă o analiză statistică pentru determinarea
cheltuielilor cu materialele de curăţenie (Y) în funcţie de numărul camerelor ocupate (X). El determină
ecuaţia de regresie pentru cheltuielile zilnice (pentru detergent, clor etc.) (zeci mii lei), pe baza datelor
înregistrate pentru n=14 zile:
ii xy 7,38,10 +=
86,26)(2
=−∑ xxi 3,2=x
∑ =− 39,163)ˆ( 2yyi
a) Proprietarul doreşte să estimeze cheltuielile cu materialele de curăţenie pentru o zi în care
are 6 camere ocupate;
b) Proprietarul doreşte să estimeze cheltuielile medii cu curăţenia pentru zilele în care are 6
camere ocupate.
Dacă numărul camerelor ocupate este 61 =+nx , atunci:
.69,312
39,163
;179,2
;3367,38,10ˆ
12,025.02,2/
1
==
==
=⋅+=
−
+
e
n
n
s
tt
y
α
t0,025;12 = 2,179
a) Intervalul de încredere pentru cheltuielile unei zile în care sunt 6 camere ocupate este:
86.26
)3,26(
14
1169,3179,233
2−++⋅± ,
adică (22,89;43,11) garantat cu o probabilitate de 95%;
b) Intervalul de încredere pentru media cheltuielilor zilnice în cazul în care au 6 camere
ocupate este:
86.26
)3,26(
14
169,3179,233
2−+⋅± ,
adică (30,19;35,82), garantat cu o probabilitate de 95%.
Problema 3
Pentru un magazin de mobilă s-au cules date privind numărul de spoturi publicitare difuzate şi
numărul vizitatorilor (mii pers.) timp de 14 zile.:
Ziua Nr. spoturi publicitare Nr. vizitatori (mii pers.) 1 7 42 2 5 32 3 1 10 4 8 40 5 10 61 6 2 8 7 6 35 8 7 34 9 9 45
10 3 11 11 12 64 12 8 37 13 4 30 14 11 55
Se cere:
a) reprezentaţi grafic datele; Comentaţi graficul.
b) pe baza datelor de la nivelul eşantionului, determinaţi ecuaţia de regresie care modelează legătura
dintre cele două variabile şi calculaţi numărul zilnic previzionat de vizitatori;
c) verificaţi dacă modelul de regresie identificat este valid statistic;
d) testaţi semnificaţia statistică a parametrilor modelului, determinând şi intervalele de încredere
pentru aceştia;
e) măsuraţi intensitatea legăturii dintre cele două variabile cu ajutorul coeficientului şi a raportului de
corelaţie; testaţi semnificaţia indicatorilor utilizaţi;
f) în ce măsură variaţia numărului de vizitatori este determinată de numărul spoturilor publicitare, pe
baza modelului de regresie determinat?
g) previzionaţi numărul vizitatorilor aşteptaţi într-o zi, în ipoteza că se vor difuza 15 spoturi în acea zi.
h) previzionaţi numărul mediu zilnic de vizitatori, în ipoteza că se vor difuza 8 spoturi publicitare în
medie pe zi.
Rezolvare:
a) Notăm cu X variabila factorială, independentă „nr.spoturi publicitare” şi cu Y variabila
dependentă „nr.vizitatori”.
Pentru a identifica existenţa, forma şi sensul legăturii dintre variabilele analizate construim
corelograma (figura 4.10).
0
10
20
30
40
50
60
70
0 2 4 6 8 10 12 14
nr.spoturi
nr.
viz
itato
ri
Figura 4.10 Corelograma (diagrama de împrăştiere)
Se observă că legătura dintre variabile este directă şi liniară (întrucât dreapta de regresie are
pantă pozitivă), iar ecuaţia de regresie va avea forma:
ii bxay +=
b) Pentru a determina estimatorii a şi b, rezolvăm sistemul de ecuaţii normale, folosind datele
din tabelul de lucru 4.5:
=+
=+
∑ ∑ ∑∑ ∑
ii2ii
ii
yxxbxa
yxbna
n=14 (numărul observaţiilor)
Tabelul 4.5
xi yi xi2
xiyi yi2
i
i
x
y
0753,5
2858,2ˆ
+
=
( )2ii yy − ( )2ˆ yyi − ( )2xxi −
7 42 49 294 1764 37,81 17,53 3,29 0,13 5 32 25 160 1024 27,66 18,82 69,52 2,70 1 10 1 10 100 7,36 6,96 820,19 31,84 8 40 64 320 1600 42,89 8,34 47,44 1,84
10 61 100 610 3721 53,04 63,39 290,31 11,27 2 8 4 16 64 12,44 19,68 555,25 21,56 6 35 36 210 1225 32,74 5,12 10,64 0,41 7 34 49 238 1156 37,81 14,54 3,29 0,13 9 45 81 405 2025 47,96 8,78 143,12 5,56 3 11 9 33 121 17,51 42,40 341,82 13,27
12 64 144 768 4096 63,19 0,66 739,24 28,70 8 37 64 296 1369 42,89 34,67 47,44 1,84 4 30 16 120 900 22,59 54,96 179,91 6,98
11 55 121 605 3025 58,11 9,69 489,01 18,98
∑ ix
=93 ∑ iy
=504 ∑ 2
ix
=763
ii yx∑
=4085 ∑ 2
iy
=22190 504 305,53 3740,47 145,21
( )
( )0753,5
2033
10318
9376314
50493408514b
2858,22033
4647
9376314
408593763504a
4085b763a93
504b93a14
2b
2a
==−⋅
⋅−⋅==
==−⋅
⋅−⋅==
=+
=+
∆
∆
∆
∆
Ecuaţia de regresie este:
ii x0753,52858,2y +=
c) Testarea validităţii modelului de regresie determinat.
Pentru testarea validităţii modelului se formulează cele două ipoteze:
H0: model nevalid statistic, cu alternativa
H1: model valid statistic
Se completează tabelul:
Sursă variaţiei
Suma pătratelor (SS-Sum of
Squares)
Grade de libertate
(df- degree of
freedom)
Media pătratelor (MS- Mean of
Squares)
Testul Fisher (testul F)
Datorată regresiei
2x/y∆ =3740,465
k=1
2x/ys =3740,465
Reziduală 2e∆ =305,535 n – k – 1=14 -
2=12 2es =25,461
Totală 2y∆ =4046,000 n – 1=15-1= 13
461,25
465,3740=Fcalc =146,908
Valoarea teoretică pentru un prag de semnificaţie α = 0,05 şi 1, respectiv 12 grade de libertate,
preluată din tabelul repartiţiei Fisher este 1−−kn;k;Fα =4,75.
Întrucât Fcalc> 1−−kn;k;Fα se respinge H0, adică se concluzionează că modelul este valid.
Calculele intermediare se găsesc în tabelul 4.5.
d) Ecuaţia de regresie liniară la nivelul colectivităţii generale se scrie:
yi = α + βxi + εi,
iar la nivelul eşantionului:
yi = a + bxi + ei
Pentru testarea semnificaţiei parametrilor modelului de regresie liniară şi estimarea lor pe
intervalele de încredere se procedează astfel:
1) pentru parametrul β
Ipotezele testate sunt:
H0 : β = 0 (µb = β = 0),
H1 : β ≠ 0.
Deoarece volumul eşantionului este mic (n<30), vom utiliza testul t:
bb
bcalc
s
b
s
bt
0−=
−=
µ, statistică ce urmează o distribuţie t cu (n – 2) grade de libertate.
Unde 4187,0145,21
046,5
)(1
2
==
−
=
∑=
n
i
i
e
b
xx
ss
Iar
( )5,046
12
53,305
2
ˆ
21
22
==−
−
=−
∆=
∑=
n
yy
ns
n
i
ii
e
e
Se obţine =calct 12,1206
Pentru un prag de semnificaţie de 5%, valoarea teoretică a testului este tα/2;13 = 2,179 . Deoarece
calct >tα/2;13 vom concluziona că este foarte improbabil ca estimatorul b să provină dintr-o populaţie cu
β=0 ( adică β este semnificativ diferit de zero), deci parametrul β este semnificativ statistic.
Intervalul de încredere pentru parametrul β , coeficientul de regresie din colectivitatea generală, este:
bn,/bn,/ stbstb ⋅+≤≤⋅− −− 2222 αα β , adică 5,98764,1629 ≤≤ β
2) pentru parametrul a
Ipotezele testate sunt:
H0 : α = 0,
H1 : α ≠ 0
Statistica t este:
aa
acalc
s
a
s
at
0−=
−=
µ.
Unde 0912,321,14514
763046,5
)(1
2
1
2
=⋅
⋅=
−
=
∑
∑
=
=
n
i
i
n
i
i
ea
xxn
x
ss
Se obţine calct = 0,7394
Pentru un prag de semnificaţie de 5%, valoarea teoretică a testului este tα/2;13 = 2,179 . Deoarece
calct <tα/2;13 vom concluziona că este foarte probabil ca estimatorul a să provină dintr-o populaţie cu
α=0 ( adică α nu este semnificativ diferit de zero).
Intervalul de încredere pentru parametrul α este dat de:
an,/an,/ stasta ⋅+≤≤⋅− −− 2222 αα α , adică -4,4495 ≤≤ α 9,0210.
Un argument suplimentar pentru concluzia că parametrul α este nesemnificativ statistic este acela că
intervalul de încredere include şi valoarea zero.
e) Pentru a măsura intensitatea legăturii dintre cele două variabile se va calcula mai întâi
coeficientul de corelaţie liniară:
( ) ( ) ( )
( )9615,0
10731
10318
50422190142033
10318
yyn
b
yynxxn
yxyxnr
2
2i
2i
2i
2i
2i
2i
iiii
==−⋅
=
=
−
=
−
−
−=
∑ ∑∑ ∑∑ ∑
∑ ∑∑∆
∆
Acest indicator ne arată o legătură directă şi foarte puternică (r este pozitiv şi apropiat de
valoarea unitară).
Pentru testarea semnificaţiei coeficientului de corelaţie liniară simplă, se procedează astfel:
Ipotezele testate sunt:
H0 : ρ = 0 ( ρ nu este semnificativ statistic)
H1: ρ ≠ 0 ( ρ este semnificativ statistic).
Statistica t este:
12,129615,01
129615,0
1
222
=−
⋅=
−
−==
r
nr
s
rt
r
calc .
Cum valoarea tabelară a testului t, pentru un prag de semnificaţie de 5% şi 12 grade de
libertate este 2,179 rezultă că tcalc > 2−n;tα , deci coeficientul de corelaţie este semnificativ statistic
Un alt indicator utilizat atât în cazul legăturilor liniare, cât şi al celor neliniare este raportul de
corelaţie R:
( )
( )9615,0
4046
53,3051
ˆ1
2
2
/ =−=−
−−==
∑∑
yy
yyRR
i
ii
xy
Calculele necesăre determinării raportului de corelaţie sunt redate în 4.5
3614
504
n
yy
i===
∑ mii pers.
Ry/x = ry/x = 0,9615, deci există o legătură liniară, puternică şi directă între cele două variabile.
Testarea semnificaţiei raportului de corelaţie se face cu testul F:
9,1461
12
2
=−
⋅−−
=R
R
k
knF
Valoarea teoretică pentru un prag de semnificaţie α = 0,05 şi 1, respectiv 12 grade de
libertate, preluată din tabelul repartiţiei Fisher este 1−−kn;k;Fα =4,75.
Întrucât Fcalc> 1−−kn;k;Fα se respinge H0, adică se concluzionează că R este semnificativ
statistic.
f) Pentru a determina în ce măsură variaţia numărului de vizitatori este explicată de influenţa
numărului de spoturi publicitare difuzate zilnic, se calculează coeficientul de determinaţie:
9245,09615,0R22
x/y == său 92,45% arată că aproximativ 92% din variaţia variabilei Y este
explicată de variabila X.
g) Dacă numărul spoturilor publicitare difuzate va fi de 15, atunci numărul previzionat al
vizitatorilor pe baza acestei ecuaţii de regresie este:
78150753,52858,2y 15x/ ≅⋅+== mii pers. (estimare punctuală)
Pentru estimarea pe interval de încredere, trebuie să determinăm dispersia diferenţei
,ˆ ,11 inn yy ++ − adică dispersia erorii de previzionare. Dispersia în eşantion este:
( ) ( ) 534,3921,145
)64,615(
14
11461,25
)(
)(11
2
1
2
2122
ˆ2ˆ ,11,1
=
−++⋅=
−
−++==
∑=
+− +++ n
i
i
n
eyyy
xx
xx
nsss
innin.
Intervalul de încredere este:
∑=
+−+
−
−++±
n
i
i
n
enin
xx
xx
nsty
1
2
21
2,2/,1
)(
)(11ˆ
α , adică (64,71; 92,11) mii persoane.
h) Suntem în cazul determinării intervalului de încredere pentru media de răspuns, când xn+1
≠ x . Pentru aceasta se determină ( ) 9,426,64-85,075336)(ˆ 11 =⋅+=−+= ++ xxbyy nn
iar estimatorul dispersiei pentru 1ˆ+ny este:
( )
( )14,2
21,145
)64,68(
14
1461,25
)(1 2
1
2
2122
ˆ 1=
−+⋅=
−
−+=
∑=
+
+ n
i
i
n
ey
xx
xx
nss
n
Intervalul de încredere pentru media de răspuns este:
( )( )∑
=
+−+
−
−+±
n
i
i
n
enn
xx
xx
nsty
1
2
2
12,2/1
1ˆ
α , adică (39,71; 46,08) mii persoane
Se poate utiliza, însă, pentru rezolvarea problemei şi un pachet informatic specializat, în cazul
nostru – EXCEL. În urma selectării, din meniul principal, a opţiunilor <Tools>+<Data
Analysis>+<Regression>, s-au obţinut următoarele rezultate:
SUMMARY OUTPUT Regression Statistics
Multiple R 0,961501303 R Square 0,924484756 Adjusted R Square 0,918191819 Standard Error 5,045911528
Observations 14
ANOVA df SS MS F Significance F
Regression 1 3740,465 3740,465 146,908 0,0000000433 Residual 12 305,535 25,461
Total 13 4046,000
Coefficients Standard Error t Stat P-value
Lower
95%
Upper
95%
Intercept 2,2858 3,0912 0,7394 0,4738580696 -4,4495 9,0210
Nr. spoturi 5,0753 0,4187 12,1206 0,0000000433 4,1629 5,9876
Problema 4. Un vânzător de automobile second hand ar dori să ştie dacă preţul de vânzare al
acestora la licitaţie depinde de numărul de kilometri parcurşi de automobilul respectiv. Pentru aceasta
el selectează 50 de automobile cu o vechime de 3 ani, aceeaşi marcă şi aceleaşi facilităţi. Pentru
fiecare maşină a înregistrat preţul de vânzare la licitaţie şi numărul de kilometri de la bordul
autoturismului.
a) Vânzătorul ar dori să ştie care este dependenţa dintre preţul de vânzare şi numărul de
kilometri parcurşi.
b) Testaţi semnificaţia parametrilor funcţiei de regresie şi validitatea modelului de regresie
obţinut.
c) Măsuraţi intensitatea legăturii dintre variabile.
Preţul Nr.Km Preţul Nr.Km Preţul Nr.Km Preţul Nr.Km Preţul Nr.Km
37388 5318 32359 5595 38775 5150 32161 5507 37407 5105 44758 5061 43533 5330 45563 5249 26561 5873 34356 5685 45833 5008 32744 5806 28676 5775 33533 5303 30599 5788 30862 5795 34470 5805 38231 5327 41849 5237 42485 5208 31705 5784 37720 5317 36683 5192 36668 5383 38430 5168 34010 5359 41350 5316 32517 5544 37495 5286 40452 5128 45854 5235 24469 5870 39050 5054 25629 5827 26030 5750 19057 5845 35781 5504 45251 5115 40099 5483 46296 4965 40149 5536 48613 5333 34384 5410 31014 5440 34844 5238 40237 5401 24188 5705 38383 5529 42233 5215 27379 5763
Rezolvare:
a) Pentru determinarea dependenţei între cele două variabile se face un grafic pentru determinarea
tipului legăturii.
4800
5000
5200
5400
5600
5800
6000
0 10000 20000 30000 40000 50000 60000
Număr de kilometri parcurşi
Preţ
Figura 4.12
Deoarece punctele reprezentate sunt grupate în jurul diagonalei secundare, există o
dependenţă liniară, inversă între cele două variabile. Pentru determinarea modului în care preţul
variază în funcţie de numărul de kilometri parcurşi se va folosi modelul de regresie liniară.
Rezolvare folosind EXCEL:
1. Introduceţi datele astfel: în celula A1 tastaţi „Nr.Km.“ iar în B1 „Preţul“. În prima coloană, începând din A2 se vor introduce numărul de kilometri parcurşi, iar pe coloana a doua, începând din B2 se vor introduce preţurile.
2. Apăsăţi Tools-Data Analysis şi Regression. 3. La Input Y Range selectaţi B1:B51. La Input X Range selectaţi A1:A51. Selectaţi Labels. 4. Dacă doriţi să calculaţi valorile reziduale ( ii yy ˆ− ), selectaţi Residuals. Apăsăţi OK. Se obţin rezultatele:
SUMMARY OUTPUT
Regression Statistics
Multiple R 0.808922 R Square 0.654355 Adjusted R Square 0.647154 Standard Error 157.8984 Observations 50
ANOVA
Df SS MS F Significance F
Regression 1 2265584 2265584 90.87089 1.19E-12 Residual 48 1196732 24931.91 Total 49 3462316
Coefficients Standard
Error
t Stat P-value Lower 95% Upper 95%
Intercept 6598.34 124.3322 53.07024 2.78E-44 6348.353 6848.326 Nr.Km. -0.03224 0.003382 -9.53262 1.19E-12 -0.03904 -0.02544
Interpretarea rezultatelor prezente în ultimul tabel din SUMMARY OUTPUT.
Coeficientul b este – 0,03224, ceea ce însemnă că la creşterea distanţei parcurse cu 1
kilometru, preţul va descreşte cu 0,03224×104 lei (322,4 lei).
Intercept este termenul liber, deci coeficientul a este 6598,34. Termenul liber este punctul în
care dreapta de regresie intersectează axa y. Aceasta înseamnă că x=0, deci a reprezintă preţul unei
maşini care nu a fost condusă. Dar, în cazul nostru acest punct nu are semnificaţie, deoarece toate
maşinile sunt second hand.
Interpretarea rezultatelor prezente în primul tabel din SUMMARY OUTPUT.
Este calculată eroarea standard, Standard Error, egală cu 157,9. În cazul în care această
valoare este zero, înseamnă că toate punctele observate se află pe dreapta de regresie. Deci, bine este
ca această valoare să fie cât mai apropiată de zero. Ce înseamnă mai apropiată de zero este greu de
spus folosind doar eroarea standard. De aceea se calculează mărimi derivate din aceasta pentru a spune
cât de apropiate sunt punctele de dreapta de regresie.
Pentru a putea spune în ce măsură modelul liniar de regresie explică dependenţa dintre
variabile se calculează coeficientul de determinaţie, R-square care în cazul nostru este 0,6544. Deci
65,44% din variaţia preţului este explicată de variaţia numărului de kilometri parcurşi de automobil.
Este calculat, de asemenea, coeficientul de determinaţie ajustat, 2
R , egal cu 0,6472.
În cazul în care a fost selectat şi Residuals, tot în acest Sheet de rezultate sunt calculate
valorile reziduale şi valorile previzionate pe baza modelului de regresie.
RESIDUAL OUTPUT
Observation Predicted Price Residuals
1 5392.879821 -74.8798 2 5155.257064 -94.2571 3 5120.597029 -112.597 4 5603.29042 191.7096
..... Rezolvare folosind STATISTICA: 1. Creaţi un fişier cu 2 variabile şi 50 de cazuri (File/New data). Introduceţi datele astfel: prima
variabilă este numărul de kilometri parcurşi, a doua variabilă este preţul stabilit la licitaţie. 2. Selectaţi modulul General Linear Model. Selectaţi apoi Simple Regression. 3. În noua fereastră deschisă apăsăţi butonul Variables. Aici selectaţi la Dependent variable list
a doua variabilă şi la Predictor prima variabilă. Apăsăţi OK. 4. Apăsăţi Summary. Apăsăţi Coefficients. Se obţine:
Acest tabel se interpretează similar cu tabelul 3 din SUMMARY OUTPUT obţinut prin EXCEL. 5. Apăsăţi Continue. Apăsăţi Whole model R. Se obţine:
Acest tabel se interpretează similar cu tabelul 1 din SUMMARY OUTPUT obţinut prin EXCEL. Dacă se doreşte calculul valorilor reziduale şi al celor previzionate se parcurg paşii: 6. Apăsăţi Continue. Apăsăţi Resids. Selectaţi Extended. Apăsăţi Predicted and residuals. Se obţine:
Se observă că în tabelul anterior sunt afişate: - preţul observat; - preţul previzionat; - valoarea reziduală: preţul observat – preţul previzionat; - eroarea standard;
b) Rezolvare folosind EXCEL:
Interpretarea rezultatelor prezente în ultimul tabel din SUMMARY OUTPUT.
În coloana a doua (Standard Error) sunt calculate, erorile standard ale parametrilor estimaţi:
sa = 124,33 şi sb = 0,0034. Aceste erori sunt folosite pentru calculul statisticilor t pentru testarea
semnificaţiei estimatorilor. Acestea sunt calculate în coloana tStat, ta = 53,07 şi tb = - 9,53. Deoarece
valorile p asociate sunt foarte apropiate de zero (în coloana P-value), se poate spune că estimatorii
sunt semnificativi.
Lower 95% şi Upper 95% sunt limitele inferioare, respectiv superioare ale coeficienţilor estimaţi.
Interpretarea rezultatelor prezente în tabelul ANOVA.
Validitatea modelului de regresie se testează folosind testul F. În tabelul ANOVA sunt
calculate cele trei variaţii: cea explicată de model, cea reziduală şi cea totală. Cu ajutorul acestora se
calculează Statistica F. În cazul nostru aceasta este 90,87. Deaorece valoarea p asociată este foarte
apropiată de zero (prag de semnificaţie scăzut), se poate valida modelul de regresie.
În cazul în care a fost selectat şi Residuals, tot în acest Sheet de rezultate sunt calculate
valorile reziduale şi valorile previzionate pe baza modelului de regresie.
RESIDUAL OUTPUT
Observation Predicted Price Residuals
1 5392.879821 -74.8798 2 5155.257064 -94.2571 3 5120.597029 -112.597 4 5603.29042 191.7096
..... Rezolvare folosind STATISTICA:
Acest tabel se interpretează similar cu tabelul 3 din SUMMARY OUTPUT obţinut prin EXCEL. Dacă se doreşte calculul valorilor reziduale şi al celor previzionate se parcurg paşii: Apăsăţi Continue. Apăsăţi Resids. Selectaţi Extended. Apăsăţi Predicted and residuals.
Se obţine:
Se observă că în tabelul anterior sunt afişate:
- preţul observat;
- preţul previzionat;
- valoarea reziduală: preţul observat – preţul previzionat;
- eroarea standard;
- intervalul de previziune, pentru o probabilitate de 95%: în cazul unui automobil cu acelaşi
număr de kilometri parcurşi, cu o probabilitate de 95%, preţul previzionat al acestuia va fi
inclus în intervalul de previziune;
- intervalul de încredere, pentru o probabilitate de 95%: în cazul unui automobil cu acelaşi
număr de kilometri parcurşi, cu o probabilitate de 95%, preţul acestuia va fi inclus în
intervalul de încredere.
c) Deoarece datele sunt cantitative, pentru măsurarea intensităţii legăturii dintre două variabile
se calculează coeficientul de corelaţie liniară.
Rezolvare folosind EXCEL: 1. Introduceţi datele ca în Exemplul 5.13. 2. Apăsăţi Tools-Data Analysis şi Correlation. 3. Specificaţi Input Range (A1:B51). Apăsăţi Labels in First Row. Apăsăţi OK.
Se obţin rezultatele:
Număr de kilometri parcurşi Preţ
Număr de kilometri parcurşi 1 Preţ -0.808922247 1
Coeficientul de corelaţie dintre numărul de kilometri parcurşi şi preţ este -0,809. Deoarece acesta
este negativ şi apropiat de unu se poate spune că există o corelaţie inversă între cele două variabile.
Rezolvare folosind STATISTICA:
1. Introduceţi datele ca în Exemplul 5.13. 2. Selectaţi modulul Basic Statistics and Tables. Selectaţi apoi Correlation Matrices. 3. Apăsăţi butonul One variable list (square matrix). Selectaţi ambele variabile. Apăsăţi OK. 4. La Display selectaţi Detailed table of results. Apăsăţi OK. Se obţin rezultatele:
Coeficientul de corelaţie dintre numărul de kilometri parcurşi şi preţ este -0,81. Deoarece
acesta este negativ şi apropiat de unu se poate spune că există o corelaţie inversă între cele două variabile.