Probleme Rezolvate Regresie Liniara Simpla

Problema 1.

Un analist doreşte să studieze legătura dintre cheltuielile pentru promovarea produselor şi nivelul

vânzărilor realizate. În acest scop el sistematizează date pentru 15 mărfuri alimentare privind

cheltuielile lunare cu promovarea produsului (mii lei) şi încasările lunare realizate (mii lei):

Nr. crt. Cheltuieli promovare

(mii lei) Încasări lunare

(mii lei) 1 20,0 2190 2 14,8 1900 3 20,5 1990 4 12,5 1210 5 18,0 1500 6 14,3 1980 7 24,9 3340 8 16,5 1880 9 24,3 3100 10 20,2 2130 11 22,0 2880 12 19,0 3120 13 12,3 1860 14 14,0 1730 15 16,7 1740

a) Analiza legaturii pe baza metodei grafice:

Pentru analiza de regresie liniară simplă vom construi corelograma:

Figura 4.8 Distribuţia încasărilor în funcţie de cheltuieli

Analizând corelograma remarcăm că între cele două variabile există o legătură liniară directă ce

poate fi descrisă printr-o ecuaţie de forma:

yi = a + bxi + ei

b) Determinam modelul de regresie liniara in esantion.

Calculele necesăre estimării parametrilor ecuaţiei de regresie sunt redate în tabelul următor:

Tabelul 4.2 Nr. crt.

Chelt. (X)

Încas. (Y)

2x 2y xy y

) yy)

− 2)yy()

− yy− 2)yy( −

Cheltuieli de promovare (mil. lei)

Inca

sari

(m

il. l

ei)

1000

1400

1800

2200

2600

3000

3400

3800

10 12 14 16 18 20 22 24 26

Nr. crt.

Chelt. (X)

Încas. (Y)

2x 2y xy y

) yy)

− 2)yy(

)− yy− 2)yy( −

1 12,30 1860 151,29 3459600 22878 1448,83 411,17 169058,30 -310 96100 2 12,50 1210 156,25 1464100 15125 1474,14 -264,14 69767,30 -960 921600 3 14,00 1730 196,00 2992900 24220 1663,90 66,10 4369,21 -440 193600 4 14,30 1980 204,49 3920400 28314 1701,85 278,15 77365,75 -190 36100 5 14,80 1900 219,04 3610000 28120 1765,11 134,89 18195,85 -270 72900 6 16,50 1880 272,25 3534400 31020 1980,18 -100,18 10035,03 -290 84100 7 16,70 1740 278,89 3027600 29058 2005,48 -265,48 70478,04 -430 184900 8 18,00 1500 324,00 2250000 27000 2169,94 -669,94 448819,60 -670 448900 9 19,00 3120 361,00 9734400 59280 2296,45 823,55 678234,60 950 902500 10 20,00 2190 400,00 4796100 43800 2422,96 -232,96 54270,36 20 400 11 20,20 2130 408,04 4536900 43026 2448,26 -318,26 101290,70 -40 1600 12 20,50 1990 420,25 3960100 40795 2486,22 -496,22 246229,33 -180 32400 13 22,00 2880 484,00 8294400 63360 2675,98 204,02 41624,16 710 504100 14 24,30 3100 590,49 9610000 75330 2966,95 133,05 17701,50 930 864900 15 24,90 3340 620,01 11155600 83166 3042,86 297,14 88292,77 1170 1368900

Total 270,00 32550 5086,00 76346500 614492 32549,10 0,90 2095732,52 0 5713000

Sistemul de ecuaţii, pentru determinarea coeficienţilor a şi b este:

=+

=+

614492 5086b 270a

32550 270b15a

şi rezultă:

a = -107,24 şi b = 126,51

Ecuaţia de regresie este:

ii x,,y 5112624107 +−=)

Pe baza datelor din tabelul 4.1 putem determina coeficientul de corelaţie:

( )796,0

325507634650015)(270508615

3255027061449215r

22=

−⋅−⋅

⋅−⋅= , ceea ce ne arată o legătură directă şi de

intensitate destul de puternică între cele două variabile.

c) Vom valida modelul de regresie determinat mai sus:

Tabelul 4.4 Sursă

variaţiei Suma pătratelor

(SS-Sum of Squares) Grade de libertate

(df- degree of

freedom)

Media pătratelor (MS- Mean of

Squares)

Testul Fisher (testul F)

Datorată regresiei

2x/y∆ =3617268

k=1

2x/ys =3617268

Reziduală 2e∆ =2095732 n – k – 1=15-

2=13 2es =161210,2

Totală 2y∆ =5713000 n – 1=15-1= 14

2161210

3617268

,Fcalc = =22,438

Pentru testarea validităţii modelului se formulează cele două ipoteze:

H0: model nevalid statistic, cu alternativa

H1: model valid statistic

Valoarea teoretică pentru un prag de semnificaţie α = 0,05 şi 1, respectiv 13 grade de libertate,

preluată din tabelul repartiţiei Fisher este 1−−kn;k;Fα =4,67.

Întrucât Fcalc> 1−−kn;k;Fα se respinge H0, adică se concluzionează că modelul este valid.

d) Pe baza datelor din exemplul de mai sus putem calcula şi testa:

1) Raportul de corelaţie

7960633205713000

5220957321 ,,

,R ==−= ,ceea ce ne arată o legătură destul de puternică între

variabile.

Valoarea teoretică pentru un prag de semnificaţie α = 0,05 şi 1, respectiv 13 grade de

libertate, preluată din tabelul repartiţiei Fisher este 1−−kn;k;Fα =4,67.

Întrucât Fcalc> 1−−kn;k;Fα se respinge H0, adică se concluzionează că R este semnificativ

statistic.

2) Coeficientul de determinaţie

R2 = 0, 6332 ceea ce arată că 63,32% din variaţia încasărilor se explică prin variaţia cheltuielilor

de promovare a produsului.

Observăm, de asemenea, că r =R =0,796, ceea ce arată că modelul de regresie este liniar.

e) Testarea semnificatiei parametrilor modelului de regresie si determinarea intervalelor lor de

incredere.

1) parametrul β

Ipotezele sunt:

H0 : β = 0 (µb = β = 0),

H1 : β ≠ 0.

Deoarece volumul eşantionului este mic (n<30), vom utiliza testul t:

bb

bcalc

s

b

s

bt

0−=

−=

µ, statistică ce urmează o distribuţie t cu (n – 2) grade de libertate.

=calct 4,736, iar bs = 26,7

Pentru un prag de semnificaţie de 5%, valoarea teoretică a testului este tα/2;13 = 2,16 . Deoarece

calct >tα/2;13 vom concluziona că este foarte improbabil ca estimatorul b să provină dintr-o populaţie cu

β=0 ( adică β este semnificativ diferit de zero).

438221

12

2

,R

R

k

knF =

−⋅

−−=

Intervalul de încredere pentru parametrul β , coeficientul de regresie din colectivitatea generală, este:

bn,/bn,/ stbstb ⋅+≤≤⋅− −− 2222 αα β , adică 211848168 ,, ≤≤ β

2) parametrul a

Ipotezele sunt:

H0 : α = 0,

H1 : α ≠ 0

Statistica t este:

aa

acalc

s

a

s

at

0−=

−=

µ.

calct = -0,218, iar as =491,8


calct <tα/2;13 vom concluziona că este foarte probabil ca estimatorul a să provină dintr-o populaţie cu

α=0 ( adică α nu este semnificativ diferit de zero).

Intervalul de încredere pentru parametrul α este dat de:

an,/an,/ stasta ⋅+≤≤⋅− −− 2222 αα α , adică -1169,69 ≤≤ α 955,22.

Un argument suplimentar pentru concluzia că parametrul α este nesemnificativ statistic este acela că

intervalul de încredere include şi valoarea zero.

Problema 2. Proprietarul unui minihotel dezvoltă o analiză statistică pentru determinarea

cheltuielilor cu materialele de curăţenie (Y) în funcţie de numărul camerelor ocupate (X). El determină

ecuaţia de regresie pentru cheltuielile zilnice (pentru detergent, clor etc.) (zeci mii lei), pe baza datelor

înregistrate pentru n=14 zile:

ii xy 7,38,10 +=

86,26)(2

=−∑ xxi 3,2=x

∑ =− 39,163)ˆ( 2yyi

a) Proprietarul doreşte să estimeze cheltuielile cu materialele de curăţenie pentru o zi în care

are 6 camere ocupate;

b) Proprietarul doreşte să estimeze cheltuielile medii cu curăţenia pentru zilele în care are 6

camere ocupate.

Dacă numărul camerelor ocupate este 61 =+nx , atunci:

.69,312

39,163

;179,2

;3367,38,10ˆ

12,025.02,2/

1

==

==

=⋅+=

−

+

e

n

n

s

tt

y

α

t0,025;12 = 2,179

a) Intervalul de încredere pentru cheltuielile unei zile în care sunt 6 camere ocupate este:

86.26

)3,26(

14

1169,3179,233

2−++⋅± ,

adică (22,89;43,11) garantat cu o probabilitate de 95%;

b) Intervalul de încredere pentru media cheltuielilor zilnice în cazul în care au 6 camere

ocupate este:

86.26

)3,26(

14

169,3179,233

2−+⋅± ,

adică (30,19;35,82), garantat cu o probabilitate de 95%.

Problema 3

Pentru un magazin de mobilă s-au cules date privind numărul de spoturi publicitare difuzate şi

numărul vizitatorilor (mii pers.) timp de 14 zile.:

Ziua Nr. spoturi publicitare Nr. vizitatori (mii pers.) 1 7 42 2 5 32 3 1 10 4 8 40 5 10 61 6 2 8 7 6 35 8 7 34 9 9 45

10 3 11 11 12 64 12 8 37 13 4 30 14 11 55

Se cere:

a) reprezentaţi grafic datele; Comentaţi graficul.

b) pe baza datelor de la nivelul eşantionului, determinaţi ecuaţia de regresie care modelează legătura

dintre cele două variabile şi calculaţi numărul zilnic previzionat de vizitatori;

c) verificaţi dacă modelul de regresie identificat este valid statistic;

d) testaţi semnificaţia statistică a parametrilor modelului, determinând şi intervalele de încredere

pentru aceştia;

e) măsuraţi intensitatea legăturii dintre cele două variabile cu ajutorul coeficientului şi a raportului de

corelaţie; testaţi semnificaţia indicatorilor utilizaţi;

f) în ce măsură variaţia numărului de vizitatori este determinată de numărul spoturilor publicitare, pe

baza modelului de regresie determinat?

g) previzionaţi numărul vizitatorilor aşteptaţi într-o zi, în ipoteza că se vor difuza 15 spoturi în acea zi.

h) previzionaţi numărul mediu zilnic de vizitatori, în ipoteza că se vor difuza 8 spoturi publicitare în

medie pe zi.

Rezolvare:

a) Notăm cu X variabila factorială, independentă „nr.spoturi publicitare” şi cu Y variabila

dependentă „nr.vizitatori”.

Pentru a identifica existenţa, forma şi sensul legăturii dintre variabilele analizate construim

corelograma (figura 4.10).

0

10

20

30

40

50

60

70

0 2 4 6 8 10 12 14

nr.spoturi

nr.

viz

itato

ri

Figura 4.10 Corelograma (diagrama de împrăştiere)

Se observă că legătura dintre variabile este directă şi liniară (întrucât dreapta de regresie are

pantă pozitivă), iar ecuaţia de regresie va avea forma:

ii bxay +=

b) Pentru a determina estimatorii a şi b, rezolvăm sistemul de ecuaţii normale, folosind datele

din tabelul de lucru 4.5:

=+

=+

∑ ∑ ∑∑ ∑

ii2ii

ii

yxxbxa

yxbna

n=14 (numărul observaţiilor)

Tabelul 4.5

xi yi xi2

xiyi yi2

i

i

x

y

0753,5

2858,2ˆ

+

=

( )2ii yy − ( )2ˆ yyi − ( )2xxi −

7 42 49 294 1764 37,81 17,53 3,29 0,13 5 32 25 160 1024 27,66 18,82 69,52 2,70 1 10 1 10 100 7,36 6,96 820,19 31,84 8 40 64 320 1600 42,89 8,34 47,44 1,84

10 61 100 610 3721 53,04 63,39 290,31 11,27 2 8 4 16 64 12,44 19,68 555,25 21,56 6 35 36 210 1225 32,74 5,12 10,64 0,41 7 34 49 238 1156 37,81 14,54 3,29 0,13 9 45 81 405 2025 47,96 8,78 143,12 5,56 3 11 9 33 121 17,51 42,40 341,82 13,27

12 64 144 768 4096 63,19 0,66 739,24 28,70 8 37 64 296 1369 42,89 34,67 47,44 1,84 4 30 16 120 900 22,59 54,96 179,91 6,98

11 55 121 605 3025 58,11 9,69 489,01 18,98

∑ ix

=93 ∑ iy

=504 ∑ 2

ix

=763

ii yx∑

=4085 ∑ 2

iy

=22190 504 305,53 3740,47 145,21

( )

( )0753,5

2033

10318

9376314

50493408514b

2858,22033

4647

9376314

408593763504a

4085b763a93

504b93a14

2b

2a

==−⋅

⋅−⋅==

==−⋅

⋅−⋅==

=+

=+

∆

∆

∆

∆

Ecuaţia de regresie este:

ii x0753,52858,2y +=

c) Testarea validităţii modelului de regresie determinat.

Pentru testarea validităţii modelului se formulează cele două ipoteze:

H0: model nevalid statistic, cu alternativa

H1: model valid statistic

Se completează tabelul:

Sursă variaţiei

Suma pătratelor (SS-Sum of

Squares)

Grade de libertate

(df- degree of

freedom)

Media pătratelor (MS- Mean of

Squares)

Testul Fisher (testul F)

Datorată regresiei

2x/y∆ =3740,465

k=1

2x/ys =3740,465

Reziduală 2e∆ =305,535 n – k – 1=14 -

2=12 2es =25,461

Totală 2y∆ =4046,000 n – 1=15-1= 13

461,25

465,3740=Fcalc =146,908

Valoarea teoretică pentru un prag de semnificaţie α = 0,05 şi 1, respectiv 12 grade de libertate,

preluată din tabelul repartiţiei Fisher este 1−−kn;k;Fα =4,75.

Întrucât Fcalc> 1−−kn;k;Fα se respinge H0, adică se concluzionează că modelul este valid.

Calculele intermediare se găsesc în tabelul 4.5.

d) Ecuaţia de regresie liniară la nivelul colectivităţii generale se scrie:

yi = α + βxi + εi,

iar la nivelul eşantionului:

yi = a + bxi + ei

Pentru testarea semnificaţiei parametrilor modelului de regresie liniară şi estimarea lor pe

intervalele de încredere se procedează astfel:

1) pentru parametrul β

Ipotezele testate sunt:

H0 : β = 0 (µb = β = 0),

H1 : β ≠ 0.

Deoarece volumul eşantionului este mic (n<30), vom utiliza testul t:

bb

bcalc

s

b

s

bt

0−=

−=

µ, statistică ce urmează o distribuţie t cu (n – 2) grade de libertate.

Unde 4187,0145,21

046,5

)(1

2

==

−

=

∑=

n

i

i

e

b

xx

ss

Iar

( )5,046

12

53,305

2

ˆ

21

22

==−

−

=−

∆=

∑=

n

yy

ns

n

i

ii

e

e

Se obţine =calct 12,1206


calct >tα/2;13 vom concluziona că este foarte improbabil ca estimatorul b să provină dintr-o populaţie cu

β=0 ( adică β este semnificativ diferit de zero), deci parametrul β este semnificativ statistic.

Intervalul de încredere pentru parametrul β , coeficientul de regresie din colectivitatea generală, este:

bn,/bn,/ stbstb ⋅+≤≤⋅− −− 2222 αα β , adică 5,98764,1629 ≤≤ β

2) pentru parametrul a


H0 : α = 0,

H1 : α ≠ 0

Statistica t este:

aa

acalc

s

a

s

at

0−=

−=

µ.

Unde 0912,321,14514

763046,5

)(1

2

1

2

=⋅

⋅=

−

=

∑

∑

=

=

n

i

i

n

i

i

ea

xxn

x

ss

Se obţine calct = 0,7394


calct <tα/2;13 vom concluziona că este foarte probabil ca estimatorul a să provină dintr-o populaţie cu

α=0 ( adică α nu este semnificativ diferit de zero).

Intervalul de încredere pentru parametrul α este dat de:

an,/an,/ stasta ⋅+≤≤⋅− −− 2222 αα α , adică -4,4495 ≤≤ α 9,0210.

Un argument suplimentar pentru concluzia că parametrul α este nesemnificativ statistic este acela că

intervalul de încredere include şi valoarea zero.

e) Pentru a măsura intensitatea legăturii dintre cele două variabile se va calcula mai întâi

coeficientul de corelaţie liniară:

( ) ( ) ( )

( )9615,0

10731

10318

50422190142033

10318

yyn

b

yynxxn

yxyxnr

2

2i

2i

2i

2i

2i

2i

iiii

==−⋅

=

=

−

=

−

−

−=

∑ ∑∑ ∑∑ ∑

∑ ∑∑∆

∆

Acest indicator ne arată o legătură directă şi foarte puternică (r este pozitiv şi apropiat de

valoarea unitară).

Pentru testarea semnificaţiei coeficientului de corelaţie liniară simplă, se procedează astfel:


H0 : ρ = 0 ( ρ nu este semnificativ statistic)

H1: ρ ≠ 0 ( ρ este semnificativ statistic).

Statistica t este:

12,129615,01

129615,0

1

222

=−

⋅=

−

−==

r

nr

s

rt

r

calc .

Cum valoarea tabelară a testului t, pentru un prag de semnificaţie de 5% şi 12 grade de

libertate este 2,179 rezultă că tcalc > 2−n;tα , deci coeficientul de corelaţie este semnificativ statistic

Un alt indicator utilizat atât în cazul legăturilor liniare, cât şi al celor neliniare este raportul de

corelaţie R:

( )

( )9615,0

4046

53,3051

ˆ1

2

2

/ =−=−

−−==

∑∑

yy

yyRR

i

ii

xy

Calculele necesăre determinării raportului de corelaţie sunt redate în 4.5

3614

504

n

yy

i===

∑ mii pers.

Ry/x = ry/x = 0,9615, deci există o legătură liniară, puternică şi directă între cele două variabile.

Testarea semnificaţiei raportului de corelaţie se face cu testul F:

9,1461

12

2

=−

⋅−−

=R

R

k

knF

Valoarea teoretică pentru un prag de semnificaţie α = 0,05 şi 1, respectiv 12 grade de

libertate, preluată din tabelul repartiţiei Fisher este 1−−kn;k;Fα =4,75.

Întrucât Fcalc> 1−−kn;k;Fα se respinge H0, adică se concluzionează că R este semnificativ

statistic.

f) Pentru a determina în ce măsură variaţia numărului de vizitatori este explicată de influenţa

numărului de spoturi publicitare difuzate zilnic, se calculează coeficientul de determinaţie:

9245,09615,0R22

x/y == său 92,45% arată că aproximativ 92% din variaţia variabilei Y este

explicată de variabila X.

g) Dacă numărul spoturilor publicitare difuzate va fi de 15, atunci numărul previzionat al

vizitatorilor pe baza acestei ecuaţii de regresie este:

78150753,52858,2y 15x/ ≅⋅+== mii pers. (estimare punctuală)

Pentru estimarea pe interval de încredere, trebuie să determinăm dispersia diferenţei

,ˆ ,11 inn yy ++ − adică dispersia erorii de previzionare. Dispersia în eşantion este:

( ) ( ) 534,3921,145

)64,615(

14

11461,25

)(

)(11

2

1

2

2122

ˆ2ˆ ,11,1

=

−++⋅=

−

−++==

∑=

+− +++ n

i

i

n

eyyy

xx

xx

nsss

innin.

Intervalul de încredere este:

∑=

+−+

−

−++±

n

i

i

n

enin

xx

xx

nsty

1

2

21

2,2/,1

)(

)(11ˆ

α , adică (64,71; 92,11) mii persoane.

h) Suntem în cazul determinării intervalului de încredere pentru media de răspuns, când xn+1

≠ x . Pentru aceasta se determină ( ) 9,426,64-85,075336)(ˆ 11 =⋅+=−+= ++ xxbyy nn

iar estimatorul dispersiei pentru 1ˆ+ny este:

( )

( )14,2

21,145

)64,68(

14

1461,25

)(1 2

1

2

2122

ˆ 1=

−+⋅=

−

−+=

∑=

+

+ n

i

i

n

ey

xx

xx

nss

n

Intervalul de încredere pentru media de răspuns este:

( )( )∑

=

+−+

−

−+±

n

i

i

n

enn

xx

xx

nsty

1

2

2

12,2/1

1ˆ

α , adică (39,71; 46,08) mii persoane

Se poate utiliza, însă, pentru rezolvarea problemei şi un pachet informatic specializat, în cazul

nostru – EXCEL. În urma selectării, din meniul principal, a opţiunilor <Tools>+<Data

Analysis>+<Regression>, s-au obţinut următoarele rezultate:

SUMMARY OUTPUT Regression Statistics

Multiple R 0,961501303 R Square 0,924484756 Adjusted R Square 0,918191819 Standard Error 5,045911528

Observations 14

ANOVA df SS MS F Significance F

Regression 1 3740,465 3740,465 146,908 0,0000000433 Residual 12 305,535 25,461

Total 13 4046,000

Coefficients Standard Error t Stat P-value

Lower

95%

Upper

95%

Intercept 2,2858 3,0912 0,7394 0,4738580696 -4,4495 9,0210

Nr. spoturi 5,0753 0,4187 12,1206 0,0000000433 4,1629 5,9876

Problema 4. Un vânzător de automobile second hand ar dori să ştie dacă preţul de vânzare al

acestora la licitaţie depinde de numărul de kilometri parcurşi de automobilul respectiv. Pentru aceasta

el selectează 50 de automobile cu o vechime de 3 ani, aceeaşi marcă şi aceleaşi facilităţi. Pentru

fiecare maşină a înregistrat preţul de vânzare la licitaţie şi numărul de kilometri de la bordul

autoturismului.

a) Vânzătorul ar dori să ştie care este dependenţa dintre preţul de vânzare şi numărul de

kilometri parcurşi.

b) Testaţi semnificaţia parametrilor funcţiei de regresie şi validitatea modelului de regresie

obţinut.

c) Măsuraţi intensitatea legăturii dintre variabile.

Preţul Nr.Km Preţul Nr.Km Preţul Nr.Km Preţul Nr.Km Preţul Nr.Km

37388 5318 32359 5595 38775 5150 32161 5507 37407 5105 44758 5061 43533 5330 45563 5249 26561 5873 34356 5685 45833 5008 32744 5806 28676 5775 33533 5303 30599 5788 30862 5795 34470 5805 38231 5327 41849 5237 42485 5208 31705 5784 37720 5317 36683 5192 36668 5383 38430 5168 34010 5359 41350 5316 32517 5544 37495 5286 40452 5128 45854 5235 24469 5870 39050 5054 25629 5827 26030 5750 19057 5845 35781 5504 45251 5115 40099 5483 46296 4965 40149 5536 48613 5333 34384 5410 31014 5440 34844 5238 40237 5401 24188 5705 38383 5529 42233 5215 27379 5763

Rezolvare:

a) Pentru determinarea dependenţei între cele două variabile se face un grafic pentru determinarea

tipului legăturii.

4800

5000

5200

5400

5600

5800

6000

0 10000 20000 30000 40000 50000 60000

Număr de kilometri parcurşi

Preţ

Figura 4.12

Deoarece punctele reprezentate sunt grupate în jurul diagonalei secundare, există o

dependenţă liniară, inversă între cele două variabile. Pentru determinarea modului în care preţul

variază în funcţie de numărul de kilometri parcurşi se va folosi modelul de regresie liniară.

Rezolvare folosind EXCEL:

1. Introduceţi datele astfel: în celula A1 tastaţi „Nr.Km.“ iar în B1 „Preţul“. În prima coloană, începând din A2 se vor introduce numărul de kilometri parcurşi, iar pe coloana a doua, începând din B2 se vor introduce preţurile.

2. Apăsăţi Tools-Data Analysis şi Regression. 3. La Input Y Range selectaţi B1:B51. La Input X Range selectaţi A1:A51. Selectaţi Labels. 4. Dacă doriţi să calculaţi valorile reziduale ( ii yy ˆ− ), selectaţi Residuals. Apăsăţi OK. Se obţin rezultatele:

SUMMARY OUTPUT

Regression Statistics

Multiple R 0.808922 R Square 0.654355 Adjusted R Square 0.647154 Standard Error 157.8984 Observations 50

ANOVA

Df SS MS F Significance F

Regression 1 2265584 2265584 90.87089 1.19E-12 Residual 48 1196732 24931.91 Total 49 3462316

Coefficients Standard

Error

t Stat P-value Lower 95% Upper 95%

Intercept 6598.34 124.3322 53.07024 2.78E-44 6348.353 6848.326 Nr.Km. -0.03224 0.003382 -9.53262 1.19E-12 -0.03904 -0.02544

Interpretarea rezultatelor prezente în ultimul tabel din SUMMARY OUTPUT.

Coeficientul b este – 0,03224, ceea ce însemnă că la creşterea distanţei parcurse cu 1

kilometru, preţul va descreşte cu 0,03224×104 lei (322,4 lei).

Intercept este termenul liber, deci coeficientul a este 6598,34. Termenul liber este punctul în

care dreapta de regresie intersectează axa y. Aceasta înseamnă că x=0, deci a reprezintă preţul unei

maşini care nu a fost condusă. Dar, în cazul nostru acest punct nu are semnificaţie, deoarece toate

maşinile sunt second hand.

Interpretarea rezultatelor prezente în primul tabel din SUMMARY OUTPUT.

Este calculată eroarea standard, Standard Error, egală cu 157,9. În cazul în care această

valoare este zero, înseamnă că toate punctele observate se află pe dreapta de regresie. Deci, bine este

ca această valoare să fie cât mai apropiată de zero. Ce înseamnă mai apropiată de zero este greu de

spus folosind doar eroarea standard. De aceea se calculează mărimi derivate din aceasta pentru a spune

cât de apropiate sunt punctele de dreapta de regresie.

Pentru a putea spune în ce măsură modelul liniar de regresie explică dependenţa dintre

variabile se calculează coeficientul de determinaţie, R-square care în cazul nostru este 0,6544. Deci

65,44% din variaţia preţului este explicată de variaţia numărului de kilometri parcurşi de automobil.

Este calculat, de asemenea, coeficientul de determinaţie ajustat, 2

R , egal cu 0,6472.

În cazul în care a fost selectat şi Residuals, tot în acest Sheet de rezultate sunt calculate

valorile reziduale şi valorile previzionate pe baza modelului de regresie.

RESIDUAL OUTPUT

Observation Predicted Price Residuals

1 5392.879821 -74.8798 2 5155.257064 -94.2571 3 5120.597029 -112.597 4 5603.29042 191.7096

..... Rezolvare folosind STATISTICA: 1. Creaţi un fişier cu 2 variabile şi 50 de cazuri (File/New data). Introduceţi datele astfel: prima

variabilă este numărul de kilometri parcurşi, a doua variabilă este preţul stabilit la licitaţie. 2. Selectaţi modulul General Linear Model. Selectaţi apoi Simple Regression. 3. În noua fereastră deschisă apăsăţi butonul Variables. Aici selectaţi la Dependent variable list

a doua variabilă şi la Predictor prima variabilă. Apăsăţi OK. 4. Apăsăţi Summary. Apăsăţi Coefficients. Se obţine:

Acest tabel se interpretează similar cu tabelul 3 din SUMMARY OUTPUT obţinut prin EXCEL. 5. Apăsăţi Continue. Apăsăţi Whole model R. Se obţine:

Acest tabel se interpretează similar cu tabelul 1 din SUMMARY OUTPUT obţinut prin EXCEL. Dacă se doreşte calculul valorilor reziduale şi al celor previzionate se parcurg paşii: 6. Apăsăţi Continue. Apăsăţi Resids. Selectaţi Extended. Apăsăţi Predicted and residuals. Se obţine:

Se observă că în tabelul anterior sunt afişate: - preţul observat; - preţul previzionat; - valoarea reziduală: preţul observat – preţul previzionat; - eroarea standard;

b) Rezolvare folosind EXCEL:

Interpretarea rezultatelor prezente în ultimul tabel din SUMMARY OUTPUT.

În coloana a doua (Standard Error) sunt calculate, erorile standard ale parametrilor estimaţi:

sa = 124,33 şi sb = 0,0034. Aceste erori sunt folosite pentru calculul statisticilor t pentru testarea

semnificaţiei estimatorilor. Acestea sunt calculate în coloana tStat, ta = 53,07 şi tb = - 9,53. Deoarece

valorile p asociate sunt foarte apropiate de zero (în coloana P-value), se poate spune că estimatorii

sunt semnificativi.

Lower 95% şi Upper 95% sunt limitele inferioare, respectiv superioare ale coeficienţilor estimaţi.

Interpretarea rezultatelor prezente în tabelul ANOVA.

Validitatea modelului de regresie se testează folosind testul F. În tabelul ANOVA sunt

calculate cele trei variaţii: cea explicată de model, cea reziduală şi cea totală. Cu ajutorul acestora se

calculează Statistica F. În cazul nostru aceasta este 90,87. Deaorece valoarea p asociată este foarte

apropiată de zero (prag de semnificaţie scăzut), se poate valida modelul de regresie.

În cazul în care a fost selectat şi Residuals, tot în acest Sheet de rezultate sunt calculate

valorile reziduale şi valorile previzionate pe baza modelului de regresie.

RESIDUAL OUTPUT

Observation Predicted Price Residuals

1 5392.879821 -74.8798 2 5155.257064 -94.2571 3 5120.597029 -112.597 4 5603.29042 191.7096

..... Rezolvare folosind STATISTICA:

Acest tabel se interpretează similar cu tabelul 3 din SUMMARY OUTPUT obţinut prin EXCEL. Dacă se doreşte calculul valorilor reziduale şi al celor previzionate se parcurg paşii: Apăsăţi Continue. Apăsăţi Resids. Selectaţi Extended. Apăsăţi Predicted and residuals.

Se obţine:

Se observă că în tabelul anterior sunt afişate:

- preţul observat;

- preţul previzionat;

- valoarea reziduală: preţul observat – preţul previzionat;

- eroarea standard;

- intervalul de previziune, pentru o probabilitate de 95%: în cazul unui automobil cu acelaşi

număr de kilometri parcurşi, cu o probabilitate de 95%, preţul previzionat al acestuia va fi

inclus în intervalul de previziune;

- intervalul de încredere, pentru o probabilitate de 95%: în cazul unui automobil cu acelaşi

număr de kilometri parcurşi, cu o probabilitate de 95%, preţul acestuia va fi inclus în

intervalul de încredere.

c) Deoarece datele sunt cantitative, pentru măsurarea intensităţii legăturii dintre două variabile

se calculează coeficientul de corelaţie liniară.

Rezolvare folosind EXCEL: 1. Introduceţi datele ca în Exemplul 5.13. 2. Apăsăţi Tools-Data Analysis şi Correlation. 3. Specificaţi Input Range (A1:B51). Apăsăţi Labels in First Row. Apăsăţi OK.

Se obţin rezultatele:

Număr de kilometri parcurşi Preţ

Număr de kilometri parcurşi 1 Preţ -0.808922247 1

Coeficientul de corelaţie dintre numărul de kilometri parcurşi şi preţ este -0,809. Deoarece acesta

este negativ şi apropiat de unu se poate spune că există o corelaţie inversă între cele două variabile.

Rezolvare folosind STATISTICA:

1. Introduceţi datele ca în Exemplul 5.13. 2. Selectaţi modulul Basic Statistics and Tables. Selectaţi apoi Correlation Matrices. 3. Apăsăţi butonul One variable list (square matrix). Selectaţi ambele variabile. Apăsăţi OK. 4. La Display selectaţi Detailed table of results. Apăsăţi OK. Se obţin rezultatele:

Coeficientul de corelaţie dintre numărul de kilometri parcurşi şi preţ este -0,81. Deoarece

acesta este negativ şi apropiat de unu se poate spune că există o corelaţie inversă între cele două variabile.

Probleme Rezolvate Regresie Liniara Simpla

Documents

Transcript of Probleme Rezolvate Regresie Liniara Simpla