Problema Rezolvata Regresia Liniara Simpla

17
Problema rezolvata - regresia liniară simplă O firmă de asigurări vrea să găsească o legătură între valoarea prejudiciului provocat de incediul unei locuinţe şi distanţa dintre locul incendiului şi cea mai apropiată staţie de pompieri. Pentru aceasta, realizează un studiu, într-o anumită regiune, luând în considerare cele mai recente 15 incendii. Sunt înregistrate date referitoare la valoarea prejudiciului şi distanţa dintre incendiu şi cea mai apropiată staţie de pompieri: Nr. crt. Distanta fata de statia de pompieri (zeci km) Valoarea prejudiciului (mii Euro) 1 3,4 26,2 2 1,8 17,8 3 4,6 31,3 4 2,3 23,1 5 3,1 27,5 6 5,5 36,0 7 0,7 14,1 8 3,0 22,3 9 2,6 19,6 10 4,3 31,3 11 2,1 24,0 12 1,1 17,3 13 6,1 43,2 14 4,8 36,4 15 3,8 26,1 Cerintele sunt: 1. Analizaţi grafic existenţa, sensul şi forma legăturii dintre cele doua variabile stabilind care este variabila explicativă şi care este variabila explicată; 2. Pe baza datelor din eşantion, determinaţi estimatiile coeficienţilor modelului de regresie adecvat analizei dependenţei dintre cele două variabile şi interpretaţi valorile obţinute; 3. Testaţi validitatea modelului de regresie liniară la un prag de semnificaţie de 5%; 4. Măsuraţi intensitatea legăturii dintre cele două variabile folosind coeficientul liniar de corelaţie Pearson; 5. Calculaţi raportul de corelaţie, testaţi semnificaţia (validitatea) acestuia la un nivel se semnificatie de 5% şi interpretaţi rezultatul obţinut; 6. Calculati coeficientul de determinaţie şi interpretaţi rezultatul obţinut; 7. Testati ipotezele referitoare la semnificaţia parametrilor modelului de regresie, la un nivel de semnificaţie de 5%; 8. Determinaţi si interpretati intervalele de încredere 95% pentru parametrii modelului; 9. Rezolvaţi problema în Excel; 10. Estimaţi punctual şi printr-un interval de încredere 95% nivelul prejudiciului, dacă distanţa între locul incendiului şi staţia de 1

Transcript of Problema Rezolvata Regresia Liniara Simpla

Page 1: Problema Rezolvata Regresia Liniara Simpla

Problema rezolvata - regresia liniară simplă

O firmă de asigurări vrea să găsească o legătură între valoarea prejudiciului provocat de incediul unei locuinţe şi distanţa dintre locul incendiului şi cea mai apropiată staţie de pompieri. Pentru aceasta, realizează un studiu, într-o anumită regiune, luând în considerare cele mai recente 15 incendii. Sunt înregistrate date referitoare la valoarea prejudiciului şi distanţa dintre incendiu şi cea mai apropiată staţie de pompieri:

Nr. crt. Distanta fata de statia de pompieri (zeci km) Valoarea prejudiciului (mii Euro)

1 3,4 26,22 1,8 17,8

3 4,6 31,3

4 2,3 23,1

5 3,1 27,5

6 5,5 36,0

7 0,7 14,1

8 3,0 22,3

9 2,6 19,6

10 4,3 31,3

11 2,1 24,0

12 1,1 17,3

13 6,1 43,2

14 4,8 36,4

15 3,8 26,1

Cerintele sunt:1. Analizaţi grafic existenţa, sensul şi forma legăturii dintre cele doua variabile stabilind care este

variabila explicativă şi care este variabila explicată;2. Pe baza datelor din eşantion, determinaţi estimatiile coeficienţilor modelului de regresie adecvat

analizei dependenţei dintre cele două variabile şi interpretaţi valorile obţinute;3. Testaţi validitatea modelului de regresie liniară la un prag de semnificaţie de 5%;4. Măsuraţi intensitatea legăturii dintre cele două variabile folosind coeficientul liniar de corelaţie

Pearson;5. Calculaţi raportul de corelaţie, testaţi semnificaţia (validitatea) acestuia la un nivel se semnificatie de

5% şi interpretaţi rezultatul obţinut;6. Calculati coeficientul de determinaţie şi interpretaţi rezultatul obţinut;7. Testati ipotezele referitoare la semnificaţia parametrilor modelului de regresie, la un nivel de

semnificaţie de 5%;8. Determinaţi si interpretati intervalele de încredere 95% pentru parametrii modelului;9. Rezolvaţi problema în Excel;10. Estimaţi punctual şi printr-un interval de încredere 95% nivelul prejudiciului, dacă distanţa între locul

incendiului şi staţia de pompieri ar fi de 6,5 zeci de kilometri (previziunea punctuală şi prin interval de încredere).

REZOLVARE1. Variabilele sunt:

X – variabila care arată distanţa dintre incendiu şi cea mai apropiată staţie de pompieri, exprimată în zeci de km (variabila independentă sau variabila explicativă sau variabila exogenă)

Y – variabila care arată valoarea prejudiciului, exprimată în mii Euro (variabila dependentă sau variabila explicată sau variabila endogenă)

CorelogramaSintaxa Excel: Insert

ChartXY(Scatter)

1

Page 2: Problema Rezolvata Regresia Liniara Simpla

Corelograma

0.0

5.0

10.0

15.0

20.0

25.0

30.0

35.0

40.0

45.0

50.0

0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0

Valorile variabilei independente X(distanta de la locul incendiului la statia de pompieri, in zeci km)

Val

ori

le v

aria

bil

ei d

epen

den

te Y

(val

oar

ea p

reju

dic

iulu

i, i

n m

ii E

ur)

Corelograma sugerează că există legătură directă şi liniară între cele două variabile.Există o funcţie f astfel încât variabila X explică variabila Y prin funcţia f, , o funcţie

liniară .Modelul liniar de regresie este .

2. Coeficienţii modelului de regresie liniră simplăPentru fiecare dintre cele n=15 incendii s-au notat valorile celor două variabile, X şi Y, obţinîndu-

se astfel seria de date sau . Pe baza acestui eşantion vom

determina estimatorii a şi b ai parametrilor şi, respectiv, ai modelului de regresie. Estimatorii a şi b reprezintă soluţia sistemului ecuaţiilor normale:

Rezolvarea sistemului folosind metoda determinanţilor: si ,

unde este determinantul matricei sistemului de ecuaţii,

iar , sunt minorii corespunzători celor două necunoscute.

2

Page 3: Problema Rezolvata Regresia Liniara Simpla

Calculele intermediare sunt prezentate în tabelul de mai jos:Valorile xi ale variabilei X

Valorile yi ale variabilei Y

x1=3,4 y1=26,2 (x1)2=11,56 (y1)2=686,44 x1·y1=89,08x2=1,8 y2=17,8 (x2)2=3,24 (y2)2=316,84 x2·y2=32,04x3=4,6 y3=31,3 (x3)2=21,16 (y3)2=979,69 x3·y3=143,98

2,3 23,1 5,29 533,61 53,133,1 27,5 9,61 756,25 85,255,5 36,0 30,25 1296,00 1980,7 14,1 0,49 198,81 9,873,0 22,3 9,00 497,29 66,92,6 19,6 6,76 384,16 50,964,3 31,3 18,49 979,69 134,592,1 24,0 4,41 576,00 50,41,1 17,3 1,21 299,29 19,036,1 43,2 37,21 1866,24 263,524,8 36,4 23,04 1324,96 174,72

x15=3,8 y15=26,1 (x15)2=14,44 (y15)2=681,21 x15·y15=99,18

Se obţine:

,

prin urmare dreapta de regresie este de ecuaţie ,ecuaţia de regresie liniară în eşantion este ,iar valorile ajustate ale observaţiilor prin regresie sunt

.

Interpretarea valorilor coeficienţilor b arată că valoarea prejudiciului creşte, in medie, cu 4,9193 mii euro dacă distanţa dintre incediu şi

staţia de pompieri creşte cu o unitate, adică 10 km (b arata cu cat se modifica, in medie, nivelul variabilei dependente, daca nivelul variabilei independente creste cu o unitate);

a arată că valoarea prejudiciului este, în medie, egală cu 10,2779 mii euro dacă incendiul ar fi lângă staţia de pompieri (a arata nivelul mediu al variabilei dependente, daca nivelul variabilei independente ar fi egal cu 0; a nu are intotdeauna interpretare economica).

3. Validitatea modelului de regresie

Pentru testarea validităţii modelului se formulează cele două ipoteze:H0: modelul de regresie nu este valid statistic,

cu alternativaH1: modelul de regresie este valid statistic.

3

Page 4: Problema Rezolvata Regresia Liniara Simpla

Statistica utilizată pentru a decide care dintre ipoteze se acceptă este:

sau ,

unde k este numărul de variabile explicative din modelul de regresie (în cazul nostru, k=1 deoarece avem un model de regresie liniară unifactorială sau simplă, cu o singură variabilă explicativă).

Fie α’ nivelul sau pragul de semnificaţie al testului, iar 1-α’ este nivelul de încredere al testului.Dacă nu se specifică, vom considera în general că α’=0,05 (sau α’·100=5%),

iar 1-α’=0,95 (sau (1-α’)·100=95%).Pentru calculul statisticii folosim tabelul ANOVA:

Sursavariaţiei

Suma pătratelor(SS-Sum of Squares)

Grade de libertate

(df - degrees of freedom)

Media pătratelor(MS- Mean of

Squares)Dispersiile corectate

Valoarea statisticii F Fcritic

Datorată regresiei

(Regression)k sau sau

Reziduală(Residual)

n – k – 1 sau

Totală n – 1

De asemenea, se poate calcula si dispersia de selectie a lui Y, adica .

Regula de decizie este:dacă , adică Fcalc se găseşte în regiunea critică,

atunci respingem H0 şi acceptăm H1, că modelul de regresie este valid statistic.

Calculele intermediare sunt prezentate în tabelul următor:

4

Page 5: Problema Rezolvata Regresia Liniara Simpla

Nr.

crt.

1 3,4 26,2 27,0035 -0,8035 -0,2133 0,0455 0,6456 0,34842 1,8 17,8 19,1326 -1,3326 -8,6133 74,1889 1,7759 53,00803 4,6 31,3 32,9067 -1,6067 4,8867 23,8798 2,5814 42,16404 2,3 23,1 21,5923 1,5077 -3,3133 10,9780 2,2732 23,24215 3,1 27,5 25,5277 1,9723 1,0867 1,1809 3,8898 0,78426 5,5 36,0 37,3341 -1,3341 9,5867 91,9048 1,7797 119,26287 0,7 14,1 13,7214 0,3786 -12,3133 151,6174 0,1433 161,08418 3,0 22,3 25,0358 -2,7358 -4,1133 16,9192 7,4846 1,89759 2,6 19,6 23,0681 -3,4681 -6,8133 46,4211 12,0276 11,1905

10 4,3 31,3 31,4309 -0,1309 4,8867 23,8798 0,0171 25,176211 2,1 24,0 20,6084 3,3916 -2,4133 5,8240 11,5027 33,696512 1,1 17,3 15,6891 1,6109 -9,1133 83,0522 2,5949 115,007813 6,1 43,2 40,2856 2,9144 16,7867 281,7933 8,4936 192,441514 4,8 36,4 33,8905 2,5095 9,9867 99,7342 6,2974 55,909115 3,8 26,1 28,9712 -2,8712 -0,3133 0,0982 8,2440 6,5431

unde . Se poate calcula si dispersia de selectie a prejudiciului (variabila Y):

Tabelul ANOVA

Sursavariaţiei

Suma pătratelor(SS-Sum of Squares)

Grade de libertate(df - degrees of

freedom)

Media pătratelor(MS - Mean of Squares)

Valoarea statisticii F Fcritic

Datorată regresiei

(Regression)k = 1

Reziduală(Residual) n – k – 1 = 13

Totală n – 1 = 14

Cum , respingem ipoteza nulă şi concluzionăm că modelul de regresie este valid statistic

(modelul este semnificativ statistic sau modelul este corect specificat).

5

Page 6: Problema Rezolvata Regresia Liniara Simpla

4. Măsuraţi intensitatea legăturii dintre cele două variabile folosind coeficientul liniar de corelaţie Pearson

Valoarea coeficientului de corelaţie Pearson, pozitivă şi foarte apropiată de +1, arată că între cele două variabile există o legătura liniară directă şi puternică.

5. Calculaţi raportul de corelaţie, testaţi validitatea acestuia şi interpretaţi rezultatul obţinut.

Valoarea apropiata de 1 a raportului de corelatie arata ca intre cele doua variabile exista o legatura

foarte stransa, legatura pusa in evidenta de modelul de regresie.

Testarea validităţii sau semnificaţiei raportului de corelaţie constă în testarea

H0: Raportul de corelaţie este nesemnificativ statistic

(variabila X nu are influenţă semnificativă asupra lui Y)

cu alternativa

H1: Raportul de corelaţie este semnificativ statistic

(semnificativ diferit de 0, adică variabila X are influenţă semnificativă asupra lui Y).

Statistica testului este .

Valoarea calculată a statisticii testului este ,

acceaşi valoare ca la testarea validităţii modelului de regresie folosind ANOVA.

Daca testarea se realizeaza la un prag de semnificaţie α’=0,05, atunci

.

Comparăm Fcalc=156,89 > 4,67=Fcritic, respingem ipoteza nulă H0 şi concluzionăm că raportul de

corelaţie este semnificativ diferit de zero, adică variabila X (distanţa) are o influenţă semnificativă asupra

variabilei Y (prejudiciul).

Observatie: Pentru modelul de regresie liniara simpla, intre raportul de corelatie R si coeficientul de

corelatie liniara Pearson exista urmatoarea relatie

6

Page 7: Problema Rezolvata Regresia Liniara Simpla

.

6. Coeficientul de determinaţie este

sau şi arată că 92,35% (adică R2%) din variaţia totală a prejudiciului cauzat de

incendii este explicată de variaţia variabilei independente (distanţa între locul incendiului şi staţia de pompieri).

7. Testarea semnificatiei parametrului α al modelului linear de regresie :

H0: α=0 (parametrul este nesemnificativ statistic)

H1: α≠0 (parametrul α este semnificativ statistic, adică semnificativ diferit de 0)

Statistica testului este ,

unde este abaterea standard (eroarea standard) a

estimatorului a, este disperia reziduala sau a erorilor, iar este abaterea standard reziduală

(eroarea standard reziduală sau a erorilor).

Valoarea calculată a statisticii testului, în ipoteza că H0 este adevarătă, adică α=0, este

, deci , cu sa=1,42.

Dacă nivelul de semnificaţie este α’=0,05, atunci regiunea critică a testului este

,

unde este valoarea critica a testului t bilateral pentru testarea semnificatiei parametrilor

unui model liniar de regresie cu k variabile explicative si la un nivel de semnificatie .

Cum , atunci ,

deci respingen H0 şi concluzionăm ca parametrul α este semnificativ statistic.

Testarea semnificaţiei parametrului β al modelului linear de regresie :

H0: β=0 (parametrul este nesemnificativ statistic)

H1: β≠0 (parametrul β este semnificativ statistic, adică semnificativ diferit de 0)

Statistica testului este ,

unde este abaterea standard (eroarea standard) a estimatorului b,

este disperia reziduală, iar este abaterea standard reziduală (eroarea standard reziduală).

Valoarea calculată a statisticii testului, în ipoteza că H0 este adevarătă, adică β=0, este

, deci , cu sb=0,39.

Dacă nivelul de semnificaţie este α’=0,05, atunci regiunea critică a testului este

7

Page 8: Problema Rezolvata Regresia Liniara Simpla

.

Cum , atunci , deci

respingen H0 şi concluzionăm ca parametrul β este semnificativ statistic.

8. Intervalul de încredere (1-α’)·100% = 95% pentru parametrul α al modelului linear de regresie , determinat pe baza eşantionului observat, este:

,

unde sa este eroarea standard a estimatorului a.

În cazul nostru, a=10,2779, sa=1,42, α’=0,05, , deci intervalul [7,21;

13,34] acoperă valoarea adevărată a parametrului α cu probabilitatea 0,95, adică intervalul de valori [7,21; 13,34] mii Eur acoperă nivelul prejudiciului provocat de incendiu, dacă acesta se produce chiar lângă staţia de pompieri.

Cum intervalul de încredere 95% determinat pentru parametrul α nu acoperă valoarea 0, atunci putem spune ca acesta este semnificativ diferit de 0 sau este semnificativ statistic.

Dacă însă, intervalul de încredere pentru α ar fi acoperit, adică ar fi conţinut, şi valoarea 0, atunci concluzionam că parametrul este nesemnificativ statistic (nu este semnificativ diferit de 0).

Intervalul de încredere (1-α’)·100% = 95% pentru parametrul β al modelului linear de regresie

, determinat pe baza eşantionului observat, este:

,

unde sb este eroarea standard a estimatorului b.

În cazul nostru, b=4,9193, sb=0,39, α’=0,05, , deci intervalul [4,07;

5,76] acoperă valoarea adevărată a parametrului β cu probabilitatea 0,95. Cu alte cuvinte, dacă distanţa devine mai mare cu o unitate (10 km), nivelul prejudiciului creşte cu o valoare acoperită de intervalul [4,07; 5,76] mii Eur, cu o probabilitate de 0,95.

Cum intervalul de încredere 95% determinat pentru parametrul β nu acoperă valoarea 0, atunci putem spune că acesta este semnificativ diferit de 0 sau este semnificativ statistic.

Dacă însă, intervalul de încredere pentru β ar fi acoperit, adică ar fi conţinut, şi valoarea 0, atunci concluzionam că parametrul este nesemnificativ statistic (nu este semnificativ diferit de 0).

9. Rezolvarea in Excel:

În Excel, există modulul Data Analysis, opţiunea Regression care furnizează într-un output specific toate aceste calcule prezentate până acum.

Astfel, într-o foaie de lucru, se introduce setul de date { (x1,y1), (x2,y2),...., (xn,yn) }, în cazul nostru

n=15, iar apoi din meniul principal alegem Data, submeniul Data Analysis şi apoi Regression, dacă se

lucrează în Excel 2007. Dacă aveţi la dispoziţie Excel 2003, alegeţi din meniul principal Tools, apoi Data

Analysis şi apoi Regression.

8

Page 9: Problema Rezolvata Regresia Liniara Simpla

În fereastra care va apare, trebuie:- să alegeţi care este şirul de valori corespunzătoare variabilei dependente Y (Input Y Range) şi care este şirul de valori corespunzătoare variabilei independente X (Input X Range),- să specificaţi nivelul de încredere al testului, de obicei 95%,- să precizaţi celula din foaia de lucru începând cu care se vor afişa rezultatele, adică outputul (Output Range),- să bifaţi opţiunea Residuals şi, opţional, Line Fit Plots.

9

Page 10: Problema Rezolvata Regresia Liniara Simpla

Output-ul este prezentat în tabelele următoare:

SUMMARY OUTPUT

Regression Statistics

Multiple R 0,96098 = R = raportul de corelaţieR Square 0,92348 = R2 = coeficientul de determinaţieAdjusted R Square 0,91759

Standard Error 2,31635 = se = eroarea standard sau abaterea standard a erorilorObservations 15 = n = numărul de perechi de observaţii din eşantion

ANOVA  df SS MS F Significance F

Regression 1 = k 841,766 841,766 156,886 1,25E-08

Residual 13 = n-k-1 69,751 5,365

Total 14 = n-1 911,52      

Significance F, adica nivelul de semnificatie observat sau calculat, este cel mai mic nivel fixat de semnificatie al testului de verificare ca modelul de regresie este valid sau semnificativ statistic, pentru care ipoteza nula “ : modelul de regresie nu este valid statistic” poate fi respinsa.

Daca este nivelul sau pragul de semnificatie al testului, atunci regula de decizie este: daca , atunci nu exista suficiente motive sa respingen ipoteza nula ,

adica acceptam , rezultatul nu este semnificativ statistic, adica modelul de regresie nu este valid statistic;

daca , atunci se repinge ipoteza nula si, prin urmare, se accepta ipoteza alternativa , adica rezultatul este semnificativ statistic, ceea ce inseamna ca modelul de regresie este valid statistic sau este corect specificat.

In cazul nostru, nivelul de semnificatie al testului este , iar Significance F = 1,25E-08 = 0,0000000125, deci , prin urmare respingem H0 si acceptam H1 ca modelul de regresie este valid sau semnificativ statistic.

CoefficientsStandard

Errort Stat P-value

Lower 95%(Limita inferioară

a intervaluluide încredere 95%)

Upper 95%(Limita superioară

a intervaluluide încredere 95%)

Intercept 10,2779=a 1,42= 7,237= 6,59E-06 7,21=

=

13,34=

=

X Variable 1 4,9193=b 0,39= 12,525= 1,25E-08 4,07=

=

5,76=

=

P value, adica nivelul de semnificatie observat sau calculat, este cel mai mic nivel fixat de semnificatie al testului pentru care ipoteza nula poate fi respinsa.

Daca este nivelul sau pragul de semnificatie al testului, atunci regula de decizie este: daca , atunci nu exista suficiente motive sa respingen ipoteza nula , adica

acceptam , rezultatul nu este semnificativ statistic; daca , atunci se repinge ipoteza nula si, prin urmare, se accepta ipoteza

alternativa , adica rezultatul este semnificativ statistic.

In cazul nostru, nivelul de semnificatie este .

10

Page 11: Problema Rezolvata Regresia Liniara Simpla

Pentru parametrul , , deci , prin urmare

respingen ipoteza nula si acceptam ipoteza alternativa , adica parametrul este semnificativ statistic.

Pentru parametrul , , deci , prin

urmare, respingen ipoteza nula si acceptam ipoteza alternativa , adica parametrul panta este semnificativ statistic.

RESIDUAL OUTPUT

ObservationPredicted Y Residuals

1 27,0037 -0,80372 19,1327 -1,33273 32,9068 -1,60684 21,5924 1,50765 25,5279 1,97216 37,3342 -1,33427 13,7215 0,37858 25,0359 -2,73599 23,0682 -3,4682

10 31,4311 -0,131111 20,6085 3,391512 15,6892 1,610813 40,2858 2,914214 33,8907 2,509315 28,9714 -2,8714

y = 4.9193x + 10.278

R2 = 0.9235

0

5

10

15

20

25

30

35

40

45

50

0 1 2 3 4 5 6 7

Distanta, in zeci km (variabila X)

Va

loa

rea

pre

jud

iciu

lui,

in

mii

Eu

r (v

ari

ab

ila

Y)

valorile observate yi

valorile estimate ale lui yi

Linear (valorile observate yi)

11