Problema Rezolvata Regresia Liniara Simpla EXCEL

9
Problema rezolvata - regresia liniară simplă O firmă de asigurări vrea să găsească o legătură între valoarea prejudiciului provocat de incediul unei locuinţe şi distanţa dintre locul incendiului şi cea mai apropiată staţie de pompieri. Pentru aceasta, realizează un studiu, într-o anumită regiune, luând în considerare cele mai recente 15 incendii. Sunt înregistrate date referitoare la valoarea prejudiciului şi distanţa dintre incendiu şi cea mai apropiată staţie de pompieri: Nr. crt. Distanta fata de statia de pompieri (zeci km) Valoarea prejudiciului (mii Euro) 1 3,4 26,2 2 1,8 17,8 3 4,6 31,3 4 2,3 23,1 5 3,1 27,5 6 5,5 36,0 7 0,7 14,1 8 3,0 22,3 9 2,6 19,6 10 4,3 31,3 11 2,1 24,0 12 1,1 17,3 13 6,1 43,2 14 4,8 36,4 15 3,8 26,1 Cerintele sunt: 1. Analizaţi grafic existenţa, sensul şi forma legăturii dintre cele doua variabile stabilind care este variabila explicativă şi care este variabila explicată; 2. Pe baza datelor din eşantion, determinaţi estimatiile coeficienţilor modelului de regresie adecvat analizei dependenţei dintre cele două variabile şi interpretaţi valorile obţinute; 3. Testaţi validitatea modelului de regresie liniară la un prag de semnificaţie de 5%; 4. Măsuraţi intensitatea legăturii dintre cele două variabile folosind coeficientul liniar de corelaţie Pearson; 5. Calculaţi raportul de corelaţie şi interpretaţi rezultatul obţinut; 6. Calculati coeficientul de determinaţie şi interpretaţi rezultatul obţinut; 7. Determinaţi si interpretati intervalele de încredere 95% pentru parametrii modelului; 8. Estimaţi nivelul prejudiciului, dacă distanţa între locul incendiului şi staţia de pompieri ar fi de 6,5 zeci de kilometri. Rezolvaţi problema în Excel REZOLVARE 1

description

Problema Rezolvata Regresia Liniara Simpla EXCEL

Transcript of Problema Rezolvata Regresia Liniara Simpla EXCEL

Page 1: Problema Rezolvata Regresia Liniara Simpla EXCEL

Problema rezolvata - regresia liniară simplă

O firmă de asigurări vrea să găsească o legătură între valoarea prejudiciului provocat de incediul unei locuinţe şi distanţa dintre locul incendiului şi cea mai apropiată staţie de pompieri. Pentru aceasta, realizează un studiu, într-o anumită regiune, luând în considerare cele mai recente 15 incendii. Sunt înregistrate date referitoare la valoarea prejudiciului şi distanţa dintre incendiu şi cea mai apropiată staţie de pompieri:

Nr. crt. Distanta fata de statia de pompieri (zeci km) Valoarea prejudiciului (mii Euro)

1 3,4 26,22 1,8 17,83 4,6 31,34 2,3 23,15 3,1 27,56 5,5 36,07 0,7 14,18 3,0 22,39 2,6 19,6

10 4,3 31,311 2,1 24,012 1,1 17,313 6,1 43,214 4,8 36,415 3,8 26,1

Cerintele sunt:1. Analizaţi grafic existenţa, sensul şi forma legăturii dintre cele doua variabile stabilind care este

variabila explicativă şi care este variabila explicată;2. Pe baza datelor din eşantion, determinaţi estimatiile coeficienţilor modelului de regresie adecvat

analizei dependenţei dintre cele două variabile şi interpretaţi valorile obţinute;3. Testaţi validitatea modelului de regresie liniară la un prag de semnificaţie de 5%;4. Măsuraţi intensitatea legăturii dintre cele două variabile folosind coeficientul liniar de corelaţie

Pearson;5. Calculaţi raportul de corelaţie şi interpretaţi rezultatul obţinut;6. Calculati coeficientul de determinaţie şi interpretaţi rezultatul obţinut;7. Determinaţi si interpretati intervalele de încredere 95% pentru parametrii modelului;8. Estimaţi nivelul prejudiciului, dacă distanţa între locul incendiului şi staţia de pompieri ar fi de 6,5

zeci de kilometri.

Rezolvaţi problema în Excel

REZOLVARE1. Variabilele sunt:

X – variabila care arată distanţa dintre incendiu şi cea mai apropiată staţie de pompieri, exprimată în zeci de km (variabila independentă sau variabila explicativă sau variabila exogenă)

Y – variabila care arată valoarea prejudiciului, exprimată în mii Euro (variabila dependentă sau variabila explicată sau variabila endogenă)

1

Page 2: Problema Rezolvata Regresia Liniara Simpla EXCEL

1. Analizaţi grafic existenţa, sensul şi forma legăturii dintre cele doua variabile stabilind care este variabila explicativă şi care este variabila explicată

Corelograma

Sintaxa Excel: InsertChart

XY(Scatter)

Corelograma

0.0

5.0

10.0

15.0

20.0

25.0

30.0

35.0

40.0

45.0

50.0

0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0

Valorile variabilei independente X(distanta de la locul incendiului la statia de pompieri, in zeci km)

Valo

rile

varia

bile

i dep

ende

nte

Y(v

aloa

rea

prej

udic

iulu

i, in

mii

Eur)

Corelograma sugerează că există legătură directă şi liniară între cele două variabile.Există o funcţie f astfel încât variabila X explică variabila Y prin funcţia f, , o funcţie

liniară .Modelul liniar de regresie este .

În Excel, există modulul Data Analysis, opţiunea Regression.

Astfel, într-o foaie de lucru, se introduce setul de date { (x1,y1), (x2,y2),...., (xn,yn) }, în cazul nostru

n=15, iar apoi din meniul principal alegem Data, submeniul Data Analysis şi apoi Regression, dacă se

lucrează în Excel 2007. Dacă aveţi la dispoziţie Excel 2003, alegeţi din meniul principal Tools, apoi Data

Analysis şi apoi Regression.

2

Page 3: Problema Rezolvata Regresia Liniara Simpla EXCEL

În fereastra care va apare, trebuie:- să alegeţi care este şirul de valori corespunzătoare variabilei dependente Y (Input Y Range) şi care este şirul de valori corespunzătoare variabilei independente X (Input X Range),- să specificaţi nivelul de încredere al testului, de obicei 95%,- să precizaţi celula din foaia de lucru începând cu care se vor afişa rezultatele, adică outputul (Output Range),- să bifaţi opţiunea Residuals şi, opţional, Line Fit Plots.

Output-ul este prezentat în tabelele următoare:

3

Page 4: Problema Rezolvata Regresia Liniara Simpla EXCEL

SUMMARY OUTPUT

Regression StatisticsMultiple R 0,96098 = R = raportul de corelaţieR Square 0,92348 = R2 = coeficientul de determinaţieAdjusted R Square 0,91759Standard Error 2,31635 Observations 15 = n = numărul de perechi de observaţii din eşantion

ANOVA  df SS MS F Significance F

Regression 1 841,766 841,766 156,886 1,25E-08Residual 13 69,751 5,365Total 14 911,52      

Coefficients StandardError t Stat P-value

Lower 95%(Limita inferioară

a intervaluluide încredere 95%)

Upper 95%(Limita superioară

a intervaluluide încredere 95%)

Intercept 10,2779=a 1,42 7,237 6,59E-06 7,21 13,34

X Variable 1 4,9193=b 0,39 12,525 1,25E-08 4,07 5,76

2. Pe baza datelor din eşantion, determinaţi coeficienţii modelului de regresie adecvat analizei dependenţei dintre cele două variabile şi interpretaţi valorile obţinute;

Dreapta de regresie este data de ecuaţia ,iar valorile ajustate ale observaţiilor prin regresie sunt

.

Interpretarea valorilor coeficienţilor b1 arată că valoarea prejudiciului creşte, in medie, cu 4,9193 mii euro dacă distanţa dintre incediu şi

staţia de pompieri creşte cu o unitate, adică 10 km (b arata cu cat se modifica, in medie, nivelul variabilei dependente, daca nivelul variabilei independente creste cu o unitate);

b0 arată că valoarea prejudiciului este, în medie, egală cu 10,2779 mii euro dacă incendiul ar fi lângă staţia de pompieri (a arata nivelul mediu al variabilei dependente, daca nivelul variabilei independente ar fi egal cu 0; a nu are intotdeauna interpretare economica).

3. Testaţi validitatea modelului de regresie liniară la un prag de semnificaţie de 5%;

Significance F, adica nivelul de semnificatie observat sau calculat, este cel mai mic nivel fixat de semnificatie al testului de verificare ca modelul de regresie este valid sau semnificativ statistic, pentru care ipoteza nula “ : modelul de regresie nu este valid statistic” poate fi respinsa.

Daca este nivelul sau pragul de semnificatie al testului, atunci regula de decizie este: daca , atunci nu exista suficiente motive sa respingen ipoteza nula ,

adica acceptam , rezultatul nu este semnificativ statistic, adica modelul de regresie nu este valid statistic;

daca , atunci se repinge ipoteza nula si, prin urmare, se accepta ipoteza alternativa , adica rezultatul este semnificativ statistic, ceea ce inseamna ca modelul de regresie este valid statistic sau este corect specificat.

4

Page 5: Problema Rezolvata Regresia Liniara Simpla EXCEL

In cazul nostru, nivelul de semnificatie al testului este , iar Significance F = 1,25E-08 = 0,0000000125, deci , prin urmare respingem H0 si acceptam H1 ca modelul de regresie este valid sau semnificativ statistic.

4. Măsuraţi intensitatea legăturii dintre cele două variabile folosind coeficientul liniar de corelaţie Pearson

Valoarea coeficientului de corelaţie Pearson, pozitivă şi foarte apropiată de +1, arată că între cele două variabile există o legătura liniară directă şi puternică.

In EXCEL se utilizeaza functia CORREL pentru determinarea coeficientului de corelaţie Pearson.

5. Calculaţi raportul de corelaţie şi interpretaţi rezultatul obţinut;

Raportul de corelaţie

Valoarea apropiata de 1 a raportului de corelatie arata ca intre cele doua variabile exista o legatura foarte stransa, legatura pusa in evidenta de modelul de regresie.

Observatie: Pentru modelul de regresie liniara simpla, intre raportul de corelatie R si coeficientul de corelatie liniara Pearson exista urmatoarea relatie

.

6. Calculati coeficientul de determinaţie şi interpretaţi rezultatul obţinut;

Coeficientul de determinaţie este sau şi arată că 92,35% (adică R2

%) din variaţia totală a prejudiciului cauzat de incendii este explicată de variaţia variabilei independente (distanţa între locul incendiului şi staţia de pompieri).

7. Testatii parametrii modelului de regresie, determinaţi si interpretati intervalele de încredere 95% pentru parametrii modelului;

P value, adica nivelul de semnificatie observat sau calculat, este cel mai mic nivel fixat de semnificatie al testului pentru care ipoteza nula poate fi respinsa.

Daca este nivelul sau pragul de semnificatie al testului, atunci regula de decizie este: daca , atunci nu exista suficiente motive sa respingen ipoteza nula , adica

acceptam , rezultatul nu este semnificativ statistic; daca , atunci se repinge ipoteza nula si, prin urmare, se accepta ipoteza

alternativa , adica rezultatul este semnificativ statistic.

In cazul nostru, nivelul de semnificatie este .Pentru parametrul , , deci , prin urmare

respingen ipoteza nula si acceptam ipoteza alternativa , adica parametrul este semnificativ statistic.

Pentru parametrul , , deci , prin urmare, respingen ipoteza nula si acceptam ipoteza alternativa , adica parametrul panta este semnificativ statistic.

5

Page 6: Problema Rezolvata Regresia Liniara Simpla EXCEL

Intervalul de încredere (1-α)·100% = 95% pentru parametrul al modelului linear de regresie

, determinat pe baza eşantionului observat, este:

,

unde sb0 este eroarea standard a estimatorului b0.

În cazul nostru, b0 =10,2779, sb0=1,42, α=0,05, , deci intervalul [7,21;

13,34] acoperă valoarea adevărată a parametrului cu probabilitatea 0,95, adică intervalul de valori [7,21; 13,34] mii Eur acoperă nivelul prejudiciului provocat de incendiu, dacă acesta se produce chiar lângă staţia de pompieri.

Cum intervalul de încredere 95% determinat pentru parametrul nu acoperă valoarea 0, atunci putem spune ca acesta este semnificativ diferit de 0 sau este semnificativ statistic.

Dacă însă, intervalul de încredere pentru ar fi acoperit, adică ar fi conţinut, şi valoarea 0, atunci concluzionam că parametrul este nesemnificativ statistic (nu este semnificativ diferit de 0).

Intervalul de încredere (1-α)·100% = 95% pentru parametrul β1 al modelului linear de regresie, determinat pe baza eşantionului observat, este:

,unde sb este eroarea standard a estimatorului b.

În cazul nostru, b1=4,9193, sb1=0,39, α=0,05, , deci intervalul [4,07;

5,76] acoperă valoarea adevărată a parametrului β cu probabilitatea 0,95. Cu alte cuvinte, dacă distanţa devine mai mare cu o unitate (10 km), nivelul prejudiciului creşte cu o valoare acoperită de intervalul [4,07; 5,76] mii Eur, cu o probabilitate de 0,95.

Cum intervalul de încredere 95% determinat pentru parametrul β nu acoperă valoarea 0, atunci putem spune că acesta este semnificativ diferit de 0 sau este semnificativ statistic.

Dacă însă, intervalul de încredere pentru β1 ar fi acoperit, adică ar fi conţinut, şi valoarea 0, atunci concluzionam că parametrul este nesemnificativ statistic (nu este semnificativ diferit de 0).

8. Estimaţi nivelul prejudiciului, dacă distanţa între locul incendiului şi staţia de pompieri ar fi de 6,5 zeci de kilometri.

RESIDUAL OUTPUT

ObservationPredicted Y Residuals

1 27,0037 -0,80372 19,1327 -1,33273 32,9068 -1,60684 21,5924 1,50765 25,5279 1,97216 37,3342 -1,33427 13,7215 0,37858 25,0359 -2,7359

6

Page 7: Problema Rezolvata Regresia Liniara Simpla EXCEL

9 23,0682 -3,468210 31,4311 -0,131111 20,6085 3,391512 15,6892 1,610813 40,2858 2,914214 33,8907 2,509315 28,9714 -2,8714

y = 4.9193x + 10.278R2 = 0.9235

0

5

10

15

20

25

30

35

40

45

50

0 1 2 3 4 5 6 7

Distanta, in zeci km (variabila X)

Valo

area

pre

judi

ciul

ui, i

n m

ii Eu

r (va

riabi

la Y

)

valorile observate yivalorile estimate ale lui yiLinear (valorile observate yi)

7