Problema Regresie Liniara Simpla

download Problema Regresie Liniara Simpla

of 11

Transcript of Problema Regresie Liniara Simpla

Problema pentru regresia liniar simplO firm de asigurri vrea s gseasc o legtur ntre valoarea prejudiciului provocat de incediul unei locuine i distana dintre locul incendiului i cea mai apropiat staie de pompieri. Pentru aceasta, realizeaz unstudiu, ntr-oanumitregiune, lundnconsiderarecelemai recente15incendii. Sunt nregistrate date referitoare la valoarea prejudiciului i distana dintre incendiu i cea mai apropiat staie de pompieri:Nr. crt. Distanta fata de statia de pompieri (zeci km) Valoarea prejudiciului (mii Euro)1 3,4 26,22 1,8 17,83 4,6 31,34 2,3 23,15 3,1 27,56 5,5 36,07 0,7 14,18 3,0 22,39 2,6 19,610 4,3 31,311 2,1 24,012 1,1 17,313 6,1 43,214 4,8 36,415 3,8 26,1Cerintele sunt:1. Analizai grafic existena, sensul i forma legturii dintre cele doua variabile stabilind care este variabila explicativ i care este variabila explicat;2. Pe baza datelor din eantion, determinai coeficienii modelului de regresie adecvat analizei dependenei dintre cele dou variabile i interpretai valorile obinute;3. Testai validitatea modelului de regresie liniar la un prag de semnificaie de 5%;4. Msurai intensitatea legturii dintre cele dou variabile folosind coeficientul liniar de corelaie Pearson;5. Calculai raportul de corelaie, testai semnificaia (validitatea) acestuia i interpretai rezultatul obinut;6. Calculati coeficientul de determinaie i interpretai rezultatul obinut;7. Testati ipotezele referitoare la semnificaia parametrilor modelului de regresie, la un nivel de semnificaie de 5%;8. Determinai intervalele de ncredere 95% pentru parametrii modelului;9. Rezolvai problema n Excel;10. Estimai nivelul prejudiciului, dac distana ntre locul incendiului i staia de pompieri ar fi de 6,5 zeci de kilometri.REZOLVARE1. Variabilele sunt:X variabila care arat distana dintre incendiu i cea mai apropiat staie de pompieri, exprimat n zeci de km (variabila independent sau variabila explicativ sau variabila exogen)Y variabila care arat valoarea prejudiciului, exprimat n mii Euro (variabila dependent sau variabila explicat sau variabila endogen)CorelogramaSintaxa Excel:InsertChartXY(Scatter)1Corelograma0.05.010.015.020.025.030.035.040.045.050.00.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0Valorile variabilei independente X(distanta de la locul incendiului la statia de pompieri, in zeci km)Valorile variabilei dependente Y(valoarea prejudiciului, in mii Eur)Corelograma sugereaz c exist legtur direct i liniar ntre cele dou variabile.Exist ofunciefastfelnctvariabilaXexplic variabilaYprin funciaf, ( ) X f Y , o funcie liniar( ) x x f + .Modelul liniar de regresie este + + X Y.2. Coeficienii modelului de regresie linir simplPentru fiecare dintre cele n=15 incendii s-au notat valorile celor dou variabile, X i Y, obinndu-se astfel seria de date( ) ( ) ( ) { }n ny x y x y x , ,..., , , ,2 2 1 1sau ( ) { } n i y xi i, 1 , , . Pe baza acestui eantion vom determina estimatorii a i b ai parametrilor i ai modelului de regresie. Estimatorii a i b reprezint soluia sistemului ecuaiilor normale:' + + nii iniiniiniiniiy x x b x ay x b na1 1211 1Rezolvarea sistemului folosind metoda determinanilor: aasi bb ,unde niiniiniix xx n1211 este determinantul matricei sistemului de ecuaii, iar niinii iniiniiax y xx y1211 1, nii iniiniiby x xy n1 11 sunt minorii corespunztori celor dou necunoscute.2'

,_

,_

,_

,_

,_

,_

,_

,_

,_

,_

,_

21 121 1 121 121 1 121niiniiniiniinii ibniiniinii iniiniiniiax x ny x y x nbx x ny x x x yaCalculele intermediare sunt prezentate n tabelul de mai jos:Valorile xi ale variabilei XValorile yi ale variabilei Y( )2ix ( )2iyi iy xx1=3,4 y1=26,2 (x1)2=11,56 (y1)2=686,44 x1y1=89,08x2=1,8 y2=17,8 (x2)2=3,24 (y2)2=316,84 x2y2=32,04x3=4,6 y3=31,3 (x3)2=21,16 (y3)2=979,69 x3y3=143,982,3 23,1 5,29 533,61 53,133,1 27,5 9,61 756,25 85,255,5 36,0 30,25 1296,00 1980,7 14,1 0,49 198,81 9,873,0 22,3 9,00 497,29 66,92,6 19,6 6,76 384,16 50,964,3 31,3 18,49 979,69 134,592,1 24,0 4,41 576,00 50,41,1 17,3 1,21 299,29 19,036,1 43,2 37,21 1866,24 263,524,8 36,4 23,04 1324,96 174,72x15=3,8 y15=26,1 (x15)2=14,44 (y15)2=681,21 x15y15=99,182 , 49151 iix1512 , 396iiy151216 , 196iix151248 , 11376iiy 65 , 1470151 ii iy xSe obine: 2779 , 102 , 49 16 , 196 1565 , 1470 2 , 49 16 , 196 2 , 3962 aa9193 , 42 , 49 16 , 196 1516 , 396 2 , 49 65 , 1470 152 bb,prin urmare dreapta de regresie este de ecuaie x x b a y + + 9193 , 4 2779 , 10 ,ecuaia de regresie liniar n eantion este15 , 1 , 9193 , 4 2779 , 10 + + + + i e x e x b a yi i i i i,iar valorile ajustate ale observaiilor15 , 1 , i yi prin regresie sunt15 , 1 , 9193 , 4 2779 , 10 + + i x x b a yi i i.Interpretarea valorilor coeficienilor baratcvaloareaprejudiciului cretecu4,9193mii eurodacdistanadintreincediui staiade pompieri crete cu o unitate, adic 10 km a arat c valoarea prejudiciului este,n medie, egal cu 10,2779 mii euro dac incendiul ar fi lng staia de pompieri.3. Validitatea modelului de regresie3Pentru testarea validitii modelului se formuleaz cele dou ipoteze:H0: modelul de regresie este nevalid statistic, cu alternativaH1: modelul de regresie este valid statistic.Statistica utilizat pentru a decide care dintre ipoteze se accept este:( ) 1 , 22/22/1 k n kex yex yFisherk nkssF ,unde k este numrul de variabile explicative din modelul de regresie (n cazul nostru, k=1 deoarece avem un model de regresie liniar unifactorial sau simpl, adic cu o singur variabil explicativ).Fie nivelul sau pragul de semnificaie al testului, iar 1- este nivelul de ncredere al testului.Dac nu se specific, vom considera n general c =0,05 (sau 100=5%),iar 1-=0,95 (sau (1-)100=95%).Pentru calculul statisticii calcF folosim tabelul ANOVA: SursavariaieiSuma ptratelor(SS-Sum of Squares)Grade de libertate(df - degrees of freedom)Media ptratelor(MS- Mean of Squares)Dispersiile corectateValoarea statisticii FFcriticDatorat regresiei(Regression)( ) nii x yy y SSR122/kksx yx y2/ 2/22/ex ycalcssF 1 , ; ' k n kFRezidual(Residual)( ) nii i ey y SSE122n k 1122 k nseeTotal ( ) nii yy y SST122n 1122nsyyRegula de decizie: dac 1 , ; ' >k n k critic calcF F F, adic Fcalc se gsete n regiunea critic, atunci respingem H0 i acceptm H1, c modelul de regresie este valid statistic.Calculele intermediare sunt prezentate n tabelul urmtor:4iyi ix y + 9193 , 4 2779 , 10 i i iy y e y yi ( )2y yi ( )2i iy y ( )2 y yi 26,2 27,0035 -0,80 -0,21 0,05 0,6456 0,317,8 19,1326 -1,33 -8,61 74,19 1,7759 53,031,3 32,9067 -1,61 4,89 23,88 2,5814 42,223,1 21,5923 1,51 -3,31 10,98 2,2732 23,227,5 25,5277 1,97 1,09 1,18 3,8898 0,836,0 37,3341 -1,33 9,59 91,90 1,7797 119,314,1 13,7214 0,38 -12,31 151,62 0,1433 161,122,3 25,0358 -2,74 -4,11 16,92 7,4846 1,919,6 23,0681 -3,47 -6,81 46,42 12,0276 11,231,3 31,4309 -0,13 4,89 23,88 0,0171 25,224,0 20,6084 3,39 -2,41 5,82 11,5027 33,717,3 15,6891 1,61 -9,11 83,05 2,5949 115,043,2 40,2856 2,91 16,79 281,79 8,4936 192,436,4 33,8905 2,51 9,99 99,73 6,2974 55,926,1 28,9712 -2,87 -0,31 0,10 8,2440 6,51512 , 396iiy1512 , 396 iiy1510iie ( ) 1510iiy y 52 , 9112 y7510 , 692 e756 , 8412/ x yTabelul ANOVASursavariaieiSuma ptratelor(SS-Sum of Squares)Grade de libertate(df - degrees of freedom)Media ptratelor(MS - Mean of Squares)Valoarea statisticii F FcriticDatorat regresiei(Regression)756 , 8412/ x yk = 1 756 , 8412/x ys89 , 15622/ ex ycalcssF667 , 413 , 1 ; 05 , 0 FRezidual(Residual)7510 , 692 e n k 1 = 13365 , 52esTotal 52 , 9112 yn 1 = 14 108 , 652ysCum critic calcF F > 667 , 4 89 , 156, respingem ipoteza nul i concluzionm c modelul de regresie este valid statistic(modelul este semnificativ statistic sau modelul este corect specificat).54. Msurai intensitatea legturii dintre cele dou variabile folosind coeficientul liniar de corelaie Pearson( ) ( )( ) ( )11]1

,_

11]1

,_

,_

,_

,_

,_

,_

ninii ininii iniiniinii iniiniinii iniiniinii ixyy y n x x ny x y x ny n y x n xy x n y xy y x xy y x xr121212121 1 1212 21211212196098 , 02 , 396 48 , 11376 15 2 , 49 16 , 196 152 , 396 2 , 49 65 , 1470 152 2 xyrValoarea coeficientului de corelaie Pearson, pozitiv i foarte apropiat de 1, arat c ntre cele dou variabile exist o legtura liniar direct i puternic.5. Calculai raportul de corelaie, testai validitatea acestuia i interpretai rezultatul obinut.96098 , 052 , 911756 , 84122/ yx ySSTSSRRTestarea validitii sau semnificaiei raportului de corelaie const n testareaH0: Raportul de corelaie este nesemnificativ statistic (variabila X nu are influen semnificativ asupra lui Y)cu alternativaH1: Raportul de corelaie este semnificativ statistic(semnificativ diferit de 0, adic variabila X are influen semnificativ asupra lui Y).Statistica testului este ( ) 1 ,2211 k n kFisherk nRkRF.Valoarea calculat a statisticii testului este 89 , 1561 1 1596098 , 0 1196098 , 022 F,acceai valoare ca la testarea validitii modelului de regresie folosind ANOVA.Daca testearea se realizeaza la un prag de semnificaie=0,05, atunci 67 , 413 , 1 ; 05 , 0 1 , ; ' F F Fk n k critic .Comparm Fcalc=156,89>4,67=Fcritic, respingem ipoteza nulH0i concluzionm c raportulde corelaie este semnificativ diferit de zero, adic variabila X(distana) are o influen semnificativ asupra variabilei Y (prejudiciul).6. Coeficientul de determinaie este 9235 , 052 , 911756 , 84122/2 yx ySSTSSRR6sau 9235 , 0 96098 , 02 2 Ri arat c 92,35% (adic R2%) din variaia total a prejudiciului cauzat de incendii esteexplicatdevariaiavariabilei independente(distanantrelocul incendiului i staiade pompieri).7. Testarea semnificatiei parametrului al modelului linear de regresie + + X Y:H0: =0 (parametrul este nesemnificativ statistic)H1: 0 (parametrul este semnificativ statistic, adic semnificativ diferit de 0)Statistica testului este ) 1 ( k naStudentsat,unde ( ) ( )

,_

+

,_

+ niieniie ax xxnsx xxns s12212221 1 este abaterea standard (eroarea standard) aestimatoruluia,2esestedisperiareziduala, iar2e es s esteabatereastandardrezidual (eroarea standard rezidual sau a erorilor).Valoarea calculat a statisticii testului, n ipoteza cH0este adevart, adic=0, este a acalcsasat 0, deci 237 , 742 , 12779 , 10 acalcsat, cu sa=1,42.Dac nivelul de semnificaie este =0,05, atunci regiunea critic a testului este

,_

,_

,_

,_

; ; ; ,13 ;205 , 013 ;205 , 01 ;2'1 ;2't t t t Rk n k nc .Cum771 , 113 ;205 , 01 ;2' t tk n, atunci ( ) ( ) ; 771 , 1 771 , 1 ; 237 , 7c calcR t, deci respingenH0i concluzionm ca este semnificativ statistic, cu o probabilitate de 0,05 de a comite o eroare de primul tip (s respingem H0 cnd aceasta este adevrat).Observaie: Valoarea1 ;2' k nt,carese citete dintabelul cu cuantilele repartiieiStudent, semai noteaz cu tcritic.Testarea semnificaiei parametrului al modelului linear de regresie + + X Y:H0: =0 (parametrul este nesemnificativ statistic)H1: 0 (parametrul este semnificativ statistic, adic semnificativ diferit de 0)Statistica testului este ) 1 ( k nbStudentsbt,unde ( )( ) niieniie bx xsx xs s121221 este abaterea standard (eroarea standard) a estimatorului b,2eseste disperia rezidual, iar 2e es s este abaterea standard rezidual (eroarea standard rezidual).Valoarea calculat a statisticii testului, n ipoteza cH0este adevart, adic=0, este b bcalcsbsbt 0, deci 56 , 1239 , 09193 , 4 bcalcsbt, cu sb=0,39.Dac nivelul de semnificaie este =0,05, atunci regiunea critic a testului este7

,_

,_

,_

,_

; ; ; ,13 ;205 , 013 ;205 , 01 ;2'1 ;2't t t t Rk n k nc .Cum771 , 113 ;205 , 01 ;2' t tk n, atunci ( ) ( ) ; 771 , 1 771 , 1 ; 56 , 12c calcR t, deci respingenH0i concluzionm ca este semnificativ statistic, cu o probabilitate de 0,05 de a comite o eroare de primul tip (s respingem H0 cnd aceasta este adevrat).8. Intervalul de ncredere (1-)100% = 95% pentru parametrul al modelului linear de regresie + + X Y, determinat pe baza eantionului observat, este: ui parametrul a100% ) ' - (1 incredere deui intervalul a superioara limita1 ;2'ui parametrul a100% ) ' - (1 incredere deui intervalul a inferioara limita1 ;2' + ak nak ns t a s t a,unde sa este eroarea standard a estimatorului a.n cazul nostru,a=10,2779,sa=1,42,=0,05,771 , 113 ;205 , 01 ;2' t tk n, deci intervalul [7,2; 13,3] acoper valoarea adevrat a parametrului cu probabilitatea 0,95, adic intervalul de valori [7,2; 13,3] mii Eur acoper nivelul prejudiciului provocat deincendiu, dacacestaseproducechiar lng staiade pompieri.Cumintervalul dencredere95%determinat pentruparametrulnuacopervaloarea0, atunci putem spune ca acesta este semnificativ diferit de 0 sau este semnificativ statistic.Dac ns, intervalul de ncredere pentru ar fi acoperit, adic ar fi coninut, i valoarea 0, atunci concluzionam c parametrul este nesemnificativ statistic (nu este semnificativ diferit de 0).Intervalul dencredere(1-)100%=95%pentruparametrulal modelului linear deregresie + + X Y, determinat pe baza eantionului observat, este: ui parametrul a100% ) ' - (1 incredere deui intervalul a superioara limita1 ;2' ui parametrul a100% ) ' - (1 incredere deui intervalul a inferioara limita1 ;2' + bk nbk ns t b s t b,unde sb este eroarea standard a estimatorului b.n cazul nostru,b=4,9193,sb=0,39,=0,05,771 , 113 ;205 , 01 ;2' t tk n, deci intervalul [4,07; 5,76] acoper valoarea adevrat a parametruluicu probabilitatea 0,95. Cu alte cuvinte, dac distana devine mai mare cu o unitate (10 km), nivelul prejudiciului crete cu o valoare acoperit de intervalul [4,07; 5,76] mii Eur, cu o probabilitate de 0,95.Cumintervalul dencredere95%determinat pentruparametrulnuacopervaloarea0, atunci putem spune c acesta este semnificativ diferit de 0 sau este semnificativ statistic.Dac ns, intervalul de ncredere pentru ar fi acoperit, adic ar fi coninut, i valoarea 0, atunci concluzionam c parametrul este nesemnificativ statistic (nu este semnificativ diferit de 0).9. Rezolvarea in Excel:n Excel, exist modulul Data Analysis, opiunea Regression care furnizeaz ntr-un output specific toate aceste calcule prezentate pn acum.Astfel, ntr-o foaie de lucru, se introduce setul de date { (x1,y1), (x2,y2),...., (xn,yn) }, n cazul nostru n=15, iar apoi din meniul principal alegem Data, submeniulData Analysisi apoiRegression, dac se 8lucreaz n Excel 2007. Dac avei la dispoziie Excel 2003, alegei din meniul principal Tools, apoi Data Analysis i apoi Regression.n fereastra care va apare, trebuie:- s alegei care este irul de valori corespunztoare variabilei dependente Y (Input Y Range) i care este irul de valori corespunztoare variabilei independente X (Input X Range),- s specificai nivelulde ncredere al testului, de obicei 95%,- s precizai celula din foaia de lucru de la care se vor afia rezultatele, adic outputul (Output Range),9- s bifai opiunea Residuals i, opional, Line Fit Plots.Output-ul este prezentat n tabelul urmtor:SUMMARY OUTPUTRegression StatisticsMultiple R 0,96098 = R = raportul de corelaieR Square 0,92348 = R2= coeficientul de determinaieAdjusted R Square 0,91759Standard Error 2,31635 = se= eroarea standard sau abaterea standard a erorilorObservations 15 = n = numrul de perechi de observaii din eantionANOVAdf SS MS F Significance FRegression1 = k 2/ x ySSR841,7662/ x ys841,766calcF156,886 1,2478E-08Residual13 = n-k-1 2eSSE 69,751 2es 5,365Total14 = n-1 2ySST911,52CoefficientsStandard Errort Stat P-valueLower 95%(Limita inferioar a intervalului de ncredere 95%)Upper 95%(Limita superioar a intervalului ncredere 95%)Intercept 10,2779=a 1,42=sa7,237=acalcsat 6,59E-067,210=ak ns t a 1 ;205 , 013,346=ak ns t a + 1 ;205 , 0X Variable 1 4,9193=b 0,39=sb12,525=bcalcsbt 1,25E-084,071=bk ns t b 1 ;205 , 05,768=bk ns t b + 1 ;205 , 010RESIDUAL OUTPUTObservationPredicted Y i ix y + 9193 , 4 2779 , 10 Residuals i i iy y e 1 27,0037 -0,80372 19,1327 -1,33273 32,9068 -1,60684 21,5924 1,50765 25,5279 1,97216 37,3342 -1,33427 13,7215 0,37858 25,0359 -2,73599 23,0682 -3,468210 31,4311 -0,131111 20,6085 3,391512 15,6892 1,610813 40,2858 2,914214 33,8907 2,509315 28,9714 -2,871411