Analiza Regresionala-2013
-
Upload
udalov-cristina -
Category
Documents
-
view
72 -
download
0
description
Transcript of Analiza Regresionala-2013
-
11
Regresia liniar
2
Definiie, specificare, identificare Legturile care exist ntre dou variabile
statistice pot fi studiate folosind dou tehnici: regresia i corelaia.
Corelaia va arta ct de puternic este legtura, dependena dintre variabile
Regresia reflecta forma legaturii si ajuta n explicarea i previzionarea unui factor pe baza valorii altuia (altora)
-
23
Norul de puncte Procesul de regresie presupune doi pasi. Primul se refera la determinarea
ecuatiei de regresie, iar cel de-al doilea consta n utilizarea acestei ecuatii n predictie.
Determinarea ecuatiei de regresie are loc n baza irului de date din trecut. Plasate n sistemul de coordonate XOY, ele reprezint norul de puncte
0
0.51
1.52
2.53
3.5
4
0.5 1 1.5 2 2.5 3 3.5 4Factorul independent X
Fact
orul
dep
ende
ntY
4
Ecuaia de regresie n funcie de forma amplasrii punctelor n cadrul norului de
puncte, regresia poate fi liniar (aproape de linie dreapt) sau neliniar (curbilinie).
Forma general prin care se exprima o ecuatie de regresie liniar este: y= a +bx
n calitate de exemple de ecuaii neliniare pot servi y=a+bex exponentialy= a+xb putere (parabolic .a.)y=a+b/x - hiperbolicy=a+bln(x) logaritmic
-
3-400
-200
0
200
400
600
800
1000
-1 0.003 0.008 0.013 0.018 0.023 0.028 0.033 0.038 0.043 0.048 0.053 0.058 0.063 0.068X
Y
x
ba 1xbea
bxa
xba ln
Exermple de grafice: liniar i neliniare
Ecuaia liniar: semnificaia parametrilor a i b
Parametrul a exprim valoarea lui y cnd x=0, deci este intersecia dreptei cu axa OY i poart denumirea de intercepie.
Parametrul b este numit coeficient de regresie sau pant i arat cu ct se modific y cnd variabila x se modific cu o unitate.
O
0bbxay
x
y
Panta egala cu zero
O
0bbxay
x
y
Pantapozitiva
O
0bbxay
x
y
Panta negativa
a
a
a
-
4Determinarea parametrilor a i b 1-a metod (nlocuirea direct n formul):
2-a metod (nlocuirea i rezolvarea sistemului de ecuaii):
Ca rezultat se elaboreaz modelul de regresie:, astfel c
22 xnx
yxnxyb
XbYa
XYXbXa
YXbna2
ibai xy
n
ii
n
ii yy
11
8
Analiza regresional: exemplu Sasemodelezelegaturadintrevolumulcheltuielilorcupublicitateaivolumulvanzarilor,utilizandinformatiileextrasedepeunesantionde15intreprinderi asemntoaredupprofiluldeactivitateidimensiuni.
ntreprinderea 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Cheltuieli promovare (mii lei) xi
20.0 14.8 20.5 12.5 18.0 14.3 24.9 16.5 24.3 20.2 22.0 19.0 12.3 14.0 16.7
Volumul vnzrilor (mii lei) yi
2190 1900 1990 1210 1500 1980 3340 1880 3100 2130 2880 3120 1860 1730 1740
-
59
Norul de puncte
0
500
1000
1500
2000
2500
3000
3500
4000
0,0 5,0 10,0 15,0 20,0 25,0 30,0
Amplasarea punctelor poate fi examinat ca liniar
Vnzri
Cheltuieli publicitare
Exemplu: Tabelul 1(calcule)Nr. x y x2 y2 xy
1 12,3 1860 151,29 3459600 -5,7 32,49 22878 1449
2 12,5 1210 156,25 1464100 -5,5 30,25 15125 1474
3 14 1730 196 2992900 -4 16 24220 1664
4 14,3 1980 204,49 3920400 -3,7 13,69 28314 1702
5 14,8 1900 219,04 3610000 -3,2 10,24 28120 1765
6 16,5 1880 272,25 3534400 -1,5 2,25 31020 1980
7 16,7 1740 278,89 3027600 -1,3 1,69 29058 2005
8 18 1500 324 2250000 0 0 27000 2170
9 19 3120 361 9734400 1 1 59280 2296
10 20 2190 400 4796100 2 4 43800 2423
11 20,2 2130 408,04 4536900 2,2 4,84 43026 2448
12 20,5 1990 420,25 3960100 2,5 6,25 40795 2486
13 22 2880 484 8294400 4 16 63360 2676
14 24,3 3100 590,49 9610000 6,3 39,69 75330 2967
15 24,9 3340 620,01 11155600 6,9 47,61 83166 3043
Total 270 32550 5086 76346500 0 226 614492 32549
xxi 2i xx y
-
6Exemplu: Tabelul 2(calcule)Nr. x y
1 12,3 1860 -310 96100 -721,2 520086,2 411,17 169058,3
2 12,5 1210 -960 921600 -695,9 484221,1 -264,14 69767,3
3 14 1730 -440 193600 -506,1 256137,2 66,1 4369,21
4 14,3 1980 -190 36100 -468,2 219164,4 278,15 77365,75
5 14,8 1900 -270 72900 -404,9 163935,9 134,89 18195,85
6 16,5 1880 -290 84100 -189,8 36031,6 -100,18 10035,03
7 16,7 1740 -430 184900 -164,5 27066,8 -265,48 70478,04
8 18 1500 -670 448900 -0,1 0,0 -669,94 448819,6
9 19 3120 950 902500 126,5 15989,6 823,55 678234,6
10 20 2190 20 400 253,0 63988,8 -232,96 54270,36
11 20,2 2130 -40 1600 278,3 77428,6 -318,26 101290,7
12 20,5 1990 -180 32400 316,2 99995,1 -496,22 246229,33
13 22 2880 710 504100 506,0 256015,8 204,02 41624,16
14 24,3 3100 930 864900 797,0 635129,3 133,05 17701,5
15 24,9 3340 1170 1368900 872,9 761884,6 297,14 88292,77
Total 270 32550 0 5713000 -0,9 3617075,0 0,9 2095733
. yyi 2yyi 2yyi yyi 2i yy
Determinarea parametrilor a i b 1-a metod (nlocuirea direct n formul):
5,126226/2859218155086
217018156144922
b
1075,126182170XbYa
Modelul de regresie este urmtorul:i5,126107i xy
-
7Testarea parametrului Panta msoar schimbarea variabilei rezultative care rezult n urma modificrii cu o unitate a variabilei cauzale. Dac = 0, nseamn c linia de regresie este orizontal, adic YY Vom testa dac panta () este diferit de zero. Ipotezele sunt:
H0 : = 0 (b = = 0), H1 : 0.
Dac volumul eantionului este mare, vom utiliza testul z:
bbcalc s
bs
bz 0 , unde
n
ii
b
xx
knyys
1
2
2
)(
)1/()( este
abaterea standard a estimatorului b.
Testarea parametrului (continuare) Numaratorul reprezinta estimatorul dispersiei reziduurilor Se. Cea mai mic valoare a lui Se este zero, care apare atunci cnd
n
iyy
1
2 0)(
, adic punctele observate se situeaz exact pe linia de regresie. Dac es este mic, ajustarea este foarte bun, iar modelul de regresie poate fi utilizat ca un instrument efectiv de analiz i previzionare.
7,26226
)1115/(2095733 bS calct 126,5/26,7= 4,736
-
8Testarea parametrului b-continuare Pentru un prag de semnificaie de 5%, valoareateoretic a testului este t/2;13 = 2,16 . Deoarece
calct >t/2;13 vom concluziona c este foarteimprobabil ca estimatorul b s provin dintr-o populaie cu =0 ( adic este semnificativ diferit de zero). Intervalul de ncredere pentru parametrul , coeficientul de regresie din colectivitatea general,este:
bn,/bn,/ stbstb 2222 , 7,2616,25,1267,2616,25,126 ,
adic 211848168 ,,
Testarea parametrului a Pe baza datelor din eantion se obine, de asemenea, oestimaie a parametrului . Eroarea standard a coeficientului de intercepie este:
n
ii
n
ii
ea
xxn
xss
1
2
1
2
)(
Ipotezele sunt: H0 : = 0, H1 : 0
Statistica t este: a
calc sat 0
-
9Testarea parametrului a
Statistica t este: 218,08,4910107
sa
ta
acalc .
Pentru un prag de semnificaie de 5%, valoarea teoretic a testuluieste t/2;13 = 2,16 . Deoarece calct
-
10
Prin ridicarea la ptrat a fiecrei abateri i nsumareapentru toate observaiile, obinem:
n
i
n
iiii
n
ii yyyyyy
1 1
22
1
2 )()()(
Vom nota:
n
1i
2y
2i )yy( = variana total, suma ptratelor
abaterilor totale;
n
iei yy
1
22)( = variana neexplicat (rezidual), suma ptratelor erorilor;
n
ixyi yy
1
2/
2)(
= variana explicat, suma ptratelor abaterilor datorate regresiei. Variana total este, aadar egal cu variana explicatde model plus variana neexplicat (rezidual):
222ex/yy .
Pentru calculul statisticii F (testul F) utilizat pentru testarea calitii ajustrii folosim tabelul ANOVA:
Tabelul 4.3 Surs
variaiei Suma ptratelor
(SS-Sum of Squares)
Grade de libertate
(df- degree of freedom)
Media ptratelor
(MS- Mean of Squares)
Testul Fisher
(testul F)
Datorat regresiei
n
iixy yy
1
22/
k k
s x/yx/y2
2 2e
2x/y
calcs
sF
Rezidual
n
iiie yy
1
22
n k 1 1
22
kn
s eeTotal
n
1i
2i
2y yy n 1 1
22
n
s yy
unde k reprezint numrul variabilelor independente luate n consideraie (pentru regresia liniar simpl, k=1).
-
11
Pentru testarea validitii modelului se formuleaz cele dou ipoteze:
H0: model nevalid statistic, cu alternativa H1: model valid statistic
Statistica utilizat pentru a decide care dintre ipoteze se accept este:
2
2/
e
xycalc s
sF
Se compar valoarea calculat a testului F cu valoarea teoretic pentru un prag de semnificaie i k, respectiv (n-k-1) grade de libertate, preluat din tabelul repatiiei Fisher: 1kn;k;F .
Dac Fcalc> 1kn;k;F se respinge H0, adic se concluzioneaz c modelul este valid.
Estimatorul dispersiei variabilei Y este: 1
22
n
s yy . Estimatorul dispersiei reziduurilor se determin ca:
1
)(
11
22
2
kn
yy
kns
n
iee
, unde k reprezint numrul variabilelor independente considerate, iar (n-k-1) reprezint numrul gradelor de libertate. n cazul regresiei simple liniare, k=1 i (n-k-1)=2.
-
12
Exemplu: Vom valida modelul de regresie determinat n exemplul de regresie liniar:
Surs variaiei
Suma ptratelor
Grade de libertate
Media ptratelor
Testul Fisher (testul F)
Datorat regresiei
2x/y =3617075 k=1 2 x/ys =3617268 161210
3617075calcF =
= 22,44 Rezidual 2
e =2095732 n k 1=15-2=13
2es =161210,2
Total 2y =5713000 n 1=15-1= 14
Pentru testarea validitii modelului se formuleaz cele dou ipoteze:
H0: model nevalid statistic, cu alternativa H1: model valid statistic
Valoarea teoretic pentru un prag de semnificaie = 0,05 i 1, respectiv 13 grade de libertate, preluat din tabelul repartiiei Fisher este 1kn;k;F =4,67. ntruct Fcalc> 1kn;k;F se respinge H0, adic se concluzioneaz c modelul este valid.