Analiza Regresionala-2013

12
1 1 Regresia liniară 2 Definiţie, specificare, identificare Legăturile care există între două variabile statistice pot fi studiate folosind două tehnici: regresia şi corelaţia. Corelaţia va arăta cât de puternică este legătura, dependenţa dintre variabile Regresia reflecta forma legaturii si ajuta în explicarea şi previzionarea unui factor pe baza valorii altuia (altora)

description

Analiza regresionala

Transcript of Analiza Regresionala-2013

  • 11

    Regresia liniar

    2

    Definiie, specificare, identificare Legturile care exist ntre dou variabile

    statistice pot fi studiate folosind dou tehnici: regresia i corelaia.

    Corelaia va arta ct de puternic este legtura, dependena dintre variabile

    Regresia reflecta forma legaturii si ajuta n explicarea i previzionarea unui factor pe baza valorii altuia (altora)

  • 23

    Norul de puncte Procesul de regresie presupune doi pasi. Primul se refera la determinarea

    ecuatiei de regresie, iar cel de-al doilea consta n utilizarea acestei ecuatii n predictie.

    Determinarea ecuatiei de regresie are loc n baza irului de date din trecut. Plasate n sistemul de coordonate XOY, ele reprezint norul de puncte

    0

    0.51

    1.52

    2.53

    3.5

    4

    0.5 1 1.5 2 2.5 3 3.5 4Factorul independent X

    Fact

    orul

    dep

    ende

    ntY

    4

    Ecuaia de regresie n funcie de forma amplasrii punctelor n cadrul norului de

    puncte, regresia poate fi liniar (aproape de linie dreapt) sau neliniar (curbilinie).

    Forma general prin care se exprima o ecuatie de regresie liniar este: y= a +bx

    n calitate de exemple de ecuaii neliniare pot servi y=a+bex exponentialy= a+xb putere (parabolic .a.)y=a+b/x - hiperbolicy=a+bln(x) logaritmic

  • 3-400

    -200

    0

    200

    400

    600

    800

    1000

    -1 0.003 0.008 0.013 0.018 0.023 0.028 0.033 0.038 0.043 0.048 0.053 0.058 0.063 0.068X

    Y

    x

    ba 1xbea

    bxa

    xba ln

    Exermple de grafice: liniar i neliniare

    Ecuaia liniar: semnificaia parametrilor a i b

    Parametrul a exprim valoarea lui y cnd x=0, deci este intersecia dreptei cu axa OY i poart denumirea de intercepie.

    Parametrul b este numit coeficient de regresie sau pant i arat cu ct se modific y cnd variabila x se modific cu o unitate.

    O

    0bbxay

    x

    y

    Panta egala cu zero

    O

    0bbxay

    x

    y

    Pantapozitiva

    O

    0bbxay

    x

    y

    Panta negativa

    a

    a

    a

  • 4Determinarea parametrilor a i b 1-a metod (nlocuirea direct n formul):

    2-a metod (nlocuirea i rezolvarea sistemului de ecuaii):

    Ca rezultat se elaboreaz modelul de regresie:, astfel c

    22 xnx

    yxnxyb

    XbYa

    XYXbXa

    YXbna2

    ibai xy

    n

    ii

    n

    ii yy

    11

    8

    Analiza regresional: exemplu Sasemodelezelegaturadintrevolumulcheltuielilorcupublicitateaivolumulvanzarilor,utilizandinformatiileextrasedepeunesantionde15intreprinderi asemntoaredupprofiluldeactivitateidimensiuni.

    ntreprinderea 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

    Cheltuieli promovare (mii lei) xi

    20.0 14.8 20.5 12.5 18.0 14.3 24.9 16.5 24.3 20.2 22.0 19.0 12.3 14.0 16.7

    Volumul vnzrilor (mii lei) yi

    2190 1900 1990 1210 1500 1980 3340 1880 3100 2130 2880 3120 1860 1730 1740

  • 59

    Norul de puncte

    0

    500

    1000

    1500

    2000

    2500

    3000

    3500

    4000

    0,0 5,0 10,0 15,0 20,0 25,0 30,0

    Amplasarea punctelor poate fi examinat ca liniar

    Vnzri

    Cheltuieli publicitare

    Exemplu: Tabelul 1(calcule)Nr. x y x2 y2 xy

    1 12,3 1860 151,29 3459600 -5,7 32,49 22878 1449

    2 12,5 1210 156,25 1464100 -5,5 30,25 15125 1474

    3 14 1730 196 2992900 -4 16 24220 1664

    4 14,3 1980 204,49 3920400 -3,7 13,69 28314 1702

    5 14,8 1900 219,04 3610000 -3,2 10,24 28120 1765

    6 16,5 1880 272,25 3534400 -1,5 2,25 31020 1980

    7 16,7 1740 278,89 3027600 -1,3 1,69 29058 2005

    8 18 1500 324 2250000 0 0 27000 2170

    9 19 3120 361 9734400 1 1 59280 2296

    10 20 2190 400 4796100 2 4 43800 2423

    11 20,2 2130 408,04 4536900 2,2 4,84 43026 2448

    12 20,5 1990 420,25 3960100 2,5 6,25 40795 2486

    13 22 2880 484 8294400 4 16 63360 2676

    14 24,3 3100 590,49 9610000 6,3 39,69 75330 2967

    15 24,9 3340 620,01 11155600 6,9 47,61 83166 3043

    Total 270 32550 5086 76346500 0 226 614492 32549

    xxi 2i xx y

  • 6Exemplu: Tabelul 2(calcule)Nr. x y

    1 12,3 1860 -310 96100 -721,2 520086,2 411,17 169058,3

    2 12,5 1210 -960 921600 -695,9 484221,1 -264,14 69767,3

    3 14 1730 -440 193600 -506,1 256137,2 66,1 4369,21

    4 14,3 1980 -190 36100 -468,2 219164,4 278,15 77365,75

    5 14,8 1900 -270 72900 -404,9 163935,9 134,89 18195,85

    6 16,5 1880 -290 84100 -189,8 36031,6 -100,18 10035,03

    7 16,7 1740 -430 184900 -164,5 27066,8 -265,48 70478,04

    8 18 1500 -670 448900 -0,1 0,0 -669,94 448819,6

    9 19 3120 950 902500 126,5 15989,6 823,55 678234,6

    10 20 2190 20 400 253,0 63988,8 -232,96 54270,36

    11 20,2 2130 -40 1600 278,3 77428,6 -318,26 101290,7

    12 20,5 1990 -180 32400 316,2 99995,1 -496,22 246229,33

    13 22 2880 710 504100 506,0 256015,8 204,02 41624,16

    14 24,3 3100 930 864900 797,0 635129,3 133,05 17701,5

    15 24,9 3340 1170 1368900 872,9 761884,6 297,14 88292,77

    Total 270 32550 0 5713000 -0,9 3617075,0 0,9 2095733

    . yyi 2yyi 2yyi yyi 2i yy

    Determinarea parametrilor a i b 1-a metod (nlocuirea direct n formul):

    5,126226/2859218155086

    217018156144922

    b

    1075,126182170XbYa

    Modelul de regresie este urmtorul:i5,126107i xy

  • 7Testarea parametrului Panta msoar schimbarea variabilei rezultative care rezult n urma modificrii cu o unitate a variabilei cauzale. Dac = 0, nseamn c linia de regresie este orizontal, adic YY Vom testa dac panta () este diferit de zero. Ipotezele sunt:

    H0 : = 0 (b = = 0), H1 : 0.

    Dac volumul eantionului este mare, vom utiliza testul z:

    bbcalc s

    bs

    bz 0 , unde

    n

    ii

    b

    xx

    knyys

    1

    2

    2

    )(

    )1/()( este

    abaterea standard a estimatorului b.

    Testarea parametrului (continuare) Numaratorul reprezinta estimatorul dispersiei reziduurilor Se. Cea mai mic valoare a lui Se este zero, care apare atunci cnd

    n

    iyy

    1

    2 0)(

    , adic punctele observate se situeaz exact pe linia de regresie. Dac es este mic, ajustarea este foarte bun, iar modelul de regresie poate fi utilizat ca un instrument efectiv de analiz i previzionare.

    7,26226

    )1115/(2095733 bS calct 126,5/26,7= 4,736

  • 8Testarea parametrului b-continuare Pentru un prag de semnificaie de 5%, valoareateoretic a testului este t/2;13 = 2,16 . Deoarece

    calct >t/2;13 vom concluziona c este foarteimprobabil ca estimatorul b s provin dintr-o populaie cu =0 ( adic este semnificativ diferit de zero). Intervalul de ncredere pentru parametrul , coeficientul de regresie din colectivitatea general,este:

    bn,/bn,/ stbstb 2222 , 7,2616,25,1267,2616,25,126 ,

    adic 211848168 ,,

    Testarea parametrului a Pe baza datelor din eantion se obine, de asemenea, oestimaie a parametrului . Eroarea standard a coeficientului de intercepie este:

    n

    ii

    n

    ii

    ea

    xxn

    xss

    1

    2

    1

    2

    )(

    Ipotezele sunt: H0 : = 0, H1 : 0

    Statistica t este: a

    calc sat 0

  • 9Testarea parametrului a

    Statistica t este: 218,08,4910107

    sa

    ta

    acalc .

    Pentru un prag de semnificaie de 5%, valoarea teoretic a testuluieste t/2;13 = 2,16 . Deoarece calct

  • 10

    Prin ridicarea la ptrat a fiecrei abateri i nsumareapentru toate observaiile, obinem:

    n

    i

    n

    iiii

    n

    ii yyyyyy

    1 1

    22

    1

    2 )()()(

    Vom nota:

    n

    1i

    2y

    2i )yy( = variana total, suma ptratelor

    abaterilor totale;

    n

    iei yy

    1

    22)( = variana neexplicat (rezidual), suma ptratelor erorilor;

    n

    ixyi yy

    1

    2/

    2)(

    = variana explicat, suma ptratelor abaterilor datorate regresiei. Variana total este, aadar egal cu variana explicatde model plus variana neexplicat (rezidual):

    222ex/yy .

    Pentru calculul statisticii F (testul F) utilizat pentru testarea calitii ajustrii folosim tabelul ANOVA:

    Tabelul 4.3 Surs

    variaiei Suma ptratelor

    (SS-Sum of Squares)

    Grade de libertate

    (df- degree of freedom)

    Media ptratelor

    (MS- Mean of Squares)

    Testul Fisher

    (testul F)

    Datorat regresiei

    n

    iixy yy

    1

    22/

    k k

    s x/yx/y2

    2 2e

    2x/y

    calcs

    sF

    Rezidual

    n

    iiie yy

    1

    22

    n k 1 1

    22

    kn

    s eeTotal

    n

    1i

    2i

    2y yy n 1 1

    22

    n

    s yy

    unde k reprezint numrul variabilelor independente luate n consideraie (pentru regresia liniar simpl, k=1).

  • 11

    Pentru testarea validitii modelului se formuleaz cele dou ipoteze:

    H0: model nevalid statistic, cu alternativa H1: model valid statistic

    Statistica utilizat pentru a decide care dintre ipoteze se accept este:

    2

    2/

    e

    xycalc s

    sF

    Se compar valoarea calculat a testului F cu valoarea teoretic pentru un prag de semnificaie i k, respectiv (n-k-1) grade de libertate, preluat din tabelul repatiiei Fisher: 1kn;k;F .

    Dac Fcalc> 1kn;k;F se respinge H0, adic se concluzioneaz c modelul este valid.

    Estimatorul dispersiei variabilei Y este: 1

    22

    n

    s yy . Estimatorul dispersiei reziduurilor se determin ca:

    1

    )(

    11

    22

    2

    kn

    yy

    kns

    n

    iee

    , unde k reprezint numrul variabilelor independente considerate, iar (n-k-1) reprezint numrul gradelor de libertate. n cazul regresiei simple liniare, k=1 i (n-k-1)=2.

  • 12

    Exemplu: Vom valida modelul de regresie determinat n exemplul de regresie liniar:

    Surs variaiei

    Suma ptratelor

    Grade de libertate

    Media ptratelor

    Testul Fisher (testul F)

    Datorat regresiei

    2x/y =3617075 k=1 2 x/ys =3617268 161210

    3617075calcF =

    = 22,44 Rezidual 2

    e =2095732 n k 1=15-2=13

    2es =161210,2

    Total 2y =5713000 n 1=15-1= 14

    Pentru testarea validitii modelului se formuleaz cele dou ipoteze:

    H0: model nevalid statistic, cu alternativa H1: model valid statistic

    Valoarea teoretic pentru un prag de semnificaie = 0,05 i 1, respectiv 13 grade de libertate, preluat din tabelul repartiiei Fisher este 1kn;k;F =4,67. ntruct Fcalc> 1kn;k;F se respinge H0, adic se concluzioneaz c modelul este valid.