Probleme Regresie Signed

19
1. În tabelul următor avem date referitoare la 15 agenţi de asigurări angajaţi ai unei companii de asigurări de viaţă şi anume: timpul mediu, în minute, petrecut de un agent cu un potenţial client şi numărul de poliţe încheiate într-o săptămână. Dacă X reprezintă timpul mediu, iar Y reprezintă numărul de poliţe, avem datele sistematizate astfel: Timpul mediu, (min) X Numărul de poliţe Y 25 23 30 25 20 33 18 21 22 30 26 26 27 29 20 10 11 14 12 8 18 9 10 10 15 11 15 12 14 11 Se cere: a) să se estimeze parametrii modelului liniar de regresie; b) să se testeze semnificaţia parametrilor modelului pentru un prag de semnificaţie = 5%; c) să se determine erorile reziduale; d) să se testeze validitatea modelului de regresie pentru un nivel de semnificaţie = 5%; e) măsuraţi intensitatea legăturii dintre cele două variabile folosind un indicator adecvat şi testaţi semnificaţia acestuia pentru un nivel de încredere de 0,5%; f) efectuaţi o previzionare punctuală şi pe interval de încredere a numărului de poliţe încheiate de un agent care petrece în medie 24 de minute cu un potenţial client. Rezolvare: Pentru a determina forma modelului de regresie se va construi corelograma: 6 8 10 12 14 16 18 20 16 18 20 22 24 26 28 30 32 34 Numărul de poliţe Timpul mediu, (min)

description

ghjknuy

Transcript of Probleme Regresie Signed

  • 1. n tabelul urmtor avem date referitoare la 15 ageni de asigurri angajai ai unei companii de asigurri de via i anume: timpul mediu, n minute, petrecut de un agent cu un potenial client i numrul de polie ncheiate ntr-o sptmn. Dac X reprezint timpul mediu, iar Y reprezint numrul de polie, avem datele sistematizate astfel:

    Timpul mediu,

    (min) X Numrul de polie

    Y

    25 23

    30

    25

    20

    33

    18

    21 22

    30

    26

    26

    27

    29

    20

    10 11

    14

    12

    8

    18

    9

    10 10

    15

    11

    15

    12

    14

    11

    Se cere:

    a) s se estimeze parametrii modelului liniar de regresie;

    b) s se testeze semnificaia parametrilor modelului pentru un prag de semnificaie = 5%; c) s se determine erorile reziduale;

    d) s se testeze validitatea modelului de regresie pentru un nivel de semnificaie = 5%; e) msurai intensitatea legturii dintre cele dou variabile folosind un indicator adecvat i testai

    semnificaia acestuia pentru un nivel de ncredere de 0,5%; f) efectuai o previzionare punctual i pe interval de ncredere a numrului de polie ncheiate de un

    agent care petrece n medie 24 de minute cu un potenial client.

    Rezolvare:

    Pentru a determina forma modelului de regresie se va construi corelograma:

    6

    8

    10

    12

    14

    16

    18

    20

    16 18 20 22 24 26 28 30 32 34

    Nu

    mr

    ul d

    e p

    oli

    e

    Timpul mediu, (min)

  • a) ii xaay 10

    Parametrii a i b se determin cu ajutorul metodei celor mai mici ptrate:

    minxaayminyyi

    2i10i

    i

    2ii

    n

    1iii

    n

    1i

    2i1

    n

    1ii0

    n

    1ii

    n

    1ii10

    yxxaxa

    yxana

    15n

    Pentru a rezolva sistemul vom folosi urmtorul tabel n care sunt prezentate valorile intermediare:

    ix iy 2i

    x iiyx iy 2

    iy 2i yy

    2i xx

    25

    23 30

    25 20 33

    18 21

    22 30

    26 26 27

    29 20

    10

    11 14

    12 8

    18

    9 10

    10 15

    11 15 12

    14 11

    625

    529 900

    625 400

    1089

    324 441

    484 900

    676 676 729

    841 400

    250

    253 420

    300 160 594

    162 210

    220 450

    286 390 324

    406 220

    12

    10.9 14.7

    12.0 9.3 16.4

    8.2 9.8

    10.4 14.7

    12.5 12.5 13.1

    14.2 9.3

    100

    121 196

    144 64

    324

    81 100

    100 225

    121 225 144

    196 121

    4

    1 4

    0 16 36

    9 4

    4 9

    1 9 0

    4 1

    0

    4 25

    0 25 64

    49 16

    9 25

    1 1 4

    16 25

    375

    x i

    180

    y i

    9639

    x 2i

    4645

    yx ii

    iy

    180 2262

    y2i

    102 264

    46459639a375a

    180375aa15

    10

    10

    5492,0a

    73,1a

    1

    0

    Deci:

    iix5492,073,1y

    b) Testarea semnificaiei parametrilor modelului: Ecuaia de regresie la nivelul colectivitii generale este:

    ii10iuxy

    Y = 0,5492x - 1,73

    R = 0,7808

    6

    8

    10

    12

    14

    16

    18

    20

    16 18 20 22 24 26 28 30 32 34

    Nu

    mr

    ul d

    e p

    oli

    e

    Timpul mediu, (min)

  • iar la nivelul eantionului este:

    ii10iuxaay

    Testarea semnificaiei parametrului 1: 1) se stabilete ipoteza nul:

    H0 : 1 = 0 2) se stabilete ipoteza alternativ:

    H1 : 1 0, adic 1 este semnificativ diferit de zero, adic 1 este semnificativ statistic. 3) se calculeaz testul statistic:

    deoarece n = 15 30 avem eantion de volum redus i pentru testare vom utiliza testul t:

    8,608,0

    5492,0

    s

    a

    s

    0a

    s

    at

    111 a

    1

    a

    1

    a

    11

    0064,0

    264

    7199,1

    xx

    ss

    i

    2i

    2u2

    ai

    7199,1

    215

    35,22

    1kn

    yy

    s i

    2ii

    2u

    k reprezint numrul variabilelor factoriale (n cazul modelului unifactorial k = 1).

    2515

    375

    15

    x

    x

    15

    1ii

    Pentru un prag de semnificaie de 5% valoarea tabelat a testului este: t0,05/2; 13 = t0,025; 13 = 1,35

    Testarea semnificaiei parametrului 0:

    1) se stabilete ipoteza nul: H0: 0 = 0;

    2) se stabilete ipoteza alternativ: H1: 0 0; 3) se calculeaz testul statistic:

    84,0096,2

    73,1

    s

    a

    s

    0a

    s

    at

    000 a

    0

    a

    0

    a

    10

    186,4

    264

    25

    15

    171,1

    xx

    x

    n

    1ss

    i

    2i

    22u

    2a0

    35,1t84,0t 2n;2/calc se accept ipoteza nul, adic parametrul a0 nu este

    semnificativ statistic.

    c) Erorile reziduale sunt iii yyu i sunt prezentate n tabelul de mai jos:

    ui -14,99 -27,57 -0,91 18,38 16,58 7,37 5,03

    -20,62 9,90 27,22 -19,95 -17,48 -5,09 5,42 16,70

    d) Testarea validitii modelului de regresie:

  • 1) se stabilete ipoteza nul: H0: mprtierea valorilor ty datorate factorului nu difer semnificativ de

    mprtierea acelorai valori datorate ntmplrii, deci modelul nu este valid. 2) se stabilete ipoteza alternativ: H1: modelul este valid; 3) se calculeaz testul F:

    3,4671,1

    64,79

    s

    sF

    2u

    2x

    64,79

    1

    64,79

    k

    yy

    s i

    2i

    2x

    71,1

    215

    35,22

    1kn

    yy

    s i

    2ii

    2u

    1215

    180

    15

    y

    y

    15

    1ii

    67,4FFF 13,1;05,01kn;calc

    Deoarece Fcalc Ftab modelul este valid.

    e) Intensitatea legturii dintre cele dou variabile se face cu coeficientul de corelaie liniar:

    0188,0

    180226215375963915

    180375464515

    yynxxn

    yxyxnr

    22

    2i

    2i

    2i

    2i

    iiii

    Rezult c ntre cele dou variabile exist o legtur direct foarte puternic. Testarea semnificaiei coeficientului de corelaie:

    - se stabilete ipoteza nul: H0: nu este semnificativ statistic;

    - se stabilete ipoteza alternativ: H1: este semnificativ statistic; - se calculeaz testul t:

    75,6

    88,01

    1388,0

    r1

    2nr

    s

    rt

    22r

    16,2ttt 13;05,01kn;calc

    Coeficientul de corelaie este semnificativ statistic. Msurarea intensitii legturii cu raportul de corelaie R:

    88,0

    1

    2

    1

    2

    n

    i

    i

    n

    i

    i

    yy

    yy

    R

    Deoarece R = r = 0,88, apreciem c exist o legtur liniar, puternic i direct ntre cele dou variabile.

    Testarea raportului de corelaie se face cu testul F:

    09,461

    13

    78,01

    78,0

    k

    1kn

    R1

    RF

    2

    2

    Cum:

  • 67,4FF 13;1;05,0calc

    R este semnificativ statistic.

    f)

    12~45,11245492,073,1y 1n polie (aceasta este estimarea punctual).

    Pentru estimarea pe interval de ncredere vom avea:

    1n1n y1kn;2/1n1ny1kn;2/1nstyysty

    35,1t12y35,1t12 13;025,01n13;025,0

    82,1264

    )2524(

    15

    1171,1

    11

    2

    2

    2

    122

    1

    i

    i

    nuy

    xx

    xx

    nss

    n

    35,1s1ny

    8225,13y1775,10 1n

    Intervalul de ncredere pentru numrul de polie ncheiate este:

    14y10 1n

    Rezolvarea problemei cu ajutorul programului informatic EXCEL:

    Se selecteaz din meniul principal opiunea Tools, apoi Data Analysis, apoi Regression i se deschide urmtoarea fereastr:

    i se obin urmtoarele rezultate:

  • SUMMARY OUTPUT

    Regression Statistics

    Multiple R 0.883621 R Square 0.780786

    Adjusted R

    Square

    0.763923

    Standard Error 1.311483

    Observations 15.000000

    ANOVA

    df SS MS F Significance F

    Regression 1.000000 79.640152 79.64015

    2

    46.30272

    7

    0.000013

    Residual 13.000000 22.359848 1.719988 Total 14.000000 102.00000

    0

    Coefficients

    Standard Error

    t Stat P-value Lower 95%

    Upper 95%

    Intercept -1.731061 2.046120 -0.846021 0.412843 -6.151434 2.68931

    3

    X Variable 1 0.549242 0.080716 6.804611 0.000013 0.374866 0.723619

    RESIDUAL OUTPUT

    Observation Predicted Y Residuals

    1.000000 12.000000 -2.000000

    2.000000 10.901515 0.098485 3.000000 14.746212 -0.746212

    4.000000 12.000000 0.000000

    5.000000 9.253788 -1.253788 6.000000 16.393939 1.606061

    7.000000 8.155303 0.844697

    8.000000 9.803030 0.196970 9.000000 10.352273 -0.352273

    10.000000 14.746212 0.253788

    11.000000 12.549242 -1.549242 12.000000 12.549242 2.450758

    13.000000 13.098485 -1.098485

    14.000000 14.196970 -0.196970 15.000000 9.253788 1.746212

    Explicitarea datelor din tabelele de mai sus:

    SUMMARY OUTPUT

    Regression Statistics

    Multiple R

    Raportul de corelatie (R) 0.883621

    n

    1i

    2i

    n

    1i

    2ii

    n

    1i

    2i

    n

    1i

    2i

    yy

    yy

    1

    yy

    yy

    x,Ry

  • R Square

    Coeficientul (gradul ) de

    determinaie

    0.780786

    n

    1i

    2i

    n

    1i

    2i

    2y

    2e

    2y

    2x/y2

    yy

    yy

    1R

    Adjusted R Square

    Valoarea ajustat a coeficientului de

    determinaie

    0.763923

    1n/

    1kn/1R

    2y

    2u2

    Standard Error

    Abaterea medie ptratic a erorilor n eantion

    1.311483

    2n

    yy

    2ns

    n

    1i

    2ii2

    uu

    Observations

    Numrul observaiilor (n) 15

    Tabel 2.

    ANOVA

    Sursa

    variaiei

    df

    (grade de

    libertate)

    SS (variana)

    (suma ptratelor)

    MS =SS/df

    (media ptratelor)

    (dispersia

    corectat)

    F Significance F

    Regression

    (variaia

    datorat regresiei)

    1 (k) SSR=

    n

    1i

    2i

    2x yy =

    79.640152 k

    s2x2

    x

    =

    79.640152

    Testul

    F=46.302727

    F=2

    xs /2

    us

    0.000013< 0.05

    (resping H0 model valid)

    Residual

    (variaia rezidual)

    13 (n-k-1) SSE=

    n

    1i

    2ii

    2u yy

    = 22.359848

    1kns

    2u2

    u

    =

    1.719988

    Total

    (variaia total)

    14 (n-1)

    SST=

    n

    1i

    2i

    2y yy

    = 102.000000 SST=SSR + SSE

    1n

    s

    2y2

    y

    Tabel 3

    Coefficients

    (Coeficieni)

    Standard

    Error

    (Abaterea

    medie

    patratic)

    t Stat P-value Lower 95% Upper 95%

    Limita inf. a

    intervalului

    de ncredere

    Limita sup. a

    intervalului

    de ncredere

    Intercept

    (termenul

    liber)

    a0= -1.731061 0as

    =2.046120 0a

    t = -0.846021 0.412843

    > 0,05 -6.151434 2.689313

    Timpul

    mediu a1 = 0.549242 1a

    s

    =0.080716 1at = 6.804611

    0.000013

    < 0,05 0.374866 0.723619

    Tabel 4.

    RESIDUAL OUTPUT

    Observation Predicted iy

    Numrul de polie

    Residuals

    ii yy

    1 338.5796 -14.9986

    2 371.2542 -27.5722

    3 376.1748 -0.9108

    4 332.8525 18.3895

  • 5 311.8281 16.5889

    6 310.6962 7.3728

    7 325.9235 5.0355

    8 287.8659 -20.6299

    9 310.9763 9.9067

    10 382.3073 27.2277

    11 336.2188 -19.9568

    12 369.2938 -17.4878

    13 338.7504 -5.0954

    14 367.2528 5.4262

    15 346.0917 16.7043

    Interpretare rezultate din tabelul SUMMARY OUTPUT:

    R= 0.883621 arat c ntre numrul de polie ncheiate i timpul mediu petrecut cu un potenial client exist o legtur puternic.

    R2 =0.780786 arat c 78% din variaia numrului de polie ncheiate este explicat de timpul mediu petrecut de un agent cu un potenial client.

    Abaterea medie patratica a erorilor us = 1.311483. n cazul n care acest indicator este zero

    nseamn c toate punctele sunt pe dreapta de regresie.

    Interpretare rezultate din tabelul ANOVA: n acest tabel este calculat testul F pentru validarea modelului de regresie. ntruct F=46.302727, iar

    Significance F (pragul de semnificatie) este 0.000013 (valoare mai mica de 0.05) atunci modelul de regresie

    construit este valid i poate fi utilizat pentru analiza dependenei dintre cele dou variabile.

    Interpretarea rezultatelor din tabelul 4:

    Intercept este termenul liber, deci coeficientul a0 este -1.731061. Termenul liber este punctul n care variabila explicativ (factorial) este 0. Deci numrul de polie ncheiate, dac timpul petrecut este 0.

    Deoarece 0a

    t = -0.846021iar pragul de semnificaie P-value este 0.412843>0,05 nseamn c acest

    coeficient este nesemnificativ. De altfel faptul c limita inferioar a intervalului de ncredere

    (-6.151434 0 2.689313) pentru acest parametru este negativ, iar limita superioar este pozitiv

    arat c parametrul din colectivitatea general este aproximativ zero. Coeficientul a1 este 0.549242, ceea ce nsemn c la creterea timpului petrecut cu un minut, numrul

    de polie ncheiate va crete cu 0,549242. Deoarece 1at = 6.804611 iar pragul de semnificaie P-value

    este 0.000013

  • Problema 2

    2. n tabelul urmtor avem informaii privind veniturile obinute de 20 de gospodrii selectate aleator i taxele pltite de ctre aceste gospodrii:

    Venitul

    (mii euro)

    x

    Taxele

    (euro)

    y

    Venitul

    (mii euro)

    x

    Taxele

    (euro)

    y

    17,5

    37,5

    47,5

    25,0

    55,5

    35,0 15,5

    12,0

    32,0

    42,3

    35,0

    60,5

    88,5

    70,5

    125,0

    63,0 30,0

    30,0

    65,0

    80,0

    28,0

    22,5

    25,0

    29,5

    65,0

    51,0 39,3

    33,0

    45,0

    75,0

    75,0

    70,0

    60,0

    65,0

    150,0

    100,0 75,0

    40,0

    75,0

    200,0

    Se cere: a) s se specifice modelul econometric ce descrie legtura dintre cele dou variabile; b) s se estimeze parametrii modelului; c) s se verifice ipotezele metodei celor mai mici ptrate;

    d) s se verifice semnificaia parametrilor modelului de regresie pentru = 0,1; e) s se testeze validitatea modelului de regresie; f) s se testeze intensitatea legturii dintre cele dou variabile i s se testeze semnificaia indicatorilor

    utilizai; g) s se estimeze punctual i pe interval de ncredere nivelul taxelor care trebuie pltite dac venitul

    este de 40 mii euro pentru o probabilitate de 95%.

    Rezolvare:

    a) Se va reprezenta grafic legtura dintre nivelul taxelor i venit pentru cele 20 de gospodrii prin corelogram sau diagrama norului de puncte:

    Din grafic se poate observa c distribuia punctelor (xi, yi) poate fi aproximat cu o dreapt, deci modelul econometric care descrie legtura dintre cele dou variabile este un model liniar:

    uxy10

    20

    70

    120

    170

    220

    10 20 30 40 50 60 70 80

    Taxe

    le (e

    uro

    ) y

    Venitul (mii euro) x

  • 0, 1 parametrii modelului;

    1 0 (panta dreptei) deoarece legtura dintre cele dou variabile este direct. b) Pentru estimarea parametrilor modelului de regresie utilizm metoda celor mai mici ptrate:

    20,1iuxaayi10i

    i10ixaay

    minxaayminyyi

    2i10i

    i

    2ii

    6886453,31991a1,733a

    5,1557a1,733a20

    10

    10

    2997,2a

    4201,6a

    1

    0

    Deci, modelul este:

    iix2997,24201,6y

    2997,2

    53,319911,733

    1,73320

    688641,733

    5,155720

    xx

    xn

    yxx

    yn

    a

    2ii

    i

    iii

    i

    1

    4201,6xaya 10

    c) Ipotezele metodei celor mai mici ptrate: c1) Variabilele observate nu sunt afectate de erori de msur. Aceast ipotez se poate verifica cu ajutorul urmtoarelor relaii:

    xix s3xxs3x

    yiy s3yys3y

    unde:

    99,15

    20

    74,5119

    n

    xx

    s

    n

    1i

    2i

    x

    y = 2,2997x - 6,4201

    R = 0,8431

    0

    20

    40

    60

    80

    100

    120

    140

    160

    180

    200

    10 20 30 40 50 60 70 80

    Taxe

    le (e

    uro

    ) y

    Venitul (mii euro) x

    Taxele (euro) y

    Predicted Taxele (euro) y

  • 07,40

    20

    44,32116

    n

    yy

    s

    n

    1i

    2i

    y

    655,3620

    1,733

    20

    x

    n

    x

    x

    20

    1ii

    n

    1ii

    875,7720

    5,1557

    20

    y

    y

    20

    1ii

    99,153655,36x99,153655,36 i

    625,84x315,11 i (adevrat)

    07,403875,77y07,403875,77 i

    085,201y335,42 i (adevrat)

    Ipoteza poate fi acceptat fr nici un dubiu.

    c2) Variabila aleatoare (rezidual) u este medie nul i dispersia variabilei reziduale este constant i independent de variabila factorial (ipoteza de homoscedasticitate).

    Ipoteza de homoscedasticitate poate fi verificat cu metoda grafic (corelograma). Se reprezint grafic pe axa OX valorile variabilei factoriale x, iar pe axa OY se reprezint valorile

    variabilei reziduale u.

    Va trebui s calculm valorile variabilei reziduale: iii yyu

    Rezultatele sunt prezentate n tabelul de mai jos:

    variabila

    rezidual iu Venitul (mii

    euro) x

    1,18 17,5

    -19,32 37,5

    -14,32 47,5

    19,43 25

    3,79 55,5

    -11,07 35

    0,77 15,5

    8,82 12

    -2,17 32

    -10,86 42,3

    17,03 28

    24,68 22,5

    8,93 25

    3,58 29,5

    6,94 65

    -10,86 51

    -8,96 39,3

    -29,47 33

    -22,07 45

    33,94 75

  • Deoarece graficul punctelor prezint o evoluie oscilant putem accepta ipoteza c variabila factorial i cea rezidual sunt independente.

    c3) Valorile variabilei reziduale nu sunt autocorelate, adic sunt independente ntre ele: Verificarea acestei ipoteze se poate face prin:

    - metoda grafic (corelograma); - testul Durbin-Warson. Prin metoda grafic se construiete corelograma trecndu-se pe axa OX valorile variabilei rezultative

    yi, iar pe axa OY valorile variabilei reziduale:

    Distribuia erorilor este oscilant, adic nu avem alternativ sistematic sub form de dini de

    fierstru, deci putem accepta ipoteza c erorile sunt independente, adic nu sunt autocorelate. Testarea ipotezei cu ajutorul testului Durbin-Watson: - se stabilete ipoteza nul:

    H0: variabila rezidual nu este autocorelat. - se stabilete ipoteza alternativ:

    H1: variabila rezidual este autocorelat. - se calculeaz testul Durbin-Watson:

    -40

    -30

    -20

    -10

    0

    10

    20

    30

    40

    0 10 20 30 40 50 60 70 80

    vari

    abila

    re

    zid

    ual

    Venitul (mii euro) x

    -40,0

    -30,0

    -20,0

    -10,0

    0,0

    10,0

    20,0

    30,0

    40,0

    0 50 100 150 200

    vari

    abila

    rez

    idua

    l

    Taxele (euro) y

  • 48,1

    26,5040

    87,7508

    u

    uu

    dn

    1i

    2i

    n

    1i

    21ii

    calc

    Pentru a efectua calculul lui d vom prezenta rezultatele intermediare n urmtorul tabel:

    iu 1iu 21ii uu 2i

    u

    1,18

    -19,32

    -14,32

    19,43 3,79

    -11,07

    0,77

    8,82

    -2,17

    -10,86

    17,03 24,68

    8,93

    3,58

    6,94

    -10,86

    -8,96

    -29,47 -22,07

    33,94

    -

    1,18

    -19,32

    -14,32 19,43

    3,79

    -11,07

    0,77

    8,82

    -2,17

    -10,86 17,03

    24,68

    8,93

    3,58

    6,94

    -10,86

    -8,96 -29,47

    -22,07

    -

    420,19

    25,04

    1138,90 244,71

    220,80

    140,30

    64,86

    120,79

    75,47

    777,77 58,47

    248,14

    28,63

    11,29

    317,00

    3,62

    420,66 54,81

    3137,41

    1,38

    373,21

    204,94

    377,43 14,34

    122,53

    0,60

    77,86

    4,71

    117,88

    289,97 608,95

    79,70

    12,81

    48,16

    118,04

    80,25

    868,48 486,93

    1152,10

    7508,87 5040,26

    - se compar dcalc cu cele dou valori d1 i d2 din tabelul testului Durbin-Watson pentru pragul de

    semnificaie = 0,05 pentru numrul variabilelor exogene k = 1 i pentru n = 20: d1 = 1,20 d2 = 1,41

    2calc2 d4dd

    59,248,141,1 erorile sunt independente. Tot pentru testarea ipotezei privind autocorelarea erorilor poate fi utilizat i coeficientul de

    autocorelaie de ordinul I:

    14,026,5040

    41,709

    u

    uu

    rn

    1i

    2i

    n

    1i1ii

    1

    Deoarece r1 este apropiat de 0 putem aprecia c valorile variabilei reziduale nu sunt autocorelate, adic sunt independente.

    c4) Valorile variabilei reziduale sunt normal distribuite:

    Pentru a testa aceast ipotez se folosete metoda grafic (corelograma). Pe axa OX se reprezint

    valorile ajustate iy , iar pe axa OY se reprezint valorile variabilei reziduale:

  • Se observ c valorile reziduale ui se nscriu n banda construit, deci putem accepta ipoteza de

    normalitate a erorilor pentru un prag de semnificaie de = 0,05.

    d) Testarea semnificaiei parametrilor modelului

    Testarea semnificaiei parametrului 0: - se stabilete ipoteza nul:

    H0: 0 = 0 - se stabilete ipoteza alternativ:

    H1: 0 0 - se calculeaz testul t:

    15,082,41

    4201,6

    s

    at

    0a

    0

    68,1449

    75,5119

    53,3199101,280

    xx

    x

    ss

    i

    2i

    i

    2i

    2u

    2a0

    01,280

    18

    26,5040

    2n

    yy

    s i

    2ii

    2u

    - se compar tcalc cu t/2; n-2 = t0,05; 15 = 2,101

    Deoarece 18;05,0calc tt este foarte probabil ca estimatorul a0 s provin dintr-o colectivitate cu 0

    = 0 deci 0 nu este diferit semnificativ de zero.

    Testarea semnificaiei parametrului 1:

    - se stabilete ipoteza nul: H0: 1 = 0

    - se stabilete ipoteza alternativ: H1: 1 0 - se calculeaz testul t:

    99,923,0

    2997,2

    s

    at

    1a

    1

    05,0

    75,5119

    01,280

    xx

    ss

    20

    1i

    2i

    2u2

    a1

    - se compar tcalc cu t/2; n-2 = t0,05; 18 = 2,101

    Deoarece 18;05,0calc tt apreciem c parametrul 1 este semnificativ statistic.

    -40,0

    -30,0

    -20,0

    -10,0

    0,0

    10,0

    20,0

    30,0

    40,0

    0,0 30,0 60,0 90,0 120,0 150,0 180,0

    vari

    abila

    re

    zid

    ual

    Y

    + t0,05; 18su

    - t0,05; 18su

  • Intervalul de ncredere pentru parametrul 1 este:

    11 a2n;2/11a2n;2/1stasta

    23,0101,22997,223,0101,22997,2 1

    78293,281647,1 1

    e) Testarea validitii modelului de regresie: - se stabilete ipoteza nul: H0: modelul nu este valid. - se stabilete ipoteza alternativ: H1: modelul este valid; - se calculeaz testul F:

    69,9601,280

    18,27076

    s

    sF

    2u

    2x

    18,27076

    1

    18,27076

    k

    yy

    s

    20

    1i

    2i

    2x

    - se compar Fcalc cu F; k; n-k-1 = F0,1; 1; 18 = 8,28

    18;1;1,0calc F69,96F se respinge ipoteza nul i se accept alternativa, deci modelul este

    valid.

    f) Intensitatea legturii dintre cele dou variabile se apreciaz cu ajutorul: - coeficientului de corelaie; - raportului de corelaie.

    Coeficientul de corelaie:

    918,0

    yynxxn

    yxyxn

    r2

    ii

    i

    2i

    2

    ii

    i

    2i

    ii

    ii

    iii

    x/y

    Deoarece ry/x = 0,918 1, apreciem c ntre cele dou variabile exist o legtur liniar, direct, foarte puternic.

    Testarea semnificaiei coeficientului de corelaie pentru colectivitatea general:

    - se stabilete ipoteza nul: H0: = 0 ( nu este semnificativ statistic);

    - se stabilete ipoteza alternativ: H1: 0 ( este semnificativ statistic);

    - coeficientul de corelaie la nivelul colectivitii generale - se calculeaz testul t:

    82,9

    918,01

    18918,0

    r1

    2nrt

    22calc

    - se compar calct cu 878,2tt 18;1,02n;

    Deoarece 18;1,0calc tt respingem ipoteza nul i acceptm alternativa, deci coeficientul de corelaie

    este semnificativ statistic.

    Raportul de corelaie R:

    918,0

    44,32116

    26,50401

    yy

    yy

    1R

    1i

    2i

    1i

    2ii

    Deoarece R = ry/x, apreciem c ntre cele dou variabile exist, ntr-adevr, o legtur liniar. Testarea semnificaiei raportului de corelaie: - se stabilete ipoteza nul: H0: R nu este semnificativ statistic; - se stabilete ipoteza alternativ: H1: R este semnificativ statistic;

  • - se calculeaz testul F:

    5,94918,01

    918,0

    1

    18

    R1

    R

    k

    1knF

    2

    2

    2

    2

    calc

    - se compar calcF cu 28,8FF 18;1;1,01kn;k;

    Deoarece 18;1;1,0calc FF se respinge ipoteza nul i se accept alternativa, deci raportul de corelaie

    este semnificativ statistic.

    g)

    5679,85402997,24201,6y 1n euro (estimarea punctual)

    Pentru estimarea pe interval de ncredere vom avea:

    1n1n y1kn;2/1n1ny1kn;2/1nstyysty

    16,17t5679,85y16,17t5679,85 552,218;025,01n552,218;025,0

    59,294

    75,5119

    )655,3640(

    20

    1101,280

    xx

    xx

    n

    11ss

    2

    n

    1i

    2i

    21n2

    u2y 1n

    Deci, intervalul de ncredere pentru taxele pltite pentru un venit de 40 mii euro la nivelul populaiei

    este:

    )euro(36,129y)euro(77,41 1n

    Rezolvarea problemei cu ajutorul programului informatic EXCEL:

    Se selecteaz din meniul principal opiunea Tools, apoi Data Analysis, apoi Regression i se va deschide urmtoarea fereastr:

    i se obin urmtoarele rezultate:

  • SUMMARY OUTPUT

    Regression Statistics

    Multiple R 0.918184588

    R Square 0.843062937

    Adjusted R Square 0.834344212

    Standard Error 16.73363108

    Observations 20

    ANOVA

    df SS MS F Significance F

    Regression 1 27076.17814 27076.18 96.69566 1.15588E-08

    Residual 18 5040.259363 280.0144

    Total 19 32116.4375

    Coefficients Standard Error t Stat P-value Lower 95% Upper 95%

    Intercept -6.4201 9.3533 -0.6864 0.501209 -26.0708 13.23058

    X Variable 1 (Venitul) 2.2996 0.2338 9.8334 1.16E-08 1.80836 2.791023

    RESIDUAL OUTPUT

    Observation Predicted Y Residuals

    1 33,82 1,18 2 79,82 -19,32 3 102,82 -14,32 4 51,07 19,43 5 121,21 3,79 6 74,07 -11,07 7 29,23 0,77

    8 21,18 8,82 9 67,17 -2,17

    10 90,86 -10,86 11 57,97 17,03 12 45,32 24,68 13 51,07 8,93 14 61,42 3,58 15 143,06 6,94 16 110,86 -10,86 17 83,96 -8,96 18 69,47 -29,47 19 97,07 -22,07

    20 166,06 33,94

  • Explicitarea datelor din tabelele de mai sus:

    SUMMARY OUTPUT

    Regression Statistics

    Multiple R

    Raportul de corelaie (R) 0.918184588

    n

    1i

    2i

    n

    1i

    2ii

    n

    1i

    2i

    n

    1i

    2i

    yy

    yy

    1

    yy

    yy

    x,Ry

    R Square

    Coeficientul (gradul ) de determinaie

    0.843062937

    n

    1i

    2i

    n

    1i

    2i

    2y

    2e

    2y

    2x/y2

    yy

    yy

    1R

    Adjusted R Square

    Valoarea ajustat a coeficientului de determinaie

    0.834344212

    1n/

    1kn/1R

    2y

    2u2

    Standard Error

    Abaterea medie ptratic a erorilor n eantion

    16.73363108

    2n

    yy

    2ns

    n

    1i

    2ii2

    uu

    Observations

    Numrul observaiilor (n) 20

    Tabel 2.

    ANOVA

    Sursa

    variaiei

    df

    (grade de

    libertate)

    SS (variana) (suma ptratelor)

    MS =SS/df

    (media ptratelor) (dispersia

    corectat)

    F Significance

    F

    Regression

    (variaia datorat regresiei)

    1 (k) SSR=

    n

    iix yy

    1

    22 =

    27076.17814 k

    s xx

    22 =

    27076.18

    Testul

    F=96.69566

    F=2

    xs /2

    us

    1.15588E-08< 0.05

    (resping H0 model valid)

    Residual

    (variaia rezidual)

    18 (n-k-1) SSE=

    n

    iiiu yy

    1

    22 =

    5040.259363 1

    22

    kns uu =

    280.0144

    Total

    (variaia total)

    19 (n-1)

    SST=

    n

    1i

    2

    i2y yy =

    32116.4375 SST=SSR + SSE

    1

    2

    2

    ns

    y

    y

    Tabel 3.

    Coefficients

    (Coeficieni)

    Standard Error

    (Abaterea medie

    patratic) t Stat P-value Lower 95% Upper 95%

    Limita inf. a

    intervalului de

    ncredere

    Limita sup. a

    intervalului de

    ncredere

    Intercept

    (termenul

    liber)

    a0=

    -6.42014248 0a

    s =

    9.353374888 0a

    t =

    -0.6864 0.501209>0,05 -26.07086914 13.23058

    Venitul a1 =

    2.299690151 1a

    s =

    0.233865325 1at =

    9.833395 1.16E-08

  • Tabel 4. RESIDUAL OUTPUT

    Observation Predicted iy

    taxe pltite

    Residuals

    ii yy

    1 33,82 1,18

    2 79,82 -19,32

    3 102,82 -14,32

    4 51,07 19,43

    5 121,21 3,79

    6 74,07 -11,07

    7 29,23 0,77

    8 21,18 8,82

    9 67,17 -2,17

    10 90,86 -10,86

    11 57,97 17,03

    12 45,32 24,68

    13 51,07 8,93

    14 61,42 3,58

    15 143,06 6,94

    16 110,86 -10,86

    17 83,96 -8,96

    18 69,47 -29,47

    19 97,07 -22,07

    20 166,06 33,94

    Interpretare rezultate din tabelul SUMMARY OUTPUT:

    R= 0.918184588 arat c ntre impozitele pltite i venitul anual, exist o legtur puternic. R2=0.843062937 arat c 84% din variaia impozitelor este explicat de venit

    Abaterea medie patratica a erorilor us = 16.73363108. n cazul n care acest indicator este zero nseamn c

    toate punctele sunt pe dreapta de regresie.

    Interpretare rezultate din tabelul ANOVA:

    n acest tabel este calculat testul F pentru validarea modelului de regresie. ntruct F=96.69566, iar Significance F (pragul de semnificaie) este 1.15588E-08 (valoare mai mica de 0.05) atunci modelul de regresie construit este valid i poate fi utilizat pentru analiza dependenei dintre cele dou variabile.

    Interpretarea rezultatelor din tabelul 4:

    Intercept este termenul liber, deci coeficientul a0 este -6.42014248. Termenul liber este punctul n care variabila explicativ (factorial) este 0. Deci impozitele care ar trebui pltite, dac nu s -ar obine nici un venit.

    Deoarece 0a

    t = -0.6864 iar pragul de semnificaie P-value este 0.501209>0,05 nseamn c acest coeficient

    este nesemnificativ. De altfel faptul c limita inferioar a intervalului de ncredere ( -26.07086914 013.23058) pentru acest parametru este negativ, iar limita superioar este pozitiv arat c parametrul din colectivitatea general este aproximativ zero.

    Coeficientul a1 este 2.299690151, ceea ce nsemn c la creterea venitului cu o mie euro, taxele vor crete cu

    2,299690151 euro. Deoarece 1at = 9.833395 iar pragul de semnificaie P-value este 1.16E-08