7_regresie simpla

7
REGRESIA LINIARĂ SIMPLĂ 1. Introducere Procesul de determinare a unei ecuaţii matematice care să se potrivească cel mai bine cu datele observate este cunoscut sub denumirea de analiză de regresie. Sir Francis Galton a fost cel care a introdus în 1889 cuvântul regresie pentru a descrie anumite relaţii genetice. Tehnica regresiei este una dintre cele mai populare instrumente statistice prin care se studiază dependenţa unei variabile aleatoare în raport cu o altă variabilă sau în raport cu mai multe variabile. În funcţie de această dependenţă, există diferite modele de regresie: simplă, multiplă, liniară, neliniară, etc. În cele ce urmează vom examina regresia liniară simplă şi vom creea un model ce poate fi folosit în scopuri predictive.

description

regresie simpla

Transcript of 7_regresie simpla

  • REGRESIA LINIAR SIMPL

    1. Introducere

    Procesul de determinare a unei ecuaii matematice care s se potriveasc cel mai

    bine cu datele observate este cunoscut sub denumirea de analiz de regresie.

    Sir Francis Galton a fost cel care a introdus n 1889 cuvntul regresie pentru a

    descrie anumite relaii genetice. Tehnica regresiei este una dintre cele mai populare

    instrumente statistice prin care se studiaz dependena unei variabile aleatoare n

    raport cu o alt variabil sau n raport cu mai multe variabile.

    n funcie de aceast dependen, exist diferite modele de regresie: simpl,

    multipl, liniar, neliniar, etc. n cele ce urmeaz vom examina regresia liniar

    simpl i vom creea un model ce poate fi folosit n scopuri predictive.

  • 2

    2. Studiul problemei

    n cele ce urmeaz vom nota prin y o variabil aleatoare ce urmeaz a fi dedus,

    numit variabil dependent (sau de rspuns) i prin x o variabil independent

    utilizat pentru a prezice y .

    Considerm n observaii de forma 11 y,x , 22 y,x , , nn y,x care pot fi prezentate i sub forma unui tabel cum este cel de mai jos

    X 1x 2x nx

    Y 1y 2y ny

    O tehnic descriptiv preliminar pentru determinarea formei relaiei dintre x i

    y este diagrama de dispersie. Aceasta este desenat prin trasarea datelor observate

    n coordonate carteziene. Punctele astfel obinute ofer o indicaie asupra existenei

    unei relaii liniare sau neliniare ntre variabilele studiate. n momentul n care din

    diagrama de dispersie se deduce existena unei relaii ntre cele dou variabile, se

    poate trece la determinarea modelului matematic care aproximeaz cel mai bine

    datele msurate. Evident c modelul regresiei liniare presupune existena unei

    dependene liniare ntre variabilele analizate.

  • 3

    n continuare vom presupune c nu exist erori de msurare pentru valorile ix ,

    dar imposibilitatea determinrii unui model exact pentru un fenomen natural trebuie

    cuantificat cu ajutorul unei erori ntmpltoare , despre care vom presupune c va

    avea o distribuie de probabilitate cu media egal cu zero.

    2.1. Definiie. Prin model de regresie liniar simpl relativ la variabilele y i x se

    nelege o ecuaie de forma

    xy 10

    unde 0 i 1 sunt parametrii necunoscui.

    Problema noastr este una de determinare a unor estimatori buni 0 , respectiv 1 ,

    pentru parametrii 0 i 1 , cu ajutorul crora s putem construi ecuaia de regresie

    (predicie)

    xy 10 .

    S remarcm c n acest fel, pentru fiecare valoare observat )y,x( ii , se obine

    valoarea estimat

    i10i xy

  • 4

    2.2. Definiie. Se numete valoare i-rezidual diferena dintre valoarea observat

    i valoarea prezis

    i10iiii xyyye .

    Suma ptratelor valorilor i-reziduale pentru cele n observaii este dat de

    n

    1i

    2

    i10i

    n

    1i

    2

    i xyeSVR

    Metoda celor mai mici ptrate presupune determinarea estimatorilor 0 i 1 n aa

    fel nct suma ptratelor valorilor i-reziduale SVR s fie minim. Atunci

    0

    SVR

    0

    SVR

    1

    0

  • 5

    Dac inem cont c

    n

    1i

    i10

    n

    1i

    i

    n

    1i

    i10i

    n

    1i

    2

    i10i

    00

    xny2xy2xy

    SVR

    i

    n

    1i

    2

    i1

    n

    1i

    i0

    n

    1i

    ii

    n

    1i

    ii10i

    n

    1i

    2

    i10i

    11

    xxyx2xxy2xy

    SVR

    se obine sistemul

    n

    1i

    ii

    n

    1i

    2

    i1

    n

    1i

    i0

    n

    1i

    i

    n

    1i

    i10

    yxxx

    yxn

    cu necunoscutele 0 i 1 .

  • 6

    Pentru rezolvarea acestui sistem, considerm matricile

    n

    2

    1

    y

    y

    y

    Y

    ,

    n

    2

    1

    x1

    x1

    x1

    X

    i

    1

    0

    i dac notm cu Xt transpusa matricii X , observm c

    n

    1i

    2

    i

    n

    1i

    i

    n

    1i

    i

    n

    2

    1

    n21

    t

    xx

    xn

    x1

    x1

    x1

    xxx

    111XX

    i

    n

    1i

    ii

    n

    1i

    i

    n

    2

    1

    n21

    t

    yx

    y

    y

    y

    y

    xxx

    111XY

    .

    Prin urmare sistemul obinut este echivalent cu ecuaia matriceal

    XYXX tt

    care are soluia

    XYXX t1t .

  • 7

    3. Exemplu

    n continuare vom prezenta un exemplu de utilizare a metodei prezentate mai

    inainte. Ne propunem s determinm ecuaia de regresie pentru datele prezentate n

    tabelul urmtor:

    Tabelul 3.1

    X -3 -2 -1 0 2 5 6 8 11 12

    Y -9 -7 -5 -4 2 6 9 13 21 20

    Pentru a rezolva problema, vom considera matricile

    20

    21

    13

    9

    6

    2

    4

    5

    7

    9

    Y i

    121

    111

    81

    61

    51

    21

    01

    11

    21

    31

    X

    Remarcm c

    40838

    3810XXt ,

    709

    46XYt i

    0038.00144.0

    0144.01548.0XX

    1t .

    Prin urmare

    1

    0t1t

    0266.2

    1009.3

    709

    46

    0038.00144.0

    0144.01548.0XYXX .

    Ecuaia de regresie cerut este:

    x0266.21009.3y