REGRESIA LINIARĂ ŞI CORELAŢIA - umfiasi.ro de Farmacie... · Tabelul 2.10 2 – Analiza...

1

REGRESIA LINIARĂ ŞI CORELAŢIA

Sunt situaţii în care ne interesează să estimăm intensitatea legăturii dintre

două sau mai multe variabile, sau să găsim o relaţie deci o formă analitică

matematică care să exprime o variabilă funcţie de altele implicate în procesul

studiat.

Exemplu: Am putea fi interesaţi în a verifica existenţa unei relaţii între

înălţimea tatălui (nu a tatălui adoptiv) şi cea a copilului. Am putea căuta o

legătură între indicele de masă corporală şi presiunea arterială (pentru

persoane de vârsta a treia), căutăm să estimăm dependenţa între efortul fizic

şi frecvenţa cardiacă, poate acestea depind şi de vârstă, etc.

Regresia reprezintă expresia matematică ce permite estimarea unei variabile

funcţie de cel puţin o altă variabilă. Regresia ajută în determinarea relaţiei şi

este folosită în special în studii de predicţie.

Corelaţia exprimă puterea legăturii dintre două variabile (intensitatea relaţiei).

Atât prin regresie cât şi prin corelaţie putem determina dacă relaţia este direct

proporţională (creşterea variabilei 1 implică creşterea variabilei 2 ; scăderea

variabilei 1 implică scăderea variabilei 2), sau invers proporţională (creşterea

variabilei 1 duce la scăderea variabilei 2).

Regresia liniară

Termenul de regresie a fost introdus de matematicianul Galton.

Metoda constă în determinarea unei funcţii liniare (este cea mai simplă formă

de dependenţă) f(x) = y = a + bx, care să aproximeze calculul valorilor y prin

valorile x (y – este variabila dependentă, x – variabila independentă sau

predictor). Atât x cât şi y sunt variabile de tip continuu.

Metoda de calcul pentru parametrii dreptei de regresie constă în definirea unei

erori şi minimizarea acesteia.

Considerăm că avem două şiruri de date corespunzător variabilelor aleatoare

de interes X şi respectiv Y (caracterizate ca fiind distribuite normal sau

gausian).

2

În tabelul următor sunt prezentate cele două şiruri:

Dreapta de regresie

Dorim să determinăm parametrii a, b ce definesc dreapta de regresie:

f(x) = y = a + bx.

Pentru aceasta se foloseşte metoda celor mai mici pătrate, care constă în a

minimiza suma pătratelor erorilor dintre valorile yi (extrase din experiment) şi

valorile f(xi) calculate cu ajutorul formulei dreptei de regresie.

Se defineşte eroarea: iiiii yxbayxf )( .

Unele valori ale erorii i sunt pozitive, altele sunt negative, dar eroare există în

toate cazurile, atunci când i 0. Pentru a nu pierde această informaţie se va

folosi pătratul erorii.

Eroarea totală va fi formată din suma tuturor erorilor determinate de cele n

valori experimentale:

n

i

ii

n

i

i yxba1

2

1

2 .

Această sumă a pătratelor diferenţelor este pozitivă. Astfel, privind problema

cu necunoscutele a respectiv b, funcţia de gradul doi va admite un minim (fiind

suma pătratelor, aceasta va fi intotdeauna pozitivă).

X: x1 x2 …. xn

Y: y1 y2 … yn

y = 0.628x + 1.209 R² = 0.8573

REGRESIE LINIARĂ

(xi,yi)

tg = b = 0,628

3

Eroarea totală trebuie minimizată pentru a obţine o aproximare cât mai corectă

a valorilor lui y in funcţie de x.

Condiţia este ca derivata in raport cu fiecare variabilă în parte să fie zero.

Obţinem astfel sistemul de ecuaţii:

.02

,02

0

0

0

0

1

1

1

2

1

2

n

iiii

n

iii

n

iii

n

iii

xyxba

yxba

b

yxba

a

yxba

b

a

)2(.0)(

)1(,0

2

1

1

1

iii

n

ii

n

iiin

iii

yxxbxa

XbYn

xby

ayxban

Înlocuim valoarea lui a din prima ecuaţie în a doua şi aflăm parametrul b.

011

2

1

i

n

ii

n

ii

n

ii yxxbxXbY . (3)

Ne folosim de formula: nXnn

x

x

n

iin

ii

1

1

. (4)

Înlocuim (4) în (3) şi avem:

011

22

n

iii

n

ii yxxbXnbXnY .

Extrăgând pe b obţinem:

n

ii

n

iii

xXn

yxYXn

b

1

22

1. (5)

Valoarea lui a se calculează conform celor demonstrate cu formula:

XbYa . (6)

În concluzie s-au dedus parametrii dreptei: y = a + bx.

4

Coeficienţii (parametrii) dreptei de regresie

Parametrul a reprezintă intersecţia dreptei de regresie cu axa YY’. Dacă x=0

atunci y = a.

Dacă avem mai multe cazuri cu x=0, atunci valoarea lui a va fi egală cu media

tuturor valorilor pentru care x este 0.

Trebuie avut în vedere că nu în orice situaţie este posibilă şi are sens această

intersecţie cu axa YY’. De exemplu, pentru predictorul X, reprezentând

presiunea sistolică sau temperatura corpului, valoarea 0 nu are interpretare în

cazuri normale (studiem pacienţii deci persoane în viaţă).

Parametrul b reprezinta panta dreptei (tangenta unghiului dintre dreaptă şi linia

orizontală).

Dacă valoarea lui b este pozitivă, atunci dependenţa între cele două variabile

aleatoare este direct proporţională. Astfel, o creştere a variabilei x, va duce la o

creştere a variabilei y, respectiv o scădere a variabilei x, va conduce la o

scădere a variabilei y.

Dacă valoarea parametrului b este negativă, atunci dependenţa între cele două

variabile aleatoare este invers proporţională. Variaţia într-un anume sens a

variabilei x, va duce la o variaţie în sens contrar a variabilei y.

Cazul în care nu există dependenţă între cele două variabile x, respectiv y, se

obţine pentru b=0. Oricât am modifica variabila x, atunci y va rămâne constant

y = a.

Panta dreptei reprezintă variaţia variabilei dependente y, pentru o creştere sau

descreştere a predictorului (x) cu o unitate.

Avem formula dreptei de regresie: y = a + bx.

Creştem valoarea lui x cu o unitate, 1 xx .

Noul y va fi y1 = a + b (x+1) = a + bx + b.

Se observă că diferenţa dintre y şi y1 este egală cu b.

5

Testarea modelului prin metoda analizei varianţei (ANOVA)

Determinarea coeficienţilor dreptei de regresie a permis crearea unui model

matematic ce exprimă legătura între cele două variabile.

Este important să putem verifica dacă modelul creat este bun în sensul

aproximării cât mai corecte a datelor.

Analiza varianţei (ANOVA) este o metodă statistică ce permite evaluarea

performanţei modelului determinat. Variaţia unei variabile aleatoare Y este

măsurată prin abaterea standard, dar poate fi folosită şi deviaţia faţă de

valoarea medie YYi .

Variaţia totală poate fi exprimată folosind suma pătratelor deviaţiilor astfel:

i

i YYSST2

(SST – Total Sum of Square). (7)

Facem apel la valorile estimate prin modelul regresional propus, notate

ii XbaY ˆ .

Exprimăm astfel: YYYYYY iiii ˆˆ .

Ridicând la pătrat expresia alăturată se poate arăta că

i

i

i

ii YYYYSST22

ˆˆ .

Primul termen: i

ii YY2

ˆ reprezintă variaţia datelor în jurul dreptei de

regresie. Această variaţie nu este dorită, fiind considerată o eroare. Este notată

SSE (Error Sum of Square).

Al doilea termen, i

i YY2

ˆ exprimă deviaţiile faţă de medie ale valorilor

estimate. Este suma diferenţelor faţă de medie ale valorilor determinate prin

regresie. Acestea sunt exprimate de modelul creat. Este notat prescurtat SSR

(Regression Sum of Square).

Obţinem astfel: SST = SSE + SSR.

6

Raportul notat SST

SSRr 2

se numeşte coeficient de determinare şi reprezintă

pătratul coeficientului de corelaţie ce va fi discutat într-un capitol următor.

Definirea mediilor sumelor pătratelor diferenţelor ce exprimă eroarea şi

regresia se realizează prin determinarea gradelor de libertate.

Gradele de libertate notate df (degree of freedom) exprimă dimensiunea

necesară unui spaţiu de lucru. Este numărul de date independente.

De exemplu, daca avem o condiţie de minimizare a erorii, atunci din numărul

total de date n, condiţia de minim va scădea gradele de libertate cu 1. Gradele

de libertate definesc un parametru aparţinând unei statistici (statistica Fisher de

exemplu).

Avem astfel: SSR este caracterizată de df=1, SSE de df=n-2 şi SST de df=n-1.

Putem calcula mediile:

1

SSRMSR ,

2

n

SSEMSE . (8)

Raportul notat MSE

MSRF este o statistică de tip Fisher, care prin nivelul de

semnificaţie determinat (notat p), ne dă informaţia cheie asupra modelului

regresional determinat.

Dacă valoarea semnificaţiei este p<0,05 , deci sub 5%, atunci modelul liniar

dezvoltat este util in predicţie.

Iată un exemplu în care tabelul de analiză a varianţei în situaţia regresiei liniare

este realizat prin softul de statistică (poate fi SPSS, Statistica sau în Ms Excel).

Tabelul 2.10 2 – Analiza varianţei ANOVA pentru modelul regresional liniar.

ANOVA

df SS MS F Significance F

Regression 1 130.5375 130.5375 3.381801 0.087223337

Residual (Error) 14 540.4 38.6

Total 15 670.9375

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%

Intercept 69.1333333 10.4099 6.641117 1.11E-05 46.80632795 91.46034

Birthweigh 0.15733333 0.085555 1.838967 0.087223 -0.02616446 0.340831

Eroarea sau reziduul au în acest context aceeaşi semnificaţie.

7

În linia corespunzătoare regresiei avem calculate valorile SSR, MSR şi gradele

de libertate. Cu cât această valoare SSR va fi mai mare cu atât modelul nostru

va explica mai bine variaţiile prezente.

Pe rândul următor sunt datele cu privire la suma erorilor (reziduu), SSE, MSE.

Cu cât acestea sunt mai mici cu atât şi erorile sistemului sunt mai mici iar

modelul prezintă un grad mai mare de încredere.

În continuare, se prezintă valoarea statisticii Fisher şi corespunzător nivelul de

semnificaţie.

Dacă avem p sub 0,05 deducem că dreapta de regresie aproximează bine datele

noastre.

Dacă avem p calculat peste 0,05 dar sub 0,1 (10%), putem deduce că variabila

independentă are o anumită influenţă asupra celei dependente dar nu în

totalitate. Putem adăuga date noi sau cerceta şi influenţa altor variabile în

sistem.

În final, avem datele necesare modelului, deci constanta a = Yintercept şi panta b,

ce are valoarea 0,157 pentru datele prezente studiate.

Aşa cum am calculat şi utilizat statistica F şi nivelul de semnificaţie

corespunzător întregului sistem, putem calcula pentru coeficienţii dreptei de

regresie a şi b, statistica t şi nivelul de semnificaţie. Acestea ne ajută la

verificarea diferenţei faţă de valoarea nulă.

De asemenea, sunt prezente limitele minimă şi maximă de variaţie a acestor

coeficienţi cu încredere de 95%. Dacă aceste limite cuprind valoarea 0 (zero),

atunci nu există semnificaţie statistică şi ipoteza nulă este acceptată.

Observaţii

1 – În cazurile practice, variabilele x şi y pot să nu fie distribuite normal. Acest

neajuns poate fi corectat prin aplicarea unor transformări cum ar fi logaritmarea pentru

a transforma distribuţia în forma gausiană. Evident, vom avea grijă la interpretarea

corectă a rezultatelor (deci a pantei şi a termenului liber).

2 – Atât a cât şi b sunt deduse din eşantioane. Aceşti parametri aşadar, reprezintă

variabile aleatoare. Astfel, se poate construi un interval de încredere pentru cele două

necunoscute a şi b.

Prin estimarea parametrilor a şi b se vor obţine pentru intervale simetrice

valorile limită: aaa 0 , respectiv bbb 0 .

8

Reprezentând grafic dreapta de regresie pentru cele 4 cazuri limită obţinem o

suprafaţă de regresie.

aaa min , aaa max .

bbtgb 1min , bbtgb 2max .

Reprezentarea grafică a suprafeţei de regresie

În acest caz unei valori xi îi va corespunde un interval de valori

maxmin , YYyi . Pentru x=0 intervalul coincide cu (amin, amax). Acest

interval este datorat tocmai estimărilor parametrilor dreptei de regresie.

Corelaţia

Noţiuni

Legătura dintre două variabile aleatoare, în care una dintre ele variază constant

(sau controlat), iar cealaltă variază aleator a fost descrisă de forma liniară a

dreptei de regresie.

Corelaţia caracterizează legătura dintre două variabile aleatoare X şi Y cu

repartiţii normale 2, xxN , respectiv 2, yyN . Densitatea de

probabilitate a funcţiei de repartiţie normală bivariată (având doi parametri) are

expresia:

2

12

1exp

12

1),(

x

xyxf x

yx

2

2y

y

y

y

x

xyyx

. (9)

În această formulă reprezintă coeficientul de corelaţie. Domeniul de variaţie

este cuprins între –1 şi 1, 1,1 . Practic, gradul de dependenţă dintre

cele două variabile aleatoare este definit de acest coeficient de corelaţie (se

notează cu ,,r” când este determinat din datele reale – conţine o anumită

eroare).

X

Y

amin

amax

y=a+bx

9

Dacă =0, atunci nu există dependenţă între cele două variabile aleatoare,

acestea fiind considerate independente.

Calculând densitatea de probabilitate obţinem:

2

2

2

2

22

2

1

2

1),(0 y

y

x

xy

y

x

x

eeyxf

,

)()(),( yfxfyxf .

Interpretare

Dacă 0 , atunci cele două variabile aleatoare sunt dependente stocastic

(aleator).

Pentru >0 spunem că cele două variabile aleatoare sunt dependente direct

proporţional. Cu cât se apropie de valoarea 1 cu atât dependenţa este mai

puternică.

Dacă <0, atunci cele două variabile aleatoare variază invers proporţional şi

legătura este cu atât mai puternică cu cât coeficientul de corelaţie este mai

apropiat de valoarea –1.

Practic, valoarea la pătrat a corelaţiei calculate r2 (amintim că se notează cu r

deoarece este determinat din datele reale, deci reprezintă o aproximare)

exprimă procentul din variaţia variabilei Y ce poate fi explicată de variaţia

variabilei X. În analiza regresiei şi corelaţiei se prezintă această valoarea a

coeficientului de determinare. Amintim formula de calcul din analiza

varianţei: SST

SSRr 2

.

Graficele de mai jos indică o legătură puternică, respectiv slabă, între două

variabile aleatoare.

Tipuri de legături între seturi de date

Y Y

X X

Legătură puternică Legătură slabă

10

Calculul coeficientului de corelaţie se realizează prin deducerea mediei

produselor abaterilor normate:

y

y

x

xyx

M

.

Prelucrând formula precedentă se ajunge la:

2

1

2

1

yi

n

i

xi

n

i

yixi

yx

yx

.

Această formulă de calcul poate fi aplicată doar în cazul a două variabile

aleatoare repartizate normal.

Testarea coeficientului de corelaţie

Este important să putem afla dacă variaţia cu încredere de 95% a acestui

coeficient cuprinde sau nu valoarea nulă. Cu alte cuvinte, trebuie să răspundem

la întrebarea privind diferenţa semnificativă a coeficientului de corelaţie faţă

de valoarea nulă.

Ştim că în orice experiment sau proces intervine factorul de tip aleator ce

implică existenţa unei variaţii în valoarea indicatorilor statistici. Dorim să

vedem dacă această variaţie implicită este depăşită în cazul nostru, ceea ce ar

indica existenţa reală a unui efect pe care de fapt îl căutăm şi îl studiem.

Se demonstrează că următoarea funcţie respectă o distribuţie de tip t (Student):

21

2

r

nrt

. (10)

Verificăm ipoteza nulă H0: 0 prin distribuţia menţionată, ştiind că este

caracterizată de n-2 grade de libertate (n este numărul de date din eşantion –

volumul eşantionului).

Dacă valoarea calculată pcalculat este mai mică decât 5%, avem semnificaţie

statistică, deci coeficientul de corelaţie este diferit de 0, antrenând existenţa

unei anumite relaţii între variabile.

11

A doua metodă de interpretare face apel efectiv la valoarea statisticii t calculate

cu formula 10. Dacă această valoare este mai mare ca cea tabelată,

corespunzătoare unui număr de grade de libertate n-1 şi unei încrederi

bilaterale de 95%, atunci avem semnificaţie statistică.

Exemplu

Pentru datele a căror analiză ANOVA a fost prezentată anterior se obţine

r = 0,441 iar volumul eşantionului este n=16 valori.

Calculăm valoarea statisticii t , 838,11945,01

216441,0

t .

Din datele tabelate ale statisticii t, pentru încredere bilaterală 95%, deci risc

%5 şi n-2=14 grade de libertate obţinem valoarea 145,214,

205,0

t .

Valoarea calculată 1,838 este mai mică decât cea tabelată 2,145 ceea ce denotă

că variaţia întâlnită se încadrează în domeniul acceptat, deci nu există diferenţă

semnificativă statistic.

Cu alte cuvinte putem afirma cu încredere de 95% că valoarea coeficientului

de corelaţie poate fi nulă. Aceasta înseamnă că relaţia exprimată prin valoarea

punctuală r = 0,441 este rezultatul hazardului.

Observaţii asupra regresiei liniare şi corelaţiei

Presupunem că avem două seturi de date X: x1, x2, … , xn respectiv Y: y1, y2,

…yn.

Calculând regresia y = f(x) = a + bx obţinem anumite valori pentru

coeficienţii a şi b. Dacă extragem pe x funcţie de y avem:

ybb

ax

1. (11)

Calculând regresia x = g(y) = a’ +b’y (12) şi comparând cu relaţia (11) cele

două drepte pot sau nu coincide.

Deducerea coeficienţilor a,b, respectiv a’, b’ diferă substanţial, deoarece în

primul caz s-a pus condiţia ca suma pătratelor erorilor pe direcţia OY să fie

minimă, iar în al doilea caz condiţia a fost ca suma pătratelor erorilor pe OX să

fie minimă.

12

Corelaţia exprimă tocmai această asemănare dintre cele două drepte de

regresie.

Notăm cu A dreapta y=f(x), respectiv cu B dreapta x=g(y).

Dacă dreptele se suprapun atunci =1, iar dependenţa aleatoare devine

deterministă (unui punct pe x îi corespunde un singur punct pe y) şi dreptele de

regresie au alura primei bisectoare. Astfel, cunoscând pe x, putem determina pe

y cu o precizie bună în funcţie de datele din eşantion.

Dacă = -1 atunci dreptele se suprapun dar au forma bisectoarei a doua, iar

dependenţa este invers proporţională. Şi în acest caz, legătura este de tip

determinist.

În general dreptele pot sau nu să se apropie mai mult sau mai puţin,

demonstrând dependenţa datelor. Prezentăm mai jos în patru grafice succesive

cele relatate.

Tipuri de dependenţe între regresie şi corelaţie.

A , B A B

Dependenţă deterministă

direct proporţională

Dependenţă stohastică

direct proporţională

A B A , B

Dependenţă deterministă

invers proporţională

Dependenţă stohastică

invers proporţională

13

Dacă valoarea coeficientului de corelaţie este 0, atunci cele două drepte fac un

unghi de 900 (sunt perpendiculare).

Este normal ca legătura dintre cele două drepte să determine şi semnul

coeficientului de corelaţie.

Dacă din y=f(x) obţinem o pantă negativă, atunci tot negativă va fi şi panta

obţinută din calculul x=g(y) şi tot negativ va fi şi coeficientul de corelaţie

(evident legătura rămâne valabilă şi pentru cazul pantei pozitive).

REGRESIA LINIARĂ ŞI CORELAŢIA - umfiasi.ro de Farmacie... · Tabelul 2.10 2 – Analiza...

Documents

Transcript of REGRESIA LINIARĂ ŞI CORELAŢIA - umfiasi.ro de Farmacie... · Tabelul 2.10 2 – Analiza...