REGRESIA LINIARĂ ŞI CORELAŢIA - umfiasi.ro de Farmacie... · Tabelul 2.10 2 – Analiza...
Transcript of REGRESIA LINIARĂ ŞI CORELAŢIA - umfiasi.ro de Farmacie... · Tabelul 2.10 2 – Analiza...
1
REGRESIA LINIARĂ ŞI CORELAŢIA
Sunt situaţii în care ne interesează să estimăm intensitatea legăturii dintre
două sau mai multe variabile, sau să găsim o relaţie deci o formă analitică
matematică care să exprime o variabilă funcţie de altele implicate în procesul
studiat.
Exemplu: Am putea fi interesaţi în a verifica existenţa unei relaţii între
înălţimea tatălui (nu a tatălui adoptiv) şi cea a copilului. Am putea căuta o
legătură între indicele de masă corporală şi presiunea arterială (pentru
persoane de vârsta a treia), căutăm să estimăm dependenţa între efortul fizic
şi frecvenţa cardiacă, poate acestea depind şi de vârstă, etc.
Regresia reprezintă expresia matematică ce permite estimarea unei variabile
funcţie de cel puţin o altă variabilă. Regresia ajută în determinarea relaţiei şi
este folosită în special în studii de predicţie.
Corelaţia exprimă puterea legăturii dintre două variabile (intensitatea relaţiei).
Atât prin regresie cât şi prin corelaţie putem determina dacă relaţia este direct
proporţională (creşterea variabilei 1 implică creşterea variabilei 2 ; scăderea
variabilei 1 implică scăderea variabilei 2), sau invers proporţională (creşterea
variabilei 1 duce la scăderea variabilei 2).
Regresia liniară
Termenul de regresie a fost introdus de matematicianul Galton.
Metoda constă în determinarea unei funcţii liniare (este cea mai simplă formă
de dependenţă) f(x) = y = a + bx, care să aproximeze calculul valorilor y prin
valorile x (y – este variabila dependentă, x – variabila independentă sau
predictor). Atât x cât şi y sunt variabile de tip continuu.
Metoda de calcul pentru parametrii dreptei de regresie constă în definirea unei
erori şi minimizarea acesteia.
Considerăm că avem două şiruri de date corespunzător variabilelor aleatoare
de interes X şi respectiv Y (caracterizate ca fiind distribuite normal sau
gausian).
2
În tabelul următor sunt prezentate cele două şiruri:
Dreapta de regresie
Dorim să determinăm parametrii a, b ce definesc dreapta de regresie:
f(x) = y = a + bx.
Pentru aceasta se foloseşte metoda celor mai mici pătrate, care constă în a
minimiza suma pătratelor erorilor dintre valorile yi (extrase din experiment) şi
valorile f(xi) calculate cu ajutorul formulei dreptei de regresie.
Se defineşte eroarea: iiiii yxbayxf )( .
Unele valori ale erorii i sunt pozitive, altele sunt negative, dar eroare există în
toate cazurile, atunci când i 0. Pentru a nu pierde această informaţie se va
folosi pătratul erorii.
Eroarea totală va fi formată din suma tuturor erorilor determinate de cele n
valori experimentale:
n
i
ii
n
i
i yxba1
2
1
2 .
Această sumă a pătratelor diferenţelor este pozitivă. Astfel, privind problema
cu necunoscutele a respectiv b, funcţia de gradul doi va admite un minim (fiind
suma pătratelor, aceasta va fi intotdeauna pozitivă).
X: x1 x2 …. xn
Y: y1 y2 … yn
y = 0.628x + 1.209 R² = 0.8573
REGRESIE LINIARĂ
(xi,yi)
tg = b = 0,628
3
Eroarea totală trebuie minimizată pentru a obţine o aproximare cât mai corectă
a valorilor lui y in funcţie de x.
Condiţia este ca derivata in raport cu fiecare variabilă în parte să fie zero.
Obţinem astfel sistemul de ecuaţii:
.02
,02
0
0
0
0
1
1
1
2
1
2
n
iiii
n
iii
n
iii
n
iii
xyxba
yxba
b
yxba
a
yxba
b
a
)2(.0)(
)1(,0
2
1
1
1
iii
n
ii
n
iiin
iii
yxxbxa
XbYn
xby
ayxban
Înlocuim valoarea lui a din prima ecuaţie în a doua şi aflăm parametrul b.
011
2
1
i
n
ii
n
ii
n
ii yxxbxXbY . (3)
Ne folosim de formula: nXnn
x
x
n
iin
ii
1
1
. (4)
Înlocuim (4) în (3) şi avem:
011
22
n
iii
n
ii yxxbXnbXnY .
Extrăgând pe b obţinem:
n
ii
n
iii
xXn
yxYXn
b
1
22
1. (5)
Valoarea lui a se calculează conform celor demonstrate cu formula:
XbYa . (6)
În concluzie s-au dedus parametrii dreptei: y = a + bx.
4
Coeficienţii (parametrii) dreptei de regresie
Parametrul a reprezintă intersecţia dreptei de regresie cu axa YY’. Dacă x=0
atunci y = a.
Dacă avem mai multe cazuri cu x=0, atunci valoarea lui a va fi egală cu media
tuturor valorilor pentru care x este 0.
Trebuie avut în vedere că nu în orice situaţie este posibilă şi are sens această
intersecţie cu axa YY’. De exemplu, pentru predictorul X, reprezentând
presiunea sistolică sau temperatura corpului, valoarea 0 nu are interpretare în
cazuri normale (studiem pacienţii deci persoane în viaţă).
Parametrul b reprezinta panta dreptei (tangenta unghiului dintre dreaptă şi linia
orizontală).
Dacă valoarea lui b este pozitivă, atunci dependenţa între cele două variabile
aleatoare este direct proporţională. Astfel, o creştere a variabilei x, va duce la o
creştere a variabilei y, respectiv o scădere a variabilei x, va conduce la o
scădere a variabilei y.
Dacă valoarea parametrului b este negativă, atunci dependenţa între cele două
variabile aleatoare este invers proporţională. Variaţia într-un anume sens a
variabilei x, va duce la o variaţie în sens contrar a variabilei y.
Cazul în care nu există dependenţă între cele două variabile x, respectiv y, se
obţine pentru b=0. Oricât am modifica variabila x, atunci y va rămâne constant
y = a.
Panta dreptei reprezintă variaţia variabilei dependente y, pentru o creştere sau
descreştere a predictorului (x) cu o unitate.
Avem formula dreptei de regresie: y = a + bx.
Creştem valoarea lui x cu o unitate, 1 xx .
Noul y va fi y1 = a + b (x+1) = a + bx + b.
Se observă că diferenţa dintre y şi y1 este egală cu b.
5
Testarea modelului prin metoda analizei varianţei (ANOVA)
Determinarea coeficienţilor dreptei de regresie a permis crearea unui model
matematic ce exprimă legătura între cele două variabile.
Este important să putem verifica dacă modelul creat este bun în sensul
aproximării cât mai corecte a datelor.
Analiza varianţei (ANOVA) este o metodă statistică ce permite evaluarea
performanţei modelului determinat. Variaţia unei variabile aleatoare Y este
măsurată prin abaterea standard, dar poate fi folosită şi deviaţia faţă de
valoarea medie YYi .
Variaţia totală poate fi exprimată folosind suma pătratelor deviaţiilor astfel:
i
i YYSST2
(SST – Total Sum of Square). (7)
Facem apel la valorile estimate prin modelul regresional propus, notate
ii XbaY ˆ .
Exprimăm astfel: YYYYYY iiii ˆˆ .
Ridicând la pătrat expresia alăturată se poate arăta că
i
i
i
ii YYYYSST22
ˆˆ .
Primul termen: i
ii YY2
ˆ reprezintă variaţia datelor în jurul dreptei de
regresie. Această variaţie nu este dorită, fiind considerată o eroare. Este notată
SSE (Error Sum of Square).
Al doilea termen, i
i YY2
ˆ exprimă deviaţiile faţă de medie ale valorilor
estimate. Este suma diferenţelor faţă de medie ale valorilor determinate prin
regresie. Acestea sunt exprimate de modelul creat. Este notat prescurtat SSR
(Regression Sum of Square).
Obţinem astfel: SST = SSE + SSR.
6
Raportul notat SST
SSRr 2
se numeşte coeficient de determinare şi reprezintă
pătratul coeficientului de corelaţie ce va fi discutat într-un capitol următor.
Definirea mediilor sumelor pătratelor diferenţelor ce exprimă eroarea şi
regresia se realizează prin determinarea gradelor de libertate.
Gradele de libertate notate df (degree of freedom) exprimă dimensiunea
necesară unui spaţiu de lucru. Este numărul de date independente.
De exemplu, daca avem o condiţie de minimizare a erorii, atunci din numărul
total de date n, condiţia de minim va scădea gradele de libertate cu 1. Gradele
de libertate definesc un parametru aparţinând unei statistici (statistica Fisher de
exemplu).
Avem astfel: SSR este caracterizată de df=1, SSE de df=n-2 şi SST de df=n-1.
Putem calcula mediile:
1
SSRMSR ,
2
n
SSEMSE . (8)
Raportul notat MSE
MSRF este o statistică de tip Fisher, care prin nivelul de
semnificaţie determinat (notat p), ne dă informaţia cheie asupra modelului
regresional determinat.
Dacă valoarea semnificaţiei este p<0,05 , deci sub 5%, atunci modelul liniar
dezvoltat este util in predicţie.
Iată un exemplu în care tabelul de analiză a varianţei în situaţia regresiei liniare
este realizat prin softul de statistică (poate fi SPSS, Statistica sau în Ms Excel).
Tabelul 2.10 2 – Analiza varianţei ANOVA pentru modelul regresional liniar.
ANOVA
df SS MS F Significance F
Regression 1 130.5375 130.5375 3.381801 0.087223337
Residual (Error) 14 540.4 38.6
Total 15 670.9375
Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
Intercept 69.1333333 10.4099 6.641117 1.11E-05 46.80632795 91.46034
Birthweigh 0.15733333 0.085555 1.838967 0.087223 -0.02616446 0.340831
Eroarea sau reziduul au în acest context aceeaşi semnificaţie.
7
În linia corespunzătoare regresiei avem calculate valorile SSR, MSR şi gradele
de libertate. Cu cât această valoare SSR va fi mai mare cu atât modelul nostru
va explica mai bine variaţiile prezente.
Pe rândul următor sunt datele cu privire la suma erorilor (reziduu), SSE, MSE.
Cu cât acestea sunt mai mici cu atât şi erorile sistemului sunt mai mici iar
modelul prezintă un grad mai mare de încredere.
În continuare, se prezintă valoarea statisticii Fisher şi corespunzător nivelul de
semnificaţie.
Dacă avem p sub 0,05 deducem că dreapta de regresie aproximează bine datele
noastre.
Dacă avem p calculat peste 0,05 dar sub 0,1 (10%), putem deduce că variabila
independentă are o anumită influenţă asupra celei dependente dar nu în
totalitate. Putem adăuga date noi sau cerceta şi influenţa altor variabile în
sistem.
În final, avem datele necesare modelului, deci constanta a = Yintercept şi panta b,
ce are valoarea 0,157 pentru datele prezente studiate.
Aşa cum am calculat şi utilizat statistica F şi nivelul de semnificaţie
corespunzător întregului sistem, putem calcula pentru coeficienţii dreptei de
regresie a şi b, statistica t şi nivelul de semnificaţie. Acestea ne ajută la
verificarea diferenţei faţă de valoarea nulă.
De asemenea, sunt prezente limitele minimă şi maximă de variaţie a acestor
coeficienţi cu încredere de 95%. Dacă aceste limite cuprind valoarea 0 (zero),
atunci nu există semnificaţie statistică şi ipoteza nulă este acceptată.
Observaţii
1 – În cazurile practice, variabilele x şi y pot să nu fie distribuite normal. Acest
neajuns poate fi corectat prin aplicarea unor transformări cum ar fi logaritmarea pentru
a transforma distribuţia în forma gausiană. Evident, vom avea grijă la interpretarea
corectă a rezultatelor (deci a pantei şi a termenului liber).
2 – Atât a cât şi b sunt deduse din eşantioane. Aceşti parametri aşadar, reprezintă
variabile aleatoare. Astfel, se poate construi un interval de încredere pentru cele două
necunoscute a şi b.
Prin estimarea parametrilor a şi b se vor obţine pentru intervale simetrice
valorile limită: aaa 0 , respectiv bbb 0 .
8
Reprezentând grafic dreapta de regresie pentru cele 4 cazuri limită obţinem o
suprafaţă de regresie.
aaa min , aaa max .
bbtgb 1min , bbtgb 2max .
Reprezentarea grafică a suprafeţei de regresie
În acest caz unei valori xi îi va corespunde un interval de valori
maxmin , YYyi . Pentru x=0 intervalul coincide cu (amin, amax). Acest
interval este datorat tocmai estimărilor parametrilor dreptei de regresie.
Corelaţia
Noţiuni
Legătura dintre două variabile aleatoare, în care una dintre ele variază constant
(sau controlat), iar cealaltă variază aleator a fost descrisă de forma liniară a
dreptei de regresie.
Corelaţia caracterizează legătura dintre două variabile aleatoare X şi Y cu
repartiţii normale 2, xxN , respectiv 2, yyN . Densitatea de
probabilitate a funcţiei de repartiţie normală bivariată (având doi parametri) are
expresia:
2
12
1exp
12
1),(
x
xyxf x
yx
2
2y
y
y
y
x
xyyx
. (9)
În această formulă reprezintă coeficientul de corelaţie. Domeniul de variaţie
este cuprins între –1 şi 1, 1,1 . Practic, gradul de dependenţă dintre
cele două variabile aleatoare este definit de acest coeficient de corelaţie (se
notează cu ,,r” când este determinat din datele reale – conţine o anumită
eroare).
X
Y
amin
amax
y=a+bx
9
Dacă =0, atunci nu există dependenţă între cele două variabile aleatoare,
acestea fiind considerate independente.
Calculând densitatea de probabilitate obţinem:
2
2
2
2
22
2
1
2
1),(0 y
y
x
xy
y
x
x
eeyxf
,
)()(),( yfxfyxf .
Interpretare
Dacă 0 , atunci cele două variabile aleatoare sunt dependente stocastic
(aleator).
Pentru >0 spunem că cele două variabile aleatoare sunt dependente direct
proporţional. Cu cât se apropie de valoarea 1 cu atât dependenţa este mai
puternică.
Dacă <0, atunci cele două variabile aleatoare variază invers proporţional şi
legătura este cu atât mai puternică cu cât coeficientul de corelaţie este mai
apropiat de valoarea –1.
Practic, valoarea la pătrat a corelaţiei calculate r2 (amintim că se notează cu r
deoarece este determinat din datele reale, deci reprezintă o aproximare)
exprimă procentul din variaţia variabilei Y ce poate fi explicată de variaţia
variabilei X. În analiza regresiei şi corelaţiei se prezintă această valoarea a
coeficientului de determinare. Amintim formula de calcul din analiza
varianţei: SST
SSRr 2
.
Graficele de mai jos indică o legătură puternică, respectiv slabă, între două
variabile aleatoare.
Tipuri de legături între seturi de date
Y Y
X X
Legătură puternică Legătură slabă
10
Calculul coeficientului de corelaţie se realizează prin deducerea mediei
produselor abaterilor normate:
y
y
x
xyx
M
.
Prelucrând formula precedentă se ajunge la:
2
1
2
1
yi
n
i
xi
n
i
yixi
yx
yx
.
Această formulă de calcul poate fi aplicată doar în cazul a două variabile
aleatoare repartizate normal.
Testarea coeficientului de corelaţie
Este important să putem afla dacă variaţia cu încredere de 95% a acestui
coeficient cuprinde sau nu valoarea nulă. Cu alte cuvinte, trebuie să răspundem
la întrebarea privind diferenţa semnificativă a coeficientului de corelaţie faţă
de valoarea nulă.
Ştim că în orice experiment sau proces intervine factorul de tip aleator ce
implică existenţa unei variaţii în valoarea indicatorilor statistici. Dorim să
vedem dacă această variaţie implicită este depăşită în cazul nostru, ceea ce ar
indica existenţa reală a unui efect pe care de fapt îl căutăm şi îl studiem.
Se demonstrează că următoarea funcţie respectă o distribuţie de tip t (Student):
21
2
r
nrt
. (10)
Verificăm ipoteza nulă H0: 0 prin distribuţia menţionată, ştiind că este
caracterizată de n-2 grade de libertate (n este numărul de date din eşantion –
volumul eşantionului).
Dacă valoarea calculată pcalculat este mai mică decât 5%, avem semnificaţie
statistică, deci coeficientul de corelaţie este diferit de 0, antrenând existenţa
unei anumite relaţii între variabile.
11
A doua metodă de interpretare face apel efectiv la valoarea statisticii t calculate
cu formula 10. Dacă această valoare este mai mare ca cea tabelată,
corespunzătoare unui număr de grade de libertate n-1 şi unei încrederi
bilaterale de 95%, atunci avem semnificaţie statistică.
Exemplu
Pentru datele a căror analiză ANOVA a fost prezentată anterior se obţine
r = 0,441 iar volumul eşantionului este n=16 valori.
Calculăm valoarea statisticii t , 838,11945,01
216441,0
t .
Din datele tabelate ale statisticii t, pentru încredere bilaterală 95%, deci risc
%5 şi n-2=14 grade de libertate obţinem valoarea 145,214,
205,0
t .
Valoarea calculată 1,838 este mai mică decât cea tabelată 2,145 ceea ce denotă
că variaţia întâlnită se încadrează în domeniul acceptat, deci nu există diferenţă
semnificativă statistic.
Cu alte cuvinte putem afirma cu încredere de 95% că valoarea coeficientului
de corelaţie poate fi nulă. Aceasta înseamnă că relaţia exprimată prin valoarea
punctuală r = 0,441 este rezultatul hazardului.
Observaţii asupra regresiei liniare şi corelaţiei
Presupunem că avem două seturi de date X: x1, x2, … , xn respectiv Y: y1, y2,
…yn.
Calculând regresia y = f(x) = a + bx obţinem anumite valori pentru
coeficienţii a şi b. Dacă extragem pe x funcţie de y avem:
ybb
ax
1. (11)
Calculând regresia x = g(y) = a’ +b’y (12) şi comparând cu relaţia (11) cele
două drepte pot sau nu coincide.
Deducerea coeficienţilor a,b, respectiv a’, b’ diferă substanţial, deoarece în
primul caz s-a pus condiţia ca suma pătratelor erorilor pe direcţia OY să fie
minimă, iar în al doilea caz condiţia a fost ca suma pătratelor erorilor pe OX să
fie minimă.
12
Corelaţia exprimă tocmai această asemănare dintre cele două drepte de
regresie.
Notăm cu A dreapta y=f(x), respectiv cu B dreapta x=g(y).
Dacă dreptele se suprapun atunci =1, iar dependenţa aleatoare devine
deterministă (unui punct pe x îi corespunde un singur punct pe y) şi dreptele de
regresie au alura primei bisectoare. Astfel, cunoscând pe x, putem determina pe
y cu o precizie bună în funcţie de datele din eşantion.
Dacă = -1 atunci dreptele se suprapun dar au forma bisectoarei a doua, iar
dependenţa este invers proporţională. Şi în acest caz, legătura este de tip
determinist.
În general dreptele pot sau nu să se apropie mai mult sau mai puţin,
demonstrând dependenţa datelor. Prezentăm mai jos în patru grafice succesive
cele relatate.
Tipuri de dependenţe între regresie şi corelaţie.
A , B A B
Dependenţă deterministă
direct proporţională
Dependenţă stohastică
direct proporţională
A B A , B
Dependenţă deterministă
invers proporţională
Dependenţă stohastică
invers proporţională
13
Dacă valoarea coeficientului de corelaţie este 0, atunci cele două drepte fac un
unghi de 900 (sunt perpendiculare).
Este normal ca legătura dintre cele două drepte să determine şi semnul
coeficientului de corelaţie.
Dacă din y=f(x) obţinem o pantă negativă, atunci tot negativă va fi şi panta
obţinută din calculul x=g(y) şi tot negativ va fi şi coeficientul de corelaţie
(evident legătura rămâne valabilă şi pentru cazul pantei pozitive).