48229854 regresia-liniara-curs

9

Click here to load reader

Transcript of 48229854 regresia-liniara-curs

Page 1: 48229854 regresia-liniara-curs

REGRESIA LINIARĂ

Regresia statistică, deşi nu la fel de populară ca metodele inferenţiale îşi propune o predicţie cât

mai exactă a performanţelor din viitor pe baza unor indicatori din prezent sau trecut.

În statistică, prin regresie ne direcţionăm, spre viitor, încercând să prevedem cât mai exact evoluţia

viitoare a lucrurilor. De exemplu,

a. un psiholog din mediul organizaţional, va trebui să prezicezeze, în procesul de selecţie a

personalului, care persoană merită să fie angajată dintr-un grup de candidaţi, pe baza unei

estimări a performanţei viitoare a acestora.

b. De asemenea ca psiholog şcolar suntem nevoiţi să identificăm un grup cu risc crescut de a

consuma droguri, va trebui să estimăm, pe baza caracteristicilor lor actuale, evoluţia lor viitoare .

Ambele situaţii pot fi rezolvate prin apelul la tehnica statistică denumită regresie, în cazurile respective

fiind vorba de o regresie cu scop predictiv-care încearcă săs răspundă la întrebarea „Care sunt

predictorii care ne ajută să estimăm cel mai bine evoluţia criteriului?”Regresia în scop predictiv este

utilizată pentru a prezice performanţele viitoare ale unui grup de oameni pe baza unuia sau a mai multor

indicatori actuali, denumiţi predictori. In cazul regresiei în scop perdictive tremenii utilizaţi pentru

variabilele a căror contribuţie este studiată sunt : predictor şi criteriu. Aşa cum îi spune şi numele,

utilizarea regresiei în scop predictiv urmăreşte găsirea unei ecuaţii care să estimeze cel mai bine evoluţia

criteriului. Concret, dacă criteriul urmărit este nivelul realizării în carieră, pot fi incluşi între predictori tot

felul de indicatori care nu se află în relaţie cauzală cu criteriul, dar estimează bine nivelul acestuia. De

exemplu, temperamentul, inteligenţa globală şi implicarea în muncă nu sunt neapărat cauze ale nivelului

realizării în carieră , dar împreună cu alţi indicatori pot fi utilizaţi eficient în a prezice nivelul de realizare in

carieră al unei persoane.

Un alt tip de regresie, este regresia în scop explicativ. care încearcă să răspundă la întrebarea

: „Contribuie acest factor la evoluţia variabilei dependente, în condiţiile în care am controlat

statistic influenţa altor factori asupra acesteia?”.

Aceasta vizează explicarea influenţei unui set de factori asupra unei variabile criteriu, cunoscându-se

existenţa unei relaţii cauzale între acestea. Astfel, regresia în scop explicativ urmăreşte să vadă dacă un

anumit factor influenţează evoluţia variabilei dependente, prin controlarea influenţei exercitate de alte

variabile incluse în model. Dacă prin controlarea acestor influenţe, variabila (variabilele) independentă(e)

analizată contribuie semnificativ la evoluţia criteriului, am putea deduce existenţa unei relaţii între

acestea iar termenii folosiţi sunt variabilă independentă şi variabilă dependentă desi nu discutăm

despre un design experimental.

Un exemplu tipic de utilizare a regresiei în scop explicativ este acela al identificării influenţei

fumatului în perioada prenatală asupra dezvoltării emoţionale a copilului în primii ani de viaţă. Există o

Page 2: 48229854 regresia-liniara-curs

multitudine de factori care influenţează dezvoltarea emoţională a copilului. Regresia explicativă nu face

altceva decât să izoleze (controleze) statistic influenţa factorilor respectivi, pentru a vedea în ce măsură

fumatul contribuie în plus la dezvoltarea emoţională a copilului. De pildă, dacă se cunoaşte că tipul de

ataşament, stilul educaţional al părinţilor, prezenţa sau absenţa altor fraţi sau surori etc. influenţează

dezvoltarea emoţională a copilului, prin regresie de tip explicativ se pot controla toate aceste influenţe

pentru a se observa dacă fumatul mamei în perioada gravidităţii contribuie, în plus, la dezvoltarea

emoţională normală a copilului.

O altă diferenţiere importantă este între regresie liniară simplă şi regresie multiliniară sau regresia

liniară multiplă

a. vorbim de o regresie bazată pe un singur predictor, de exemplu estimarea reuşitei şcolare pe

baza coeficientului de inteligenţă.

b. Regresia multiliniară include mai mulţi predictori în ecuaţie, precum nivelul de inteligenţă,

motivaţia şcolară, nivelul de educaţie al părinţilor, pentru a putea estima mai bine reuşita şcolară.

Cu siguranţă că modelele multiliniare vor prezice întotdeauna mai bine decât modelele simple,

care pornesc de la un singur predictor. Ideea este intuită şi în astrologie, unde pentru a prezice

stilul de personalitate al unei persoane este necesar ca „specialistul” să cunoască mai mulţi

predictori: ziua de naştere, ora la care s-a născut, anul naşterii etc.

În continuare, pentru a putea înţelege mai bine modul de funcţionare a regresiei, vom explica mai

întâi regresia liniară simplă, bazată pe un singur predictor, nu înainte de a preciza o informaţie capitală:

regresia liniară poate fi aplicată doar dacă criteriul (variabila dependentă) a fost măsurat printr-o scală

numerică (de tip interval sau proporţii) şi dacă relaţia dintre predictori şi criteriu este liniară.

Pentru alt gen de scale există alte tipuri de regresie precum, cea logistică (variabila dependentă

dihotomică, de gen „Da” sau „Nu”), cea multinominală (variabila dependentă este măsurată prin scală

nominală, alta decât de tip dihotomic), sau cea ordinală (variabila dependentă este măsurată prin scală

ordinală, de genul răspunsurilor în patru trepte: „nesatisfăcător”, „satisfăcător”, „bine” sau „foarte bine”).

Page 3: 48229854 regresia-liniara-curs

Regresia liniară simplă

Imaginaţi-vă că sunteţi un proaspăt absolvent de psihologie ajuns să lucreze în departamentul de

resurse umane din cadrul unei mari companii. În această calitate, sunteţi pus să selectaţi dintre mai mulţi

candidaţi pe cei care vi se par mai potriviţi pentru a lucra ca reprezentant vânzări, în prima linie a

contactului direct cu potenţialii clienţi. Care dintre candidaţi este mai potrivit pentru a fi angajat?

Într-adevăr, prin regresie se pot estima rezultatele viitoare ale unor persoane pe baza unor

indicatori din prezent. Se poate prevedea performanţa pe baza unor indicatori care au legătură cu acest

aspect. Totul porneşte de la existenţa unei asocieri între indicatorul utilizat pentru a estima performanţa

viitoare şi criteriul ales pentru a măsura această performanţă. De exemplu, dacă există o corelaţie

pozitivă între extraversiune şi performanţa din vânzări putem estima că persoanele cu un nivel ridicat de

extroversiune tind să obţină performanţe superioare în vânzări, fiind mai potrivite să ocupe asemenea

poziţii decât persoanele introvertite.

Figura .1. Norul de puncte vizând relaţia dintre nivelul de extroversiune şi

volumul vânzărilor

Pornind de la această asociere se poate estima că persoanele cu un nivel ridicat de extravertire

vor fi avantajate în domeniul vânzărilor, deoarece tind să obţină un număr mai mare de vânzări.

Regresia urmăreşte să găsească o ecuaţie care să ne ajute să estimăm cât mai exact valoarea

performanţei viitoare. Dacă corelaţia dintre două variabile ar perfectă-adică egală cu 1 sau cu -1 am

Page 4: 48229854 regresia-liniara-curs

putea anticipa exact rezultatele viitoare, deoarece linia de regresie obţinută trece prin toate rezultatele.

Aceasta ar însemna că nu există nici o diferenţă între rezultatele constatate şi estimările făcute.

Van

zari

scaz

ute

V

anza

ri rid

icat

e

Introvertite Extravertite

**

*

**

*

*

Van

zari

scaz

ute

V

anza

ri rid

icat

e

Introvertite Extravertite

**

*

**

*

*

Figura .2. Norul de puncte într-o situaţie de corelaţie ideală

În realitate ănsă acest lucru nu se întâmplă. De aceea, prin regresie se urmăreşte găsirea acelei

linii care să conducă la o estimare cât mai corectă a rezultatelor. Cu alte cuvinte, se doreşte găsirea

acelei linii de regresie care să reproducă cel mai bine direcţia de evoluţie a norului de puncte.

Va

nzar

i sca

zute

V

anza

ri rid

ica

te

Introvertite Extravertite

*

* *

*

*

*

*

Va

nzar

i sca

zute

V

anza

ri rid

ica

te

Introvertite Extravertite

**

*

*

*

*

*

Figura 3. Norul de puncte într-o situaţie de corelaţie probabilă (stânga)

unit prin dreapta de regresie (dreapta)

Pentru a estima prin regresie rezultatele viitoare ale unui anumit criteriu este necesar ca

predictorul respectiv să coreleze destul de bine cu criteriul care trebuie estimat. Dacă nu există corelaţie

între cele două elemente, linia de regresie nu poate fi estimată acceptabil, deoarece norul de puncte

devine de fapt un cerc fiind imposibişl de aproximat printr-o dreaptă.

Page 5: 48229854 regresia-liniara-curs

Pentru a stabili linia de regresie se apelează la proprietăţile matematice ale unei drepte,

deoarece orice dreaptă poate fi determinată prin următoarea ecuaţie:

Xbby 10 +=

unde b0 este punctul de intersecţie al ordonatei (interceptul), iar b1 este panta de regresie (cu cât creşte

y, atunci când x se modifică cu o unitate).

Panta de regresie ia o valoare pozitivă, dacă există o corelaţie pozitivă între x şi y şi o valoare

negativă, dacă există o corelaţie negativă între cele două variabile.

Pentru a uşura înţelegerea acestui demers putem inspecta vizual cele două imagini din figura

următoare. Imaginea din stânga are drept ecuaţie de regresie: y = 2,5 + 0,5*X,

în timp ce imaginea din dreapta are ca ecuaţie de regresie:

y = 8 – 1,5*X

Figura. 4. Două exemple de linie de regresie (Sava, 2003)

Pe baza imaginilor anterioare se poate observa mai bine cum se reprezintă grafic linia de

regresie pe baza ecuaţiei obţinute. De exemplu, în imaginea din stânga, punctul de intersecţie a liniei de

regresie cu ordonata este situat la valoarea de b0 = 2,50, în timp ce în dreapta el ia valoarea 8 (b0 = 8).

Ele reprezintă estimările lui Y, în situaţia în care X ia valoarea 0. Transpunând în cazul concret al

vânzărilor, dacă pe abscisă este trecut numărul de itemi vizând extrovertirea, iar pe ordonată este trecut

numărul de maşini vândute, din imaginea din stânga am putea estima că o persoană care a obţinut scorul

Page 6: 48229854 regresia-liniara-curs

zero la extravertire va reuşi să vândă pe lună 2,5 maşini (y = 2,5 + 0,5*0), iar o persoană care a obţinut

scorul trei la extravertire va reuşi să vândă 4 maşini pe lună (y = 2,5 + 0,5*3).

De asemenea, se observă din cele două imagini că panta dreptei este mai abruptă în cazul

imaginii din dreapta, deoarece valoarea b1 = -1,50 este mai mare în valoare absolută decât b1 = 0,50 din

imaginea din stânga. Valoarea acestei pante indică cu cât creşte (în cazul valorilor pozitive) sau cu cât

scade (în cazul valorilor negative) Y atunci când X creşte cu o unitate.

Linia de regresie care redă cel mai bine norul de puncte nu se stabileşte pe baza unor criterii

subiective, cum ar fi simpla inspectare vizuală. Metoda utilizată cel mai frecvent pentru a calcula

interceptul şi panta de regresie se numeşte metoda celor mai mici pătrate (în engleză „least squares”).

Metoda se bazează pe calcularea sumei pătratelor diferenţelor dintre valorile observate şi valorile

estimate. Ne vom baza pe datele din figura 6.6 pentru a explica metoda amintită.

100

0

130

0

1600

1

900

2

200

0 1 2 3 4 5 6 7

*

** *

*

Y= 1031 + 147X X Y Y* Y-Y* (Y-Y*)²4 1500 1619 -119 141615 1800 1766 34 11566 1850 1913 -63 39693 1400 1485 -85 72252 1350 1325 25 6254 1700 1619 81 65617 2100 2060 40 16005 1970 1766 204 416164 1420 1619 -199 396011 1260 1178 82 6724

*

*

*

*

*

Legenda: X - Nivel de extravertire Y - Vanzari lunare realizate (in Euro) Y* - Vanzari lunare estimate (in Euro)

Suma = 0 Suma = 123.238

Figura 5. . Linia de regresie vizând relaţia dintre scorul la extravertire şi

valoarea vânzărilor lunare în Euro

Pe baza ecuaţiei de regresie se estimează rezultate uşor diferite decât cele constatate. De

exemplu, primul subiect a realizat vânzări lunare de 1500 de EURO, în condiţiile în care se estimau, pe

baza ecuaţiei de regresie, vânzări lunare în valoare de 1619 EURO. Parametrii ecuaţiei de regresie se

stabilesc, astfel încât suma pătratului diferenţelor dintre valorile Y observate şi cele estimate să ia

valoarea cea mai mică (ultima coloană din tabel). De exemplu, dacă am fi schimbat ecuaţia de regresie în

Y = 1050 + 150X, suma pătratelor diferenţelor ar fi fost mai mare, mai exact 130.400. Prin urmare, în

cazul de faţă valorile b0 de 1031 şi b1 de 147 sunt oferite de către programele statistice pentru că duc la

cea mai mică sumă a pătratelor diferenţelor dintre cele două seturi de date (valorile observate şi valorile

estimate). Cu alte cuvinte, parametrii ecuaţiei de regresie rezultaţi asigură soluţia cea mai apropiată de

rezultatele reale observate.

Page 7: 48229854 regresia-liniara-curs

Pentru a decide dacă o ecuaţie de regresie descrie bine setul de date, spre a putea fi folosită în

scop predictiv, trebuie să decidem cât de mare poate fi diferenţa dintre rezultatele observate şi cele

estimate. În acest sens, există o serie de parametri, valabili atât în cazul regresiei liniare simple, cât şi în

cazul regresiei multiliniare, pentru a descrie eficienţa ecuaţiei de regresie în estimarea rezultatelor.

Evaluarea eficienţei unei ecuaţii de regresie

Între indicatorii care ne oferă informaţii asupra eficienţei unui model de regresie vom aminti

1. testul F (întâlnit şi în cazul ANOVA) şi

2. R² (coeficient de determinare întâlnit şi în cazul corelaţiei).

Testul F ne arată în ce măsură există diferenţe semnificative statistic între estimările oferite pe

baza ecuaţiei de regresie implicate în comparaţie cu estimările bazate pe valorile mediei. Dacă predictorii

incluşi în ecuaţia de regresie conduc la estimări semnificativ mai bune decât estimările bazate pe

rezultatele medii, atunci valoarea F va fi semnificativă statistic. Dacă F nu este semnificativ statistic,

atunci ecuaţia de regresie nu-şi are rostul, deoarece ea nu poate estima cu nimic mai bine decât simpla

consultare a mediei răspunsurilor subiecţilor la criteriu.

Coeficientul de determinare R² Cel de-al doilea parametru poate fi consultat dacă F este

semnificativ statistic. După Field (2000), R² oferă informaţii privitoare la procentajul din dispersia variabilei

criteriu care poate fi explicată prin modul de evoluţie a predictorilor. În cazul regresiei liniare simple, R²

este coeficientul de determinare, acelaşi din cazul corelaţiei simple, în timp ce în cazul regresiei liniare

multiple, R² este coeficientul de determinare multiplă. Deşi are acelaşi principiu de interpretare,

coeficientul de determinare multiplă reprezintă procentul din dispersia criteriului explicată de acţiunea

comună a tuturor predictorilor implicaţi.

În cazul datelor prezentate anterior SPSS-ul oferă următoarele rezultate:

Model Summary

,915a ,838 ,818 123,074Model1

R R SquareAdjustedR Square

Std. Error ofthe Estimate

Predictors: (Constant), Nivel de extravertirea.

ANOVAb

626471,5 1 626471,453 41,359 ,000a

121178,5 8 15147,318

747650,0 9

Regression

Residual

Total

Model1

Sum ofSquares df Mean Square F Sig.

Predictors: (Constant), Nivel de extravertirea.

Dependent Variable: Vanzari lunare in Eurob.

Page 8: 48229854 regresia-liniara-curs

Din cel de-al doilea tabel se observă că valoarea F este semnificativă statistic, fapt ce induce

ideea superiorităţii ecuaţiei de regresie, bazată pe introducerea nivelului de extravertire ca predictor, în

estimarea vânzărilor în comparaţie cu estimarea vânzărilor pe baza mediei valorilor observate. Mai mult,

consultând primul tabel, se observă că nivelul de extravertire al unei persoane explică 83,8% din variaţia

vânzărilor observate (R² = 0,838). Cu alte cuvinte, dacă am încerca să explicăm diferenţele constatate

între persoane cu privire la vânzările lunare realizate de acestea, putem spune că o mare parte se

datorează diferenţelor la nivel de extravertire dintre acestea. Restul de 16,2% din variaţia vânzărilor

lunare înregistrate se datorează altor factori, neluaţi în seamă de modelul testat, care a inclus doar

extroversiunea ca predictor. Aşadar, putem afirma că nivelul de vânzări realizate depinde şi de alţi factori,

deşi extroversiunea pare a fi variabila principală pe baza căreia putem estima nivelul de vânzări realizate.

Din nefericire, asemenea procentaje ridicate, precum cel prezentat în problema anterioară nu sunt

întâlnite în ştiinţele sociale decât în exemple ipotetice. De obicei, R² are valori mult mai modeste, fiind

cuprins destul de des între .10 şi .50, ceea ce înseamnă că majoritatea modelelor estimative din

psihologie, bazate pe regresie explică (estimează) între 10% şi 50% din evoluţia criteriului de interes.

După cum se observă din figura 6.8, valorile R² sunt mai mari, dacă linia de regresie descrie bine

direcţia evoluţiei norului de puncte (R² = .88 în imaginea din stânga) şi mai mici, dacă linia de regresie nu

descrie adecvat norul de puncte, acestea fiind mai depărtate de direcţia estimată (R² = .45 în imaginea

din dreapta).

** **

*

*

***

**

* *

*

**

*

*

**

*

*

*

*

* *

**

*

**

Figura 7. Relaţia dintre gradul de împrăştiere a punctelor din nor şi valorile R²

De pildă, în primul tabel, sub titulatura „R” este trecută valoarea coeficientului de corelaţie liniară

între predictor şi criteriu, în cazul de faţă între nivelul de extravertire şi nivelul vânzărilor lunare realizate.

În cazul regresiei liniare simple, această valoare indică, de fapt, coeficientul de corelaţie r Bravais-

Pearson, între predictor şi criteriu. În cazul unei regresii multiliniare, R indică corelaţia multiplă dintre

Page 9: 48229854 regresia-liniara-curs

criteriu şi grupul de predictori incluşi. De asemenea, merită să fie remarcat faptul că R² reprezintă pătratul

acestor coeficienţi de corelaţie.

Un alt parametru regăsit în outputul SPSS este R² ajustat. Acesta încearcă să elimine unele

dintre neajunsurile lui R². Acesta din urmă este dependent de numărul de predictori incluşi în ecuaţia de

regresie şi de numărul de subiecţi testaţi. În forma sa ajustată, R² încearcă să atenueze această influenţă,

oferind un parametru mai puţin distorsionat. Totuşi, trebuie precizat că indicatorul R² ajustat oferit de

SPSS nu are rol de contravalidare, aşa cum mulţi specialişti ar fi tentaţi să creadă (Field, 2000). Astfel, el

nu estimează procentajul din dispersia criteriului explicată de predictori în cazul în care datele ar fi

extrase pe baza răspunsurilor subiecţilor dintr-un alt eşantion, ci arată doar eficienţa modelului estimativ

propus pentru eşantionul de subiecţi testaţi, într-un mod cât mai puţin distorsionat de numărul de

predictori sau de volumul eşantionului. Deşi oferă informaţii mai exacte decât coeficientul de determinare,

R² ajustat rămâne sensibil la distorsiune în cazul nerespectării condiţiilor necesare aplicării regresiei

liniare.