Corelații iRegresii -...

34
Sorana D. BOLBOACĂ Curs 1 30.04.2014 1 Corelații și Regresii

Transcript of Corelații iRegresii -...

Page 1: Corelații iRegresii - sorana.academicdirect.rosorana.academicdirect.ro/pages/doc/TD2014/Curs09.pdf · Sorana D. BOLBOACĂ Curs 1 30.04.2014 Cuprins 2 » Corelația: Definiție &

Sorana D. BOLBOACĂ Curs 1

30.04.20

14

1

Corelații și Regresii

Page 2: Corelații iRegresii - sorana.academicdirect.rosorana.academicdirect.ro/pages/doc/TD2014/Curs09.pdf · Sorana D. BOLBOACĂ Curs 1 30.04.2014 Cuprins 2 » Corelația: Definiție &

Sorana D. BOLBOACĂ Curs 1

30.04.20

14

2Cuprins

» Corelația: Definiție & formule de calcul, teste de semnificație

» Analiza de regresie: clasificare, regresia liniară simplă

Page 3: Corelații iRegresii - sorana.academicdirect.rosorana.academicdirect.ro/pages/doc/TD2014/Curs09.pdf · Sorana D. BOLBOACĂ Curs 1 30.04.2014 Cuprins 2 » Corelația: Definiție &

Sorana D. BOLBOACĂ Curs 1

30.04.20

14

3

1. Direcția• Pozitivă (+)• Negativă (‐)

2. Gradul de asociere• Între –1 şi 1 • Valoarea absolută semnifică puterea asocierii

Forma• Lineară• Nelineară

Corelația: 3 caracteristici

Corelațiile se aplică pe 2 variabile

Page 4: Corelații iRegresii - sorana.academicdirect.rosorana.academicdirect.ro/pages/doc/TD2014/Curs09.pdf · Sorana D. BOLBOACĂ Curs 1 30.04.2014 Cuprins 2 » Corelația: Definiție &

Sorana D. BOLBOACĂ Curs 1

30.04.20

14

4

0.0

6.7

13.3

20.0

0.0 4.0 8.0 12.0

C1 vs C2

C1

C2

0.0

40.0

80.0

120.0

0.0 83.3 166.7 250.0

C1 vs C2

C1C

2

Pozitivă

Valori mari ale lui X se asociază cu valori mari ale lui YValori mici ale lui X se asociază cu valori mici ale lui Y

Valori mari ale lui X se asociază cu valori mici ale lui YValori mici ale lui X se asociază cu valori mari ale lui YEx. Viteza şi acurateţea

Negativă

Corelația: 1. direcția

Page 5: Corelații iRegresii - sorana.academicdirect.rosorana.academicdirect.ro/pages/doc/TD2014/Curs09.pdf · Sorana D. BOLBOACĂ Curs 1 30.04.2014 Cuprins 2 » Corelația: Definiție &

Sorana D. BOLBOACĂ Curs 1

30.04.20

14

5

0.0

6.7

13.3

20.0

0.0 4.0 8.0 12.0

C1 vs C2

C1

C2

0.0

40.0

80.0

120.0

0.0 4.0 8.0 12.0

C1 vs C2

C1

C2

Puternică Slabă(nor de puncte difuz)

Corelația: 2. Gradul asocierii

Page 6: Corelații iRegresii - sorana.academicdirect.rosorana.academicdirect.ro/pages/doc/TD2014/Curs09.pdf · Sorana D. BOLBOACĂ Curs 1 30.04.2014 Cuprins 2 » Corelația: Definiție &

Sorana D. BOLBOACĂ Curs 1

30.04.20

14

6

Corelația: 3. Forma ‐ Liniară

http://www.comfsm.fm/~dleeling/health/pedometers.html

Page 7: Corelații iRegresii - sorana.academicdirect.rosorana.academicdirect.ro/pages/doc/TD2014/Curs09.pdf · Sorana D. BOLBOACĂ Curs 1 30.04.2014 Cuprins 2 » Corelația: Definiție &

Sorana D. BOLBOACĂ Curs 1

30.04.20

14

7

Corelația: 3. Forma ‐ Neliniară

http://www.studia.ubbcluj.ro/download/pdf/595.pdf

Page 8: Corelații iRegresii - sorana.academicdirect.rosorana.academicdirect.ro/pages/doc/TD2014/Curs09.pdf · Sorana D. BOLBOACĂ Curs 1 30.04.2014 Cuprins 2 » Corelația: Definiție &

Sorana D. BOLBOACĂ Curs 1

30.04.20

14

8

» Tehnică statistică care măsoară şi descrie gradul de asociere lineară dintre două variabile cantitative continue normal distribuite

Corelația Pearson: Definiție

Grafic de tip nor de puncte

Page 9: Corelații iRegresii - sorana.academicdirect.rosorana.academicdirect.ro/pages/doc/TD2014/Curs09.pdf · Sorana D. BOLBOACĂ Curs 1 30.04.2014 Cuprins 2 » Corelația: Definiție &

Sorana D. BOLBOACĂ Curs 1

30.04.20

14

9

< Media lui X > Media lui X

> Media lui Y > Media lui Y

< Media lui X > Media lui X

< Media lui Y < Media lui Y

Media lui  Y

Media lui X

Produsul ))(( YYXX −− Pentru o asociere pozitivă puternică, produsul va avea o valoare mare pozitivă

Asocierea

Page 10: Corelații iRegresii - sorana.academicdirect.rosorana.academicdirect.ro/pages/doc/TD2014/Curs09.pdf · Sorana D. BOLBOACĂ Curs 1 30.04.2014 Cuprins 2 » Corelația: Definiție &

Sorana D. BOLBOACĂ Curs 1

30.04.20

14

10

< Media lui X > Media X

> Media lui Y > Media Y

< Media lui X > Media lui X

< Media lui Y < Media lui Y

Media lui Y

Media lui X

Produsul  ))(( YYXX −− Pentru o asociere puternică negativă, produsul va avea o valoare mare negativă

Asocierea

Page 11: Corelații iRegresii - sorana.academicdirect.rosorana.academicdirect.ro/pages/doc/TD2014/Curs09.pdf · Sorana D. BOLBOACĂ Curs 1 30.04.2014 Cuprins 2 » Corelația: Definiție &

Sorana D. BOLBOACĂ Curs 1

30.04.20

14

11

< Media lui X > Media lui X

> Media lui Y > Media lui Y

< Media lui X > Media lui X

< Media lui Y < Media lui Y

Media lui Y

Media lui X

Produsul  ))(( YYXX −− Pentru o asociere slabă, valoarea produsului este fie pozitivă fie negativă  

Asocierea

Page 12: Corelații iRegresii - sorana.academicdirect.rosorana.academicdirect.ro/pages/doc/TD2014/Curs09.pdf · Sorana D. BOLBOACĂ Curs 1 30.04.2014 Cuprins 2 » Corelația: Definiție &

Sorana D. BOLBOACĂ Curs 1

30.04.20

14

12

Coeficientul de corelație PearsonSimbol: r, R

Ia  valori  între  ‐1  şi  +1  indicând  puterea  (interpretăm  valoarea coeficientului)  şi  direcția  (interpretăm  semnul  coeficientului) asocierii lineare.Valoarea absolută indică puterea asocieriiDirecția asocierii este dată de semnul coeficientului» + (direct proporțional)»‐ indică (invers proporțional) 

( )( )( ) ( )∑∑∑

−−

−−=

22YYXX

YYXXr

Page 13: Corelații iRegresii - sorana.academicdirect.rosorana.academicdirect.ro/pages/doc/TD2014/Curs09.pdf · Sorana D. BOLBOACĂ Curs 1 30.04.2014 Cuprins 2 » Corelația: Definiție &

Sorana D. BOLBOACĂ Curs 1

30.04.20

14

13

Coeficientul de corelație PearsonAsumpții:

1.Erorile datelor sunt independente

2.Există o relație de liniaritate între cele două variabile de interes 

3.Variabilele urmează o distribuție normală bivariată

http://withfriendship.com/user/cyborg/multivariate‐normal‐distribution.php

Page 14: Corelații iRegresii - sorana.academicdirect.rosorana.academicdirect.ro/pages/doc/TD2014/Curs09.pdf · Sorana D. BOLBOACĂ Curs 1 30.04.2014 Cuprins 2 » Corelația: Definiție &

Sorana D. BOLBOACĂ Curs 1

30.04.20

14

14

Femur Humerus

A 38 41

B 56 63

C 59 70

D 64 72

E 74 84

Mean 58.2 66.00

SSX SSY SP

)( XX− )( YY− 2)( XX− 2)( YY− ))(( YYXX −−

YXSSSSSP

=r

Coeficientul de corelație Pearson

Page 15: Corelații iRegresii - sorana.academicdirect.rosorana.academicdirect.ro/pages/doc/TD2014/Curs09.pdf · Sorana D. BOLBOACĂ Curs 1 30.04.2014 Cuprins 2 » Corelația: Definiție &

Sorana D. BOLBOACĂ Curs 1

30.04.20

14

15

Femur Humerus

A 38 41 ‐20.2 ‐25 408.04 625 505

B 56 63 ‐2.2 ‐3 4.84 9 6.6

C 59 70 0.8 4 .64 16 3.2

D 64 72 5.8 6 33.64 36 34.8

E 74 84 15.8 18 249.64 324 284.4

mean 58.2 66.00 696.8 1010 834

SSX SSY SP

)( XX− )( YY− 2)( XX− 2)( YY− ))(( YYXX −−

r = 0.99

Coeficientul de corelație Pearson

Page 16: Corelații iRegresii - sorana.academicdirect.rosorana.academicdirect.ro/pages/doc/TD2014/Curs09.pdf · Sorana D. BOLBOACĂ Curs 1 30.04.2014 Cuprins 2 » Corelația: Definiție &

Sorana D. BOLBOACĂ Curs 1

30.04.20

14

16

Coeficientul de corelație Pearson: Interpretare»O măsură a puterii asocierii: punctele din grafic se aglomerează în jurul unei linii?

»O măsură a direcției asocierii: pozitivă sau negativă?»Reguli empirice de interpretare a coeficientului de corelație: Colton [Colton T. Statistics in Medicine. LittleBrown and Company, New York, NY 1974] :

+ R ⊂ [‐0.25 to +0.25] → Nu există nici o relație+ R ⊂ (0.25 to +0.50] ∪ (‐0.25 to ‐0.50] → relație slabă+ R ⊂ (0.50 to +0.75] ∪ (‐0.50 to ‐0.75] → relație moderată+ R ⊂ (0.75 to +1) ∪ (‐0.75 to ‐1) → relație puternică

Page 17: Corelații iRegresii - sorana.academicdirect.rosorana.academicdirect.ro/pages/doc/TD2014/Curs09.pdf · Sorana D. BOLBOACĂ Curs 1 30.04.2014 Cuprins 2 » Corelația: Definiție &

Sorana D. BOLBOACĂ Curs 1

30.04.20

14

17

Coeficientul de corelație Pearson: Interpretare» Valoarea p este probabilitatea ca valoarea coeficientului de corelație să fie egală cu zero (ipoteza nulă).

» Dacă probabilitatea este mai mică decât nivelul de semnificație (ex. p < 0.05) → coeficientul de corelație este semnificativ statistic.

Coeficientulde corelație

p-value

Volumul eșantionului

Page 18: Corelații iRegresii - sorana.academicdirect.rosorana.academicdirect.ro/pages/doc/TD2014/Curs09.pdf · Sorana D. BOLBOACĂ Curs 1 30.04.2014 Cuprins 2 » Corelația: Definiție &

Sorana D. BOLBOACĂ Curs 1

30.04.20

14

18

Coeficientul de corelație al rangurilor Spearman»Se poate aplica pe orice tip de variabile»Nu necesită asumpția distribuției normale bivariate a celor 2 variabile de interes

»Simbol: ρ

Page 19: Corelații iRegresii - sorana.academicdirect.rosorana.academicdirect.ro/pages/doc/TD2014/Curs09.pdf · Sorana D. BOLBOACĂ Curs 1 30.04.2014 Cuprins 2 » Corelația: Definiție &

Sorana D. BOLBOACĂ Curs 1

30.04.20

14

19

Coeficientul de corelație al rangurilor Spearman» Semnul coeficientului de corelație Spearman indică direcția asocierii (invers proporționale pentru semnul ‐şi direct proporțional pentru semnul +) dintre variabilele investigate

» ρ =1 → relația dintre cele două variabile investigate este monotonă . N.B. Nu va da un coeficient de corelație Pearson egal cu 1.

19

Page 20: Corelații iRegresii - sorana.academicdirect.rosorana.academicdirect.ro/pages/doc/TD2014/Curs09.pdf · Sorana D. BOLBOACĂ Curs 1 30.04.2014 Cuprins 2 » Corelația: Definiție &

Sorana D. BOLBOACĂ Curs 1

30.04.20

14

20

Coeficientul de determinare (r2/R2)»Valoarea covariației raportat la volumul total al variației

»Procentul din variația totală care este explicată de variabilele independente

»Exemplu�Dacă r = 0.80→ variabilele independente explică 64% din variabilitatea variabilei dependente

Page 21: Corelații iRegresii - sorana.academicdirect.rosorana.academicdirect.ro/pages/doc/TD2014/Curs09.pdf · Sorana D. BOLBOACĂ Curs 1 30.04.2014 Cuprins 2 » Corelația: Definiție &

Sorana D. BOLBOACĂ Curs 1

30.04.20

14

21

Proprietățile coeficientului de corelație»O statistică standardizată – nu se modifică dacă schimbăm unitățile de măsură ale variabilelor.

»Valoarea este identică dacă corelăm pe X cu Y sau pe Y cu X.

»Valoarea este destul de instabilă pentru nmic»Vulnerabil la valori extreme»Are o distribuție asimetrică

Page 22: Corelații iRegresii - sorana.academicdirect.rosorana.academicdirect.ro/pages/doc/TD2014/Curs09.pdf · Sorana D. BOLBOACĂ Curs 1 30.04.2014 Cuprins 2 » Corelația: Definiție &

Sorana D. BOLBOACĂ Curs 1

30.04.20

14

22

Analiza asocierii: exemplu

https://bib.irb.hr/datoteka/305660.Reprint_Dental_Materials.pdf

Page 23: Corelații iRegresii - sorana.academicdirect.rosorana.academicdirect.ro/pages/doc/TD2014/Curs09.pdf · Sorana D. BOLBOACĂ Curs 1 30.04.2014 Cuprins 2 » Corelația: Definiție &

Sorana D. BOLBOACĂ Curs 1

30.04.20

14

23

Analiza de regresie

»Regresia liniară ← variabila dependentă normaldistribuită

» Regresia logistică ← variabila de răspuns binară

» Regresia Cox ← variabila de răspuns este un eveniment dependent de timp

Page 24: Corelații iRegresii - sorana.academicdirect.rosorana.academicdirect.ro/pages/doc/TD2014/Curs09.pdf · Sorana D. BOLBOACĂ Curs 1 30.04.2014 Cuprins 2 » Corelația: Definiție &

Sorana D. BOLBOACĂ Curs 1

30.04.20

14

24Modele de regresie: Exemple

Page 25: Corelații iRegresii - sorana.academicdirect.rosorana.academicdirect.ro/pages/doc/TD2014/Curs09.pdf · Sorana D. BOLBOACĂ Curs 1 30.04.2014 Cuprins 2 » Corelația: Definiție &

Sorana D. BOLBOACĂ Curs 1

30.04.20

14

25

Regresia liniară: asumpții»Erorile măsurătorilor sunt independente 

»Regresia depinde de identificarea corectă a modelului relațional

»Nu există erori în măsurarea valorilor variabilei dependente

»Variația valorilor lui Y este aceeaşi pentru toate valorile lui X

»Valorile Y urmează o distribuție normală

Page 26: Corelații iRegresii - sorana.academicdirect.rosorana.academicdirect.ro/pages/doc/TD2014/Curs09.pdf · Sorana D. BOLBOACĂ Curs 1 30.04.2014 Cuprins 2 » Corelația: Definiție &

Sorana D. BOLBOACĂ Curs 1

30.04.20

14

26

Regresia liniară simplă»Dacă există o relație de liniaritate între  variabilele de interes putem identifica o ecuație simplă pentru a prezice o variabilă cunoscând cealaltă variabilă

»Variabila rezultat (1) = variabila Y»Variabila predictor (1) = variabila X»Exemplu: transformarea în grade Fahrenheitcunoscând valoarea în grade Celsius:

F = 32 + 1.8°CAceastă formulă dă o line perfectă

Page 27: Corelații iRegresii - sorana.academicdirect.rosorana.academicdirect.ro/pages/doc/TD2014/Curs09.pdf · Sorana D. BOLBOACĂ Curs 1 30.04.2014 Cuprins 2 » Corelația: Definiție &

Sorana D. BOLBOACĂ Curs 1

30.04.20

14

27

Regresia liniară simplă

Exemplu: transformarea în grade Fahrenheit cunoscând valoarea în grade Celsius:

F = 32 + 1.8ºC 

Page 28: Corelații iRegresii - sorana.academicdirect.rosorana.academicdirect.ro/pages/doc/TD2014/Curs09.pdf · Sorana D. BOLBOACĂ Curs 1 30.04.2014 Cuprins 2 » Corelația: Definiție &

Sorana D. BOLBOACĂ Curs 1

30.04.20

14

28

Regresia liniară simplăCoeficientul de corelație

Coeficientul de determinare

Coeficientul de determinare ajustat cu volumul eșantionului

Eroarea standard

Volumul eșantionului

Page 29: Corelații iRegresii - sorana.academicdirect.rosorana.academicdirect.ro/pages/doc/TD2014/Curs09.pdf · Sorana D. BOLBOACĂ Curs 1 30.04.2014 Cuprins 2 » Corelația: Definiție &

Sorana D. BOLBOACĂ Curs 1

30.04.20

14

29

Regresia liniară simplăCoeficienții modelului de 

regresieŶ = 32 + 1,8*(Grade Celsius)

Valoarea inferioară și superioară a intervalului de confidență a 

coeficienților

H0: coeficienții = 0 vs. H1: coeficienții ≠ 0

Semnificație lui t Stat

Page 30: Corelații iRegresii - sorana.academicdirect.rosorana.academicdirect.ro/pages/doc/TD2014/Curs09.pdf · Sorana D. BOLBOACĂ Curs 1 30.04.2014 Cuprins 2 » Corelația: Definiție &

Sorana D. BOLBOACĂ Curs 1

30.04.20

14

30Regresia multiplă

» 1 variabilă răspuns  & k predictori – Cum selectăm predictorii?o Variabile răspuns diferite: continue, binare, dependente de timp

» Reguli: o 5 ‐ 20 variabile

o Cel puțin 10 subject pentru fiecare predictor

o 5 variabile × 10 subiecți per variabilă → n = 50

» Scop:o Identificarea predictorilor – cu cât mai puțini cu atât mai bine

o Putere de predicție cât mai mare

o Stratificarea necesită un volum mai mare de eșantion

Page 31: Corelații iRegresii - sorana.academicdirect.rosorana.academicdirect.ro/pages/doc/TD2014/Curs09.pdf · Sorana D. BOLBOACĂ Curs 1 30.04.2014 Cuprins 2 » Corelația: Definiție &

Sorana D. BOLBOACĂ Curs 1

30.04.20

14

31Regresia multiplă

Page 32: Corelații iRegresii - sorana.academicdirect.rosorana.academicdirect.ro/pages/doc/TD2014/Curs09.pdf · Sorana D. BOLBOACĂ Curs 1 30.04.2014 Cuprins 2 » Corelația: Definiție &

Sorana D. BOLBOACĂ Curs 1

30.04.20

14

32

Diagnosticul modelului de regresie

Page 33: Corelații iRegresii - sorana.academicdirect.rosorana.academicdirect.ro/pages/doc/TD2014/Curs09.pdf · Sorana D. BOLBOACĂ Curs 1 30.04.2014 Cuprins 2 » Corelația: Definiție &

Sorana D. BOLBOACĂ Curs 1

30.04.20

14

33

http://cmapskm.ihmc.us/rid=1052458963987_2102937354_8648/

Page 34: Corelații iRegresii - sorana.academicdirect.rosorana.academicdirect.ro/pages/doc/TD2014/Curs09.pdf · Sorana D. BOLBOACĂ Curs 1 30.04.2014 Cuprins 2 » Corelația: Definiție &

Sorana D. BOLBOACĂ Curs 1

30.04.20

14

34De reținut!

» Analiza de corelație și analiza de regresie se aplică în funcție de tipul variabilei.

» Interpretarea corectă a coeficientului de corelație se face prin valoarea p asociată testului de semnificație.

» Nu interpretați coeficienții de corelație după reguli empirice (un coeficient de corelație de 0,3 este nesemnificativ statistic pentru un eșantion de colummic și semnificativ statistic în cazul unui eșantion de volum mare).

» Care model e cel mai bun? – Diagnosticul modelului de regresie!