Corelații iRegresii -...

Post on 27-Jun-2018

212 views 0 download

Transcript of Corelații iRegresii -...

Sorana D. BOLBOACĂ Curs 1

30.04.20

14

1

Corelații și Regresii

Sorana D. BOLBOACĂ Curs 1

30.04.20

14

2Cuprins

» Corelația: Definiție & formule de calcul, teste de semnificație

» Analiza de regresie: clasificare, regresia liniară simplă

Sorana D. BOLBOACĂ Curs 1

30.04.20

14

3

1. Direcția• Pozitivă (+)• Negativă (‐)

2. Gradul de asociere• Între –1 şi 1 • Valoarea absolută semnifică puterea asocierii

Forma• Lineară• Nelineară

Corelația: 3 caracteristici

Corelațiile se aplică pe 2 variabile

Sorana D. BOLBOACĂ Curs 1

30.04.20

14

4

0.0

6.7

13.3

20.0

0.0 4.0 8.0 12.0

C1 vs C2

C1

C2

0.0

40.0

80.0

120.0

0.0 83.3 166.7 250.0

C1 vs C2

C1C

2

Pozitivă

Valori mari ale lui X se asociază cu valori mari ale lui YValori mici ale lui X se asociază cu valori mici ale lui Y

Valori mari ale lui X se asociază cu valori mici ale lui YValori mici ale lui X se asociază cu valori mari ale lui YEx. Viteza şi acurateţea

Negativă

Corelația: 1. direcția

Sorana D. BOLBOACĂ Curs 1

30.04.20

14

5

0.0

6.7

13.3

20.0

0.0 4.0 8.0 12.0

C1 vs C2

C1

C2

0.0

40.0

80.0

120.0

0.0 4.0 8.0 12.0

C1 vs C2

C1

C2

Puternică Slabă(nor de puncte difuz)

Corelația: 2. Gradul asocierii

Sorana D. BOLBOACĂ Curs 1

30.04.20

14

6

Corelația: 3. Forma ‐ Liniară

http://www.comfsm.fm/~dleeling/health/pedometers.html

Sorana D. BOLBOACĂ Curs 1

30.04.20

14

7

Corelația: 3. Forma ‐ Neliniară

http://www.studia.ubbcluj.ro/download/pdf/595.pdf

Sorana D. BOLBOACĂ Curs 1

30.04.20

14

8

» Tehnică statistică care măsoară şi descrie gradul de asociere lineară dintre două variabile cantitative continue normal distribuite

Corelația Pearson: Definiție

Grafic de tip nor de puncte

Sorana D. BOLBOACĂ Curs 1

30.04.20

14

9

< Media lui X > Media lui X

> Media lui Y > Media lui Y

< Media lui X > Media lui X

< Media lui Y < Media lui Y

Media lui  Y

Media lui X

Produsul ))(( YYXX −− Pentru o asociere pozitivă puternică, produsul va avea o valoare mare pozitivă

Asocierea

Sorana D. BOLBOACĂ Curs 1

30.04.20

14

10

< Media lui X > Media X

> Media lui Y > Media Y

< Media lui X > Media lui X

< Media lui Y < Media lui Y

Media lui Y

Media lui X

Produsul  ))(( YYXX −− Pentru o asociere puternică negativă, produsul va avea o valoare mare negativă

Asocierea

Sorana D. BOLBOACĂ Curs 1

30.04.20

14

11

< Media lui X > Media lui X

> Media lui Y > Media lui Y

< Media lui X > Media lui X

< Media lui Y < Media lui Y

Media lui Y

Media lui X

Produsul  ))(( YYXX −− Pentru o asociere slabă, valoarea produsului este fie pozitivă fie negativă  

Asocierea

Sorana D. BOLBOACĂ Curs 1

30.04.20

14

12

Coeficientul de corelație PearsonSimbol: r, R

Ia  valori  între  ‐1  şi  +1  indicând  puterea  (interpretăm  valoarea coeficientului)  şi  direcția  (interpretăm  semnul  coeficientului) asocierii lineare.Valoarea absolută indică puterea asocieriiDirecția asocierii este dată de semnul coeficientului» + (direct proporțional)»‐ indică (invers proporțional) 

( )( )( ) ( )∑∑∑

−−

−−=

22YYXX

YYXXr

Sorana D. BOLBOACĂ Curs 1

30.04.20

14

13

Coeficientul de corelație PearsonAsumpții:

1.Erorile datelor sunt independente

2.Există o relație de liniaritate între cele două variabile de interes 

3.Variabilele urmează o distribuție normală bivariată

http://withfriendship.com/user/cyborg/multivariate‐normal‐distribution.php

Sorana D. BOLBOACĂ Curs 1

30.04.20

14

14

Femur Humerus

A 38 41

B 56 63

C 59 70

D 64 72

E 74 84

Mean 58.2 66.00

SSX SSY SP

)( XX− )( YY− 2)( XX− 2)( YY− ))(( YYXX −−

YXSSSSSP

=r

Coeficientul de corelație Pearson

Sorana D. BOLBOACĂ Curs 1

30.04.20

14

15

Femur Humerus

A 38 41 ‐20.2 ‐25 408.04 625 505

B 56 63 ‐2.2 ‐3 4.84 9 6.6

C 59 70 0.8 4 .64 16 3.2

D 64 72 5.8 6 33.64 36 34.8

E 74 84 15.8 18 249.64 324 284.4

mean 58.2 66.00 696.8 1010 834

SSX SSY SP

)( XX− )( YY− 2)( XX− 2)( YY− ))(( YYXX −−

r = 0.99

Coeficientul de corelație Pearson

Sorana D. BOLBOACĂ Curs 1

30.04.20

14

16

Coeficientul de corelație Pearson: Interpretare»O măsură a puterii asocierii: punctele din grafic se aglomerează în jurul unei linii?

»O măsură a direcției asocierii: pozitivă sau negativă?»Reguli empirice de interpretare a coeficientului de corelație: Colton [Colton T. Statistics in Medicine. LittleBrown and Company, New York, NY 1974] :

+ R ⊂ [‐0.25 to +0.25] → Nu există nici o relație+ R ⊂ (0.25 to +0.50] ∪ (‐0.25 to ‐0.50] → relație slabă+ R ⊂ (0.50 to +0.75] ∪ (‐0.50 to ‐0.75] → relație moderată+ R ⊂ (0.75 to +1) ∪ (‐0.75 to ‐1) → relație puternică

Sorana D. BOLBOACĂ Curs 1

30.04.20

14

17

Coeficientul de corelație Pearson: Interpretare» Valoarea p este probabilitatea ca valoarea coeficientului de corelație să fie egală cu zero (ipoteza nulă).

» Dacă probabilitatea este mai mică decât nivelul de semnificație (ex. p < 0.05) → coeficientul de corelație este semnificativ statistic.

Coeficientulde corelație

p-value

Volumul eșantionului

Sorana D. BOLBOACĂ Curs 1

30.04.20

14

18

Coeficientul de corelație al rangurilor Spearman»Se poate aplica pe orice tip de variabile»Nu necesită asumpția distribuției normale bivariate a celor 2 variabile de interes

»Simbol: ρ

Sorana D. BOLBOACĂ Curs 1

30.04.20

14

19

Coeficientul de corelație al rangurilor Spearman» Semnul coeficientului de corelație Spearman indică direcția asocierii (invers proporționale pentru semnul ‐şi direct proporțional pentru semnul +) dintre variabilele investigate

» ρ =1 → relația dintre cele două variabile investigate este monotonă . N.B. Nu va da un coeficient de corelație Pearson egal cu 1.

19

Sorana D. BOLBOACĂ Curs 1

30.04.20

14

20

Coeficientul de determinare (r2/R2)»Valoarea covariației raportat la volumul total al variației

»Procentul din variația totală care este explicată de variabilele independente

»Exemplu�Dacă r = 0.80→ variabilele independente explică 64% din variabilitatea variabilei dependente

Sorana D. BOLBOACĂ Curs 1

30.04.20

14

21

Proprietățile coeficientului de corelație»O statistică standardizată – nu se modifică dacă schimbăm unitățile de măsură ale variabilelor.

»Valoarea este identică dacă corelăm pe X cu Y sau pe Y cu X.

»Valoarea este destul de instabilă pentru nmic»Vulnerabil la valori extreme»Are o distribuție asimetrică

Sorana D. BOLBOACĂ Curs 1

30.04.20

14

22

Analiza asocierii: exemplu

https://bib.irb.hr/datoteka/305660.Reprint_Dental_Materials.pdf

Sorana D. BOLBOACĂ Curs 1

30.04.20

14

23

Analiza de regresie

»Regresia liniară ← variabila dependentă normaldistribuită

» Regresia logistică ← variabila de răspuns binară

» Regresia Cox ← variabila de răspuns este un eveniment dependent de timp

Sorana D. BOLBOACĂ Curs 1

30.04.20

14

24Modele de regresie: Exemple

Sorana D. BOLBOACĂ Curs 1

30.04.20

14

25

Regresia liniară: asumpții»Erorile măsurătorilor sunt independente 

»Regresia depinde de identificarea corectă a modelului relațional

»Nu există erori în măsurarea valorilor variabilei dependente

»Variația valorilor lui Y este aceeaşi pentru toate valorile lui X

»Valorile Y urmează o distribuție normală

Sorana D. BOLBOACĂ Curs 1

30.04.20

14

26

Regresia liniară simplă»Dacă există o relație de liniaritate între  variabilele de interes putem identifica o ecuație simplă pentru a prezice o variabilă cunoscând cealaltă variabilă

»Variabila rezultat (1) = variabila Y»Variabila predictor (1) = variabila X»Exemplu: transformarea în grade Fahrenheitcunoscând valoarea în grade Celsius:

F = 32 + 1.8°CAceastă formulă dă o line perfectă

Sorana D. BOLBOACĂ Curs 1

30.04.20

14

27

Regresia liniară simplă

Exemplu: transformarea în grade Fahrenheit cunoscând valoarea în grade Celsius:

F = 32 + 1.8ºC 

Sorana D. BOLBOACĂ Curs 1

30.04.20

14

28

Regresia liniară simplăCoeficientul de corelație

Coeficientul de determinare

Coeficientul de determinare ajustat cu volumul eșantionului

Eroarea standard

Volumul eșantionului

Sorana D. BOLBOACĂ Curs 1

30.04.20

14

29

Regresia liniară simplăCoeficienții modelului de 

regresieŶ = 32 + 1,8*(Grade Celsius)

Valoarea inferioară și superioară a intervalului de confidență a 

coeficienților

H0: coeficienții = 0 vs. H1: coeficienții ≠ 0

Semnificație lui t Stat

Sorana D. BOLBOACĂ Curs 1

30.04.20

14

30Regresia multiplă

» 1 variabilă răspuns  & k predictori – Cum selectăm predictorii?o Variabile răspuns diferite: continue, binare, dependente de timp

» Reguli: o 5 ‐ 20 variabile

o Cel puțin 10 subject pentru fiecare predictor

o 5 variabile × 10 subiecți per variabilă → n = 50

» Scop:o Identificarea predictorilor – cu cât mai puțini cu atât mai bine

o Putere de predicție cât mai mare

o Stratificarea necesită un volum mai mare de eșantion

Sorana D. BOLBOACĂ Curs 1

30.04.20

14

31Regresia multiplă

Sorana D. BOLBOACĂ Curs 1

30.04.20

14

32

Diagnosticul modelului de regresie

Sorana D. BOLBOACĂ Curs 1

30.04.20

14

33

http://cmapskm.ihmc.us/rid=1052458963987_2102937354_8648/

Sorana D. BOLBOACĂ Curs 1

30.04.20

14

34De reținut!

» Analiza de corelație și analiza de regresie se aplică în funcție de tipul variabilei.

» Interpretarea corectă a coeficientului de corelație se face prin valoarea p asociată testului de semnificație.

» Nu interpretați coeficienții de corelație după reguli empirice (un coeficient de corelație de 0,3 este nesemnificativ statistic pentru un eșantion de colummic și semnificativ statistic în cazul unui eșantion de volum mare).

» Care model e cel mai bun? – Diagnosticul modelului de regresie!