Corelaţia şi regresia liniară

Post on 30-Jan-2017

243 views 1 download

Transcript of Corelaţia şi regresia liniară

Corelaţia şi regresia liniarăSorana D. BOLBOACĂ

Conținut• Corelaţia▫ Definiţie▫ Formule de calcul▫ Testarea ipotezelor

• Regresia liniară- Simplă- Multiplă

2

1. Direcţia• Pozitivă (+)• Negativă (-)

2. Gradul de asociere• Între –1 şi 1 • Valoarea absolută semnifică puterea asocierii

3. Forma• Lineară• Nelineară

Corelaţia: 3 caracteristici

3

0.0

6.7

13.3

20.0

0.0 4.0 8.0 12.0

C1 vs C2

C1

C2

0.0

40.0

80.0

120.0

0.0 83.3 166.7 250.0

C1 vs C2

C1

C2

Pozitivă

Valori mari ale lui X se asociază cu valori mari ale lui YValori mici ale lui X se asociază cu valori mici ale lui Y

Valori mari ale lui X se asociază cu valori mici ale lui YValori mici ale lui X se asociază cu valori mari ale lui Y

Ex. Viteza şi acurateţea

Negativă

Corelaţia: 1. direcţia

4

0.0

6.7

13.3

20.0

0.0 4.0 8.0 12.0

C1 vs C2

C1

C2

0.0

40.0

80.0

120.0

0.0 4.0 8.0 12.0

C1 vs C2

C1

C2

PuternicăSlabă(nor de puncte difuz)

Corelaţia: 2. Gradul asocierii

5

Lineară Nelineară

Corelaţia: 3. Forma

6

• Tehnică statistică care măsoară şi descrie gradul de asociere lineară dintre două variabile cantitative continue normal distribuite

Corelaţia Pearson: Definiţie

Obs X YA 1 1 B 1 3 C 3 2 D 4 5 E 6 4 F 7 5

Date

X

Y

Grafic de tip nor de puncte

7

< Media lui X > Media lui X

> Media lui Y > Media lui Y

< Media lui X > Media lui X

< Media lui Y < Media lui Y

Media lui  Y

Media lui X

Produsul ))(( YYXX −−Pentru o asociere pozitivă puternică, produsul va avea o valoare mare pozitivă

Asocierea

8

< Media lui X > Media X

> Media lui Y > Media Y

< Media lui X > Media lui X

< Media lui Y < Media lui Y

Media lui Y

Media lui X

Produsul  ))(( YYXX −−Pentru o asociere puternică negativă, produsul va avea o valoare mare negativă

9

Asocierea

< Media lui X > Media lui X

> Media lui Y > Media lui Y

< Media lui X > Media lui X

< Media lui Y < Media lui Y

Media lui Y

Media lui X

Produsul  ))(( YYXX −−Pentru o asociere slabă, valoarea produsului este fie pozitivă fie negativă  

10

Asocierea

11

Coeficientul de corelaţie PearsonSimbol: r, R

Ia valori între -1 şi +1 indicând puterea (interpretăm valoarea coeficientului) şi direcţia (interpretăm semnul coeficientului) asocierii lineare.Valoarea absolută indică puterea asocierii• + (direct proporţional)/- indică (invers proporţional) direcţia asocierii

( )( )( ) ( )∑∑∑

−−

−−=

22YYXX

YYXXr

Coeficientul de corelaţie Pearson

Asumpţii:1.Erorile din date sunt independente2.Există o relaţie de linearitate între cele două variabile de interes 3.Variabilele urmează o distribuţie normală bivariată

12

Femur Humerus

A 38 41

B 56 63

C 59 70

D 64 72

E 74 84

Mean 58.2 66.00

SSX SSY SP

)( XX− )( YY− 2)( XX− 2)( YY− ))(( YYXX −−

YXSSSSSP

=r

Coeficientul de corelaţie Pearson

13

Femur Humerus

A 38 41 ‐20.2 ‐25 408.04 625 505

B 56 63 ‐2.2 ‐3 4.84 9 6.6

C 59 70 0.8 4 .64 16 3.2

D 64 72 5.8 6 33.64 36 34.8

E 74 84 15.8 18 249.64 324 284.4

mean 58.2 66.00 696.8 1010 834

SSX SSY SP

)( XX− )( YY− 2)( XX− 2)( YY− ))(( YYXX −−

r = 0.99

Coeficientul de corelaţie Pearson

14

Coeficientul de corelaţie Pearson: Interpretare

• O măsură a puterii asocierii: cât de puternic punctele din grafic se aglomerează în jurul unei linii?

• O măsură a direcţiei asocierii: pozitivă sau negativă?• Reguli empirice de interpretare a coeficientului de

corelaţie: Colton [Colton T. Statistics in Medicine. Little Brown and Company, New York, NY 1974] :

R ⊂ [-0.25 to +0.25] → Nu există nici o relaţieR ⊂ (0.25 to +0.50] ∪ (-0.25 to -0.50] → relaţie slabăR ⊂ (0.50 to +0.75] ∪ (-0.50 to -0.75] → relaţie moderatăR ⊂ (0.75 to +1) ∪ (-0.75 to -1) → relaţie puternică 15

Coeficientul de corelaţie Pearson: Interpretare

• Valoarea p este probabilitatea ca valoarea coeficientului de corelaţie să fie egală cu zero (ipoteza nulă).

• Dacă probabilitatea este mai mică decât nivelul de semnificaţie (ex. p < 0.05) → coeficientul de corelaţie este semnificativ statistic.

16

Correlation coefficient

p-value

Sample size

Coeficientul de corelaţie al rangurilor Spearman

• Se poate aplica pe orice tip de variabile• Nu necesită asumpţia distribuţiei normale bivariate a

celor 2 variabile de interes• Simbol: ρ

17

Coeficientul de corelaţie al rangurilor Spearman

• Semnul coeficientului de corelaţie Spearman indică direcţia asocierii (invers proporţionale pentru semnul - şi direct proporţional pentru semnul +) dintre variabilele investigate

• ρ =1 → relaţia dintre cele două variabile investigate este monotonă . N.B. Nu va da un coeficient de corelaţie Pearsonegal cu 1.

18

Coeficientul de determinare (r2/R2)

• Valoarea covariaţiei raportat la volumul total al variaţiei

• Procentul din variaţia totală care este explicată de variabilele independente

• Exemplu▫ Dacă r = 0.80 → variabilele independente explică

64% din variabilitatea variabilei dependente

19

Proprietăţile coeficientului de corelaţie

• O statistică standardizată – nu se modifică dacă schimbăm unităţile de măsură ale variabilelor.

• Valoarea este identică dacă corelăm pe X cu Y sau pe Y cu X.

• Valoarea este destul de instabilă pentru n mic• Vulnerabil la valori extreme• Are o distribuţie asimetrică

20

Coeficientul de corelaţie: exemplu

• Enciu A, Zamfir CZ, Nicolescu A, Ida A. THE ANALYSIS OF CORRELATIONS BETWEEN THE MAIN TRAITS OF WOOL PRODUCTION ON MILK BREED – PALAS. Lucrări Ştiinţifice -Seria Zootehnie ????;57:50-54.

21

Matricea de corelaţie

Regresia lineară simplăRegresia lineară multiplă

Regresia liniară: asumpţii

• Erorile măsurătorilor sunt independente • Regresia depinde de identificarea corectă a

modelului relaţional• Nu există erori în măsurarea valorilor variabilei

dependente• Variaţia valorilor lui Y este aceeaşi pentru toate

valorile lui X• Valorile Y urmează o distribuţie normală

24

Regresia liniară

• Dacă există o relaţie de liniaritate între variabilele de interes putem identifica o ecuaţie simplă pentru a prezice o variabilă cunoscând cealaltă variabilă

• Variabila rezultate este variabila Y, iar variabila predictor este variabila X

• Exemplu: transformarea în grade Fahrenheitcunoscând valoarea în grade Celsius:

F = 32 + 1.8ºC Această formulă dă o line perfectă

25

Ecuanția dreptei

• Formula generală: Y = a + bX• Ecuaţia de predicţie: Ỹ = a+ bX▫ a = intercept, b = coeficientul dreptei, X = predictor

• a și b sunt constante într-o ecuaţie; X şi Y se modifică

26

27

Panta şi interceptul

• Ỹ = a + bXPanta b: Cantitatea cu care valoarea Y se modifică în momentul în care modificăm valoarea lui X cu o unitate

Interceptul a: valoarea lui Y când X este zero

Panta este influenţată de r, dar nu are aceeaşi semnificaţie ca şi r

Xx

y

SSSP

ss

rb ==

XbYa −=

28

http://onlinelibrary.wiley.com/doi/10.1111/j.1939-1676.2011.00812.x/pdf

29

De reţinut!▫ Evaluarea puterii asocierii dintre două variabile

cantitative continue (normal distribuite) ―›corelaţie

▫ Prezicerea unei variabile (Y) în funcţie de o altă variabilă (X) ―› regresie