Corelatii Si Regresii Calinici

Post on 17-Jan-2016

36 views 0 download

description

hguif

Transcript of Corelatii Si Regresii Calinici

1

CORELAŢII ŞI REGRESII

Tudor Călinici

2015

OBIECTIVE

Determinarea existenței relației dintre două variabile cantitative continue interpretând valoarea coeficientului de corelație / determinare

Estimarea unuia dintre parametrii cu ajutorul regresiei lineare

Verificarea semnificației statistice a unei corelații

2

3

Statistici descriptive în două dimensiuni

Colesterol X: X1, X2,..., Xn

T.A.S. Y: Y1, Y2,..., Yn.

1. Să se stabilească dacă există o legătură între variabilele X şi Y (cantitative continue) şi să se determine o modalitate de a măsura intensitatea acestei legături.

Coeficientul de corelaţie Pearson /coeficientul de determinare

2. Să se stabilească dacă Y depinde de X şi dacă da în ce formă se realizează această dependenţă.

Funcţia de regresie

Legătura, dacă există, are semnificaţie statistică?

Variabile cantitative continue

Serie statistică bivariată şi bidimensională

Legătura între variabile are sens

4

Raţionament

Pentru un grup de n persoane observăm două caracteristici continue, între care avem motive să credem că există o legătură

Fiecarei persoane îi este asociată o pereche de valori (xi , yi)

Această pereche poate fi reprezentată pe un grafic ca un punct cu coordonatele (xi , yi)

5

Exemplu I

6

Exmplu II

7

Exemplu III

8

9

Statistici descriptive în două dimensiuni.

Diagrama de dispersie

X

Y

*

*

* *

*

*

*

*

*

*

*

*

III IV

*

*

*

*

II I

* *

*

*

* *

*

*

*

10

Statistici descriptive în două dimensiuni.

Diagrama de dispersie

X

Y

*

*

*

III IV

*

II I

**

* *

*

**

*

*

*

**

*

*

*

*

*

*

*

**

*

11

Statistici descriptive în două dimensiuni.

Diagrama de dispersie

X

Y

*

**

*

*

*

*

*

*

*

III IV

*

II I

**

*

**

*

*

*

*

*

*

**

*

*

*

*

**

*

*

12

Indici de corelaţie

Suma produselor ecart

(SPE)

))(( YiYX

n

iiXSPE

1

Covarianţa COV(X,Y)

))((),( YiYX

n

ii

Xn

YXCOV

1

1

Coeficientul de corelaţie

al lui Pearson r

CO V X Y

S SX Y

( , )

Coeficientul de

determinare

d = r2.

13

Interpretări ale coeficientului de

corelaţie a) Coeficientul de corelaţie măsoară intensitatea relaţiei

dintre variabilele X şi Y şi valoarea sa r este cuprinsă între -1

şi 1.

b) Dacă r=1 punctele sunt situate pe o dreaptă de pantă

pozitivă (crescătoare).

c) Dacă 0 < r < 1, norul de puncte poate fi înlocuit (ajustat)

printr-o dreaptă de pantă pozitivă .

Dispersia punctelor în jurul dreptei de regresie va fi cu atât

mai mare cu cât r se apropie de 0 şi cu atât mai mică cu cât r se

apropie de 1.

d) Dacă -1 < r < 0 atunci norul de puncte poate fi aproximat

cu o dreaptă de pantă negativă. Dispersia punctelor faţă de

dreaptă va fi cu atât mai mică cu cât r este mai apropiat de -1.

e) dacă r=-1 atunci toate punctele sunt situate pe o dreaptă de

pantă negativă.

14

Corelaţii

Regula empirică a lui Colton (1974) i) r între -0.25 şi 0,25 = nu există corelaţie

ii) r între 0.25 şi 0.50 (sau -0.50 si -0.25 -0.50) = un nivel de asociere slab, spre acceptabil

iii) r între 0.5 şi 0.75 (sau -0.75 si -0.5) = un nivel de asociere moderat (accepabil) către bun

iv) r între 0.75 şi 1 (sau –1 si -0.75) = un nivel de asociere bun spre foarte bun

15

Coeficientul de corelaţie al lui

Spearman

Descrie relaţia între două variabile ordinale sau una

ordinală si una cantitativă

17

Drepte de regresie pentru variabile

cantitative continue

Dreapta de regresie Y(X):

y = a + b x

Seria statistică

18

Inaltime Greutate Inaltime Greutate Inaltime Greutate Inaltime Greutate

150 46 167 97 185 111 181 68

150 51 168 100 185 119 158 87

150 50 173 96 166 76 158 85

165 82.5 175 58 188 82 167 107

165 81 175 75 157 82.5 167 102

175 86 175 79 160 75 158 60

158 76 174 73 162 62 158 68

160 61 174 69 153 89 152 92.5

157 69 185 79 153 86 152 92

160 98 163 59 153 86 164 40

160 104 163 60 175 83 164 58

162 54 151 77 161 69 172 63

180 106 176 68 161 69 179 82.5

178 105 176 76 161 53 160 82

178 101 159 63 170 72 172 95

156 63 159 62 165 100 154 75.5

165 121.5 159 58 160 65.5 162 65

154 84 165 78 160 66 160 68

175 68 172 86 168 59 160 66

160 115 158 91 167 54.2 172 125

158 78 156 48 167 60 156 84

165 74.5 156 40 167 59 184 110

182 79 160 51.5 167 59 175 86

182 83 160 45.5 170 81 175 74.5

182 83 160 46.5 170 86 173 90

172 72 160 47 177 84.5 173 98

155 73 160 51 177 84.5 173 90

173 71 160 46 157 72.5 173 92

170 90 160 46.5 160 60 160 72

167 98 185 97 181 53 160 73

19

Reprezentare grafică

0

20

40

60

80

100

120

140

0 50 100 150 200

Gre

uta

te

Înalţime

Corelaţie între greutate şi înălţime

Dreapta de regresie

20

0

20

40

60

80

100

120

140

0 20 40 60 80 100 120 140 160 180 200

Gre

uta

te

Înalţime

Corelaţie între greutate şi înălţime

21

Coeficienţii dreptei de regresie

Dreapta de regresie Y(X)

min ( ),a b R

i

i

n

ia bX Y

1

2

Valorile lui a şi b pentru care este atins minimul

sumei precedente sunt date prin formulele:

bCOV X Y

SX

( , )

.

a Y b X

Graficul de corelaţie

22

y = 0.7387x - 46.334

R² = 0.1369

0

20

40

60

80

100

120

140

0 50 100 150 200

Gre

uta

te

Înalţime

Corelaţie între greutate şi înălţime

Graficul de corelaţie în

Excel

Este de tip scatter (nor de puncte)

Tot timpul, prima variabilă (cea din stânga) va fi reprezentată pe axa OX

Nu are NICIODATĂ legendă!

Nu este complet până când nu este trasată dreapta de regresie

Conţine ecuaţia dreptei de regresie precum şi coeficientul de determinare

23

24

Variaţia reziduală

Variaţia reziduală asociată dreptei de regresie Y(X)

este egală cu media aritmetică a pătratelor abaterilor

reziduale punctuale (abaterilor punctelor diagramei de

dispersie de la dreapta de regresie), adică

Sn

Y YR ii

n

i

2

1

21

( )^

,

unde Y a bXi i

^

, i=1,2,…,n.

Variaţia reziduală SR2 reprezintă o măsură a

dispersiei norului de puncte în jurul dreptei de regresie.

Semnificaţia statistică

Se utilizează un test de semnificaţie

Rezultatul este o valoare p între 0 şi 1

Dacă p < 0,05 atunci spunem că corelaţia are semnificaţie statistică

25

Corelație nu înseamnă

cauză!!!

26

Corelaţie

În primul rând se verifică tipul variabilelor

Dacă variabilele sunt cantitative se verifică daca corelaţia este posibilă la nivel logic

Se calculează puterea relaţiei

Dacă corelaţia există, se interpretează sensul şi semnificaţia statistică 27

Sensul

Semnul coeficientului de corelaţie

sau

Semnul lui x din ecuaţia dreptei de regresie

Aceste două semne trebuie să coincidă! 28

Întrebări

Cum apreciaţi corelaţia dacă coeficientul de corelaţie între TAS şi TAD este de 0,73 şi p=0,02

29

Întrebări

30

Cum apreciaţi corelaţia dacă coeficientul de determinare între TAS şi CNP este de 0,84 iar p = 0,12

Întrebări

31

Cum apreciaţi corelaţia dacă coeficientul de corelaţie între vârstă şi înălţime este de 0,98 iar dreapta de regresie are ecuaţia y=-3x+110, p<0,05

Întrebări

Cum apreciaţi corelaţia dacă coeficientul de determinare între vârstă şi densitatea osoasă este de 0,58 iar dreapta de regresie are ecuaţia y=-3x+110, la un p=0,01

32

TEMĂ

TEMĂ

Durata de spitalizare este legată de faptul că au primit antibiotice? Argumentați

Durata de spitalizare este legată de faptul că au suferit o manoperă chirurgicală?

Argumentați

Durata de spitalizare este legată numărul de leucocite (WBC)?

Argumentați

Durata de spitalizare este legată vârsta pacienților? Argumentați

TEMĂ

Scrieţi răspunsurile într-un fişier Word folosind elementele de formatare învăţate

expediaţi fișierul Word ataşat la un email pe adresa tcalinici@umfcluj.ro până cel târziu în dimineața examenului practic

emailurile ulterioare nu vor fi luate în considerare

În corpul email-ului vă rog să vă scrieți numele și grupa

Vă mulţumesc pentru

atenţie

36