CURS 11-2009

9
CURS 11 Biostatistică 1. Corelaţia statistică În ştiinţele experimentale şi, în particular, în medicină şi biologie, interesează nu numai variaţia unei singure mărimi, ci şi a două valori, adică a două caractere cantitative, într-o populaţie statistică. De exemplu, dorim să ştim dacă există într-o grupă de subiecţi o relaţie între greutate şi înălţime, între tensiunea arterială şi mărimea umorală a unei substanţe, etc. Pe plan matematic problema este rezolvată prin noţiunea de funcţie, care traduce relaţia între variaţia celor două mărimi, relaţie materializată prin curba sa reprezentativă: y = f(x). În acest caz, unei valori date a variabilei independente x îi corespunde o valoare şi numai una a variabilei dependente y, relaţia y = f(x) permiţând calcularea cu exactitate a acestei valori. O astfel de relaţie fiind stabilită, cunoaşterea unei valori ne este suficientă pentru determinarea valorii corespondente. Acest tip de relaţie, numită relaţie funcţională, este cea care se întâlneşte în aşa-zisele “ştiinţe exacte”. Dar problema se complică atunci când valorile care se studiază (cea dependentă şi cea independentă) sunt supuse fluctuaţiilor. Fluctuaţiile se manifestă nu numai pentru o singură valoare dată, ci pentru toate variabilele distribuţiei. Exemplu: Într-un grup de subiecţi cărora li s-a studiat înălţimea şi greutatea, pentru o valoare dată a înălţimii (de exemplu 1.70 m) se va găsi seria tuturor subiecţilor 1

description

info

Transcript of CURS 11-2009

CURS 12

PAGE 7

CURS 11

Biostatistic

1. Corelaia statistic

n tiinele experimentale i, n particular, n medicin i biologie, intereseaz nu numai variaia unei singure mrimi, ci i a dou valori, adic a dou caractere cantitative, ntr-o populaie statistic. De exemplu, dorim s tim dac exist ntr-o grup de subieci o relaie ntre greutate i nlime, ntre tensiunea arterial i mrimea umoral a unei substane, etc.

Pe plan matematic problema este rezolvat prin noiunea de funcie, care traduce relaia ntre variaia celor dou mrimi, relaie materializat prin curba sa reprezentativ: y = f(x). n acest caz, unei valori date a variabilei independente x i corespunde o valoare i numai una a variabilei dependente y, relaia y = f(x) permind calcularea cu exactitate a acestei valori. O astfel de relaie fiind stabilit, cunoaterea unei valori ne este suficient pentru determinarea valorii corespondente. Acest tip de relaie, numit relaie funcional, este cea care se ntlnete n aa-zisele tiine exacte. Dar problema se complic atunci cnd valorile care se studiaz (cea dependent i cea independent) sunt supuse fluctuaiilor. Fluctuaiile se manifest nu numai pentru o singur valoare dat, ci pentru toate variabilele distribuiei.

Exemplu:

ntr-un grup de subieci crora li s-a studiat nlimea i greutatea, pentru o valoare dat a nlimii (de exemplu 1.70 m) se va gsi seria tuturor subiecilor avnd aceeai nlime i diferind ntre ei prin greutate. Invers, pentru o valoare dat a greutii se va gsi seria subiecilor cu aceeai greutate, dar cu nlimi diferite. Nu se tie, i se pune problema dac greutatea este funcie de nlime, sau invers.

Se constat c la o nlime mic corespunde o greutate mai mic, i invers. Prin urmare, exist o relaie sigur ntre aceste dou mrimi, dar mai puin rigid dect relaia funcional propriu-zis.

Aceast relaie, de o natur particular, se numete corelaie statistic, i joac un rol important n tiinele vieii, i n particular n medicin. Cel mai simplu caz de corelaie este corelaia liniar, unde una dintre mrimi variaz proporional cu alta.

1. Diagrama de dispersie

Un prim mod de a aborda problema const n a folosi reprezentarea grafic. Similar cu studiul unei funcie, se merge la un sistem de axe rectangulare Ox i Oy, pe care se vor reprezenta valorile a dou mrimi: x (nlimea) i y (greutatea). Fiecare individ este reprezentat printr-o pereche (x, y). Ansamblul populaiei studiate va fi reprezentat printr-un nor de puncte, care va constitui dispersia populaiei studiate (figura 1).

Figura 1: Dispersia unei populaii (norul de puncte)

O astfel de diagram, numit diagram de dispersie, permite deja o aproximare a noiunii de corelaie: ntr-adevr, dac exist o corelaie astfel nct, de exemplu, greutile mai mari s fie asociate nlimilor mai mari, norul de puncte va avea o form alungit oblic n sus i la dreapta (figura 2).

Figura 2: Corelaie pozitiv (direct) Figura 3: Corelaie negativ (invers)

Figura 4: Corelaie zero

Dac, dimpotriv, se coreleaz valori mai mari ale uneia dintre mrimi cu valori mai mici ale celeilalte, norul de puncte va avea un aspect analog, dar dirijat n jos i la dreapta (figura 3). Atunci cnd valorile nu se influeneaz reciproc, deci nu exist corelaie, norul de puncte va avea un aspect uniform dispersat (de exemplu, nlimea i glicemia ntr-un lot de persoane) figura 4. Absena corelaiei indic independena caracterelor studiate.

2. Noiunea de covarian

Se consider o sub-populaie a unei populaii date, creia i vom calcula:

media ;

abaterea de la medie ;

media ;

abaterea de la medie .

Dac exist o corelaie pozitiv ntre x i y, calculnd pentru fiecare pereche de valori (x, y) produsul i fcnd suma algebric a tuturor acestor produse, obinem c:

.

n cazul corelaiei negative, pentru fiecare pereche de valori (x, y) produsul i fcnd suma algebric a acestor produse, obinem c:

.

Dac nu exist corelaie, urmnd un raionament analog:

.

Pentru a se da o semnificaie mai general acestei sume, o raportm la numrul de cazuri N. Definim astfel noiunea de covarian, P:

.

Deoarece : deviaia standard traduce dispersia statistic n cazul unei singure serii statistice.

2. Regresia liniar

Regresia este o metod de estimare a relaiei numerice dintre variabile. Numele de regresie se datoreaz lui Galton (1886), care a dezvoltat tehnicile de investigare a relaiei dintre nlimea copiilor i a prinilor lor. n problemele de regresie, scopul este s vedem ct de bine poate fi folosit o variabil pentru a o prediciona pe cealalt.

Cnd studiem o serie statistic important, avem interesul s grupm valorile n clase. Putem proceda la fel pentru distribuia tuturor valorilor lui x. Prin urmare, se va decupa norul de puncte n benzi verticale (figura 5). Vom nota toate valorile lui y care corespund valorilor lui x din aceeai clas, i vom calcula valorile medii pentru acest y.

Pentru fiecare band vertical a norului de puncte se obine astfel un numr sigur de valori medii pentru y, numite punctele mediane ale fiecrei clase. Unind aceste puncte obinem linia de regresie, sau linia de estimare a lui y n x.

Se poate i, invers, s l estimm pe x n funcie de y. Pentru aceasta, este suficient s plecm de la y i s partajm norul de puncte n benzi orizontale, corespunztoare fiecreia dintre clasele individualizate pe axa Oy (figura 6). Valorile medii ale lui x obinute n fiecare dintre aceste benzi orizontale permit s definim o linie de regresie a lui x n y, evident diferit de cea precedent.

Figura 5: Linia de regresie a lui y n x Figura 6: Linia de regresie a lui x n y

Liniile de regresie dau imaginea variaiilor mediilor unei mrimi n funcie de alta. Ele exprim legea general, care stabilete variaiile acestor dou mrimi, fiind echivalentul curbei reprezentative a unei funcii. Ele permit ca, plecnd de la o mrime variabil numit variabil de control, sau explicativ (care joac rolul variabilei independente), s obinem informaii despre alt variabil, numit variabil controlat, sau explicat (care joac rolul variabilei dependente, sau al funciei).

Dreapta de regresieUn caz interesant n practic este acela unde legea variaiilor mediilor, reprezentat prin linia de regresie, este o lege liniar, adic o mrime variaz proporional cu cealalt. n acest caz, linia de regresie este o dreapt a crei liniaritate este mai puin mascat de fluctuaiile de eantionaj. Dreapta obinut d cea mai bun estimare a unei variabile funcie de alta.

Se arat c dreapta care corespunde acestor condiii are ecuaia:

,

unde .Se definesc astfel coeficienii liniari de regresie:

ax : coeficientul liniar de regresie al lui y n x, care msoar panta dreptei D pe orizontala Ox. Indic de cte ori n medie y este mai mare sau mai mic dect x. Este pozitiv sau negativ dup cum dreapta este ascendent sau descendent de la stnga la dreapta.

n mod simetric (schimbnd x cu y i y cu x) se definete dreapta de regresie a lui x n y, care corespunde ecuaiei:

, cu coeficientul de regresie corespunztor ay. Prin urmare, avem i:

- ay : coeficientul liniar de regresie al lui x n y, care msoar panta dreptei D pe verticala Oy. Indic de cte ori x este mai mare sau mai mic dect y.

Formulele coeficienilor liniari de regresie arat c ei se pot exprima la fel de bine i n funcie de covariana P:

.

3. Dreapta de regresie i corelaia liniarDreptele de regresie permit de a preciza mai mult noiunea de corelaie liniar.

n cazul corelaiei perfecte corespunztor unei relaii funcionale - unei valori date x i corespunde o valoare i numai una y i invers, unei valori date y i corespunde o unic valoare a lui x, dreapta de regresie a lui y funcie de x, Dy este identic cu dreapta de regresie a lui x funcie de y, Dx; cele dou drepte Dx i Dy se suprapun ntr-o unic linie, care exprim relaia direct de proporionalitate ntre variaiile celor dou mrimi (figura 7).

Dac nu exist corelaie ntre variaiile celor dou mrimi, valoarea medie a lui y va fi independent de valoarea lui x; aceast valoare va fi aceeai pentru orice valori ale lui x, i prin urmare dreapta Dy de regresie a lui y n x este paralel cu axa Ox. Analog, valoarea medie a lui x este independent de valorile lui y, iar dreapta Dx de regresie a lui x n funcie de y va fi paralel cu axa Oy; prin urmare, cele dou drepte Dx i Dy sunt perpendiculare (figura 8).

ntre aceste dou extreme se situeaz cazul n care exist corelaie; atunci exist dou drepte de regresie Dx i Dy care formeaz ntre ele un unghi < 900 (figura 9). n consecin, dac se parcurg toate valorile lui r, se observ c cele dou drepte de regresie se rotesc n jurul originii sistemului de coordonate, M, apropiindu-se una de cealalt, pn cnd se vor confunda (cazul corelaiei perfecte).

Convergena sau divergena acestor dou drepte d un aspect vizual gradului de legtur ntre cele dou variabile, aceast legtur fiind cu att mai strns cu ct cele dou drepte sunt mai apropiate. Se va putea deci evalua cantitativ gradul de corelaie, cu condiia de a gsi un parametru care s dea poziia celor dou drepte. Se deduce c n parametru vor fi implicate pantele celor dou drepte.

Figura 7: Cazul corelaiei perfecte Figura 8: Cazul corelaiei zero

Figura 9: Cazul corelaiei uzuale

4. Coeficientul de corelaie liniarSe utilizeaz ca parametru de corelaie produsul (media geometric a celor dou pante de regresie); acest parametru se numete coeficientul corelaiei liniare. Formula de calcul a coeficientului de corelaie liniar rezult din:

Prin urmare, r reprezint covariana P atunci cnd cele dou serii de variabile sunt raportate la abaterile tip, (x i (y. Formula sa de calcul va fi:

Aceast formul permite s exprimm pantele ax i ay funcie de r:

.

Folosind aceste formule, este posibil s studiem natura corelaiei:

cnd nu exist corelaie: ;

cnd exist corelaie perfect: ; apar dou situaii:

r = + 1 : indic o corelaie perfect pozitiv (figura 10);

r = ( 1 : indic o corelaie perfect negativ (figura 11).

Studiul parametrului r permite deci o evaluare cantitativ a corelaiei.

Figura 10: Corelaie perfect pozitiv Figura 11: Corelaie perfect negativ EMBED Excel.Sheet.8

EMBED Excel.Sheet.8

EMBED Excel.Sheet.8

EMBED Excel.Sheet.8

EMBED Excel.Sheet.8

EMBED Excel.Sheet.8

_953633998.unknown

_953713173.unknown

_953716482.unknown

_998992602.xlsChart1

3

3.5

4

4.5

3.5

3

5.5

5

2.5

2

4

2

3

4.5

4

3

2.5

5

3

4

(x,y)

x

y

Sheet1

02114.6

1111102.6

2287307.9

3480513.2

4529513.2

5304307.9

6126102.6

71914.6

000.620

39.553.845

44.51213.9512

49.53127.6131

54.53129.7831

59.51617.5216

64.535.613

69.520.972

74.500.10

0

50

62

74

86

98

4-2

3-4

2-6

1-8

0-10

39.5

44.5-1.65

49.5-0.95

54.5-0.05

59.50.8

64.51.65

69.52.05

74.54.55

23

2.53.5

34

3.54.5

43.5

4.53

55.5

5.55

62.5

42

54

2.52

33

3.54.5

44

4.53

52.5

5.55

63

6.54

1.52.5

1.32.7

13

1.52

22.7

1.752

1.753.5

1.43.6

1.83

0.751

0.751.5

0.752

0.51.5

12

1.53

24

11.5

0.732.5

12.5

1.251.5

1.22

1.52

1.31.8

12

1.51.5

21.5

1.751.5

1.751

1.41

1.80.8

0.753

0.752.5

0.752

0.53

11.5

1.51

21.2

11

0.732.3

12.6

1.251.4

1.22.3

Sheet1

boys number

families number

Sheet2

&A

Page &P

weight

subjects number

Sheet3

x=m

D

slope = 1/s

x

t

x=m

x

t

(x,y)

x

y

x

y

x

y

_998993050.xlsChart3

2

1.8

2

1.5

1.5

1.5

1

1

0.8

3

2.5

2

3

1.5

1

1.2

1

2.3

2.6

1.4

2.3

x

y

Sheet1

02114.6

1111102.6

2287307.9

3480513.2

4529513.2

5304307.9

6126102.6

71914.6

000.620

39.553.845

44.51213.9512

49.53127.6131

54.53129.7831

59.51617.5216

64.535.613

69.520.972

74.500.10

0

50

62

74

86

98

4-2

3-4

2-6

1-8

0-10

39.5

44.5-1.65

49.5-0.95

54.5-0.05

59.50.8

64.51.65

69.52.05

74.54.55

23

2.53.5

34

3.54.5

43.5

4.53

55.5

5.55

62.5

42

54

2.52

33

3.54.5

44

4.53

52.5

5.55

63

6.54

1.52.5

1.32.7

13

1.52

22.7

1.752

1.753.5

1.43.6

1.83

0.751

0.751.5

0.752

0.51.5

12

1.53

24

11.5

0.732.5

12.5

1.251.5

1.22

1.52

1.31.8

12

1.51.5

21.5

1.751.5

1.751

1.41

1.80.8

0.753

0.752.5

0.752

0.53

11.5

1.51

21.2

11

0.732.3

12.6

1.251.4

1.22.3

Sheet1

boys number

families number

Sheet2

&A

Page &P

weight

subjects number

Sheet3

x=m

D

slope = 1/s

x

t

x=m

x

t

(x,y)

x

y

x

y

x

y

_998996216.xlsChart2

0.1

0.2

0.25

0.3

0.4

0.45

0.5

0.6

xi

yxi

x

y

Sheet1

02114.6

1111102.6

2287307.9

3480513.2

4529513.2

5304307.9

6126102.6

71914.6

000.620

39.553.845

44.51213.9512

49.53127.6131

54.53129.7831

59.51617.5216

64.535.613

69.520.972

74.500.10

0

50

62

74

86

98

4-2

3-4

2-6

1-8

0-10

39.5

44.5-1.65

49.5-0.95

54.5-0.05

59.50.8

64.51.65

69.52.05

74.54.55

23

2.53.5

34

3.54.5

43.5

4.53

55.5

5.55

62.5

42

54

2.52

33

3.54.5

44

4.53

52.5

5.55

63

6.54

1.52.5

1.32.7

13

1.52

22.7

1.752

1.753.5

1.43.6

1.83

0.751

0.751.5

0.752

0.51.5

12

1.53

24

11.5

0.732.5

12.5

1.251.5

1.22

1.52

1.31.8

12

1.51.5

21.5

1.751.5

1.751

1.41

1.80.8

0.753

0.752.5

0.752

0.53

11.5

1.51

21.2

11

0.732.3

12.6

1.251.4

1.22.3

0.20.1

0.30.2

0.40.25

0.50.3

0.60.4

0.70.45

0.80.5

0.90.6

Sheet1

00

00

00

00

00

00

00

00

boys number

families number

Sheet2

000

000

000

000

000

000

000

000

000

&A

Page &P

weight

subjects number

Sheet3

0

0

0

0

0

0

0

0

0

0

x=m

D

slope = 1/s

x

t

x=m

x

t

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

(x,y)

x

y

x

y

x

y

x

y

xi

yxi

x

y

_998996287.xlsChart5

0.1

0.15

0.15

0.3

0.5

0.6

0.75

0.8

yj

xyj

x

y

Sheet1

02114.6

1111102.6

2287307.9

3480513.2

4529513.2

5304307.9

6126102.6

71914.6

000.620

39.553.845

44.51213.9512

49.53127.6131

54.53129.7831

59.51617.5216

64.535.613

69.520.972

74.500.10

0

50

62

74

86

98

4-2

3-4

2-6

1-8

0-10

39.5

44.5-1.65

49.5-0.95

54.5-0.05

59.50.8

64.51.65

69.52.05

74.54.55

23

2.53.5

34

3.54.5

43.5

4.53

55.5

5.55

62.5

42

54

2.52

33

3.54.5

44

4.53

52.5

5.55

63

6.54

1.52.5

1.32.7

13

1.52

22.7

1.752

1.753.5

1.43.6

1.83

0.751

0.751.5

0.752

0.51.5

12

1.53

24

11.5

0.732.5

12.5

1.251.5

1.22

1.52

1.31.8

12

1.51.5

21.5

1.751.5

1.751

1.41

1.80.8

0.753

0.752.5

0.752

0.53

11.5

1.51

21.2

11

0.732.3

12.6

1.251.4

1.22.3

0.20.1

0.30.2

0.40.25

0.50.3

0.60.4

0.70.45

0.80.5

0.90.6

0.30.1

0.40.15

0.450.15

0.550.3

0.550.5

0.650.6

0.750.75

0.850.8

Sheet1

00

00

00

00

00

00

00

00

boys number

families number

Sheet2

000

000

000

000

000

000

000

000

000

&A

Page &P

weight

subjects number

Sheet3

0

0

0

0

0

0

0

0

0

0

x=m

D

slope = 1/s

x

t

x=m

x

t

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

(x,y)

x

y

x

y

x

y

x

y

xi

yxi

x

y

yj

xyj

x

y

x

y

_998993284.xlsChart4

3

3.5

4

4.5

3.5

3

5.5

5

2.5

2

4

2

3

4.5

4

3

2.5

5

3

4

x

y

Sheet1

02114.6

1111102.6

2287307.9

3480513.2

4529513.2

5304307.9

6126102.6

71914.6

000.620

39.553.845

44.51213.9512

49.53127.6131

54.53129.7831

59.51617.5216

64.535.613

69.520.972

74.500.10

0

50

62

74

86

98

4-2

3-4

2-6

1-8

0-10

39.5

44.5-1.65

49.5-0.95

54.5-0.05

59.50.8

64.51.65

69.52.05

74.54.55

23

2.53.5

34

3.54.5

43.5

4.53

55.5

5.55

62.5

42

54

2.52

33

3.54.5

44

4.53

52.5

5.55

63

6.54

1.52.5

1.32.7

13

1.52

22.7

1.752

1.753.5

1.43.6

1.83

0.751

0.751.5

0.752

0.51.5

12

1.53

24

11.5

0.732.5

12.5

1.251.5

1.22

1.52

1.31.8

12

1.51.5

21.5

1.751.5

1.751

1.41

1.80.8

0.753

0.752.5

0.752

0.53

11.5

1.51

21.2

11

0.732.3

12.6

1.251.4

1.22.3

Sheet1

boys number

families number

Sheet2

&A

Page &P

weight

subjects number

Sheet3

x=m

D

slope = 1/s

x

t

x=m

x

t

(x,y)

x

y

x

y

x

y

x

y

_998992918.xlsChart2

2.5

2.7

3

2

2.7

2

3.5

3.6

3

1

1.5

2

1.5

2

3

4

1.5

2.5

2.5

1.5

2

x

y

Sheet1

02114.6

1111102.6

2287307.9

3480513.2

4529513.2

5304307.9

6126102.6

71914.6

000.620

39.553.845

44.51213.9512

49.53127.6131

54.53129.7831

59.51617.5216

64.535.613

69.520.972

74.500.10

0

50

62

74

86

98

4-2

3-4

2-6

1-8

0-10

39.5

44.5-1.65

49.5-0.95

54.5-0.05

59.50.8

64.51.65

69.52.05

74.54.55

23

2.53.5

34

3.54.5

43.5

4.53

55.5

5.55

62.5

42

54

2.52

33

3.54.5

44

4.53

52.5

5.55

63

6.54

1.52.5

1.32.7

13

1.52

22.7

1.752

1.753.5

1.43.6

1.83

0.751

0.751.5

0.752

0.51.5

12

1.53

24

11.5

0.732.5

12.5

1.251.5

1.22

1.52

1.31.8

12

1.51.5

21.5

1.751.5

1.751

1.41

1.80.8

0.753

0.752.5

0.752

0.53

11.5

1.51

21.2

11

0.732.3

12.6

1.251.4

1.22.3

Sheet1

boys number

families number

Sheet2

&A

Page &P

weight

subjects number

Sheet3

x=m

D

slope = 1/s

x

t

x=m

x

t

(x,y)

x

y

x

y

x

y

_953716889.unknown

_953717578.unknown

_953716816.unknown

_953715858.unknown

_953716035.unknown

_953713360.unknown

_953646000.unknown

_953712614.unknown

_953712735.unknown

_953646674.unknown

_953634310.unknown

_953634398.unknown

_953634143.unknown

_953112482.unknown

_953632580.unknown

_953633041.unknown

_953543085.unknown

_953112420.unknown

_953112454.unknown

_953112360.unknown