CURS 11-2009
-
Upload
alynutza-geanina -
Category
Documents
-
view
221 -
download
4
description
Transcript of CURS 11-2009
CURS 12
PAGE 7
CURS 11
Biostatistic
1. Corelaia statistic
n tiinele experimentale i, n particular, n medicin i biologie, intereseaz nu numai variaia unei singure mrimi, ci i a dou valori, adic a dou caractere cantitative, ntr-o populaie statistic. De exemplu, dorim s tim dac exist ntr-o grup de subieci o relaie ntre greutate i nlime, ntre tensiunea arterial i mrimea umoral a unei substane, etc.
Pe plan matematic problema este rezolvat prin noiunea de funcie, care traduce relaia ntre variaia celor dou mrimi, relaie materializat prin curba sa reprezentativ: y = f(x). n acest caz, unei valori date a variabilei independente x i corespunde o valoare i numai una a variabilei dependente y, relaia y = f(x) permind calcularea cu exactitate a acestei valori. O astfel de relaie fiind stabilit, cunoaterea unei valori ne este suficient pentru determinarea valorii corespondente. Acest tip de relaie, numit relaie funcional, este cea care se ntlnete n aa-zisele tiine exacte. Dar problema se complic atunci cnd valorile care se studiaz (cea dependent i cea independent) sunt supuse fluctuaiilor. Fluctuaiile se manifest nu numai pentru o singur valoare dat, ci pentru toate variabilele distribuiei.
Exemplu:
ntr-un grup de subieci crora li s-a studiat nlimea i greutatea, pentru o valoare dat a nlimii (de exemplu 1.70 m) se va gsi seria tuturor subiecilor avnd aceeai nlime i diferind ntre ei prin greutate. Invers, pentru o valoare dat a greutii se va gsi seria subiecilor cu aceeai greutate, dar cu nlimi diferite. Nu se tie, i se pune problema dac greutatea este funcie de nlime, sau invers.
Se constat c la o nlime mic corespunde o greutate mai mic, i invers. Prin urmare, exist o relaie sigur ntre aceste dou mrimi, dar mai puin rigid dect relaia funcional propriu-zis.
Aceast relaie, de o natur particular, se numete corelaie statistic, i joac un rol important n tiinele vieii, i n particular n medicin. Cel mai simplu caz de corelaie este corelaia liniar, unde una dintre mrimi variaz proporional cu alta.
1. Diagrama de dispersie
Un prim mod de a aborda problema const n a folosi reprezentarea grafic. Similar cu studiul unei funcie, se merge la un sistem de axe rectangulare Ox i Oy, pe care se vor reprezenta valorile a dou mrimi: x (nlimea) i y (greutatea). Fiecare individ este reprezentat printr-o pereche (x, y). Ansamblul populaiei studiate va fi reprezentat printr-un nor de puncte, care va constitui dispersia populaiei studiate (figura 1).
Figura 1: Dispersia unei populaii (norul de puncte)
O astfel de diagram, numit diagram de dispersie, permite deja o aproximare a noiunii de corelaie: ntr-adevr, dac exist o corelaie astfel nct, de exemplu, greutile mai mari s fie asociate nlimilor mai mari, norul de puncte va avea o form alungit oblic n sus i la dreapta (figura 2).
Figura 2: Corelaie pozitiv (direct) Figura 3: Corelaie negativ (invers)
Figura 4: Corelaie zero
Dac, dimpotriv, se coreleaz valori mai mari ale uneia dintre mrimi cu valori mai mici ale celeilalte, norul de puncte va avea un aspect analog, dar dirijat n jos i la dreapta (figura 3). Atunci cnd valorile nu se influeneaz reciproc, deci nu exist corelaie, norul de puncte va avea un aspect uniform dispersat (de exemplu, nlimea i glicemia ntr-un lot de persoane) figura 4. Absena corelaiei indic independena caracterelor studiate.
2. Noiunea de covarian
Se consider o sub-populaie a unei populaii date, creia i vom calcula:
media ;
abaterea de la medie ;
media ;
abaterea de la medie .
Dac exist o corelaie pozitiv ntre x i y, calculnd pentru fiecare pereche de valori (x, y) produsul i fcnd suma algebric a tuturor acestor produse, obinem c:
.
n cazul corelaiei negative, pentru fiecare pereche de valori (x, y) produsul i fcnd suma algebric a acestor produse, obinem c:
.
Dac nu exist corelaie, urmnd un raionament analog:
.
Pentru a se da o semnificaie mai general acestei sume, o raportm la numrul de cazuri N. Definim astfel noiunea de covarian, P:
.
Deoarece : deviaia standard traduce dispersia statistic n cazul unei singure serii statistice.
2. Regresia liniar
Regresia este o metod de estimare a relaiei numerice dintre variabile. Numele de regresie se datoreaz lui Galton (1886), care a dezvoltat tehnicile de investigare a relaiei dintre nlimea copiilor i a prinilor lor. n problemele de regresie, scopul este s vedem ct de bine poate fi folosit o variabil pentru a o prediciona pe cealalt.
Cnd studiem o serie statistic important, avem interesul s grupm valorile n clase. Putem proceda la fel pentru distribuia tuturor valorilor lui x. Prin urmare, se va decupa norul de puncte n benzi verticale (figura 5). Vom nota toate valorile lui y care corespund valorilor lui x din aceeai clas, i vom calcula valorile medii pentru acest y.
Pentru fiecare band vertical a norului de puncte se obine astfel un numr sigur de valori medii pentru y, numite punctele mediane ale fiecrei clase. Unind aceste puncte obinem linia de regresie, sau linia de estimare a lui y n x.
Se poate i, invers, s l estimm pe x n funcie de y. Pentru aceasta, este suficient s plecm de la y i s partajm norul de puncte n benzi orizontale, corespunztoare fiecreia dintre clasele individualizate pe axa Oy (figura 6). Valorile medii ale lui x obinute n fiecare dintre aceste benzi orizontale permit s definim o linie de regresie a lui x n y, evident diferit de cea precedent.
Figura 5: Linia de regresie a lui y n x Figura 6: Linia de regresie a lui x n y
Liniile de regresie dau imaginea variaiilor mediilor unei mrimi n funcie de alta. Ele exprim legea general, care stabilete variaiile acestor dou mrimi, fiind echivalentul curbei reprezentative a unei funcii. Ele permit ca, plecnd de la o mrime variabil numit variabil de control, sau explicativ (care joac rolul variabilei independente), s obinem informaii despre alt variabil, numit variabil controlat, sau explicat (care joac rolul variabilei dependente, sau al funciei).
Dreapta de regresieUn caz interesant n practic este acela unde legea variaiilor mediilor, reprezentat prin linia de regresie, este o lege liniar, adic o mrime variaz proporional cu cealalt. n acest caz, linia de regresie este o dreapt a crei liniaritate este mai puin mascat de fluctuaiile de eantionaj. Dreapta obinut d cea mai bun estimare a unei variabile funcie de alta.
Se arat c dreapta care corespunde acestor condiii are ecuaia:
,
unde .Se definesc astfel coeficienii liniari de regresie:
ax : coeficientul liniar de regresie al lui y n x, care msoar panta dreptei D pe orizontala Ox. Indic de cte ori n medie y este mai mare sau mai mic dect x. Este pozitiv sau negativ dup cum dreapta este ascendent sau descendent de la stnga la dreapta.
n mod simetric (schimbnd x cu y i y cu x) se definete dreapta de regresie a lui x n y, care corespunde ecuaiei:
, cu coeficientul de regresie corespunztor ay. Prin urmare, avem i:
- ay : coeficientul liniar de regresie al lui x n y, care msoar panta dreptei D pe verticala Oy. Indic de cte ori x este mai mare sau mai mic dect y.
Formulele coeficienilor liniari de regresie arat c ei se pot exprima la fel de bine i n funcie de covariana P:
.
3. Dreapta de regresie i corelaia liniarDreptele de regresie permit de a preciza mai mult noiunea de corelaie liniar.
n cazul corelaiei perfecte corespunztor unei relaii funcionale - unei valori date x i corespunde o valoare i numai una y i invers, unei valori date y i corespunde o unic valoare a lui x, dreapta de regresie a lui y funcie de x, Dy este identic cu dreapta de regresie a lui x funcie de y, Dx; cele dou drepte Dx i Dy se suprapun ntr-o unic linie, care exprim relaia direct de proporionalitate ntre variaiile celor dou mrimi (figura 7).
Dac nu exist corelaie ntre variaiile celor dou mrimi, valoarea medie a lui y va fi independent de valoarea lui x; aceast valoare va fi aceeai pentru orice valori ale lui x, i prin urmare dreapta Dy de regresie a lui y n x este paralel cu axa Ox. Analog, valoarea medie a lui x este independent de valorile lui y, iar dreapta Dx de regresie a lui x n funcie de y va fi paralel cu axa Oy; prin urmare, cele dou drepte Dx i Dy sunt perpendiculare (figura 8).
ntre aceste dou extreme se situeaz cazul n care exist corelaie; atunci exist dou drepte de regresie Dx i Dy care formeaz ntre ele un unghi < 900 (figura 9). n consecin, dac se parcurg toate valorile lui r, se observ c cele dou drepte de regresie se rotesc n jurul originii sistemului de coordonate, M, apropiindu-se una de cealalt, pn cnd se vor confunda (cazul corelaiei perfecte).
Convergena sau divergena acestor dou drepte d un aspect vizual gradului de legtur ntre cele dou variabile, aceast legtur fiind cu att mai strns cu ct cele dou drepte sunt mai apropiate. Se va putea deci evalua cantitativ gradul de corelaie, cu condiia de a gsi un parametru care s dea poziia celor dou drepte. Se deduce c n parametru vor fi implicate pantele celor dou drepte.
Figura 7: Cazul corelaiei perfecte Figura 8: Cazul corelaiei zero
Figura 9: Cazul corelaiei uzuale
4. Coeficientul de corelaie liniarSe utilizeaz ca parametru de corelaie produsul (media geometric a celor dou pante de regresie); acest parametru se numete coeficientul corelaiei liniare. Formula de calcul a coeficientului de corelaie liniar rezult din:
Prin urmare, r reprezint covariana P atunci cnd cele dou serii de variabile sunt raportate la abaterile tip, (x i (y. Formula sa de calcul va fi:
Aceast formul permite s exprimm pantele ax i ay funcie de r:
.
Folosind aceste formule, este posibil s studiem natura corelaiei:
cnd nu exist corelaie: ;
cnd exist corelaie perfect: ; apar dou situaii:
r = + 1 : indic o corelaie perfect pozitiv (figura 10);
r = ( 1 : indic o corelaie perfect negativ (figura 11).
Studiul parametrului r permite deci o evaluare cantitativ a corelaiei.
Figura 10: Corelaie perfect pozitiv Figura 11: Corelaie perfect negativ EMBED Excel.Sheet.8
EMBED Excel.Sheet.8
EMBED Excel.Sheet.8
EMBED Excel.Sheet.8
EMBED Excel.Sheet.8
EMBED Excel.Sheet.8
_953633998.unknown
_953713173.unknown
_953716482.unknown
_998992602.xlsChart1
3
3.5
4
4.5
3.5
3
5.5
5
2.5
2
4
2
3
4.5
4
3
2.5
5
3
4
(x,y)
x
y
Sheet1
02114.6
1111102.6
2287307.9
3480513.2
4529513.2
5304307.9
6126102.6
71914.6
000.620
39.553.845
44.51213.9512
49.53127.6131
54.53129.7831
59.51617.5216
64.535.613
69.520.972
74.500.10
0
50
62
74
86
98
4-2
3-4
2-6
1-8
0-10
39.5
44.5-1.65
49.5-0.95
54.5-0.05
59.50.8
64.51.65
69.52.05
74.54.55
23
2.53.5
34
3.54.5
43.5
4.53
55.5
5.55
62.5
42
54
2.52
33
3.54.5
44
4.53
52.5
5.55
63
6.54
1.52.5
1.32.7
13
1.52
22.7
1.752
1.753.5
1.43.6
1.83
0.751
0.751.5
0.752
0.51.5
12
1.53
24
11.5
0.732.5
12.5
1.251.5
1.22
1.52
1.31.8
12
1.51.5
21.5
1.751.5
1.751
1.41
1.80.8
0.753
0.752.5
0.752
0.53
11.5
1.51
21.2
11
0.732.3
12.6
1.251.4
1.22.3
Sheet1
boys number
families number
Sheet2
&A
Page &P
weight
subjects number
Sheet3
x=m
D
slope = 1/s
x
t
x=m
x
t
(x,y)
x
y
x
y
x
y
_998993050.xlsChart3
2
1.8
2
1.5
1.5
1.5
1
1
0.8
3
2.5
2
3
1.5
1
1.2
1
2.3
2.6
1.4
2.3
x
y
Sheet1
02114.6
1111102.6
2287307.9
3480513.2
4529513.2
5304307.9
6126102.6
71914.6
000.620
39.553.845
44.51213.9512
49.53127.6131
54.53129.7831
59.51617.5216
64.535.613
69.520.972
74.500.10
0
50
62
74
86
98
4-2
3-4
2-6
1-8
0-10
39.5
44.5-1.65
49.5-0.95
54.5-0.05
59.50.8
64.51.65
69.52.05
74.54.55
23
2.53.5
34
3.54.5
43.5
4.53
55.5
5.55
62.5
42
54
2.52
33
3.54.5
44
4.53
52.5
5.55
63
6.54
1.52.5
1.32.7
13
1.52
22.7
1.752
1.753.5
1.43.6
1.83
0.751
0.751.5
0.752
0.51.5
12
1.53
24
11.5
0.732.5
12.5
1.251.5
1.22
1.52
1.31.8
12
1.51.5
21.5
1.751.5
1.751
1.41
1.80.8
0.753
0.752.5
0.752
0.53
11.5
1.51
21.2
11
0.732.3
12.6
1.251.4
1.22.3
Sheet1
boys number
families number
Sheet2
&A
Page &P
weight
subjects number
Sheet3
x=m
D
slope = 1/s
x
t
x=m
x
t
(x,y)
x
y
x
y
x
y
_998996216.xlsChart2
0.1
0.2
0.25
0.3
0.4
0.45
0.5
0.6
xi
yxi
x
y
Sheet1
02114.6
1111102.6
2287307.9
3480513.2
4529513.2
5304307.9
6126102.6
71914.6
000.620
39.553.845
44.51213.9512
49.53127.6131
54.53129.7831
59.51617.5216
64.535.613
69.520.972
74.500.10
0
50
62
74
86
98
4-2
3-4
2-6
1-8
0-10
39.5
44.5-1.65
49.5-0.95
54.5-0.05
59.50.8
64.51.65
69.52.05
74.54.55
23
2.53.5
34
3.54.5
43.5
4.53
55.5
5.55
62.5
42
54
2.52
33
3.54.5
44
4.53
52.5
5.55
63
6.54
1.52.5
1.32.7
13
1.52
22.7
1.752
1.753.5
1.43.6
1.83
0.751
0.751.5
0.752
0.51.5
12
1.53
24
11.5
0.732.5
12.5
1.251.5
1.22
1.52
1.31.8
12
1.51.5
21.5
1.751.5
1.751
1.41
1.80.8
0.753
0.752.5
0.752
0.53
11.5
1.51
21.2
11
0.732.3
12.6
1.251.4
1.22.3
0.20.1
0.30.2
0.40.25
0.50.3
0.60.4
0.70.45
0.80.5
0.90.6
Sheet1
00
00
00
00
00
00
00
00
boys number
families number
Sheet2
000
000
000
000
000
000
000
000
000
&A
Page &P
weight
subjects number
Sheet3
0
0
0
0
0
0
0
0
0
0
x=m
D
slope = 1/s
x
t
x=m
x
t
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
(x,y)
x
y
x
y
x
y
x
y
xi
yxi
x
y
_998996287.xlsChart5
0.1
0.15
0.15
0.3
0.5
0.6
0.75
0.8
yj
xyj
x
y
Sheet1
02114.6
1111102.6
2287307.9
3480513.2
4529513.2
5304307.9
6126102.6
71914.6
000.620
39.553.845
44.51213.9512
49.53127.6131
54.53129.7831
59.51617.5216
64.535.613
69.520.972
74.500.10
0
50
62
74
86
98
4-2
3-4
2-6
1-8
0-10
39.5
44.5-1.65
49.5-0.95
54.5-0.05
59.50.8
64.51.65
69.52.05
74.54.55
23
2.53.5
34
3.54.5
43.5
4.53
55.5
5.55
62.5
42
54
2.52
33
3.54.5
44
4.53
52.5
5.55
63
6.54
1.52.5
1.32.7
13
1.52
22.7
1.752
1.753.5
1.43.6
1.83
0.751
0.751.5
0.752
0.51.5
12
1.53
24
11.5
0.732.5
12.5
1.251.5
1.22
1.52
1.31.8
12
1.51.5
21.5
1.751.5
1.751
1.41
1.80.8
0.753
0.752.5
0.752
0.53
11.5
1.51
21.2
11
0.732.3
12.6
1.251.4
1.22.3
0.20.1
0.30.2
0.40.25
0.50.3
0.60.4
0.70.45
0.80.5
0.90.6
0.30.1
0.40.15
0.450.15
0.550.3
0.550.5
0.650.6
0.750.75
0.850.8
Sheet1
00
00
00
00
00
00
00
00
boys number
families number
Sheet2
000
000
000
000
000
000
000
000
000
&A
Page &P
weight
subjects number
Sheet3
0
0
0
0
0
0
0
0
0
0
x=m
D
slope = 1/s
x
t
x=m
x
t
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
(x,y)
x
y
x
y
x
y
x
y
xi
yxi
x
y
yj
xyj
x
y
x
y
_998993284.xlsChart4
3
3.5
4
4.5
3.5
3
5.5
5
2.5
2
4
2
3
4.5
4
3
2.5
5
3
4
x
y
Sheet1
02114.6
1111102.6
2287307.9
3480513.2
4529513.2
5304307.9
6126102.6
71914.6
000.620
39.553.845
44.51213.9512
49.53127.6131
54.53129.7831
59.51617.5216
64.535.613
69.520.972
74.500.10
0
50
62
74
86
98
4-2
3-4
2-6
1-8
0-10
39.5
44.5-1.65
49.5-0.95
54.5-0.05
59.50.8
64.51.65
69.52.05
74.54.55
23
2.53.5
34
3.54.5
43.5
4.53
55.5
5.55
62.5
42
54
2.52
33
3.54.5
44
4.53
52.5
5.55
63
6.54
1.52.5
1.32.7
13
1.52
22.7
1.752
1.753.5
1.43.6
1.83
0.751
0.751.5
0.752
0.51.5
12
1.53
24
11.5
0.732.5
12.5
1.251.5
1.22
1.52
1.31.8
12
1.51.5
21.5
1.751.5
1.751
1.41
1.80.8
0.753
0.752.5
0.752
0.53
11.5
1.51
21.2
11
0.732.3
12.6
1.251.4
1.22.3
Sheet1
boys number
families number
Sheet2
&A
Page &P
weight
subjects number
Sheet3
x=m
D
slope = 1/s
x
t
x=m
x
t
(x,y)
x
y
x
y
x
y
x
y
_998992918.xlsChart2
2.5
2.7
3
2
2.7
2
3.5
3.6
3
1
1.5
2
1.5
2
3
4
1.5
2.5
2.5
1.5
2
x
y
Sheet1
02114.6
1111102.6
2287307.9
3480513.2
4529513.2
5304307.9
6126102.6
71914.6
000.620
39.553.845
44.51213.9512
49.53127.6131
54.53129.7831
59.51617.5216
64.535.613
69.520.972
74.500.10
0
50
62
74
86
98
4-2
3-4
2-6
1-8
0-10
39.5
44.5-1.65
49.5-0.95
54.5-0.05
59.50.8
64.51.65
69.52.05
74.54.55
23
2.53.5
34
3.54.5
43.5
4.53
55.5
5.55
62.5
42
54
2.52
33
3.54.5
44
4.53
52.5
5.55
63
6.54
1.52.5
1.32.7
13
1.52
22.7
1.752
1.753.5
1.43.6
1.83
0.751
0.751.5
0.752
0.51.5
12
1.53
24
11.5
0.732.5
12.5
1.251.5
1.22
1.52
1.31.8
12
1.51.5
21.5
1.751.5
1.751
1.41
1.80.8
0.753
0.752.5
0.752
0.53
11.5
1.51
21.2
11
0.732.3
12.6
1.251.4
1.22.3
Sheet1
boys number
families number
Sheet2
&A
Page &P
weight
subjects number
Sheet3
x=m
D
slope = 1/s
x
t
x=m
x
t
(x,y)
x
y
x
y
x
y
_953716889.unknown
_953717578.unknown
_953716816.unknown
_953715858.unknown
_953716035.unknown
_953713360.unknown
_953646000.unknown
_953712614.unknown
_953712735.unknown
_953646674.unknown
_953634310.unknown
_953634398.unknown
_953634143.unknown
_953112482.unknown
_953632580.unknown
_953633041.unknown
_953543085.unknown
_953112420.unknown
_953112454.unknown
_953112360.unknown