TEORIA PROBABILITĂŢILOR
7
ELEMENTE DE BIOSTATISTICĂ
ANALIZA STATISTICĂ A DATELOR BIOLOGICE
BIOSTATISTICA
8
1. BIOSTATISTICA
1.1. INTRODUCERE
Statistica matematică rămâne cea mai adecvată şi exactă metodă de interpretare a
fenomenelor de masă, cu posibile legături cauzale, multifactoriale, unde legitatea se
manifestă şi se poate observa prin rezultanta unui număr mare de fapte luate în studiu.
Ca ştiinţă matematică, statistica îşi desăvârşeşte sensul şi prin biostatistică cu
aplicaţii în domenii ca: Medicină, Biologie, Farmacie, Agricultură, Ecologie.
Biostatistica poate fi definită ca fiind formată din metodele probabilistice utilizate
pentru culegerea, descrierea, analiza, interpretarea şi prezentarea datelor medicale sau
biologice în general. Aceasta este cunoscută şi cu numele de biometrie şi s-a desprins
ca subramură a statisticii, odată cu dezvoltarea tehnicilor de studiu a datelor de natură
biologică.
Biostatistica este o ramură a informaticii medicale sau a bioinformaticii,
integrându-se perfect zonei ştiinţifice de prelucrare a informaţiei.
Din punct de vedere al medicului sau farmacistului, această ştiinţă trebuie
înţeleasă nu ca un aparat matematic greoi plin de proprietăţi, teoreme şi demonstraţii,
ci trebuie văzută partea sa practică, utilă pentru realizarea şi interpretarea rezultatelor
obţinute în urma analizelor. În acest sens, computerul ne ajută din plin prin programele
existente (unele chiar oferite gratuit: EpiInfo 3.3.2-2005), astfel încât calculul
formulelor matematice utilizate în biostatistică devine uşor de realizat, problema reală
a utilizatorului fiind doar alegerea protocolului corect de studiu şi interpretarea
pertinentă a rezultatelor obţinute.
1.2. TIPURI DE VARIABILE
Informaţia existentă este materializată prin caracteristici definite şi utilizate în
studiile statistice.
Variabila este o caracteristică sau un atribut măsurabil, care diferă de la subiect la
subiect printr-o variaţie intrinsecă, putându-şi modifica valoarea în timp şi/sau spaţiu
sub influenţa diferiţilor factori. Dacă nu ar exista această dispersie sau variaţie a
datelor, atunci şi rezultatul experienţelor, fenomenelor sau proceselor ar fi determinist
fiind exprimat într-o formă punctuală iar aplicaţia statistică nu ar avea sens.
Există două tipuri de variabile (date) ce definesc natura informaţiei: cantitative şi
respectiv, calitative.
BIOSTATISTICA
9
Datele de tip calitativ mai sunt cunoscute şi cu numele de variabile categoriale
sau atributive. Valorile acestora variază ca sortiment, categorie sau clasă, nu după
magnitudine sau mărime. Practic, nu putem realiza o ordonare între valorile existente.
De exemplu, putem cere fiecărui om dintr-un grup, să-şi exprime părerea asupra
celei mai frumoase culori dintr-o paletă dată. Evident, nu putem găsi o relaţie de genul
roşu este mai mic decât albastru (rugăm a nu se face apel aici la lungimea de undă sau
frecvenţa specifică culorii respective). Poate un exemplu mai grăitor ar fi sexul unui
nou născut sau tipurile de religii existente, sau de ce nu, partidele politice .
Pentru a măsura o variabilă de tip categorial se folosesc scale nominale. Acestea
vor defini grupurile sau categoriile existente prin asignarea unor nume. Nefiind
informaţie de tip cantitativ este imposibil de realizat ordonarea acestora. De interes
practic şi posibil de studiat sunt frecvenţele de apariţie a categoriilor definite
(anticipăm aici şi menţionăm că modul1 sau indicatorul statistic valoare modală poate
prezenta interes în acest caz).
Exemple: afilierea politică, preferinţa religioasă, culoarea ochilor, starea civilă etc.
Datele sau variabilele de tip cantitativ se caracterizează prin variaţie în
magnitudine, de la element la element. Astfel, acestea pot fi ordonate, încât relaţii de
genul mai mic sau mai mare au sens în acest context. După fineţea pasului de evaluare
a relaţiei mai mare sau mai mic, putem împărţi variabilele cantitative în discrete şi
continue.
O variabilă discretă poate lua valori numărabile sau izolate, cum ar fi: numărul de
note de 10 la examenul de admitere, sau numărul de nou născuţi într-o zi la o
maternitate.
O variabilă de tip continuu poate lua orice valoare dintr-un interval definit. Spre
exemplu temperatura, valoarea presiunii arteriale, sau înălţimea unei persoane au valori
de tip continuu. Evident, precizia de măsurare depinde de utilitatea informaţiei, astfel
încât putem afirma că valoarea măsurată cu o exactitate de o zecimală este suficientă în
exprimarea temperaturii, folosind scara Celsius de măsură.
Variabilele de tip cantitativ folosesc trei scale (scări) de măsură: ordinală, interval
şi raport.
Scala de tip ordinal prezintă în plus faţă de scala nominală caracteristica de
ordonare a claselor de grupare a datelor. Cu toate acestea, este greu sau imposibil de
specificat dimensiunea distanţei sau diferenţei dintre clase. De exemplu, este imposibil
de cuantificat diferenţa dintre clasele (depinde de cel ce apreciază): foarte frumos,
frumos, acceptabil, urât. Dar logic ordinea lor este clară.
Scala de tip interval conţine trăsăturile unei scale ordinale şi în plus, diferenţele
dintre clasele scalei pot fi specificate. O unitate a intervalului scalei are aceeaşi
interpretare, indiferent de clasa căreia îi aparţine. Cu toate acestea, raportul este
imposibil de interpretat. Nu există punctul de referinţă 0 în cadrul acestei scale de
măsură. Acesta a fost ales doar arbitrar, după o anumită logică empirică. De exemplu,
în scala Celsius de temperatură, nivelul de 0 a fost definit empiric, ca punctul de îngheţ
1 Modul este valoarea din şir de frecvenţă maximă (sau valoarea întâlnită cel mai des).
BIOSTATISTICA
10
al apei pure. Şi scala Fahrenheit de măsură este un bun exemplu. Dacă temperaturile
măsurate sunt 300C, respectiv 60
0C nu putem afirma că temperatura de 60 este dublul
celei de 30. Raportul nu poate fi corect interpretat. Iată, 300C înseamnă 86
0F, iar 60
0C
înseamnă 1400F. Raportul de 21 nu se menţine şi în scara Fahrenheit, cu toate că
temperaturile sunt aceleaşi.
Scala de tip raport are în plus faţă de scala interval, definirea concretă a originii
sistemului de măsură, astfel încât raportul are sens şi se poate interpreta. Scara Kelvin
este un exemplu corect în acest sens.
Dacă este să reprezentăm grafic tipurile de scale de măsură, acestea ar arăta ca în
figura 2.2 1.
Figura 2.2 1 - Scale de măsură pentru variabile.
Interpretarea este în sensul următor: oricând o variabilă ce poate fi măsurată pe o
scară ordinală poate fi tratată ca o variabilă de scală nominală, dar informaţia va fi
pierdută şi astfel avem şanse să fim deficitari în concluziile obţinute.
După legătura existentă între variabile, acestea se împart în dependente, respectiv
independente.
Variabile independente (sau factori) sunt de obicei în cadrul experimentului
manipulate de cercetător. Prin modificarea valorilor acestora, ca urmare a legăturilor
existente, se modifică şi variabilele dependente .
De exemplu doza folosită pentru aplicarea unui anumit tratament este variabila
independentă iar efectul severităţii maladiei este cea dependentă. Ca observaţie finală
în acest exemplu, variabila independentă este aceea ce se poate modifica de specialist,
doctor, farmacist, iar variabila dependentă este efectul sau rezultatul urmărit.
1.3. VARIABILITATEA DATELOR MEDICALE
Prin natura lor datele medicale prezintă o variaţie intrinsecă, biologică ce implică
pentru analiză un studiu specific care face apel la teoria probabilităţilor. Pe lângă
această variaţie există şi modificări ale valorilor reale măsurate, datorate erorilor
generate de metoda metrologică aplicată, cât şi a impreciziei observatorilor.
Variaţia biologică prezintă interes şi este studiată, iar celelalte variaţii sunt erori ce
trebuie minimizate.
Scala
nominală
Scala
ordinală
Scala
interval
Scala raport
BIOSTATISTICA
11
Datorită legăturilor interne şi externe, există în continuare variaţii de tip intra-
respectiv inter- grupuri.
Figura 2.3 1 - Surse de variaţie a datelor medicale.
Variaţiile datorate erorilor de măsură sunt caracterizate de inexactitate şi de
precizie. Întâlnite şi ca sinonime, acestea diferă semnificativ în teoria metrologică.
Inexactitatea este datorată incapacităţii de a măsura perfect o anumită mărime.
Aceasta nu se datorează erorii aparatului de măsură, ci depinde de factori perturbatori,
cum ar fi: modificări de temperatură, ale câmpului electric sau ale câmpului magnetic
de exemplu.
Precizia se referă la fidelitatea măsurătorii. Aceasta depinde de sensibilitatea
(fidelitatea) aparatului de măsură. Prin repetarea măsurătorii se va obţine (de dorit)
aceeaşi valoare. Precizia se măsoară în numărul de zecimale corecte pe care le obţinem
printr-o anumită măsurătoare.
1.4. REPREZENTAREA DATELOR STATISTICE
Datele culese experimental urmează a fi analizate conform metodelor statisticii.
Datele se culeg în general dintr-o populaţie statistică sau colectivitate statistică.
Elementele populaţiei sunt numite unităţi statistice sau indivizi. La un anumit moment
ne interesează o trăsătură comună a indivizilor, numită variabilă sau caracteristică.
În general, informaţiile ce se culeg sunt numai de la o parte din indivizi, nu din
întreaga populaţie. Aceasta este o cercetare selectivă. Astfel de indivizi formează
eşantionul sau selecţia de lucru.
O formă simplă de a obţine informaţii referitoare la populaţie din datele de pe
eşantioane este oferită de metodele statisticii descriptive. Aceasta implică culegerea
datelor, prezentarea lor sub formă de tabele, întocmirea unor reprezentări grafice şi
Variabilitate
totală
Analitică sau
metrologică
Biologică
Instrumentală De observator Individuală
Intra-
Intra-
Inter-
Inter-
Intra- Inter-
BIOSTATISTICA
12
calculul indicatorilor statistici (astfel se extrag primele informaţii). Crearea tabelelor şi
a graficelor ajută la o interpretare mai uşoară a datelor.
Presupunem că avem şirul de date notat: x1, x2, …, xn. Acestea sunt culese în
ordinea realizării experimentale. Tabelul datelor primare reprezintă aceste date în
ordinea culegerii lor.
Este evident că acest tabel conţine o masă dezordonată de valori. Interpretarea lor
este greoaie, de aceea se creează al doilea tip de tabel, anume, tabelul datelor ordonate.
Acesta din urmă oferă mai multă informaţie, mai ales prin ordonarea datelor, dar este
încă greu de interpretat, în special la cantităţi mari de date. O nouă îmbunătăţire este
necesară.
Pentru a evidenţia caracteristicile variabilelor de studiu, se creează un alt tip de
tabel, cu datele grupate în intervale de clasă.
Gruparea termenilor
Pentru a reprezenta datele sub o formă mai restrânsă se foloseşte gruparea
acestora. Aceasta înseamnă crearea unui tabel cu două coloane pentru fiecare variabilă
de interes. În prima coloană se trece intervalul variabilei de studiu, iar în a doua se
trece numărul de apariţii în acel interval.
Intervalele trebuie să fie disjuncte şi consecutive, astfel încât de la valoarea
minimă până la valoarea maximă să fie acoperită toată plaja de valori.
Numărul indivizilor ce aparţin unui anumit interval (sau clasă) formează frecvenţa
absolută a intervalului, notată a1, a2, …, am (unde m este numărul de clase care nu
poate fi decât mai mic sau egal cu n, numărul de indivizi).
Avem relaţia:
m
jj na
1
, unde :
aj – frecvenţa absolută a clasei j.
m – numărul de clase.
n – numărul de indivizi.
Frecvenţa relativă fi se obţine raportând frecvenţa absolută ai la numărul de
indivizi, notat cu n.
n
af
jj şi avem relaţia: 1
11
n
n
n
af
m
j
jm
jj .
Tabelul 2.4 1 - Tabelul datelor primare
x1 x2 x3 x4 x5
x6 x7 x8 x9 x10
x11 x12 x13 x14 x15
x16 x17 x18 x19 x20
BIOSTATISTICA
13
Frecvenţa cumulată este numărul de indivizi cumulaţi până la o anumită valoare
a variabilei de studiu.
La rândul ei frecvenţa cumulată poate fi absolută şi relativă. Pentru frecvenţele
cumulate se folosesc de obicei la notaţie litere mari.
Tabelul 2.4 2 – Exemplu generic de grupare a pacienţilor după vârstă.
Vârsta Frecvenţa
absolută (ai)
Frecvenţa
relativă (fi)
Frecvenţa
relativă
cumulată (Ai)
Frecvenţa
absolută
cumulată (Fi)
0 – 5 15 0,138 0,138 15
5 – 10 17 0,157 0,295 32
10 – 15 20 0,185 0,48 52
15 – 20 16 0,148 0,628 68
20 – 25 19 0,175 0,803 87
25 – 30 21 0,194 1 108
suma 108 1
Numărul intervalelor de grupare se poate calcula cu relaţia lui H.A. Sturgers :
)ln(322,31 nk , unde:
k – numărul de intervale (se ia partea întreagă).
n – numărul datelor de studiu.
Se poate folosi şi relaţia H.B. Mann şi A. Wald pentru n > 100 :
5
1
14
14
nk (se ia partea întreagă).
Intervalele de grupare au dimensiuni egale cu excepţia eventuală a celor extreme,
care de obicei au dimensiuni mai mari pentru a acoperi plaja de valori.
Dacă dimensiunea eşantionului este mai mică decât 25, atunci nu se aplică
împărţirea pe clase.
Reprezentarea datelor prin diagrame
Graficele se creează prin reprezentarea proporţională cu valorile numerice, a
formelor de bare, linii, sectoare de cerc sau chiar puncte aflate în anumite sisteme de
coordonate. Forma graficelor scoate în evidenţă proprietăţi care se observă greu din
prezentarea tabelară. Diagramele nu dovedesc o legitate sau o relaţie, dar scot în
evidenţă posibile trăsături sau sugerează caracteristici ce trebuie apoi verificate.
Histograma
Este reprezentarea sub formă grafică, a unor dreptunghiuri cu înălţimea
proporţională cu frecvenţa, iar cu baza egală cu dimensiunea intervalului de grupare.
Există histograme ale frecvenţelor absolute, relative şi cumulate.
BIOSTATISTICA
14
Exemplu
Figura 2.4 1 – Histograma frecvenţelor absolute.
Figura 2.4 2 – Histograma frecvenţelor absolute cumulate.
Diagrama cu linii
În locul barelor folosite la histogramă se pot trasa linii verticale ce trec prin
punctele definite de valoarea frecvenţelor reprezentate.
Poligonul frecvenţelor
Este asemănător histogramei. Se trasează punctele corespunzătoare centrului
intervalului şi frecvenţei dorite, apoi se unesc prin linii aceste puncte.
Exemple
15 1720
25
1518
19
0
5
10
15
20
25
30
Interval varsta
Diagrama cu linii
1517
20
25
1518
19
0
5
10
15
20
25
30
Interval varsta
Poligonul frecventelor
BIOSTATISTICA
15
Figura 2.4. 3. Figura 2.4. 4.
Diagrama Tukey (cunoscută şi sub numele de „stem and leaf” – tulpină şi
frunză)
Histograma prezintă grafic distribuţia de frecvenţă. Prin gruparea datelor şi
crearea de clase se are în vedere o caracterizare totală a datelor pe categorii. Astfel, se
pierde o parte din informaţie şi reconstrucţia datelor după histogramă este imposibilă
(este posibilă doar dacă s-ar reprezenta element cu element).
Diagrama de tip Tukey prezintă în plus faţă de o histogramă, posibilitatea de a
reconstitui datele şi de a vedea componenţa (densitatea) elementelor în cadrul unei
clase. Din punct de vedere al prezentării, această diagramă este mai puţin aspectuoasă,
căci reprezintă numere suprapuse pentru fiecare categorie în parte.
Exemplu
Presupunem că avem de reprezentat diagrama Tukey pentru setul de date grupate
pe clase:
Tabelul 2.4 3 - Diagrama Tukey
Clasa Valori Frecvenţă Diagrama Tukey
1 10; 10; 10,6 3 10. 006
2 11; 11,3; 11,3; 11,5 4 11. 0335
3 12; 12,2; 12,3; 12,3; 12,8; 12,8 6 12. 023388
4 13,3; 13,7 2 13. 37
5 14,5 1 14. 5
Construcţia diagramei porneşte de la a scrie numărul întreg ce defineşte limita
inferioară a clasei. Astfel avem: 5 clase de la 10 la 10,9, apoi de la 11 la 11,9 etc.
Primul număr din ultima coloană este aşadar 10 pentru prima clasă, 11 pentru a doua şi
aşa mai departe până la ultima clasă.
Urmează apoi un punct despărţitor şi pentru fiecare valoare prezentă se trece
partea zecimală. Astfel, pentru prima clasă avem de două ori valoarea 10 şi vom trece
doi de zero. Avem în ordine crescătoare valoarea 10,6, vom trece astfel valoarea finală
6.
Se observă clar influenţa fiecărui element în diagramă cu posibilitatea reconstruirii
datelor eşantionului de studiu.
Graficul de tip Box-and-Whiskers
Este o metodă ce prezintă în mod compact forma distribuţiei unui set de date. Se
foloseşte cu succes în compararea şi determinarea simetriei repartiţiei definite de un lot
de date (box – cutie, whiskers – mustăţi).
BIOSTATISTICA
16
Figura 2.4 5.
Pentru realizarea graficului se calculează anumiţi indicatori statistici ce reprezintă
cele 5 limite ale figurii din dreapta (folosim noţiunile de mediană, cuartile şi cuantile
definite pentru cazul discret în capitolul următor).
Mediana este valoarea din cadrul şirului ordonat care se află la jumătatea acestuia.
Aceasta împarte setul de date in două grupe egale şi este reprezentată în grafic de linia
notată cu 3.
Limitele 2, respectiv 4 reprezintă valorile cuartilelor. Acestea împart distribuţia
de frecvenţă în patru părţi egale. Astfel în total sunt 3 ca număr. Cuartila a doua este
chiar mediana. Intervalul intercuartilic este definit de distanţa dintre limitele 2 şi 4.
Între acestea se află 50% din setul de date.
Extremele 1, respectiv 5 sunt determinate de - cuantile. De obicei se alege
%10 (decile). Astfel, nivelul 5 din grafic va prezenta cuantila pentru care 10%
din date sunt sub această valoare, iar nivelul 1 din grafic va reprezenta valoarea pentru
care 90% din date sunt sub acesta.
Graficul este relevant prin faptul că scoate în evidenţă nivelul de simetrie al
distribuţiei. Dacă distribuţia nu este simetrică, mediana nu se va afla la mijlocul
dreptunghiului (în cele mai multe cazuri). Mai mult, laturile din afara dreptunghiului
nu vor fi de dimensiuni egale.
Această simetrie este bine să fie verificată, chiar prin teste specifice, deoarece
dacă setul de date este provenit dintr-o distribuţie normală (Gauss-Laplace), atunci
proprietăţi şi metode statistice proprii pot fi utilizate în analiza datelor.
Diagrame de structură
Reprezintă forme grafice construite cu ajutorul dreptunghiurilor sau al sectoarelor
de cerc, care arată proporţia în cadrul eşantionului a anumitor variabile.
1517
20
25
19
18
15
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%Dreptunghi de structura
13
17
20
25
15
18
19
Cerc de structura
Lot 1 Lot 2 Lot 3
Variabila
studiată 1
2
3 4
5
BIOSTATISTICA
17
Figura 2.4 6. Figura 2.4 7.
Sunt situaţii în care se doreşte reprezentarea grafică a unui eşantion după mai
multe caracteristici. Se poate apela la spaţiul tridimensional (dacă avem doar trei
dimensiuni) şi prin proiecţia în spaţiul bidimensional se obţine graficul dorit.
Iată un exemplu în care în spaţiul bidimensional se reprezintă mai mult de două
informaţii pe acelaşi grafic. Piramida vârstelor este reprezentarea grafică a distribuţiei
populaţiei pe vârstă, sex şi de asemenea se reprezintă şi proporţia populaţiei active.
-30 -20 -10 0 10 20 30
Femei Barbati mii persoane
1984
1972
1960
1948
1936
1924
An
na
ste
re
Piramida varstelorpopulatie
activa
Figura 2.4 8 - Reprezentarea pe acelaşi grafic a mai multor caracteristici.
Axa XX` se împarte prin origine în două subgrupe reprezentând sexul persoanelor.
Valorile negative se interpretează în modul, deci valoare absolută, sensul axei
reprezentând sexul.
Axa YY` reprezintă anul de naştere sau anul de studiu.
Populaţia activă este şi ea reprezentată prin suprafaţa semitransparentă, suprapusă
peste populaţia totală la un anumit moment.
1.5. INDICATORI STATISTICI
Extragerea de informaţii dintr-un set de date se realizează în prima etapă prin
calculul indicatorilor statistici, realizând o formă descriptivă a cunoştinţelor. Tot în
această fază de lucru, reprezentarea repartiţiei de frecvenţe poate aduce informaţii
suplimentare asupra tipului de distribuţie urmat de datele de examinare.
În studiul distribuţiei de frecvenţe a caracteristicii unei populaţii se observă o
tendinţă de variaţie cu două aspecte: 1 – de localizare (de poziţie), 2 – de împrăştiere
(de variaţie).
Analiza cantitativă care să permită evaluări şi comparaţii din punct de vedere al
localizării sau al împrăştierii datelor se poate efectua numai cu ajutorul indicatorilor
statistici. Aceştia exprimă numeric pe baza valorilor de studiu, fie localizarea, fie
variaţia datelor.
BIOSTATISTICA
18
Indicatori de localizare sau de poziţie
Prin determinarea acestora, se indică valoarea spre care tind să se grupeze datele
reale. Sunt mai multe tipuri de indicatori de poziţie, care diferă ca mod de calcul şi de
asemenea, funcţie de caz şi în valoare.
Media aritmetică (simplă)
Este indicatorul de bază al tendinţei de localizare. Considerăm şirul de date x1, x2,
…,xn. Media aritmetică se notează cu X sau M(x).
Formula de calcul: n
x
n
xxxx
n
ii
n
121 ...
.
Media aritmetică ponderată
Dacă avem frecvenţele absolute a1, a2, … , am corespunzătoare valorilor x1, x2,
…., xm), atunci media se poate calcula conform formulei:
n
xa
aaa
xaxaxax
m
jjj
m
mm
1
21
2211
...
.....,
sau, folosind frecvenţele relative fj,
j
m
jjj
m
j
j
m
jjj
xfxn
a
n
xa
x
11
1.
Media aritmetică ponderată şi media aritmetică simplă reprezintă acelaşi indicator.
Evident pentru un şir de date valoarea mediei aritmetice este aceeaşi indiferent de
metoda de calcul. Totuşi în practică se poate greşi dacă se calculează media folosind
numai valorile unice din cadrul şirului. Trebuie acordată o atenţie deosebită în
exprimarea frecvenţei de apariţie a valorilor unice.
Exemplu Dacă avem şirul format din elementele {x1, x2, x3, x3, x4, x5} se poate greşi dacă
media se calculează cu formula: 5
54321 xxxxxX
(deoarece x3 apare de
două ori).
Media armonică
Se utilizează în calculul valorii medii pentru mai multe mărimi relative (este mai
potrivită decât valoarea medie simplă).
Valoarea reciprocă (inversă) a mediei armonice este media reciprocelor valorilor
din lot. Pentru şirul de valori x1, x2, x3, … , xn se notează cu MH media armonică.
Formula de calcul este :
BIOSTATISTICA
19
n
i iH xnM 1
111,
n
i in
H
x
n
n
xxx
M
121
11...
11
1, cu condiţia 0ix .
Considerând frecvenţele absolute ai obţinem următoarea formulă de calcul a
mediei armonice ponderate:
m
j j
jn
i i
H
x
a
n
x
nM
11
1.
Notând cu fi frecvenţele relative obţinem:
m
j j
jm
j j
jm
j j
jH
x
f
x
n
a
x
a
nM
1
1
1
11.
O formulă echivalentă este:
n
ii
i
n
ii
H
Xx
X
M
1'
1
1.
Xi reprezintă valorile absolute, '
ix sunt valorile relative, n volumul eşantionului.
Exemplu
Mortalitatea în 5 localităţi este de 8‰, 9‰, 9,5‰, 10‰, respectiv 7‰. Numărul
de locuitori este 4000, 6000, 4300, 5000, respectiv 6340.
00047,8
...60009
14000
8
1
...60004000
HN .
Este un indicator de localizare mai bun decât media aritmetică pentru acest caz.
Se foloseşte rar, fiind util în special în cadrul distribuţiilor în formă de J.
Media cronologică
Este utilizată pentru seriile care au variaţii în timp (lunare, semestriale sau anuale).
Formula de calcul: 1
2...
2 121
n
XXX
X
M
nn
C .
Exemplu Numărul de gravide aflate în evidenţă la început de an a fost de 106. La
sfârşitul celor 4 trimestre au fost 111, 125, 131 şi 84. O aproximare mai bună a mediei
pe trimestre este: 11515
284131125111
2106
CM .
BIOSTATISTICA
20
Media geometrică
Se utilizează în calculul coeficienţilor de creştere medie a valorilor unei serii
cronologice logaritmice, sau a seriilor cu creştere progresivă cu raţie crescătoare. De
exemplu, se foloseşte în calculul ritmului mediu de creştere anuală sau în dinamica
sporului natural al populaţiei.
Media geometrică a unui şir de valori x1, x2, … , xn se notează de obicei cu MG şi
se calculează cu formula:
n i
n
i
nnG xxxxxM
1
321 ... .
Prin înmulţirea numerelor se poate ajunge uşor la valori foarte mari. Pentru a nu
depăşi valoarea maximă admisă de computer, se poate folosi următorul artificiu
matematic:
i
n
ii
nG xx
nn
xxxM lglg
1lg......lglglg
1
21
se calculează media
logaritmului de xi.
Reamintim şi formula de trecere dintr-o bază a logaritmului în alta:
ac
bcb
alog
loglog (ce este utilă în astfel de calcule).
Media pătratică
Fie şirul de valori x1, x2, x3, …, xn. Media pătratică se notează MP şi se calculează
cu formula:
21
2
xn
x
M
n
ii
P
, radicalul din media pătratelor valorilor.
Mediana
Notăm valorile unui şir cu x1, x2, x3, …, xn. Suplimentar, acest şir trebuie să fie
ordonat. Valoarea ce ocupă locul central (independentă de tipul de ordonare
crescătoare sau descrescătoare) se numeşte mediană şi se notează cu Me. Dacă şirul are
un număr impar de valori, adică n = 2k+1, avem :
2
11 nk xxMe .
Dacă şirul are un număr par de valori, deci n=2k, calculăm mediana cu formula:
22
2/22/1
nnkk
xxxxMe .
Mediana (indicator robust) este mai puţin influenţată de valorile extreme decât
media şi este mai stabilă la fluctuaţiile de selecţie.
BIOSTATISTICA
21
Se utilizează în serii de date de volum mare cu valori apropiate, deci colectivităţi
omogene.
Modul (modulul sau dominanta)
Fie şirul format din elementele x1, x2, x3, … , xn. Valoarea xi corespunzătoare
frecvenţei celei mai mari poartă numele de mod. Repartiţia poate avea mai multe
maxime, dar de obicei doar unul este global, celelalte fiind locale. Dacă există un
singur maxim repartiţia se numeşte unimodală, cu două maxime se va numi bimodală,
iar cu mai multe maxime este numită polimodală sau multimodală.
Figura 2.5 1 – Tipuri de repartiţii (x-valoare variabilă, y-densitatea de
probabilitate).
Sunt situaţii în care datele sunt grupate pe clase. În acest caz intervalul
corespunzător frecvenţei maxime se numeşte interval modal sau clasă modală. Modul
se notează cu Mo.
Metoda de determinare a modului pentru un set de date împărţite pe clase se va
descrie în continuare. În figura de mai jos, sunt reprezentate trei intervale de grupare ce
cuprind frecvenţa maximă.
Figura 2.5 2 - Metoda deducerii modului.
Deoarece frecvenţa intervalului determinat de L1, L2 este mai mare decât frecvenţa
intervalului determinat de L3, L4 este normal ca poziţia modului să fie mai apropiată de
Unimodală Bimodală Multimodală
L1 L2 M0 L3 L4
A E
B F C
D
f
X
L
f2 f1
0
a b
BIOSTATISTICA
22
primul interval. Evident, intervalul modal este L2, L3. M0 se află la intersecţia dreptelor
BD şi AC.
Triunghiul CEF este asemenea cu triunghiul CAB (deoarece FE este paralelă
cu BA şi vârful C este comun). Avem raportul de asemănare:
FE
bfba
b
ba
FE
f
11 . (1)
BEF este asemenea cu triunghiul BDC
FE
afba
a
ba
FE
f
22 . (2)
Din relaţiile (1) şi (2) scoatem valoarea a+b şi egalăm rezultatele:
afbfFE
af
FE
bfba
21
21 . (3)
Dar LLLba 23 . (4)
( L reprezintă lungimea intervalului de clasă).
Din (3) rezultă af
fb
1
2 şi înlocuind în (4) avem:
21
1
1
2
ff
fLaLa
f
fa
. (5)
Valoarea modală este:
21
122
ff
fLLaLMo
. (6)
Valoarea centrală
Reprezintă media extremelor şirului de date studiat.
2
minmax XXXc
.
Dacă valorile din şirul de date sunt grupate pe clase, formula de calcul devine:
2
.sup.inf clasaclasa XXXc
.
Este uşor de observat că valoarea centrală este puternic dependentă de extreme şi
nu de valorile tuturor datelor.
Proprietăţile caracteristicilor de localizare
Putem enumera următoarele proprietăţi specifice caracteristicilor de localizare:
Mediile aritmetică şi pătratică sunt influenţate de valorile mari ale şirului.
Mediile geometrică şi armonică sunt mai puternic influenţate de valorile mici
ale şirului.
BIOSTATISTICA
23
Mediana nu este influenţată de valorile extreme.
Valoarea centrală nu depinde de toate valorile şirului de date, ci numai de cele
extreme.
Relaţie existentă între medii este: PGH MXMM .
Cel mai des indicator de localizare folosit este media aritmetică.
Indicatori de variaţie
Valorile medii descriu informaţia într-o formă integrată, exprimând tendinţa de
localizare a datelor prin neprezentarea cunoştinţelor înglobate în lot despre variaţia
existentă. Indicatorii de localizare redau doar o singură trăsătură comună întregii
colectivităţi. Se simte nevoia definirii unor noi indicatori statistici care să evidenţieze şi
alte aspecte ale populaţiei studiate.
Categoria de indicatori de dispersie (variaţie) reprezintă o evaluare numerică a
împrăştierii datelor. Variaţia luată în considerare se poate raporta chiar la valoarea
medie calculată.
Dispersia (varianţa)
Dispersia sau varianţa reprezintă o mediere a pătratelor distanţelor faţă de
valoarea medie a şirului de date. Se notează cu 2 sau D[x]. Are următoarea formulă
de calcul (pentru volumul n al eşantionului de valori mari, n>30):
n
xx
n
xxxxxx
n
ii
n
1
222
22
12 ..... .
Dacă avem valorile x1, x2, x3, …, xn cu frecvenţele absolute a1, a2, …, am, atunci
formula de calcul devine:
m
mm
aaa
xxaxxaxxa
....
.....
21
2222
2112
n
xxa
a
xxam
iii
m
ii
m
iii
1
2
1
1
2
.
Considerând frecvenţele relative fi, obţinem:
m
i
m
iiii
i
m
iii
xxfxxn
a
n
xxa
1 1
221
2
2 .
Sunt cazuri în care dispersia trebuie estimată dintr-un eşantion de date. Dacă
volumul eşantionului este mai mic decât 30, atunci se aplică o corecţie formulei de
BIOSTATISTICA
24
calcul. În acest caz ajustarea este în sensul că nu se împarte la n ci la n-1 (numit şi
numărul gradelor de libertate).
111
21
2
1
2
2
n
n
n
n
n
xx
n
xxn
ii
n
ii
estimat .
Abaterea pătratică medie (deviaţia standard)
Prin extragerea rădăcinii pătrate din dispersie se obţine abaterea pătratică medie.
Astfel, deviaţia standard şi indicatorii de localizare se exprimă cu aceleaşi unităţi de
măsură.
n
xx
xD
n
ii
1
2
][ .
Ţinând cont de frecvenţele absolute şi relative pe intervale avem:
m
iii
m
ii
i
m
iii
xxfxxn
a
n
xxa
1
2
1
21
2
.
Putem dezvolta expresia dispersiei în continuare:
.21
2
1
2
1
1
2
1
2
11
2
1
2
n
x
xn
x
xn
n
x
n
xx
n
x
n
xx
n
i
n
iin
ii
n
i
n
ii
n
ii
n
ii
Ştiind că 2
1
21P
n
ii Mx
n
, xn
xn
ii
1 ,
221
2
1xxn
nn
xn
i
,
dispersia devine:
22222 2 xMxxM PP .
Abaterea pătratică este rădăcina pătratică din diferenţa dintre pătratul mediei
pătratice şi pătratul mediei aritmetice.
BIOSTATISTICA
25
Amplitudinea
Este definită ca diferenţa valorilor extreme ale şirului de date studiat şi se notează
cu W sau A (în majoritatea cazurilor): W = A = Xmax - Xmin .
În cazul grupării datelor pe clase se defineşte şi noţiunea de amplitudine a clasei,
notată cu wi (corespunzător clasei i). Această mărime este egală cu diferenţa dintre
valorile extreme ale clasei respective. Cu cât este mai mică valoarea sa cu atât lotul
este mai omogen.
Aspecte negative ale amplitudinii :
- depinde de eşantion, având variaţii pentru fiecare eşantion în parte ,
- nu ţine seama de tipul repartiţie.
Intervalul intercuartilic
Cuartilele (sau cvartilele) împart datele în 4 clase de frecvenţe egale cu 25%.
Astfel, sunt necesare 3 valori Q1, Q2, Q3 care reprezintă cuartilele. Presupunem că
avem o distribuţie a frecvenţelor parametrului x (discret), conform graficului din figura
2.5 3.
Suma frecvenţelor până la limita determinată de Q1 este egală cu suma
frecvenţelor dintre Q1 şi Q2, de asemenea egală cu suma frecvenţelor dintre Q2 şi Q3 şi
în final, egală cu suma frecvenţelor de după Q3. Dacă repartiţia ar fi fost de tip
continuu, această sumă ar fi integrala determinată de limitele notate Qi.
Intervalul cuartilic se defineşte ca fiind diferenţa dintre Q3 şi Q1 (ultima şi prima
cuartilă). Q1 se numeşte cuartilă inferioară sau mică, Q3 se numeşte cuartila
superioară sau mare. Prin urmare, intervalul intercuartilic va fi:
Iq = Q3 – Q1.
Observaţie Cuartila Q2 este tocmai mediana Me.
Se defineşte coeficientul de variaţie intercuartilică ca fiind raportul :
e
q
M
I
Q
QQq
2
13 .
BIOSTATISTICA
26
Figura 2.5 3 - Cuartilele.
Coeficientul de variaţie
Abaterea pătratică medie se interpretează prin compararea cu media valorilor
studiate. Dacă avem o medie de 100 şi o abatere pătratică standard 5 , atunci avem
mici variaţii, dar dacă avem aceeaşi abatere la o medie de 10, atunci variaţia este foarte
mare. În concluzie, este necesară raportarea abaterii pătratice la valoarea mediei, pentru
a exprima corect împrăştierea datelor. Se defineşte coeficientul de variaţie:
xCx
.
Acest coeficient este o măsură relativă a variaţiei datelor faţă de medie. Astfel,
indiferent de medie, seturile de date, chiar de natură diferită, pot fi comparate folosind
coeficientul de variaţie.
Momente
Momentele ajută la determinarea anumitor caracteristici legate de forma (alură)
repartiţiilor, care nu pot fi determinate doar cu indicatorii statistici de localizare sau
variaţie.
Momentele centrate de ordin k (k1):
Se definesc momentele centrate de ordin k în raport cu originea arbitrară A, ca
fiind exprimate prin formula:
n
i
k
i
A
k Axn
m1
1.
BIOSTATISTICA
27
Exprimăm formula în funcţie de frecvenţele absolute ai, respectiv frecvenţele
relative fi şi obţinem:
m
j
kij
m
j
kij
m
jj
m
j
kij
Ak Axf
n
Axa
a
Axa
m1
1
1
1.
Dacă originea aleasă este tocmai media aritmetică, atunci momentul centrat de
ordin k se va calcula cu formula :
n
i
kik xx
nm
1
1 - momentul centrat de ordin k în raport cu media
aritmetică.
În cazul notaţiei momentelor centrate în raport cu media aritmetică nu se mai
afişează în partea superioară a lui m originea de centrare.
Momentul centrat de ordin 2 în raport cu media aritmetică este tocmai dispersia:
2
1
22
1
n
ii xx
nm .
Momentul absolut de ordin k (k1):
Din formula momentului centrat de ordin k în raport cu referinţa A se poate
deduce momentul absolut. Dacă A=0 se obţine momentul absolut:
m
j
kjj
m
j
kjj
n
i
kik xfxa
nx
nm
111
` 11, unde:
ai – frecvenţa absolută; fi – frecvenţa relativă; m – numărul de clase;
n – numărul de elemente.
Pentru k=1 se obţine: xxn
mn
i
i 1
`
1
1, adică momentul absolut de ordin 1, care
este egal cu media aritmetică.
Proprietăţi ale momentelor:
1. Momentul centrat de ordin 1 cu originea în media aritmetică este 0 (suma
algebrică a abaterilor individuale faţă de medie este egală cu 0).
Demonstraţie
Metoda 1:
BIOSTATISTICA
28
0111
)(1
11 11
xxxnn
xxn
xn
xxn
mn
i
n
i
n
iii .
2. Momentul minim centrat de ordin 2 are originea în media aritmetică (media
abaterilor pătratice are valoare minimă când aceasta este calculată în raport cu media
aritmetică).
Demonstraţie
Momentul centrat de ordin doi este :
n
ii
A Axn
m1
22 )(
1.
Facem un artificiu de calcul, adăugând şi scăzând valoarea medie.
.)(1
)()(2
)(1
])()[(1
1
2
1
1
22
12
n
i
n
ii
n
ii
n
ii
A
xAn
xxn
xA
xxn
xAxxn
m
Conform proprietăţii (1) avem: 0)(1
11
mxxn
n
ii . Astfel, paranteza a
doua are valoarea 0. În continuare obţinem:
.)(
)(1
)(1
)(1
2
1
22
1
2
1
22
pozitivtermenm
xAn
mxAn
xxn
mn
i
n
i
n
ii
A
Din ultima formulă tragem concluzia că oricare ar fi A, momentul centrat de ordin
2 cu originea în A este egal cu momentul centrat cu originea în media aritmetică, la
care se adaugă un termen pozitiv. De aici deducem că momentul centrat de ordin 2 cu
originea în media aritmetică este minimul momentului centrat de ordin 2.
Se pot stabili diferite relaţii între momentele absolute şi cele centrate în raport cu
media aritmetică. Iată un exemplu:
m
ii
m
iii
m
iii
m
iii xfxfxxfxxfm
1
2
11
2
1
22 2)(
.
1
22`
1`22
1
1
2`1
`1
`1
`2
mmm
fDar
fmmmm
n
ii
n
ii
BIOSTATISTICA
29
Asimetrie (skewness)
O distribuţie este considerată simetrică, dacă de o parte şi de alta a mediei,
frecvenţele au aceleaşi valori.
Notăm cu f(xi) – frecvenţa; m – media
Simetria în raport cu media există, dacă pentru oricare R avem
relaţia: )()( mfmf .
În continuare, putem caracteriza asimetria în funcţie de poziţionarea mediei faţă
de modul:
1 – Avem asimetrie la dreapta, dacă Mox (figura 2.5 4).
2 – Avem asimetrie la stânga, dacă Mox (figura 2.5 5).
Figura 2.5 4. Pentru a obţine o măsură a asimetriei, statisticianul englez Karl Pearson a definit
indicatorul relativ de asimetrie (acest indicator este adimensional, fiind astfel util
pentru a compara distribuţiile între ele):
MoxSk
.
O altă formulă echivalentă de calcul este: n
xx
S
n
i
i
k
1
2
pentru n mare.
Dacă n are valori mici se corectează formula astfel: 1
1
2
n
xx
S
n
i
i
k
.
Asimetrie la dreapta
1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52
Mo M(x)
BIOSTATISTICA
30
Figura 2.5 5.
Cazuri posibile:
1 – Dacă Sk>0, avem asimetrie pozitivă sau asimetrie la dreapta.
2 – Dacă Sk<0, avem asimetrie negativă sau asimetrie la stânga.
3 – Dacă Sk=0, avem simetrie (distribuţia normală are asimetria 0).
În general, o distribuţie care are valoarea Sk diferită de 0 cu mai mult de ±1,
denotă o diferenţă semnificativă faţă de distribuţia normală.
În limba engleză cuvântul consacrat este skewness, folosit în programele de
statistică medicală.
Boltirea (excesul, kurtosis)
Acest indicator compară distribuţia dată cu cea normală sau gausiană (descrisă în
capitolul Repartiţii continue). Statisticianul englez Karl Pearson a definit de asemenea
coeficientul de boltire:
4
4
22
42
m
m
m .
Pentru o distribuţie normală 32 normal .
Din punct de vedere al boltirii avem următoarea clasificare, reprezentată grafic
mai jos:
32 .
Figura 2.5 6.
Asimetrie la stânga
1 4 7 10 13 16 19 22 25 28 31 34 37 40
M(x) Mo
Repartiţie aplatizată sau platicurtică
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39
BIOSTATISTICA
31
32 .
Figura 2.5 7.
32 .
Figura 2.5 8.
Pentru descrierea boltirii se poate folosi şi coeficientul Fisher, ce măsoară excesul
faţă de distribuţia normală. Acesta se calculează cu formula:
334
4
22
m
, echivalentă cu:
3
4
1
2
2
n
xxn
ii
. Pentru valori
mici ale volumului eşantionului se împarte la n-1 în loc de n.
Avem următoarele modalităţi de caracterizare a distribuţiilor:
Mezocurtică 0,3 22 .
Leptocurtică 0,3 22 .
Platicurtică 0,3 22 .
(Forma distribuţiilor este sugerată de etimologia cuvintelor: ,,platus” în limba
greacă semnifică ,,lat”, ,,leptos” – ,,subţire”, ,,mesos” - ,,mijlociu”, ,,kurtosis” –
,,cocoaşă”).
Repartiţie medie sau mezocurtică
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39
Repartiţie ascuţită sau leptocurtică
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39
BIOSTATISTICA
32
1.6. INTERVALE DE ÎNCREDERE (CONFIDENŢĂ)
Introducere
În cazul realizării experimentelor de un număr repetat de ori se obţine un număr
finit de evenimente. Observaţiile ce se fac asupra populaţiei pot fi totale (dacă se
studiază toate evenimentele, sau toţi indivizii - exhaustiv) sau parţiale (dacă se
studiază doar un eşantion din total).
Cercetarea unitară a întregii populaţii în multe situaţii este greu de realizat, poate
chiar impracticabilă. O situaţie complementară este aceea în care numărul datelor
experimentale este mic. Bazându-ne pe aceste informaţii trebuie deduse caracteristici
generale asupra fenomenului sau obiectivului de studiu.
Eşantionul este considerat mic dacă volumul său are un număr de elemente până
în 30 şi mare dacă numărul de elemente depăşeşte valoarea 30. Acest prag este necesar
pentru a aproxima cât mai bine modificările ce apar în tipul distribuţiei datelor şi ca
urmare un volum mare al eşantionului va avea implicaţii pozitive în rezultatele finale.
Astfel, funcţie de numărul de valori disponibile, se aplică diferite teste, iar precizia
estimărilor este cu atât mai bună cu cât avem mai multe date de studiu.
Scopul principal în cadrul culegerii datelor constă în a obţine cu un efort minim
(volum minim de date) un volum maxim de informaţii.
Estimarea constă în operaţia de determinare a parametrilor populaţiei pe baza
eşantionului studiat. Datorită lipsei de informaţie generată de cercetarea uneori
neunitară cât şi datorită dispersiei parametrilor doriţi, se poate deduce cu o anumită
probabilitate (de obicei acceptată la valoarea de 95% în domeniul medical), un anumit
interval de încredere în care se află parametrul studiat.
Obiectivul final al unui experiment constă, în majoritatea cazurilor, în a măsura
valoarea unui parametru. Valoarea măsurată (izolată de altfel) nu poate fi considerată
satisfăcătoare sau valoare de referinţă dacă nu se fac şi precizări referitoare la domeniul
de variaţie precum şi la probabilitatea corespunzătoare.
În cadrul estimării parametrilor unei populaţii, valoarea calculată este de fapt o
variabilă aleatoare legată de eşantionul studiat. Cu cât avem mai multe eşantioane, cu
atât avem mai multe valori ale parametrului care urmează a fi calculat.
Rolul inferenţelor statistice constă în a determina din informaţiile din eşantion
concluzii pertinente asupra întregii populaţii. Chiar dacă teoretic putem imagina un
număr mare de eşantioane extrase, aplicând metodele statisticii, se pot afla limitele de
variaţie ale mediei (ca exemplu de indicator analizat) doar dintr-un singur eşantion de
studiu.
Media, acest indicator statistic de importanţă majoră, este în centrul temei de
estimare sau evaluare. Această estimare ajută nu numai la caracterizarea unei populaţii,
ci şi la compararea diferitelor loturi analizate (este important de menţionat că media
poate reprezenta şi frecvenţa de apariţie a unui eveniment – conform legi numerelor
mari).
Intervalul de estimare a parametrului respectiv se deduce din formula de calcul a
probabilităţii:
BIOSTATISTICA
33
2
1
)()(ateaProbabilit 21
x
x
dxxfxXxP , unde f(x) - este densitatea
de probabilitate (cazul continuu).
x1 , x2 - sunt limitele intervalului ca variabila aleatoare X să ia valori în
intervalul astfel definit, cu o anumită probabilitate.
Reprezentând grafic funcţia densitate de probabilitate obţinem intervalul de
încredere cu nivelul de semnificaţie , desenat în figura 2.6 1.
f(x)
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
-4 -3 -2 -1 0 1 2 3 4
21
Intervalul de încredere
x1 x2
Figura 2.6 1 - Interval de încredere.
Intervalul de variaţie pentru variabila aleatoare studiată şi pentru o anumită
probabilitate (95% standard) se numeşte şi interval de confidenţă sau de încredere.
1- - este nivelul de încredere (se mai notează cu ).
- este riscul sau nivelul de semnificaţie (=1+2). În general putem avea un
risc stânga 1, respectiv dreapta 2, cu suma egală cu . Pentru un interval simetric
bilateral avem = /2 + /2, deci riscul se împarte simetric.
În concluzie, riscul poate fi plasat simetric sau asimetric faţă de media dorită spre
a fi estimată.
Intervalul de încredere pentru media unei variabile aleatoare de tip
continuu repartizată normal
Metoda de lucru pleacă generic de la ideea de a studia variabila aleatoare creată
din media eşantioanelor extrase din populaţia ţintă. Teoretic, putem extrage un număr
enorm de eşantioane dintr-o populaţie. Aceste eşantioane pot avea dimensiuni diferite,
iar media lor respectă un anumit tip de distribuţie.
Există în statistică teorema limită centrală (rezultat fundamental), care afirmă că
independent de tipul de distribuţie al datelor din populaţie, media eşantioanelor
extrase creează un lot de date care urmează o repartiţie de tip Gauss-Laplace (cu
condiţia să avem selecţie aleatoare simplă).
BIOSTATISTICA
34
Graficul de mai jos exprimă vizual ideea demonstrată prin teorema limită centrală.
Figura 2.6 2 - Crearea distribuţiei mediilor eşantioanelor.
Vom da un exemplu de determinare a distribuţiei mediilor eşantioanelor dintr-o
populaţie care nu este repartizată normal, tocmai pentru a observa forma gausiană
urmată de eşantionul mediilor.
Presupunem că avem o populaţie repartizată liniar constant pe intervalul [0, 1].
Vom extrage 100 eşantioane de dimensiune 5, apoi 15 şi în final, de dimensiune 30.
Pentru fiecare din cele 100 de eşantioane se calculează media, apoi se realizează
histograma frecvenţelor absolute.
Acestea sunt reprezentate grafic în figurile următoare.
Histograma datelor din populaţia ţintă
121130
117 113121
128140
147
121 124
0
20
40
60
80
100
120
140
160
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 More
Figura 2.6 3. Repartiţia liniară a datelor studiate.
Populaţia de
studiu
L1
L2
Li
Ln
L7
Eşantion (lot)
extras
Lot Medie
1 M1
2 M2
3 M3
…. …
45 M45
46 M46
….. ….
n Mn
Distribuţia mediilor este
de tip (Gauss Laplace)
BIOSTATISTICA
35
S-a folosit pentru exemplificare un eşantion de 1264 de date liniar distribuite. Se
observă conturarea unei drepte aproximativ paralelă cu axa abscisei (figura 2.6 3).
Histograma mediilor
(eşantion din 5 elemente)
0
10
20
30
40
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 More
Figura 2.6 4 - Forma repartiţiei este asemănătoare tipului Gauss-Laplace
(dispersia datelor este mare).
Histograma mediilor
(eşantion din 15 elemente)
0
10
20
30
40
50
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
Mor
e
Figura 2.6 5 – Forma (alură) repartiţiei este apropiată de tipul
Gauss-Laplace cu dispersie medie.
Histograma mediilor
(eşantion din 30 elemente)
05
1015202530
0.12
50.
2
0.27
50.
35
0.42
50.
5
0.57
50.
65
0.72
50.
8
0.87
50.
95
Figura 2.6 6 - Repartiţie este normală cu dispersie mică. Din ultimele trei grafice se poate observa forma normală a distribuţiei mediei
eşantioanelor. De asemenea, se conturează o scădere a dispersiei mediilor odată cu
creşterea volumului eşantionului.
Teorema limită centrală
Indiferent de tipul distribuţiei populaţiei, media eşantioanelor tinde către
distribuţia Gauss Laplace şi este cu atât mai apropiată de aceasta, cu cât volumul
eşantionului creşte (un volum mai mare decât 30 implică erori mici).
BIOSTATISTICA
36
Observaţii
1 – Dacă distribuţia populaţiei este normală, atunci în mod sigur distribuţia
mediilor eşantioanelor este normală şi pentru valori mici ale eşantionului.
2 – Media valorilor medii ale eşantioanelor este media populaţie. Aceasta arată că
nu există eroare de deplasare. Matematic putem scrie: ),...,( 21 nXXXM .
3 – Deviaţia standard a mediilor eşantioanelor este de radical din n ori mai mică
decât deviaţia standard a întregii populaţii. Avem astfel: nX
, n reprezintă
volumul eşantionului.
Funcţie de ipoteza pe care o avem de verificat, metoda de calcul se modifică,
fiind dedicată naturii experimentului. Din acest motiv, intervalul de încredere pentru
medie este tratat pe cazuri diferite, în funcţie de informaţia deţinută. Pentru valori mici
ale eşantionului cât şi pentru situaţia în care nu se cunoaşte dispersia, o aproximare de
tip Student a distribuţiei este mai bună.
Cazul 1 – Valoarea dispersiei este cunoscută.
Considerăm o variabilă aleatoare repartizată normal N(,2) pentru care dorim să
estimăm intervalul de încredere pentru valoarea mediei. Avem un set de date de volum
n şi notăm media calculată din datele eşantionului cu X , iar media populaţiei (de
obicei necunoscută) cu .
Evident, dacă am putea analiza întreaga populaţie, atunci media calculată ar avea
valoarea de încredere 100% iar calculul intervalului de variaţie nu ar avea sens,
X .
Vom considera ca eficientă probabilitatea de estimare de 95%, ceea ce înseamnă
pentru o repartiţie normală redusă un interval simetric cuprins între 96,11
Z ,
respectiv 96,12
Z (conform figurii 2.6 7 şi a valorilor tabelate în anexa A ).
Din formula de calcul a probabilităţii avem:
195,096,196,1 ZP . (1)
Se poate demonstra (după cum am amintit deja) că dacă avem mai multe
eşantioane dintr-o populaţie normală, media de selecţie este o variabilă aleatoare
repartizată normal N(,2/n). Pentru a o centra şi normaliza vom aplica formula (se
scade media şi se raportează la dispersie):
n
xz
/
. (2)
Din prima şi a doua formulă putem scrie:
96,1/
96,1
n
x
. (3)
Dezvoltând în continuare formula 3 obţinem:
n
xn
x
96,196,1
BIOSTATISTICA
37
n
x
96,1 . (4)
n
- se numeşte eroare standard (de eşantion de volum n).
În cazul general, pentru un risc simetric formula (4) devine:
n
zx
2/ . (5)
Z/2 este abscisa densităţii de probabilitate f(x) pentru un nivel de semnificaţie /2
(valori tabelate în anexe). Dacă riscul este bilateral dar nu simetric avem următoarea
formulă dedusă din (1):
2121
1
Z
n
xZZZZP
nZx
nZx
21. (6)
Graficul intervalului de încredere pentru repartiţie normală este prezentat mai jos.
Figura 2.6 7 - Interval de încredere pentru repartiţie normală.
În cazul folosirii unui interval de încredere unilateral formulele de calcul pentru
estimare de tip mai mică, respectiv mai mare decât o anumită valoare sunt:
BIOSTATISTICA
38
f(z)
1
M[z]=0 Z
interval de incredere
Interval unilateral la dreapta:
1
nZxP .
Figura 2.6 8 - Interval de încredere unilateral dreapta.
Interval unilateral la stânga:
.1
nZxP
Figura 2.6 9 - Interval de încredere unilateral stânga.
Cazul 2 – Valoarea dispersiei este necunoscută.
Considerăm variabila aleatoare X repartizată normal N(,2) cu media şi dispersia
necunoscute. Dacă avem un eşantion de volum n atunci, cu parametrii deduşi din
eşantion (media şi dispersia), se poate crea o repartiţie Student (sau ,,t”) cu formula:
n
S
Xt
2
, cu 1 n grade de libertate.
S - reprezintă dispersia corectată şi se calculează cu formula:
1
1
2
2
n
xx
S
n
i
i
.
Asemănător cazului anterior, pentru risc bilateral simetric avem formula de calcul:
12/,2/, tnS
xtP
n
Stx
n
Stx 2/,2/, . (7)
O scriere compactă a formulei (7) este următoarea : n
Stx 2/, .
BIOSTATISTICA
39
Pentru risc unilateral avem:
1 – Risc unilateral stânga: n
StX , .
2 – Risc unilateral dreapta: n
StX , .
Intervalul de încredere determinat prin metoda neparametrică „bootstrap”
Tehnica bootstrap este descrisă detaliat în capitolul ce prezintă eşantionarea. Este
explicată metoda de generare de eşantioane chiar din lotul sursă, folosind alegeri de tip
aleator (metoda Monte Carlo). Reamintim cele două trăsături ale acestei tehnici:
- Eşantioanele bootstrap sunt generate din lotul de studiu.
- Eşantionarea este realizată cu înlocuire şi drept urmare, poate apare acelaşi
element de mai multe ori în noile selecţii.
Metoda bootstrap aplicată pentru determinarea intervalului de confidenţă pentru
medie poate fi prezentată prin următorii paşi:
1 – se generează conform tehnicii cunoscute n eşantioane.
2 – se calculează media pentru fiecare eşantion generat.
3 – se ordonează crescător mediile calculate.
4 – se determină ordinea din şir a mediilor ce reprezintă limitele intervalului
pentru nivelul de confidenţă stabilit.
Exemplu
Presupunem ca generăm 120 eşantioane şi ne interesează intervalul de confidenţă
90% pentru medie. Primii trei paşi prezentaţi se realizează relativ uşor, după care
determinăm ordinea din cadrul şirului pentru limitele minimă, respectiv maximă a
intervalului.
Pentru 90% confidenţă rezultă elementele de pe poziţia 5%, respectiv 95%. Pentru
un volum de dimensiune n, calculăm n*5/100, respectiv n*95/100.
În cazul nostru avem: 120*5/100=6, respectiv 120*95/100=114.
Astfel, din şirul ordonat crescător se citesc limita inferioară de pe poziţia 6,
respectiv limita superioară de pe poziţia 114.
Intervalul de încredere pentru diferenţa a două medii
Presupunem că avem două variabile aleatoare independente notate X1, respectiv
X2, repartizate normal 2
111 , N şi 2
222 ,N . În cazul general se pot sau nu
cunoaşte dispersiile populaţiilor, dar sigur se pot afla estimările lor, după datele din
eşantion. Pentru a determina intervalul de încredere pentru diferenţa mediilor se ştie că
21 XX are o repartiţie normală cu media 21 şi dispersia
2
2
21
2
1
2 nn , unde n1 respectiv n2 reprezintă volumele eşantioanelor.
Dacă lucrăm cu un interval de încredere bilateral simetric şi cunoaştem dispersiile
populaţiilor construim statistica repartizată normal:
BIOSTATISTICA
40
2
2
2
1
2
1
2121
nn
xxZ
cu repartiţia N(0,1).
Din formula de calcul a probabilităţii obţinem:
2/
2
22
1
21
2121
2/2/2/ 1
Z
nn
xx
ZZZZP
.
Sub formă compactă, putem scrie:
2
2
2
1
2
12/2121
nnZxx
.
Dacă nu se cunosc dispersiile, acestea se vor estima din datele eşantioanelor. Se
poate calcula statistica repartizată Student:
2
2
2
1
2
1
2121
n
S
n
S
xxt
, cu
1
22
i
i
iin
nS şi 221 nn grade
de libertate. În final diferenţa mediilor estimată este :
2
2
2
1
2
12/,2121
n
S
n
Stxx .
Intervalul de încredere pentru proporţia unei variabile aleatoare
Suntem în situaţia estimării intervalul de confidenţă pentru o proporţie. Proporţia
poate fi asemănată cu o medie, iar metodele de lucru pot fi transpuse în acest context.
Evident, ca în cazurile deja prezentate, nu putem studia în totalitate populaţia şi apelăm
la informaţia cuprinsă într-un eşantion. Calculăm proporţia dedusă din lot şi aflăm
limitele intervalului de variaţie a mediei.
Problema se repetă şi asemănător determinării intervalului de variaţie a mediei,
putem considera generic, un set format din mai multe eşantioane pentru care calculăm
şi studiem proporţia de realizare a unui anumit eveniment de interes.
În situaţia în care loturile sunt consistente în informaţie, deci conţin date în număr
suficient de mare pentru a păstra proprietăţile populaţiei, distribuţia mediilor este de tip
Gauss-Laplace şi putem calcula relativ uşor limitele de confidenţă.
Se pleacă de la formula generală ce exprimă probabilitatea pentru o distribuţie
normală.
Notăm: P – probabilitatea, p – proporţia din eşantion, – proporţia reală a
populaţiei, -nivelul semnificaţiei ce este de obicei 5%.
BIOSTATISTICA
41
Pentru o repartiţie normală şi pentru o semnificaţie definită, limitele notate z1
respectiv z2 se determină din formula:
121 zZzP . Pentru un interval simetric z2 = –z1.
Media proporţiilor este repartizată normal si are abaterea standard . Aceasta
poate fi aproximată cu formula: n
pp
1 .
Trebuie să normalizăm variabila aleatoare proporţie, deci trebuie să scădem
valoarea p măsurată din eşantion şi să împărţim la dispersie. Obţinem astfel variabila
normalizată:
pZ
.
Aceasta trebuie sa fie cuprinsă între limitele 2/1 zz respectiv
2/1 zz , pentru nivel de semnificaţie simetric.
Calculăm astfel intervalul: 21 zZz 2/2/
z
pz
.
Obţinem : 2/2/ zpzp .
Introducând detaliat valoarea dispersiei avem limitele: n
ppzp
12/
Aceste limite creează un interval cunoscut cu numele de intervalul Wald – după
numele matematicianului care a propus metoda de calcul.
În acest domeniu, determinat cu datele eşantionului cât şi cu semnificaţia cerută,
se plasează cu încrederea 1- proporţia reală a populaţiei.
Observaţie
Determinarea intervalului prin metoda Wald este acceptabilă doar în situaţia în
care este îndeplinită condiţia: 101 ppn .
Dacă ţinem cont de faptul că produsul pp 1 , pentru p reprezentând un
număr pozitiv subunitar, este maxim dacă p=0,5, deducem volumul minim al
eşantionului de lucru.
Avem astfel: 1025,0 n 40n .
Făcând un studiu amănunţit asupra estimării intervalului de confidenţă, se observă
că pentru valori ale proporţiei mai mici decât 0,2, respectiv mai mari ca 0,8 eroarea se
măreşte considerabil. Astfel s-au propus şi determinat noi metode de calcul ale
limitelor intervalului de confidenţă care funcţionează corect pentru eşantioane mici de
până la 20 de cazuri. Rezultate mai bune pentru astfel de situaţii s-au obţinut folosind
formulele de calcul: Wilson, Agresti-Coull, sau verosimilitatea maximă a raportului.
BIOSTATISTICA
42
Exemple de calcul al intervalului de confidenţă
I. Avem un set de date numerice de tip continuu reprezentând o variabilă medicală
de interes ce caracterizează populaţia de studiu. Variabila o notăm generic cu V1 şi este
definită prin 78 de valori prezentate în tabelul de mai jos.
Tabelul 2.6 1.
Nr. V1
1 0.928626
2 0.878364
3 1.006266
4 0.737067
5 0.799914
6 1.025222
7 1.11228
8 1.183562
9 0.992134
10 1.190212
11 0.93315
12 1.047967
13 1.172089
14 0.767089
15 0.742273
16 0.887589
17 0.981723
18 1.191605
19 0.762734
20 1.023852
21 0.97842
22 1.106804
23 1.178241
24 0.890063
25 0.860885
Nr. V1
26 0.976916
27 0.962322
28 0.847623
29 0.814895
30 0.929521
31 1.195523
32 0.713596
33 0.799071
34 0.933964
35 0.774646
36 0.745445
37 1.120335
38 0.83318
39 1.197931
40 0.717301
41 1.023533
42 0.782082
43 1.104498
44 1.167804
45 0.794933
46 1.028825
47 1.094623
48 0.790835
49 0.893292
50 1.106492
51 1.020255
52 1.096813
Nr. V1
53 1.083396
54 1.021107
55 1.182237
56 0.948003
57 1.183972
58 0.738703
59 0.938837
60 0.801798
61 0.860834
62 1.084881
63 0.869538
64 1.032752
65 0.848528
66 1.191977
67 0.953991
68 0.830131
69 1.136325
70 0.86874
71 1.002508
72 1.194674
73 0.772806
74 0.831307
75 0.892934
76 0.744088
77 1.140246
78 0.925785
Dorim să determinăm intervalul de variaţie a mediei cu încredere de 95%.
Folosind Microsoft Excel
După introducerea datelor, lansăm modulul Data Analysis din grupul de meniu
Tools.
Observaţie Pentru a exista subrutina de analiză a datelor, aceasta trebuie mai întâi
activată urmând paşii: Tools+Add-Ins…+Analysis Toolpack.
Din analiza datelor se alege opţiunea Statistică Descriptivă (Descriptive Statistics)
şi se obţine fereastra prezentată mai jos.
BIOSTATISTICA
43
Figura 2.6 10 - Fereastra de definire a datelor pentru obţinerea statisticii
descriptive.
Se definesc: domeniul de lucru (selecţia datelor introduse spre analiză – Input
Range), celula de start pentru afişarea calculelor realizate – Output Range, se bifează
căsuţa de determinare a limitelor de confidenţă pentru medie şi se introduce numeric
valoarea nivelului de încredere – Confidence Level for Mean.
Rezultatele obţinute sunt prezentate în tabelul următor.
Tabelul 2.6 2 – Indicatorii calculaţi în MsExcel.
V1
Mean 0.96057
Standard Error 0.016977
Median 0.950997
Standard Deviation 0.14994
Sample Variance 0.022482
Kurtosis -1.23668
Skewness 0.086202
Range 0.484335
Minimum 0.713596
Maximum 1.197931
Sum 74.92448
Count 78
Confidence Level(95.0%) 0.033806
BIOSTATISTICA
44
Eroarea standard este tocmai 016977,078
14994,0
n
.
Căutând în tabelul distribuţiei de tip t, pentru un număr de grade de libertate de
78-1=77 şi pentru 95% încredere simetrică avem: 9912,1)2/05,0;77( t .
Avem astfel: 033806,078
)2/05,0;77(
t .
Formula de calcul a limitelor este: n
tX
)2/05,0;77( .
Obţinem în final: Xmin= 0,926764 respectiv Xmax= 0,994376.
Nivelul de confidenţă, deci valoarea n
t
(ce este x ), poate fi calculat şi
folosind funcţia: CONFIDENCE(alfa, deviaţia standard, volum eşantion).
Pentru cazul nostru avem: CONFIDENCE(0.05, 0.14994, 78 ) = 0.033.
În concluzie, putem afirma că media populaţiei se află cu încredere de 95% în
acest interval (0,9267 – 0,9943).
Folosind programul SPSS
Există mai multe variante de a determina limitele intervalului de confidenţă pentru
medie.
a) – Se urmează paşii: Analyze + Descriptive Statistics + Explore…
Figura 2.6 11 – Calculul indicatorilor statistici în SPSS.
Se introduce parametrul de interes in lista variabilelor dependente, iar in grupul
Statistics se marchează Descriptive pentru a avea şi intervalul de confidenţă pentru
BIOSTATISTICA
45
medie. Se obţine astfel intervalul de variaţie pentru medie – prezentat în tabelul
următor.
Tabelul 2.6 3 – Indicatorii statistici calculaţi folosind SPSS
Statistic
Std.
Error
V1 Mean .96057 .016977
95% Confidence
Interval for Mean Lower Bound
.92676
Upper Bound .99438
5% Trimmed Mean .96055
Median .95100
Variance .022
Std. Deviation .149940
Minimum .714
Maximum 1.198
Range .484
Interquartile Range .268
Skewness .086 .272
Kurtosis -1.237 .538
b) – Se alege din meniu Analyses + Compare means + One-Sample t Test…
Figura 2.6 12 - SPSS determinarea intervalului de confidenţă pentru medie.
BIOSTATISTICA
46
Se setează variabila de analizat şi implicit în grupul Options avem activat
intervalul de confidenţă pentru 95% nivel de încredere (această probabilitate poate fi
modificată după caz).
Tabelul 2.6 4 - Rezultatul obţinut utilizând SPSS
Test Value = 0
t df Sig. (2-tailed) Mean Difference
95% Confidence Interval of the Difference
Lower Upper
V1 56.579 77 .000 .960570 .92676 .99438
Tabelele prezintă cu claritate limitele intervalului de confidenţă. SPSS realizează
de asemenea testul de comparare a mediei cu valoarea 0 implicită.
BIOSTATISTICA
47
1.7. METODE DE DETERMINARE A EŞANTIOANELOR DE STUDIU
Studiile din domeniul medical (şi nu numai) se referă la populaţii de pacienţi sau
cazuri care au anumite caracteristici comune. De obicei elementul colectiv este
determinat de maladia de care suferă persoanele în studiu. Ne interesează să aflăm
valoarea anumitor indicatori statistici cum ar fi media, dispersia sau proporţia
existentă.
Pentru a extrage informaţii despre cazurile cercetate, avem la îndemână
posibilitatea de a trata exhaustiv problema şi a măsura pentru toţi pacienţii parametrii
de interes, sau varianta a doua, să determinăm un lot format dintr-un număr cât mai
mic de cazuri, care să prezinte trăsăturile populaţiei. Lotul astfel definit se numeşte
eşantion de studiu şi trebuie să respecte condiţia de a fi reprezentativ statistic prin
reflectarea proprietăţilor populaţiei sursă.
De obicei, utilizarea întregului volum al populaţiei pentru cercetare este greu sau
chiar imposibil de realizat. Tehnica exhaustivă este mare consumatoare de timp, bani şi
energie. Astfel, necesitatea determinării de metode statistice ce să definească mărimea
cât şi tehnica de alegere a elementelor unui eşantion reprezentativ a devenit de
importanţă capitală.
În statistică sunt dezvoltate metode eficiente de determinare a volumului
eşantionului (numărul de elemente componente) în moduri specifice pentru a obţine
rezultate cât mai reale, de fidelitate cât mai mare.
Iată un exemplu în care putem greşi prin alegerea neatentă a unui eşantion.
Presupunem că avem de realizat un studiu asupra unei populaţii
de copii dintr-o regiune geografică, cu vârsta cuprinsă între 5 şi 10
ani. Trebuie selectat un eşantion şi trimise părinţilor chestionarele de
interes. Prin metoda de alegere se selectează primul copil din cele 120
de liste ale comunităţilor existente. Dacă listele ar fi întocmite în mod
aleator, eroarea ar fi minimă. În multe din cazuri, listele sunt în
ordinea vârstei copiilor. Astfel primii de pe listă vor fi copii de vârste
mici, ducând la o pondere mare a acestora în eşantionul final, evident
cu repercusiuni nedorite. Eşantionul ar avea o eroare de deplasare
(bias error) care ar denatura valorile medii reale existente pe întreaga
populaţie.
Alt exemplu ar consta în alegerea greşită a numărului de cazuri
de examinat, dintr-o populaţie formată din mai multe subgrupuri, fără
a ţine cont de proporţia reală a fiecărui grup din total. Astfel, alegerea
unui număr constant de elemente din fiecare fracţiune, ar duce la o
distorsionare a ponderii fiecărui colectiv, evident cu posibile erori
majore.
BIOSTATISTICA
48
Eşantionarea simplă aleatorie (random)
Una dintre metodele cele mai simple de alegere a unui eşantion din cadrul unei
populaţii face apel la tehnica aleatorie.
Dacă avem o populaţie de volum N şi dorim un eşantion de volum n, atunci vom
genera n numere aleatoare distincte ce să reprezinte poziţia elementului în cadrul listei.
Această metodă de determinare nu prezintă eroare de deplasare.
Numărul total de variante de n elemente din N este combinări de N luate câte n şi
se calculează cu formula: )!(!
!
nNn
NCvariantenr. n
N
(factorialul este
produsul: NN ...21! ). Media tuturor variantelor posibile este media populaţiei de
studiu (se poate demonstra matematic). Faptul că nu există diferenţă între media reală
şi media acestor combinaţii determină lipsa erorii de deplasare.
Prin acest procedeu, fiecare caz are aceleaşi şanse de a fi selectat, probabilitatea
fiind egală cu 1/N.
Exemplu
Un exemplu practic poate fi realizat folosind Microsoft Excel. În cadrul acestui
soft avem funcţia RAND(). Aceasta returnează un număr de tip aleator, cuprins între 0
şi 1. Distribuţia este de tip liniar, deci păstrează o probabilitate egală de apariţie pentru
orice valoare din domeniu.
Folosim această funcţie pentru a genera numere aleatoare în domeniul 1,…,N.
Pentru aceasta vom înmulţi funcţia RAND() cu N şi vom alege doar partea întreagă a
rezultatului. Tot în MS Excel avem funcţia INT() care extrage partea întreagă a unui
număr pozitiv prin pierderea zecimalei. Astfel, vom fi nevoiţi să înmulţim cu N+1
pentru a genera numere între 1 şi N.
În figura de mai jos este exemplificată metoda de generare a numărului de ordine
pentru un eşantion de 123 de elemente.
Figura 2.7 1 – Generarea aleatorie în MS Excel.
BIOSTATISTICA
49
Menţionăm că prin folosirea funcţiei prezentate, se pot genera evident aleator şi
numere care se repetă. Acestea le vom ignora şi cazurile corespunzătoare care deja au
fost incluse în eşantion vor rămâne în continuare, iar ponderea lor va fi aceeaşi cu cea a
celorlalte date, deci cu valoarea 1.
O altă variantă posibilă de aplicat, este de a ordona datele după numărul aleator
generat. Acesta nu va trebui neapărat să fie transpus în domeniul 1,…,N. Se poate
utiliza de exemplu funcţia RANDBETWEEN(nr. start, nr. stop) de generare a
numerelor aleatoare. După ordonare, primele N elemente vor defini eşantionul ales.
Eşantionarea sistematică
Dacă avem o listă completă a elementelor populaţiei, un alt mod de a selecta un
eşantion constă în aplicarea metodei sistematice.
Metoda pleacă de la un punct de start, ce poate fi chiar primul element al listei şi
prin adunarea la acesta a unui număr constant se determină poziţia următorului element
ce va fi inclus în lot. Se repetă procedeul până la ultimul termen al listei sau până când
s-a completat întregul volum de analiză.
Se observă o anumită periodicitate în alegerea eşantionului. Astfel, se poate
deduce un dezavantaj al metodei, prin faptul că dacă lista iniţială la rândul ei prezintă o
ciclicitate asemănătoare cu cea aplicată în selecţie, se pot genera eşantioane care
prezintă eroare mare de deplasare.
Eşantionarea sistematică prezintă mai multe variante, cum ar fi :
1 – Se porneşte cu elementul iniţial (I0), la care se adaugă o cantitate constantă (k)
şi se alege elementul de pe poziţia I0+k, apoi I0+2k, … , I0+(n-1)k.
2 – Se pleacă de la elementul iniţial (I0), se sar k elemente şi se alege elementul de
pe poziţia I0+k+1, apoi I0+2(k+1), … , I0+(n-1)(k+1).
Principiul de lucru pentru cele două variante este acelaşi, elementele fiind alese la
distanţe egale după o origine stabilită (punctul de start).
Exemplu
Folosind programul MS Excel, alegem funcţia MOD(N1, N2). Numărul N1 este
deîmparţitul iar N2 este împărţitorul. Funcţia modulo determină restul împărţirii lui N1
la N2. Dacă N2 este multiplu de N1 atunci restul este 0. Prin urmare, se aleg elementele
pentru care funcţia modulo returnează valoarea 0.
Astfel dacă alegem perioada de 35, atunci N2=35 iar N1 este numărul de ordine din
cadrul listei totale. Elementele din coloana funcţiei modulo de valoare 0 vor fi cele
alese. Acestea pot fi uşor determinate prin ordonare.
Eşantionarea stratificată aleatoare
După numele acesteia putem deduce existenţa unei legături între această metodă şi
eşantionarea simplă aleatoare. Metoda stratificată este o modificare a eşantionării
simple în sensul păstrării unei proporţii reale între subgrupurile ce alcătuiesc întreaga
populaţie ţintă. Este utilă în situaţii în care subgrupurile componente prezintă variaţii
diferite.
BIOSTATISTICA
50
Presupunem că avem m subgrupuri componente, fiecare având ni elemente.
Volumul n eşantionului va fi suma tuturor elementelor n1+n2+…+nm ,
m
i
inn1
.
Fiecare eşantion al unui subgrup este determinat prin metoda de eşantionare aleatoare
simplă. Volumul fiecărui subgrup este stabilit prin tehnici ce vor fi prezentate în
capitolele următoare.
Şi în această situaţie statistica matematică poate demonstra lipsa erorii de
deplasare în eşantionarea stratificată aleatorie. Chiar mai mult, precizia în determinarea
valorii medie este mai bună decât cea din metoda aleatorie simplă. Tocmai păstrarea
proporţiei aduce această îmbunătăţire a preciziei.
Eşantionarea în ciorchine (cluster – grup, ciorchine)
Elementul selectat în acest caz este un grup. Pentru a realiza un astfel de studiu, de
exemplu într-un oraş, se pot alege prin tehnici aleatorii diferite, blocuri de persoane,
pentru ca apoi pe familii să se completeze chestionarele în cauză.
Avantajul acestei metode rezidă în partea materială, studiul de acest fel fiind
economic. Metoda dă rezultate bune dacă se aplică corect alegerea aleatorie a
ciorchinelor ce definesc eşantionul.
Eşantionarea convenabilă (convenience – avantaj, comoditate)
Eşantionul este ales în acest caz după o metodă arbitrată, uşoară de aplicat,
accesibilă, convenabilă şi rapidă. Se doreşte ca lotul determinat să păstreze proprietatea
de reprezentativitate dar însăşi metoda în sine nu ne garantează acest lucru.
În majoritatea cazurilor aceste loturi ajută doar la crearea unei prime imagini
asupra problemei analizate. Estimările făcute pot prezenta erori mari de deplasare, de
aceea datele astfel culese sunt folosite doar ca studii pilot ce ajută apoi la schiţarea de
noi direcţii de cercetare.
Exemplu
Dacă dorim să intervievăm turiştii dintr-o anumită zonă geografică, vom aplica
chestionare în diferite puncte de atracţie. Dacă limba de comunicare este engleza,
atunci din start am ales doar pe cei anglofoni. Deja o eroare este inclusă în eşantion.
Un alt punct de vedere prezintă problema ţinând cont de puterea financiară a
turiştilor. Dacă punctele de atracţie sunt foarte scumpe, evident doar persoanele cu
putere financiară vor avea acces. Astfel, numărul de chestionare trebuie să fie în
echilibru cu proporţia pe subgrupe a populaţiei.
Chiar şi momentul ales din timpul zilei este important. Ziua anumite centre de
atracţie au căutare iar spre seară, evident, apar alte priorităţi în programul turiştilor.
Eşantionarea prin autogenerare (bootstrap – autogenerator)
Permite crearea de eşantioane din elementele unui lot de studiu. Mai mult chiar,
elementele se pot repeta în cadrul eşantionului. Cerinţa de bază este ca eşantionul sursă
utilizat să fie reprezentativ pentru populaţia analizată.
BIOSTATISTICA
51
Este o metodă neparametrică pentru a estima indicatorii statistici (media este de
obicei de interes) prin interval de încredere. Cu alte cuvinte, nu se cere ca tipul
distribuţiei să fie cunoscut (de obicei de tip Gauss-Laplace).
Paşii de urmat în aplicarea metodei:
1 – Se pleacă iniţial de la elementele eşantionului sursă de volum notat N.
2 – Se defineşte volumul n al fiecărui nou eşantion generat.
3 – Se realizează prima extragere de tip aleatoriu de n elemente din cele N. Primul
eşantion este astfel generat.
4 – Se întorc elementele n la loc în sursă. Din această cauză metoda se numeşte
„cu întoarcere” , „cu înlocuire” sau „cu revenire”.
5 – Se realizează a doua extragere în acelaşi mod şi procedeul se repetă până la
completarea numărului de eşantioane dorite.
Eşantioanele astfel create pot forma o bază de date de studiu, iar tehnicile aplicate
trebuie să fie de tip neparametric, deoarece nu se cunoaşte tipul de distribuţie din care
sunt culese datele.
Exemplu
Presupunem că dorim să producem prin metoda de eşantionare cu autogenerare un
număr de 100 eşantioane de 10 elemente dintr-un lot de 30 de date.
Vom lucra tot în MS Excel, deoarece este un program ce prezintă multiple
facilităţi şi este foarte popular.
Figura 2.7 2 – Metoda bootstrap în generarea eşantioanelor.
BIOSTATISTICA
52
Lotul iniţial cuprinde 30 de date în domeniul B3:K5. Prin INSERT + NAME +
DEFINE denumim acest bloc de date şi îl numim ESANTION. Folosim funcţia
INDEX() care citeşte valoarea unei celule determinate de numărul rândului, respectiv
al coloanei blocului de date definit. Pentru a alege într-o formă aleatorie folosim
funcţia RAND() deja prezentată în exemplele anterioare.
Astfel, în fiecare din celulele de la B7 până la K106 (deci o sută de eşantioane),
avem funcţia:
=INDEX(ESANTION,ROWS(ESANTION)*RAND()+1,COLUMNS(ESANTIO
N)*RAND()+1)”.
Dimensiunea eşantionului de studiu
În cadrul efectuării unei analize statistice, într-o primă etapă, o problemă crucială
constă în determinarea eşantionului de studiu. Ne interesează în mod imperativ
numărul de date necesare pentru ca lotul de studiu să fie reprezentativ statistic, ceea ce
înseamnă să avem încredere în rezultatele obţinute prin aplicarea analizei statistice.
Statistica matematică ne ajută pentru indicatorul studiat, cu formule determinate
pe baza intervalului de variaţie cu o încredere prestabilită. Astfel, intervalul de variaţie
admis trebuie să fie mai mic decât o valoare definită ca satisfăcătoare pentru a accepta
rezultatele finale.
Prezentăm mai multe situaţii în care metodele de determinare a volumului
eşantionului sunt descrise ca formule de calcul matematic şi apoi completate, pentru o
buna înţelegere, cu exemple practice.
În teoria statistică, în situaţia în care parametrul de interes (notat X) respectă o
distribuţie de tip normal, se pot estima limitele intervalului de variaţie a valorii medii
după formula:
nZXX
21
min , respectiv n
ZXX
21
max . (1)
X – reprezintă valoarea medie calculată din eşantion.
n – este volumul lotului de studiu.
– este nivelul de semnificaţie ales (pentru %95 avem 05,0%5 ).
– deviaţia standard.
21Z – abscisa densităţii de probabilitate Gauss normalizate (sau simplu
2
Z ).
Aceste limite rezultă din condiţia ca probabilitatea de estimare să fie de valoare
1 . Avem astfel: )( 21 ZZZP . Variabila aleatore Z este determinată
de mediile eşantioanelor extrase din populaţia de studiu. Făcând apel la capitolul
„INTERVALE DE ÎNCREDERE” pentru interval simetric avem 2
11 ZZ ,
respectiv 2
12 ZZ .
BIOSTATISTICA
53
Variabila aleatoare Z reprezintă distribuţia mediilor eşantioanelor extrase generic
din populaţia de studiu. Pentru ca media eşantioanelor să respecte o distribuţie Gauss
normalizată se va scădea din media populaţiei media eşantionului şi se va împărţi la
deviaţia echivalentă. Obţinem
n
XZ
. Din formula probabilităţii prezentată mai
sus avem )( 21 ZZZP . De aici putem extrage limitele variabilei aleatoare Z:
21
21
Z
n
XZ (2). Astfel se deduc valorile minimă, respectiv
maximă ale intervalului de confidenţă conform cu formula 1.
Raportul n
se numeşte eroare standard.
Încrederea în determinarea limitelor de variaţie este afectată de valoarea Z ce
depinde de . Nivelul standard de încredere este de 95%, ceea ce corespunde unui
grad de semnificaţie 05,095,01 . Această încredere arată că dintr-un lot de
date ales aleator, există o probabilitate de 95% ca variabila studiată să se afle în
domeniul stabilit.
Valorile variabilei aleatoare Z sunt tabelate în anexele cărţilor de statistică.
1 – Determinarea volumului eşantionului de studiu pentru o variabilă de tip
continuu
Pentru o variabilă de tip continuu, în majoritatea cazurilor de interes, focalizarea
problemei se face asupra valorii medii.
Pentru ca evaluarea să fie corectă se stabileşte nivelul de încredere la 95% (de
obicei acesta este standardul).
Se stabileşte de către echipa de cercetare care este eroarea admisă. Aceasta
exprimă valoarea maximă a intervalului Xmax-Xmed sau Xmed-Xmin sau chiar amplitudinea
Xmax-Xmin. De fapt, această eroare admisă joacă rolul unei precizii asupra măsurătorilor
realizate. Se poate prezice o relaţie de genul: cu cât eroarea cerută este mai mică cu
atât numărul de elemente ale eşantionului va trebui să fie mai mare.
Această eroare poate fi reprezentată grafic astfel:
Figura 2.7 3.
0 Xmin Xmed Xmax
d
BIOSTATISTICA
54
Se observă că, faţă de valoarea medie eroarea este simetrică, ducând la atingerea
valorii Xmax, respectiv valorii Xmin, ca limite ale variaţiei posibile.
Din formulele prezentate anterior (formula 1), deducem că valoarea n
Z
21
trebuie să fie mai mică decât d (valoare maximă admisă a erorii).
Din această condiţie se poate afla numărul minim n ce defineşte volumul
eşantionului semnificativ statistic:
dn
Z
21
, rezultă 2
22
21 d
Zn
.
Avem astfel o metodă de calcul al volumului minim necesar eşantionului de
studiu.
Valoarea Z o citim din tabelele statistice, funcţie de nivelul de semnificaţie.
Aceasta este uşor de determinat. Valoarea erorii admise d poate fi decisă de
investigatori în funcţie de cerinţele problemei.
Pentru valoarea dispersiei apar situaţii când aceasta nu se cunoaşte. Dacă avem
studii realizate sau informaţii din tabele medicale putem afla valoarea dispersiei. În
situaţii contrare se realizează mai întâi un studiu pilot pentru determinarea indicatorilor
statistici elementari necesari.
Pentru a avea o imagine asupra numărului de date necesare în cadrul unui eşantion
putem analiza tabelul de mai jos:
Tabelul 2.7 1–Volumul eşantionului pentru estimarea mediei, cu încredere
de 95%.
Volum lot
(n) Deviaţia standard,
0.25 0.5 0.75 1 1.5 2 2.5 3 3.5 4 4.5 5
Ero
are
a a
dm
isă
, d
0.25 3.842 15.37 34.57 61.47 138.3 245.9 384.2 553.2 753 983.4 1245 1537
0.5 0.96 3.842 8.644 15.37 34.57 61.47 96.04 138.3 188.2 245.9 311.2 384.2
0.75 0.427 1.707 3.842 6.83 15.37 27.32 42.68 61.47 83.66 109.3 138.3 170.7
1 0.24 0.96 2.161 3.842 8.644 15.37 24.01 34.57 47.06 61.47 77.79 96.04
1.5 0.107 0.427 0.96 1.707 3.842 6.83 10.67 15.37 20.92 27.32 34.57 42.68
2 0.06 0.24 0.54 0.96 2.161 3.842 6.003 8.644 11.76 15.37 19.45 24.01
2.5 0.038 0.154 0.346 0.615 1.383 2.459 3.842 5.532 7.53 9.834 12.45 15.37
3 0.027 0.107 0.24 0.427 0.96 1.707 2.668 3.842 5.229 6.83 8.644 10.67
3.5 0.02 0.078 0.176 0.314 0.706 1.254 1.96 2.822 3.842 5.018 6.35 7.84
4 0.015 0.06 0.135 0.24 0.54 0.96 1.501 2.161 2.941 3.842 4.862 6.003
4.5 0.012 0.047 0.107 0.19 0.427 0.759 1.186 1.707 2.324 3.035 3.842 4.743
5 0.01 0.038 0.086 0.154 0.346 0.615 0.96 1.383 1.882 2.459 3.112 3.842
BIOSTATISTICA
55
Se poate observa că odată cu creşterea erorii admise d scade valoarea lui n. Cu alte
cuvinte, privind pe coloane de sus în jos volumul scade.
Dacă eroarea admisă este de două ori mai mare decât deviaţia standard, atunci
eşantionul este de volum 1 (0,96). Este si normal, deoarece în intervalul medie
plus/minus de două ori deviaţia standard, se găsesc peste 95% din date pentru
distribuţia de tip Gauss-Laplace. Practic, datele din tabel pentru peste două deviaţii
standard eroare admisă nu-şi au sensul pentru un nivel de încredere de 95%.
Exemplu
Presupunem că dorim să determinăm greutatea la naştere a copiilor dintr-o
anumită comunitate ce prezintă caracteristici specifice (tradiţii, zonă geografică).
Se cunoaşte deviaţia standard dintr-un studiu pilot ca fiind 7,0 . Nivelul de
semnificaţie acceptat este 95%, iar eroarea admisă pentru a putea compara cu valoarea
normală este dedusă de investigatori 2,0d Kg (ceea ce înseamnă că amplitudinea
Xmax-Xmin=0,4Kg admis).
Pentru 95% încredere, avem 05,095,01 . Astfel 975,02
1
şi
deducem 96,1)975.0( Z (din tabelul distribuţiei Gauss normalizate).
Putem calcula acum valoarea minimă 2
22
2,0
7,096,1 n . Obţinem 059,47n şi
alegem nminim=48.
2 – Determinarea volumului eşantionului de studiu pentru estimarea unei
proporţii
În cazul studiului de prevalenţă scopul este de a determina proporţia de bolnavi
dintr-o anumită populaţie. Pentru această situaţie eroarea standard are formula de
calcul:
n
pp
nstdEr
1..
.
Aici p este proporţia ce trebuie verificată.
Asemănător metodei 1 de determinare a volumului eşantionului, putem pune
condiţia ca limitele maximă, respectiv minimă să nu depăşească o anumită distanţă d
definită de cercetători ca acceptabilă studiului. Cerinţa aceasta poate fi exprimată
matematic:
dn
ppZ
1
21 . Se determină în final volumul eşantionului:
2
2
21
1
d
ppZn
. Formula pare puţin ciudată! Dorim să estimăm
proporţia p cu o eroare mică notată d şi determinăm volumul eşantionului, funcţie tot
BIOSTATISTICA
56
de proporţia p. Dacă nu cunoaştem această proporţie, atunci ar trebui mai întâi estimată
într-o formă, poate aplicând un studiu pilot pentru a avea o informaţie minimă asupra
ei.
Această formulă de calcul este valabilă pentru o populaţie infinită sau de volum
foarte mare (pentru estimarea corectă a proporţiilor). În realitate, populaţiile au volum
finit. Este normal să se aplice o corecţie matematică în situaţiile finite.
Formula corectată a determinării volumului eşantionului:
pop
n
nncorectat 1
1
,
unde pop reprezintă volumul populaţiei de studiu (atenţie: populaţie şi nu eşantion).
Putem gândi de exemplu, problema pentru estimarea unei proporţii de bolnavi în
populaţia judeţului Iaşi (care evident este finită). Va trebui să aplicăm corecţia
prezentată pentru volumul eşantionului (se cunoaşte populaţia judeţului Iaşi ca fiind
814 mii de locuitori la 1 iunie 2005).
Ca observaţie, valoarea proporţiei p poate să nu fie cunoscută. S-a menţionat deja
posibilitatea efectuării unui studiu pilot pentru determinarea valorii p. Totuşi p variază
între 0 şi 1, iar produsul p(1-p) are o proprietate remarcabilă.
Figura alăturată prezintă variaţia produsului p(1-p) pe intervalul [0, 1]. Maximul
este pentru p=0,5 şi are valoarea 0,25. Iată o proprietate ce ne ajută foarte mult. Chiar
dacă nu cunoaştem valoarea proporţiei noi putem impune condiţia ca volumul
eşantionului să fie de o anumită dimensiune. Chiar dacă această dimensiune nu este
optimizată, ea este foarte utilă deoarece numărul de date fiind mărit şi încrederea la
rândul ei va fi mai mare.
p(1-p)
0
0.05
0.1
0.15
0.2
0.25
0.3
0 0.125 0.25 0.375 0.5 0.625 0.75 0.875 1p
Figura 2.7 4 – Maximul produsului p(1-p).
Pentru a avea o imagine asupra numărului de date necesare pentru un studiu
consistent în informaţie şi util în determinarea unei proporţii, analizăm tabelul de mai
jos.
BIOSTATISTICA
57
Tabelul 2.7 2 – Volumul eşantionului pentru estimarea proporţiei p cu
încredere de 95%.
Volum
eşantion
Proporţia p
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Ero
are
a m
axim
ă a
dm
isă
d
0.1 34.57 61.47 80.67 92.20 96.04 92.20 80.67 61.47 34.57 0
0.2 8.64 15.37 20.17 23.05 24.01 23.05 20.17 15.37 8.64 0
0.3 3.84 6.83 8.96 10.24 10.67 10.24 8.96 6.83 3.84 0
0.4 2.16 3.84 5.04 5.76 6.00 5.76 5.04 3.84 2.16 0
0.5 1.38 2.46 3.23 3.69 3.84 3.69 3.23 2.46 1.38 0
0.6 0.96 1.71 2.24 2.56 2.67 2.56 2.24 1.71 0.96 0
0.7 0.71 1.25 1.65 1.88 1.96 1.88 1.65 1.25 0.71 0
0.8 0.54 0.96 1.26 1.44 1.50 1.44 1.26 0.96 0.54 0
0.9 0.43 0.76 1.00 1.14 1.19 1.14 1.00 0.76 0.43 0
1 0.35 0.61 0.81 0.92 0.96 0.92 0.81 0.61 0.35 0
Exemplu
Presupunem că avem de determinat o proporţie a cărei valori este aproximativ
cunoscută 80,0p . Cu încredere de 95% să se deducă numărul de date necesare
pentru a nu se efectua o eroare mai mare de 10% în estimarea proporţiei.
Pentru 95% încredere, avem 05,095,01 . Astfel 975,02
1
şi
deducem 96,1)975,0( Z (din tabelul distribuţiei Gauss normalizate).
Dacă eroarea este de maxim 10% avem d= 08,01,08,0 (atenţie în definirea
erorii).
Calculăm volumul minim al eşantionului de studiu:
2
2
21
1
d
ppZn
,
2
2
08,0
8,018,096,1
n , obţinem n=96,04. Alegem astfel n=97 pacienţi.
Menţionăm că şi softul EpiInfo 3.3.2 2005, poate determina volumul eşantionului
urmând paşii: Utility + StatCalc + Sample Size &Power + Population Survey.
Dacă în studiu am fi avut informaţii despre volumul populaţiei, de exemplu
pop=7600 persoane, atunci valoarea n ar fi trebuit corectată cu formula:
13,90
1450
104,961
04,96
11
pop
n
nncorectat . Prin aproximare cu majorare la prima
valoare întreagă se deduce n=91.
BIOSTATISTICA
58
Observaţie
Dacă nu cunoşteam valoarea aproximativă a proporţiei atunci aproximăm
prin adaos p(1-p)=0,25 şi obţineam n=150,06 ce ajustat ar fi n=151. Astfel, numărul
de pacienţi ar fi fost crescut.
3 – Determinarea volumului eşantionului de studiu pentru estimarea unei
corelaţii.
În această situaţie pentru determinarea volumului eşantionului necesar estimării
valorii coeficientului de corelaţie într-un mod consistent, se va apela la testele
ipotezelor statistice. Este greu să se determine o eroare acceptată a coeficientului de
corelaţie, aşa cum s-a făcut de exemplu pentru estimarea proporţiei.
Se vor impune condiţii atât asupra nivelului de semnificaţie cât şi asupra
puterii testului, 1 .
Ipoteza statistică nulă este : H0 – coeficientul de corelaţie este 0, 0 .
Ipoteza alternativă este: H1 – coeficientul de corelaţie are valoarea cunoscută
c , c .
Valoarea cunoscută a coeficientului se ştie din studii anterioare, publicaţii recente
sau studiu pilot efectuat special cu acest scop.
Formula de calcul dedusă în acest caz este :
211
3
cF
ZZn
.
c
ccF
1
1ln
2
1)( , este transformata Fisher utilizată şi la formarea
intervalelor de confidenţă.
Exemplu
Dorim să determinăm volumul necesar eşantionului pentru a verifica dacă
corelaţia cunoscută c are valoarea 0,7. Se va face apel la valorile standard pentru
nivelul de semnificaţie, respectiv puterea testului.
Avem aşadar 05,0 şi 1,0 . Citim din tabelul statistic 65,11 Z ,
respectiv 28,11 Z .
Calculăm 602,07,01
7,01ln
2
1)(
cF şi în continuare:
68,26602,0
28,165,13
2
n .
Aproximăm la primul întreg mai mare şi avem astfel n=27 de date (pentru
corelaţie sunt utilizate perechi de date).
BIOSTATISTICA
59
4 – Determinarea volumului eşantionului de studiu pentru verificarea unei
diferenţe impuse.
În cadrul unei cercetări se poate impune condiţia ca diferenţa existentă între
parametrii de interes (medie sau proporţie) să depăşească o anumită valoare critică
pentru a fi decisivă.
Faptul că există teste de detectare a diferenţei semnificative nu este suficient.
Noutatea constă în dimensiunea impusă diferenţei căutate.
Iată un exemplu: În cercetările pentru validarea unui nou tratament împotriva
cancerului, se doreşte ca proporţia celor vindecaţi să fie cu cel puţin 10% mai mare
decât procentul obţinut prin metoda clasică de terapie.
Dacă indicatorul de interes este media, deci măsura se realizează pe o scară de tip
continuu, atunci importantă este diferenţa d 21 . Valoarea d este decisă de
specialiştii în domeniul de studiu. Indicatorii 1 , respectiv 2 , reprezintă mediile
populaţiilor de studiu (deci fără eroare), iar notaţia pentru media din eşantion este
1X (aceasta poate fi estimată cu o anumită încredere).
Menţionăm că în cazurile reale se defineşte mai întâi noţiunea de tratament mai
bun (în cazul nostru 21 ).
Pentru determinarea volumului eşantionului se pleacă de la condiţia
1)( 2121 dXXP . Este probabilitatea condiţionată ca media să fie
mai mare în eşantionul studiat pentru diferenţa mediilor populaţiilor de valoare d.
Se află prin calcul valoarea volumului eşantionului: 2
22
21
4d
Zn
.
Ca şi în cazurile precedente, valoarea dispersiei este greu de cunoscut, mai ales în
studii noi de cercetare. Problema trebuie rezolvată prin estimare din studii pilot.
Dacă indicatorul de interes este proporţia, atunci formula de calcul se deduce în
mod asemănător şi rezultă:
2
2
21
14
d
ppZn
. În acest caz d = p1 - p2.
Pentru situaţia în care volumele eşantioanelor sunt egale 2
21
nnn , avem
2
21 ppp
.
Observaţie
Dimensiunea eşantionului în situaţia prezentată (ce conţine condiţii
suplimentare) este de aproximativ 4 ori mai mare decât dimensiunea necesară în cazul
estimării mediei sau proporţiei într-un studiu cu o eroare maximă admisă notată d.
BIOSTATISTICA
60
1.8. TESTE DE IPOTEZĂ
Concepte de bază în evidenţa (siguranţa) statistică
În statistică obiectivul fundamental constă în luarea unei decizii, chiar în cazul
existenţei unei incertitudini. Decizia luată trebuie să fie corectă şi independentă (pe cât
posibil) de lipsa de cunoştinţă - materializată prin incertitudine.
În cazul testelor de ipoteză problema de bază constă în elaborarea regulilor de
decizie în aşa fel încât, dintre variantele posibile să se aleagă concluzia corectă cu o
probabilitate acceptată ca satisfăcătoare.
Se emit mai multe ipoteze şi prin decizie se acceptă doar o ipoteză care se
încadrează în probabilitatea stabilită.
Ipoteza statistică reprezintă o presupunere asupra parametrilor uneia sau unor
repartiţii sau chiar asupra repartiţiei în sine (spre exemplu, egalitatea mediilor a două
populaţii, a dispersiilor, a proporţiilor, verificarea formei normale a unei repartiţii,
etc.).
Testele statistice reprezintă metode matematice de verificare a ipotezelor
statistice. Prin acestea se doreşte examinarea unei ipoteze care apoi se aplică populaţiei
de date dacă este confirmată a fi adevărată. Testarea se face pe baza eşantionului de
date. Astfel, orice decizie comportă un anumit risc. Decizia se ia asupra întregii
populaţii, deci constituirea eşantionului este de importanţă majoră.
În enunţarea unei ipoteze există două posibilităţi:
– Ipoteza nulă notată H0, în care parametrii de comparat se consideră egali. Spre
exemplu, media populaţiei 1 având date în eşantionul 1 este egală cu media populaţiei
2 caracterizată de eşantionul 2.
210 : H .
Aceasta arată lipsa diferenţelor parametrilor examinaţi sau a existenţei unei relaţii.
– Ipoteza alternativă în care se consideră cei doi parametri diferiţi.
211 : H .
Această ipoteză este contrară ipotezei nule şi arată existenţa diferenţelor sau a
relaţiilor posibile între parametri.
Se creează apoi funcţia discriminantă statistică (forma matematică a testului), a
cărei valoare calculată se compară cu valori tabelate corespunzătoare tipului de
repartiţie în care se încadrează.
Pe scurt, etapele de urmat în verificarea prin test statistic vor fi:
1. Enunţarea ipotezei. Se definesc ipotezele: nulă, respectiv alternativă. Acestea
urmăresc scopul cercetării, exprimând ceea ce avem de verificat.
BIOSTATISTICA
61
2. Alegerea parametrului de studiu (poate să fie conţinut implicit în enunţarea
ipotezei). Ca exemple avem: media, varianţa, relaţia exprimată prin corelaţie,
parametrii de regresie, proporţii în cadrul populaţiilor, etc.
3. Deducerea şi calculul statisticii discriminante dorite aplicând regula de decizie.
De exemplu, la compararea mediilor se poate lua în calcul o nouă variabilă
aleatoare definită ca diferenţa între indicatori. În acest caz aceasta poate urma
o distribuţie de tip t (Student) sau Z, deci normală.
4. Acceptarea sau respingerea ipotezei prin calculul semnificaţiei p. Se calculează
statistica (t, Z sau Fisher spre exemplu) din datele eşantioanelor de lucru.
Corespunzător se deduce valoarea p, care reprezintă probabilitatea de a avea o
eroare de tip I. Aceasta este o integrală în cadrul distribuţiei de frecvenţă
determinate şi reprezintă semnificaţia testului.
Ca idee de bază, trăsătura populaţiei studiate care este cuprinsă în eşantionul
analizat (tehnica de determinare a volumului eşantionului şi a elementelor sale este
crucială) poate reprezenta o caracteristică majoritară, care dacă este observată în
proporţie de 95% (definită ca standard), atunci este acceptată. În situaţia în care nu este
întâlnită în această proporţie (de exemplu avem doar 90% din cazuri ce respectă
regula), vom accepta mai degrabă ipoteza alternativă, deoarece variaţia întâlnită (chiar
dacă este în proporţie de numai 10%) implică existenţa unui factor ce a modificat
trăsătura.
Semnificaţia statistică este nivelul de probabilitate la care acceptăm eroarea de
tip I (este eroarea de a decide greşit că H1 este adevărată, deci există diferenţă falsă).
Aceasta este considerată puternică dacă are valoarea p=5% (deci 95% din cazuri nu
s-au modificat), este definită ca medie pentru valori între 5-10% (deci peste 90% de
cazuri nemodificate) şi nu este acceptată pentru p>10% (deci sub 90% din cazuri
nemodificate).
Dacă nu acceptăm ipoteza nulă, înseamnă că alternativa a fost dovedită, dar nu cu
95% încredere. Aici nu trebuie gândit complementar. În figura 2.8 1 se observă că în
funcţie de pragul ales suprafeţele , respectiv ce reprezintă erori, nu sunt egale.
Faptul că testul a ieşit semnificativ implică existenţa datelor modificate peste o limită
admisă ca normală, deci acceptăm schimbarea ca fiind datorată probabil unor elemente
care şi-au impus efectul (acceptăm ipoteza H1).
Există o variaţie intrinsecă a datelor care motivează practic obiectul de analiză al
statisticii. Această variaţie impune limitele definite de valoarea semnificaţiei de 5%.
Pentru valori diferite ale varianţei vom avea de exemplu, valori diferite
corespunzătoare abscisei de tip Z sau t.
Lucrând cu o probabilitate de 95% avem deja anumite riscuri. Chiar dacă un
procent destul de mare de date au o anumită caracteristică, aceasta nu înseamnă că
toate elementele populaţiei vor păstra proprietatea. Evident şi normal de anticipat,
aşteptăm ca o proporţie de 5% din date să fie „anormale”. Trebuie să fim pregătiţi să
tratăm problema exhaustiv şi să ţinem cont de această posibilitate – cazurile limită.
Metoda de lucru constă în determinarea distribuţiei, urmată de statistica creată
prin scopul nostru. Spre exemplu, dacă dorim să studiem diferenţa mediilor a două
BIOSTATISTICA
62
populaţii, atunci în mod generic, putem produce un număr mare de eşantioane iar
diferenţa mediilor acestora va defini statistica de lucru. Avem practic un nou set de
date care respectă o anumită lege de distribuţie ce ne ajută în determinarea
semnificaţiei statistice căutate.
Testele de ipoteză sunt foarte importante deoarece reprezintă o metodă statistică
de decizie bazată pe „cântărirea” cunoştinţelor obiective, prin estimări probabilistice
asupra setului de valori determinate practic.
Erori posibile
După cum s-a prezentat deja, există două ipoteze în testele statistice şi anume
ipoteza nulă notată H0, respectiv cea alternativă notată H1.
Se pot comite în această situaţie două erori :
Eroare de tip I – să se accepte în mod greşit ipoteza alternativă H1, când în
realitate H0 este adevărată.
Eroare de tip II – să se accepte în mod greşit ipoteza nulă H0, când în realitate
H1 este adevărată.
Situaţiile posibile sunt prezentate în tabelul de mai jos.
Tabelul 2.8 1.
Sistem decizional cu prag
Situaţie adevărată
Ipoteza H0 este
adevărată
Ipoteza H0 este
falsă
Dec
izie
pri
n t
est Acceptare
ipoteză H0 Nu există eroare
Eroare tip II
Respingere
ipoteză H0
Eroare tip I
Nu există eroare
Este de dorit ca aceste erori să fie cât mai mici posibil. Se cunoaşte că există o
legătură invers proporţională între ele. Putem micşora eroarea dar drept consecinţă,
eroarea de tip II se va mări într-o anumită măsură (fig. 2.8 1). Încercând să scădem
valoarea obţinem o creştere a erorii de tip I. Este clar că efectele sunt contradictorii
şi un compromis trebuie acceptat, funcţie de scopul urmărit.
Parametrii distribuţiilor estimate depind de volumul eşantioanelor cercetate. În
concluzie, pentru a micşora ambele erori şi a elimina pe cât posibil efectul nedorit al
lipsei de informaţie vom folosi volume mari de date care vor duce la scăderea în
special a erorii de tip II. Astfel, vom putea modifica pragul notat d pentru a micşora şi
eroarea de tip I.
Grafic, putem reprezenta problema prin două curbe Gauss-Laplace care se
suprapun pe o anumită porţiune (fig. 2.8 1).
Avem două distribuţii conform celor două ipoteze posibile. Pragul decizional (d)
poate fi ales funcţie de dorinţe. Se observă cu claritate dependenţa invers proporţională
între cele două erori materializate prin suprafeţele respectiv ce reprezintă în fapt
probabilităţi. Dacă deplasăm dreapta de decizie d în stânga, atunci micşorăm suprafaţa
notată , dar mărim suprafaţa ce defineşte eroarea de tip I.
BIOSTATISTICA
63
Cu cât cele două distribuţii se suprapun mai puţin cu atât erorile de decizie sunt
mai mici.
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.450
0.5 1
1.5 2
2.5 3
3.5 4
4.5 5
5.5 6
6.5 7
7.5 8
8.5 9
9.5 10
B
dA
H1 este adevăratăH0 este adevărată
Figura 2.8 1 – Distribuţiile pentru cele două ipoteze. A este distribuţia ce
susţine H0, B este distribuţia ce susţine H1.
Regiunea de acceptare / respingere a ipotezei nule
În cadrul testelor statistice o temă importantă constă în formarea regulilor de
decizie. Se definesc astfel două regiuni, numite de acceptare, respectiv de respingere a
ipotezei nule.
În continuare ne interesează dacă în cazul ipotezei contează doar existenţa
diferenţei dintre indicatori sau, varianta a doua, ne interesează şi direcţia diferenţei
adică ipoteza alternativă prezintă semnul „mai mare” sau doar „mai mic”.
Dacă suntem în primul caz şi doar existenţa diferenţei este importantă, avem în
lucru un test cu semnificaţie bilaterală. Acesta se aplică în situaţiile în care ipoteza
alternativă conţine variantele posibil mai mare şi posibil mai mic. De exemplu, pentru
compararea mediilor, ipoteza susceptibilă H1 poate avea formele m1>m2, respectiv
m1<m2.
Figura 2.8 2 - Regiunea de acceptare/respingere pentru încredere bilaterală
Regiunea de
acceptare a H0 Regiunea de
respingere a H0
Regiunea de
respingere a H0
Statistica calculată
(t, Z, F, etc.)
Funcţia densitate de
probabilitate
Praguri corespunzătoare a
95% încredere
2
Z 2
Z
BIOSTATISTICA
64
Pentru situaţia în care avem un singur prag de decizie, ne interesează dacă
variabila studiată are valori mai mici (sau mai mari) decât o valoare cunoscută sau
variabila din lotul 1 are valori mai mici (sau mai mari) faţă de cea din lotul 2. Figura
anterioară se simplifică având doar un singur prag corespunzător semnificaţiei dorite.
Figura 2.8 3 - Regiunea de acceptare/respingere pentru încredere unilaterală
(H0: media m1 < m2)
Observaţie
Nivelul de semnificaţie de 5% defineşte pragul (în situaţia unui test unilateral) sau
pragurile (pentru un test bilateral) corespunzătoare. Este de aşteptat ca aceste limite să
fie diferite, deoarece probabilitatea de 5% reprezintă suprafaţa cuprinsă în regiunea de
respingere. În testul bilateral avem două suprafeţe simetrice iar în cazul unilateral avem
doar o singură regiune de respingere. Astfel, pentru 5% semnificaţie unilaterală avem
valoarea Z tabelata (p=0,05) = 1,65 iar pentru semnificaţie bilaterală avem
Z tabelată(p=0,025) = 1,96.
Testul ipotezei simple – compararea mediei unui eşantion cu o valoare de
referinţă
Acest test constă în specificarea valorile parametrilor necunoscuţi din cadrul unei
repartiţii. Este vorba de seturi de date de tip continuu.
Ca exemple putem prezenta verificarea egalităţii mediei glicemiei unui subgrup cu
valoarea standard cunoscută, sau media presiunii arteriale, sau greutatea la naştere etc.
Algoritmul de determinare constă în generarea de eşantioane din populaţia ţintă.
Se calculează media acestora şi se studiază noul eşantion astfel format. Conform
teoremei limită centrală, eşantionul mediilor urmează o distribuţie de tip t, care
converge către distribuţia Z (normală) pentru nu număr suficient de mare de date. Acest
rezultat este foarte important, deoarece indiferent de tipul densităţii de probabilitate a
populaţiei studiate, media eşantioanelor are o distribuţie de tip cunoscut.
Vom testa în continuare egalitatea mediei unei populaţii repartizate normal, cu o
anumită valoare de referinţă.
Regiunea de
acceptare a H0 Regiunea de
respingere a H0
Statistica calculată
(t, Z, F, etc.)
Funcţia densitate
de probabilitate
Pragul corespunzător a
95% încredere
m1 Z
BIOSTATISTICA
65
Cazul 1 – Valoarea dispersiei este cunoscută
Presupunem că avem de verificat egalitatea mediei unui parametru medical (spre
exemplu uricemie, glicemie) cu o anumită valoare dată 0. Notăm media populaţiei cu
şi o considerăm necunoscută. Notăm dispersia cu 2 şi presupunem că i se cunoaşte
valoarea.
Definim ipoteza nulă H0: Mediile sunt egale, = 0 .
Definim ipoteza alternativă H1: Mediile diferă, 0 .
Considerăm de asemenea că lucrăm cu un nivel de semnificaţie bilateral
simetric. Dimensiunea eşantionului este n, iar media calculată din eşantion este X
(aceasta este apropiată de media populaţiei notată ). Distribuţia mediilor este de tip
Gauss-Laplace de medie şi abatere standard de n ori mai mică, n
(numită şi
eroare standard). Scăzând valoarea constantă 0 din mediile eşantioanelor distribuţia nu
se modifică decât prin translare. Împărţind în continuare la eroarea standard (dispersia
eşantioanelor) obţinem forma normalizată (medie 0 dispersie 1).
Avem astfel funcţia statistică discriminantă de forma:
n
XZ c
0 (statistica calculată din eşantion).
Aceasta este repartizată normal cu media 0 şi dispersia 1, N(0,1).
Pentru nivelul de semnificaţie bilateral se alege un interval 2/2/ , ZZ
astfel: 12/2/ ZZcZP .
Dacă Zc respectă condiţia 2/2/ ZZZ c , cu 2/Z valori tabelate ale
repartiţiei normale, atunci ipoteza H0 se acceptă cu încredere 1-, sau cu riscul .
Această condiţie mai poate fi scrisă restrâns sub forma: 2
ZZc .
În caz contrar, dacă este îndeplinită relaţia 2
ZZc , ipoteza H0 se respinge în
favoarea acceptării ipotezei H1.
Se poate aplica şi un test unilateral. În acest caz se definesc ipotezele următoare :
1 – Ipoteza H0: media populaţiei este mai mică decât valoarea 0, 0 .
2 – Ipoteza H1: media populaţiei este mai mare decât valoarea 0, 0 .
Conform formulei probabilităţii avem de verificat:
10 Z
n
XP .
BIOSTATISTICA
66
Dacă ],(0
Z
n
XZc
, atunci ipoteza H0 se acceptă cu nivel de
semnificaţie , sau risc , sau încredere 1-.
În caz contrar, se acceptă ipoteza H1 în defavoarea ipotezei H0.
Tot în cadrul testului unilateral putem avea ipotezele de forma:
H0: 0 , cu alternativa H1: 0 .
Intervalul de acceptare este definit de relaţia:
10 Z
n
XP .
Observaţie
În unele cărţi de specialitate, cât şi în unele programe de statistică nivelul de
semnificaţie se notează cu p în loc de .
Cazul 2 – Valoarea dispersiei este necunoscută
Considerăm că avem de verificat ipoteza H0: 0 , adică media unui parametru
medical este egală cu valoarea 0 dată. Ipoteza alternativă este H1: 0 , media
parametrului respectiv este diferită de valoarea 0 dată.
Valoarea dispersiei populaţiei, notată 2, nu este cunoscută, iar volumul
eşantionului îl notăm cu n.
Pentru verificarea ipotezei H0 se va calcula funcţia discriminantă:
SnXtc 0 (1), unde S reprezintă aproximarea dispersiei
cu formula: nn
S
1
22
, 0 este valoarea de comparaţie, iar X este valoarea
medie a eşantionului.
Variabila aleatoare creată cu formula (1) respectă o repartiţie Student cu
1 n grade de libertate (notată cu t).
Notăm nivelul de semnificaţie cu (sau riscul), respectiv încrederea cu =1- (a
nu se confunda cu eroarea de tip II, este doar o coincidenţă de notaţie!). Valoarea
=0,05 (sau 5%) este acceptată în majoritatea cazurilor medicale.
Conform formulei de calcul a probabilităţii avem:
12/2/ tttP c .
Comparaţia se face cu t/2, deoarece folosim un risc bilateral simetric (valorile
sunt tabelate în anexe).
Dacă relaţia 2
,ttc este respectată, atunci acceptăm ipoteza H0 cu nivel de
semnificaţie .
BIOSTATISTICA
67
Dacă avem respectată relaţia 2
,ttc , atunci respingem ipoteza H0 şi nu
putem afirma cu încredere P=1- că mediile sunt egale.
Interpretarea trebuie făcută cu atenţie, deoarece a respinge ipoteza H0 nu înseamnă
că se acceptă ipoteza H1 cu încredere P=1-. Ipoteza alternativă a fost acceptată ca
urmare a depăşirii unui prag definit ca decident. Ne aflăm pe suprafaţa erorii de tip I şi
astfel ipoteza alternativă este de preferat.
Exemplu
Vom folosi un set de date create cu ajutorul computerului şi rezolvăm problema la
modul generic. Considerăm că în cadrul experimentului realizat am obţinut următorul
set de valori:
Tabelul 2.8 2.
Parametrul analizat (X)
1 1,83
2 1,60
3 1,74
4 1,84
5 1,26
6 1,44
7 1,43
8 1,43
9 1,50
10 1,72
11 1,33
12 1,43
13 1,87
14 1,57
15 1,64
16 1,44
17 1,57
18 1,44
19 1,74
20 1,42
21 1,24
22 1,32
23 1,22
Se doreşte să se verifice dacă datele diferă sau nu semnificativ faţă de valoarea
standard normală X0=1,2. Pentru aceasta se va afla media lotului se va deduce statistica
t sau Z calculată şi în final se va decide acceptarea sau respingerea ipotezei H0.
Folosind Microsoft Excel:
În situaţia dată nu avem cunoştinţe despre valoarea dispersiei, deci statistica
calculată este de tip t cu formula
nS
XXtc
0 , unde n
nS
1
22
.
Ne interesează doar verificarea semnificaţiei statistice pentru diferenţa între valori
nu şi sensul acesteia (mai mare sau mai mic). Lucrăm astfel cu un test bilateral.
Distribuţia t (Student) este caracterizată de numărul gradelor de libertate df=23-1
(volumul eşantionului minus 1, în cazul nostru) şi de semnificaţia statistică 0,05
standard. În concluzie, citim valoarea de comparaţie existentă în tabele
074,2025,02/,22 dft (din anexele cărţii).
Putem calcula pas cu pas fiecare element din formula prezentată mai sus.
BIOSTATISTICA
68
Pentru medie: =AVERAGE(D4:D26), obţinem 523,1X .
Pentru dispersia corectată: =STDEV(D4:D26), obţinem 196,0S .
În final obţinem : tcalculat = 7,90.
Valoarea calculată 7,90 este mai mare faţă de cea tabelată 2,074 şi decidem că
ipoteza H0 nu este acceptabilă. În concluzie, decidem că există diferenţă semnificativă
statistic între datele experimentale şi valoarea standard normală cunoscută.
Problema prezentată se putea rezolva şi prin determinarea intervalului de
confidenţă – metodă discutată în capitolul corespunzător. Dacă intervalul determinat
pentru media eşantionului cuprinde valoarea de comparaţie, atunci nu există diferenţă
semnificativă statistic.
Folosind softul SPSS
Pentru această verificare există special o subrutină dezvoltată. Aceasta se lansează
urmând din meniu paşii: Analyze + Compare means + One-Sample T Test…
Figura 2.8 4 - SPSS compararea mediei unui eşantion cu o valoare de
referinţă.
Se defineşte conform figurii alăturate variabila ce defineşte eşantionul cât şi
valoarea de referinţă.
Se obţin două tabele cu datele statistice calculate.
BIOSTATISTICA
69
Tabelul 2.8 3. One-Sample Statistics
N Mean Std. Deviation Std. Error
Mean
X 23 1.5234 .19675 .04103
Tabelul 2.8 4 . One-Sample Test
Pa
ram
etr
ul
X
Test Value = 1.2
t
df
Sig. (2-tailed)
Mean Difference
95% Confidence Interval of the Difference
Lower Upper
X 7.883 22 .000 .32339 .2383 .4085
În primul tabel sunt determinate valorile mediei, deviaţiei standard şi a erorii
standard. Acestea pot fi determinate şi în Ms Excel.
În tabelul al doilea găsim valoarea statisticii t calculate 7,883 (cu o precizie mai
bună faţă de cea calculată de noi, 7,90), nivelul de semnificaţie ce este sub 00
01 , iar în
final limitele intervalului de confidenţă a diferenţei faţă de referinţa 1,2.
Interpretare
Conform nivelului de semnificaţie calculat (sub 0001 ) deducem că există
diferenţă semnificativă statistic, deoarece valoarea de 0,001 este mai mică decât 0,05
sau 5%.
Altă metodă de interpretare constă în studiul intervalului de confidenţă a
diferenţei. Dacă acesta nu cuprinde valoarea 0, atunci există semnificaţie statistică. În
cazul nostru evident ajungem la acelaşi rezultat. Valoarea 0 nu este cuprinsă în
domeniul 0,2383 ÷ 0,4085, deci media eşantionului diferă faţă de valoarea normală 1,2.
Testul ipotezei duble – compararea mediilor a două eşantioane (t, Student)
Foarte frecvent în aplicaţiile de tip medical (şi nu numai) apare problema
comparării unor parametri dintr-un eşantion cu parametrii altui eşantion (pot fi chiar
din aceeaşi populaţie, dar la momente diferite).
Presupunem că avem două eşantioane notate X, cu valorile x1, x2, …, xnx, respectiv
Y, cu valorile y1, y2, …, yny. Considerăm că cele două populaţii sunt repartizate normal,
şi anume 2,: xxNX , respectiv 2,: yyNY .
Dorim să testăm ipoteza H0: x = y, mediile sunt egale, cu alternativa
H1: x y, mediile sunt diferite (se aplică testul „t” sau testul Z). Pentru aceasta se
defineşte o variabilă aleatoare V = X – Y, care funcţie de cunoştinţele despre dispersiile 22 , yx , va respecta o anumită funcţie de distribuţie.
Din teorema limită centrală rezultă că distribuţia diferenţei mediilor poate fi de tip
t (Student) sau Z (Gauss-Laplace). Se respectă acelaşi procedeu de determinare a unui
BIOSTATISTICA
70
număr mare de eşantioane şi se analizează diferenţa mediilor ca fiind o nouă variabilă
de studiu V.
Cazul 1 – Datele sunt perechi
O metodă des întâlnită în practica medicală constă în măsurarea datelor înainte de
tratament şi după tratament. Se doreşte verificarea existenţei diferenţei semnificative,
deci eficienţa tratamentului este analizată.
Marele avantaj al folosirii datelor pereche constă în eliminarea efectului factorilor
de confuzie: vârstă, sex, rasă, etc. Chiar în acest sens se proiectează studii perechi
caz-martor în care persoanele care au aceleaşi valori ale factorilor de confuzie sunt
trataţi ca perechi.
Datele astfel culese conţin o anumită legătură a cuplului şi nu vor putea fi
analizate ca aparţinând a două eşantioane independente.
Se defineşte o nouă variabilă aleatoare formată din diferenţa pe fiecare pereche de
date d. Această variabilă va fi comparată cu valoarea 0. Distribuţia urmată va fi de tip
Student (t) de medie d respectiv dispersie 2
d . Studiind distribuţia mediilor
eşantioanelor obţinem aceeaşi medie (ce poate fi 0) dar dispersia este micşorată
(conform demonstraţiilor matematice) de n ori (n este volumul eşantioanelor),
n
d
d
2
2 .
În concluzie, distribuţia normalizată a mediilor eşantioanelor este de tip Student
de forma:
n
S
dt
dc
0 , unde Sd este aproximarea deviaţiei standard (împărţire la n-1).
Ipoteza H0 afirmă că mediile sunt egale deci d=0, diferenţa este 0.
Ipoteza alternativă H1: mediile nu sunt egale deci d este diferit de 0.
Valoarea statisticii tabelate pentru test bilateral este determinată de semnificaţia
standard de 5% iar numărul gradelor de libertate df=n-1. În tabelele distribuţiei t se
citeşte valoarea 025,02/,1 ndft .
Interpretarea respectă aceeaşi regulă generală, dacă t calculat este mai mare ca t
tabelat (ambele în modul) atunci există semnificaţie statistică, deci cele două seturi de
date diferă semnificativ. În caz contrar dacă t tabelat este mai mare ca t calculat se
acceptă ipoteza H0, deci mediile sunt egale.
Cazul 2 – Dispersiile 22 , yx sunt cunoscute
În această situaţie variabila V urmează o distribuţie normală şi va avea dispersia
echivalentă y
y
x
xV
nn
222
.
Funcţia discriminantă se va calcula cu formula:
BIOSTATISTICA
71
y
y
x
x
yx
V
V
nn
YXVZ
22
.Variabila Z este repartizată normal
N(0,1). Pentru specificaţie bilaterală simetrică regiunea de acceptare va fi:
122 ZZcZP , cu nivelul de semnificaţie.
Pentru medii egale se determină:
y
y
x
x
nn
YXZc
22
.
Atunci când se calculează Zc şi se respectă relaţia 2ZZc , se va accepta
ipoteza H0 cu încrederea P = 1 - . Astfel, putem considera că mediile sunt egale.
Dacă relaţia: 2ZZc este respectată, atunci nu putem accepta ipoteza H0 şi în
schimb vom considera mediile ca fiind diferite.
Cazul 3 – Dispersiile 22 , yx sunt egale de valori necunoscute.
În această situaţie statistica discriminantă urmează o repartiţie Student de forma:
yxy
yy
x
xx
c
nnn
Sn
n
Sn
YXt
111122
, n
nSn
nS
y
yyx
x
xx
1,
1
22
22
.
Valoarea calculată se compară cu valoarea tabelată 2,t , unde:
22121 nn .
Dacă se respectă relaţia 2,ttc , vom accepta ipoteza H0, deci mediile se pot
considera a fi egale.
Dacă 2,ttc , nu putem accepta ipoteza H0 şi concluzionăm că mediile sunt
diferite.
Cazul 4 – Dispersiile sunt necunoscute (pot fi sau nu egale)
În acest caz se calculează funcţia discriminantă:
y
y
x
x
c
n
S
n
S
YXt
22
. Această variabilă aleatoare aproximează o lege de distribuţie
de tip Student.
BIOSTATISTICA
72
Valoarea calculată se va compara cu valoarea tabelată 2,t .Numărul gradelor de
libertate se calculează cu formula:
xy
yx
CC
22 1, unde constanta C este
yyxxx
x
nSnSn
SC
22
1
.
De asemenea, s-au folosit formulele de calcul:
1,1 yyxx nn , yy
yyx
x
xx n
nSn
nS
1,
1
22
22
.
La fel ca şi în celelalte cazuri, dacă 2,ttc acceptăm ipoteza H0 şi mediile
sunt egale, altfel considerăm mediile ca fiind inegale.
Observaţie
Metodele prezentate reprezintă tehnici statistice matematice optime pentru a
obţine un rezultat cât mai corect. Nu este greşit dacă se aplică cazul general pentru
compararea datelor, de exemplu nu se cunoaşte nimic despre aceste valori (sunt sau nu
perechi, au varianţele egale, sunt normal distribuite). Rezultatul însă va fi determinat
într-o formă aproximativă prezentând lipsă de semnificaţie în anumite situaţii limită,
tocmai prin lipsa de informaţie cuprinsă.
Exemplu Presupunem că avem două seturi de date înainte şi după tratament iar parametrul
de studiu este glicemia. Dorim să analizăm dacă există diferenţă semnificativă statistic,
ceea ce ar confirma sau infirma eficienţa tratamentului.
Tabelul 2.8 5.
înainte după
1 1.83 1.34
2 1.60 1.63
3 1.74 1.00
4 1.84 1.45
5 1.26 1.13
6 1.44 1.28
7 1.43 1.08
8 1.43 1.48
9 1.50 1.12
10 1.72 1.53
11 1.33 1.42
12 1.43 1.35
13 1.87 1.13
14 1.57 1.27
15 1.64 1.01
16 1.44 1.46
17 1.57 1.01
18 1.44 1.04
19 1.74 1.31
20 1.42 1.11
21 1.24 1.57
22 1.32 1.15
23 1.22 1.30
Este uşor de observat că datele sunt perechi, deci vom aplica testul specific acestei
situaţii.
INDEX
73
Folosind MsExcel
Pentru lansarea testului urmăm paşii : Tools + Data Analysis + t-Test: Paired Two
Sample for Means.
Se completează interactiv datele din figura alăturată.
Figura 2.8 5 - Compararea mediilor testul t MsExcel.
Se definesc domeniile eşantioanelor, numite variabila 1 respectiv 2, nivelul de
semnificaţie (standard 5%) şi domeniul sau celula de start a afişării rezultatelor.
În final se obţin următoarele valori:
Tabelul 2.8 6 - Rezultatele testului t sau Student.
t-Test: Paired Two Sample for Means
înainte după
Mean 1.523389088 1.267697646
Variance 0.038711492 0.037625235
Observations 23 23
Pearson Correlation -0.040121114
Hypothesized Mean Difference 0
df 22
t Stat 4.351833135
P(T<=t) one-tail 0.000127727
t Critical one-tail 1.717144335
P(T<=t) two-tail 0.000255454
t Critical two-tail 2.073873058
INDEX
74
Tabelul rezultatelor ne oferă toate informaţiile necesare pentru o interpretare
corectă a analizei.
Statistica t calculată are valoarea 4,351 şi se compară cu valoarea tabelată ce este
prezentă în tabel pentru test bilateral având valoarea 2,07 (numită valoare critică).
Valoarea calculată depăşind valoarea tabelată rezultă că există diferenţă semnificativă
statistic.
Acelaşi rezultat se obţine comparând valoarea semnificaţiei p calculate în cazul
bilateral al testului cu 5% valoare standard erorii de tip I. Valoarea semnificaţiei (P two
tailed=0,00025) este mult mai mică ca 0,05 deci şi prin această metodă (era de
aşteptat!) se obţine semnificaţie statistică.
Folosind SPSS
Şi în acest program avem posibilitatea de a alege dintre mai multe variante ale
testului t pentru compararea mediilor pe cea convenabilă studiului. În situaţia în care
datele sunt perechi, acestea se introduc pe două coloane conform figurii alăturate.
Pentru lansare se urmează calea: Analyze + Compare Means + Paired Samples T-
Test
Figura 2.8 6 - Compararea mediilor, testul t pentru date perechi în SPSS.
Se definesc în continuare cele două variabile ce conţin datele perechi şi se
realizează analiza.
INDEX
75
În final, se obţin două tabele cu datele calculate.
Tabelul 2.8 7 - Paired Samples Statistics
Mean N Std. Deviation Std. Error Mean
Pair 1 Înainte 1.5226 23 .19650 .04097
După 1.2683 23 .19481 .04062
Tabelul 2.8 8 - Paired Samples Test
Pair 1
Paired Differences
t
df
Sig. (2-tailed)
Mean
Std. Deviation
Std. Error Mean
95% Confidence
Interval of the Difference
Lower Upper
Înainte - După
.25435 .28195 .05879 .13242 .37627 4.326 22 .000
Ca şi în cazul utilizării softului Ms Excel este determinată valoarea statisticii
t=4,326 şi corespunzător, nivelul semnificaţiei dedus. Diferenţa este semnificativă,
pcalculat este sub 1 la mie. Sunt determinate de asemenea şi limitele intervalului de
confidenţă a diferenţei studiate pentru 95% probabilitate. În această situaţie valoarea 0
nu este cuprinsă în acest interval şi astfel se justifică (metoda a doua) existenţa
semnificaţiei statistice.
Observaţie
Testele de comparaţie au valoare practică în situaţia în care se specifică în mod
direct, diferenţa necesară pentru a accepta ca util procesul de modificare a valorilor
datelor. De exemplu, tratamentul este considerat eficient dacă mediile celor două
populaţii diferă cu cel puţin 0,4 în valoare absolută. Iată Ms Excel are această
posibilitate de a impune verificarea diferenţei minime necesare în calcul.
Verificarea semnificaţiei statistice în cadrul impunerii unei anumite diferenţe între
mediile populaţiilor studiate se poate realiza şi prin studiul intervalului de confidenţă a
diferenţei. Dacă valoarea impusă este cuprinsă în interiorul intervalului, atunci nu
există diferenţă semnificativă statistic.
Testul ipotezei multiple – compararea mediilor mai multor eşantioane
(ANOVA)
Presupunem că avem de determinat semnificaţia diferenţelor dintre m grupe
independente de date. Făcând apel la cunoştinţele deja prezentate, un posibil răspuns ar
fi să comparăm două câte două, grupuri în toate combinaţiile posibile (se va aplica
INDEX
76
testul t). Dacă am avea 10 loturi atunci numărul de teste ar fi combinări de 10 luate câte
2, adică 45!2)!210(
!10
2
10210
C . Un număr destul de mare de variante.
Ţinând cont de performanţele actuale ale sistemelor informatice, nu aceasta ar fi
problema. Dacă privim tema în discuţie, în termeni ai probabilităţii de a avea o eroare,
atunci iată că procentul de 5% ar însemna în cazul nostru aproximativ 2 teste greşite
din cele 45 (aşa zisa eroare de tip I este prezentă aici şi constă în a accepta greşit
existenţa diferenţei semnificative între două grupe, când în realitate aceasta nu există).
Ideea de a elimina această posibilă eroare se bazează pe crearea unui singur test
pentru a compara cele m grupe de date simultan.
Prin analiza varianţei numită ANOVA (analysis of variances) se aplică un singur
test, ce respectă o statistică de tip Fisher pentru determinarea semnificaţiei diferenţei
dintre mediile eşantioanelor.
Presupunem că avem m grupe de date, fiecare grup j având nj elemente. Notăm un
element din întregul set de valori cu xij, unde i reprezintă poziţia elementului din grupul
j. Astfel i variază de la 1 la nj, iar j de la 1 la m.
Ipoteza H0 este: mj ......21 , iar alternativa,
H1: Există cel puţin două grupe de medii diferite. k, l pentru care lk .
În figura alăturată este prezentată componenţa loturilor de studiu.
Figura 2.8 7 – Grupele de date de comparat.
Ca ipoteză de lucru, se presupune că fiecare grup de date este distribuit normal iar
dispersiile sunt egale între grupuri. Aceste presupuneri trebuie verificate, altfel testul
ANOVA nu poate fi aplicat.
Numărul total de elemente n poate fi calculat cu formula următoare ţinând cont de
cele m grupe :
m
jjnn
1
(j este numărul de grupe).
Media totală a tuturor valorilor este : n
x
xji
ij
,, deci suma tuturor elementelor
raportată la numărul total de elemente.
x1
x2
…
xn1
Lotul 1
Medie 1x
x1
x2
…
xnj
Lotul j
Medie jx
x1
x2
…
xnm
Lotul m
Medie mx
INDEX
77
Putem calcula media totală şi ţinem cont de valoarea mediei fiecărui grup astfel:
Notăm media grupului j cu jx . Acest grup are nj elemente.
Avem în final media totală: n
xn
xj
jj
.
Variaţia variabilei aleatoare X de interes este măsurată convenţial în termeni ai
deviaţiei faţă de valoarea medie ( xxij ).
Suma totală a pătratelor deviaţiilor este (total sum of square):
ji
ij xxSST,
2.
Putem scrie suma deviaţiei astfel (adăugăm şi scădem jx ):
xxxxxx jjijij .
Folosind teorema lui Cochran se poate demonstra că prin sumare şi ridicare la
pătrat se păstrează egalitatea: ji
jji
jijji
ij xxxxxx,
2
,
2
,
2.
Ţinând cont că ultima sumă depinde numai de numărul de grupe de comparat (j):
j
jjji
jijji
ij xxnxxxx2
,
2
,
2.
Aceste variaţii reprezintă:
Suma totală a pătratelor deviaţiilor:
ji
ij xxSST,
2.
Suma pătratelor deviaţiilor între grupuri (sum of square between):
j
jj xxnSSB2
.
Suma pătratelor deviaţiilor în grupuri (sum of square within):
ji
jij xxSSW,
2.
Avem egalitatea: SST = SSW + SSB.
Deducem astfel, că există două surse de variaţie, între grupuri şi în cadrul
grupurilor. Raportul mediilor acestor două surse de variaţie respectă (în cazul
presupunerilor de repartiţii normale şi dispersii egale) o distribuţie de tip Fisher.
Aceasta este statistica de analizat în studiul de tip ANOVA.
SSB – reprezintă o distribuţie de tip Chi pătrat, cu m-1 grade de libertate.
SSW – reprezintă o distribuţie de tip Chi pătrat, cu n-m grade de libertate.
INDEX
78
Putem calcula mediile: 1
m
SSBMSSB , respectiv
mn
SSWMSSW
.
Statistica Fisher se obţine prin raportul MSSW
MSSBF . Aceasta va avea m-1
respectiv n-m grade de libertate.
Pentru interpretare se calculează valoarea F prin raportul prezentat şi se compară
cu valoarea tabelată corespunzătoare gradelor de libertate determinate şi unui nivel de
semnificaţie standard de 5% (0,05). Dacă valoarea calculată este mai mare decât cea
tabelată, rezultă că mediile nu sunt egale şi există cel puţin două grupe cu diferenţă
semnificativă statistic.
Dacă se calculează valoarea semnificaţiei, aceasta se va compara cu valoarea 5%.
În situaţia în care este mai mică atunci există diferenţă semnificativă statistic.
Menţionăm că testul ANOVA în cazul existenţei diferenţei semnificative are
dezavantajul de a nu putea prezenta care sunt grupurile care diferă.
Această metodă este optimă în situaţia în care nu avem diferenţă semnificativă
între grupe deoarece am realizat un singur test pentru m grupe de comparaţie.
Exemplu numeric de calcul
Pentru a minimiza calculele necesare realizării testului ANOVA vom considera că
avem trei grupuri cu câte 4 date fiecare. Valorile sunt cuprinse în tabelul următor.
Tabelul 2.8 9 – Valorile grupelor de comparat.
Grupul A Grupul B Grupul C
2 2,9 2
2,5 3,2 2,1
3 3 2,6
2,7 3,1 2,3
Calculând mediile celor 3 grupe de date obţinem: 55,21 x ; 05,31 x ;
25,21 x . Media pe toate grupurile este 616,2x .
Valoarea SSW este: SSW = (2-2,55)2 + (2,5-2,55)
2 + (3-2,55)
2 + (2,7-2,55)
2 +
(2,9-3,05)2 + (3,2-3,05)
2 + (3-3,05)
2 + (3,1-3,05)
2 + (2-2,25)
2 + (2,1-2,25)
2 + (2,6-
2,25)2 + (2,3-2,25)
2 ; SSW = 0,79.
Valoarea SST este: SST = (2-2,616)2 + (2,5-2,616)
2 + (3-2,616)
2 + (2,7-2,616)
2 +
(2,9-2,616)2 + (3,2-2,616)
2 + (3-2,616)
2 + (3,1-2,616)
2 + (2-2,616)
2 + (2,1-2,616)
2 +
(2,6-2,616)2 + (2,3-2,616)
2 ; SST = 2,09.
Valoarea SSB o calculăm ca diferenţa celor două şi obţinem SSB = 1,30.
INDEX
79
Se vor calcula mediile prin raportarea sumelor pătratelor diferenţelor la gradele de
libertate şi în final se va determina valoarea statisticii Fisher.
Pentru continuarea calculului putem realiza tabelul de mai jos (tabelul de mai jos
este cuprins în toate programele de analiză a varianţei ANOVA, acestea calculează de
asemenea şi nivelul de semnificaţie p).
Tabelul 2.8 10 - Tabelul de calcul pentru testul ANOVA.
Sursa de variaţie Suma pătratelor
SS
Grade de
libertate
df
Media SS
MS
Statistica
Fisher
F
Between Groups 1.306666667 3-1 = 2 0.653333333 7.443037975
Within Groups 0.79 12-3 = 9 0.087777778
Total 2.096666667 11
Valoarea statisticii Fisher corespunzătoare tabelată este F(2; 9; p=5%)=4,256
Valoarea calculată fiind mai mare decât cea tabelată, deducem că mediile diferă
semnificativ, dar nu cunoaştem efectiv care dintre acestea sunt diferite.
Programele de calcul şi analiză statistică determină şi valoarea semnificaţiei,
notată cu p. Dacă valoarea acesteia este mai mică de 0,05, atunci mediile diferă
semnificativ.
Pentru studiu este indicat a se analiza şi exemplul din capitolul EpiInfo 3.3.2.
INDEX
80
R1 Rtotal
Eveniment 40 50
Non eveniment 80 50
Total 120 100
1.9. TABELE DE CONTINGENŢĂ – TESTUL CHI PĂTRAT (2 ), RISC,
COTĂ
Noţiuni
Compararea frecvenţelor de apariţie a anumitor evenimente se poate realiza fie
determinând intervalul de confidenţă, fie aplicând testul Chi pătrat. Este una dintre
metodele cele mai des întâlnite in practica medicală şi prezente în lucrările ştiinţifice
din domeniu.
Evenimentele studiate fac parte din grupa variabilelor de tip calitativ şi suntem
interesaţi de frecvenţa de apariţie a acestora. Pentru un număr mare de experimente,
aceste frecvenţe tind către valorile probabilităţilor. Acestea pot fi comparate prin
cunoştinţele extrase din eşantioane folosind testul Chi pătrat (2 ). Datele culese
experimental se adună în tabele numite de contingenţă şi cuprind toate combinaţiile
variantelor categoriale ale variabilelor de studiu.
Cea mai simplă formă de aplicare a statisticii de tip 2 este compararea
frecvenţei experimentale de apariţie a unui eveniment cu cea teoretică.
Formula de calcul generală este:
..
1
22
evdenr
icalculat
E
EO (1)
2calculat - este valoarea statisticii Chi pătrat calculată din datele experimentale.
O – valorile observate ale frecvenţelor absolute (observed).
E – valorile determinate teoretic, dacă nu ar exista legătură între variabile
(expected – aşteptate).
Valorile observate sunt tocmai frecvenţele absolute, deci numărul de cazuri din
eşantion ce respectă o anumită condiţie. Acestea sunt obţinute în urma studiului
realizat.
Valorile aşteptate sau teoretice se cunosc fie din literatura de specialitate, fie din
studii pilot, sau se determină din cele experimentale presupunând lipsa dependenţei
între variabile, sau sunt pure valori teoretice pentru comparaţie.
Prezentăm un exemplu de verificare a egalităţii frecvenţei de apariţie a unui
eveniment raportat la o regiune geografică specifică, comparativ cu procentul cunoscut
pe întreaga zonă de studiu.
Din cele 120 de cazuri din regiunea R1, avem 40 de evenimente realizate. Vom
compara procentul rezultat cu valoarea cunoscută de 50% a evenimentelor pe întreaga
populaţie. Putem crea tabelul:
Tabelul 2.9 1.
R1 – regiunea 1 geografică (prezintă un
specific).
Rtotal – regiunea totală studiată.
INDEX
81
Valorile determinate pentru zona R1 reprezintă în fapt valorile experimentale, deci
sunt cele observate.
Procentul de 50% cunoscut pe zona geografică totală studiată reprezintă valoarea
aşteptată.
Tabelul poate fi refăcut şi completat astfel:
Tabelul 2.9 2. Etapele de calcul pentru determinarea valorii 2 .
Observat
(O)
Aşteptat
(E) (O-E) (O-E)
2 (O-E)
2/E
Ev. 40 50 -10 100 2
Non ev. 80 50 30 900 18
Total 120 100 20 1000 202 calculatχ
Deoarece se cunoaşte din start valoarea de 50% a frecvenţei de comparaţie, acest
test se numeşte cu „ipoteză teoretică apriorică”.
Valoarea statisticii calculate se compară cu cea tabelată corespunzătoare nivelului
de semnificaţie stabilit şi de asemenea, corespunzătoare gradelor de libertate (df -
degree of freedom) specifice distribuţiei Chi pătrat determinate.
Gradele de libertate reprezintă un parametru specific aşa cum media respectiv
dispersia reprezintă parametrii distribuţiei de tip Gauss-Laplace. Acestea sunt egale cu
numărul de elemente necesare a fi cunoscute pentru ca problema sa prezinte un caz
determinat. De exemplu, în situaţia în care experimentul constă în aruncarea unei
monede, avem două evenimente posibile de realizat: marca sau banul. Dacă ştim
frecvenţa de apariţie a mărcii, putem determina frecvenţa de apariţie a banului. Astfel,
avem un singur grad de libertate în cadrul acestei experienţe.
Şi în situaţia noastră avem două evenimente posibile (eveniment, non eveniment)
deci deducem gradele de libertate df=1.
Căutând în tabelele statistice valorile distribuţiei 2 pentru df=1, respectiv
p=0,05, găsim valoarea 84,3)05,0;1(2 .
Valoarea Chi pătrat calculată ( 202 calculatχ , conform formulei 1 detaliat
calculată în tabelul 2.9 2) este mai mare ca valoarea tabelată, de unde deducem că
ipoteza nulă „proporţiile sunt egale”, nu este acceptabilă şi conchidem că există
diferenţă semnificativă statistic între proporţii.
Acesta este un mod de aplicare a statisticii Chi pătrat. Există şi alte metode de
comparare a frecvenţelor, folosind chiar toate variantele posibile de a combina funcţie
de categorii, variabilele de interes.
INDEX
82
Testarea dependenţei dintre două variabile categoriale
În această situaţie nu se cunoaşte a priori frecvenţa de apariţie a categoriilor
variabilelor de comparat.
O formă simplă este exprimată de tipul dicotomic având doar variantele Yes/No,
True/False sau forma binară 1 / 0.
Cele două variabile de studiat pot fi aranjate într-un tabel de contingenţă, ce
prezintă toate frecvenţele absolute ale combinaţiilor posibile de tipul (V1,V2), variabilă
1, respectiv variabilă 2.
Presupunem că aplicăm codificarea (0,1) pentru ambele variabile. Astfel,
combinaţiile posibile (V1,V2) pot avea următoarele variante: (1,1); (1,0); (0,1); (0,0).
Iată mai jos tabelul de contingenţă realizat:
Tabelul 2.9 3.
V2
1 0 Total
V1 1 (1,1) = a (1,0) = b a+b
0 (0,1) = c (0,0) = d c+d
Total a+c b+d a+b+c+d=n
Pentru a nu rămâne în partea aridă, teoretică, putem considera V1 ca reprezentând
sexul persoanei, iar V2 să reprezinte prin codificarea 1 fumătorii, iar prin 0 nefumătorii.
Pentru a verifica existenţa dependenţei între V1 şi V2, trebuie să ţinem cont de toate
frecvenţele variantelor posibile (V1,V2). Nu este corect să gândim compararea doar a
frecvenţelor a/(a+b), respectiv c/(c+d) – asemănător comparării cu o frecvenţă
cunoscută.
Amintim că valorile a, b, c, d sunt determinate experimental, deci sunt cele
observate.
Trebuie să găsim o metodă de a calcula valorile frecvenţelor teoretice sau
aşteptate (expected). În situaţia în care cele două variabile ar fi independente, putem
determina frecvenţele aşteptate folosindu-ne de suma pe linii, respectiv pe coloane a
frecvenţelor observate.
De exemplu, frecvenţa absolută teoretică (sau aşteptată) pentru varianta (1,1)
poate fi calculată cu formula (a+b)(a+c)/n. Aceasta se justifică astfel: Avem a+c
cazuri cu V2=1 din totalul de n. Frecvenţa relativă este (a+c)/n, indiferent din ce grup
categorial definit de V1 provin, deci gândim pe ansamblu. Din totalul de n cazuri, avem
(a+b) cu V1=1. Putem deduce frecvenţa absolută teoretică, în sensul variabile
independente pentru situaţia V1=1 şi V2=1 cu formula (a+b)(a+c)/n. Observăm că este
produsul dintre total linie, total coloană raportat la numărul total de date.
Avem astfel formulele de calcul ale frecvenţelor aşteptate pentru toate celulele
tabelului de contingenţă:
E(1,1) = (a+b)(a+c)/n ; E(1,0) = (a+b)(b+d)/n ;
E(0,1) = (c+d)(a+c)/n ; E(0,0) = (c+d)(b+d)/n .
INDEX
83
Forma generală: Frecvenţa aşteptată = total_coloană• total_linie / total_general.
Astfel, valoarea statisticii Chi pătrat devine:
E
EOcalculat
22
)0,0(
)0,0(
)1,0(
)1,0(
)0,1(
)0,1(
)1,1(
)1,1(2222
2
E
Ed
E
Ec
E
Eb
E
Eacalculat
.
Numărul de grade de libertate se calculează cu formula:
df = (nr. coloane – 1)• (nr. rânduri – 1).
Din tabelele distribuţiilor statistice se citeşte valoarea 2
);( pdf (df – gradele de
libertate; p – nivelul de semnificaţie ce este 0,05 standard).
Algoritmul de decizie este acelaşi în forma generală exprimat astfel:
Dacă valoarea 2
);(2
pdfcalculat , echivalent cu pcalculat < 0,05, deducem că
frecvenţele comparate diferă semnificativ, deci există asociere între variabila V1,
respectiv V2, în sensul că pentru grupa V1=1 frecvenţele pentru V2=1, respectiv V2=0
diferă de aceleaşi frecvenţe pentru grupul V1=0. Cu alte cuvinte, proporţiile formate de
categoriile variabilei V2 diferă semnificativ pentru populaţiile formate de categoriile
variabilei V1.
Dacă V1 reprezintă sexul, interpretarea constă în existenţa proporţiilor diferite între
fumători şi nefumători la populaţia de bărbaţi faţă de femei.
În situaţia particulară a tabelelor de contingenţă 2x2, o metodă de calcul ce
conduce la o aproximare mai bună a valorii statisticii este materializată prin formula
Yates. Aceasta aplică o corecţie concretizată prin scăderea valorii ½ sub forma:
E
EOcalculat
2
21
2 .
Ţinând cont de prelucrările matematice, forma finală devine:
dbcadcba
Ncbda N
calculat
2
22 .
Această corecţie duce la o estimare mai apropiată faţă de valoarea corectă a
statisticii calculate pentru cazul particular al tabelului cu două rânduri şi două coloane.
Menţionăm că pentru df=1 şi semnificaţie standard p=0,05 avem
84,3)05,0;1(2 (standard pentru tabele 2x2).
În situaţia în care numărul de date este mic, altfel spus volumul eşantionul este
mic, putem avea valori sub 5 a frecvenţelor aşteptate. Acesta este un prag care arată că
eroarea introdusă în calcul creşte simţitor. În astfel de situaţii se poate aplica testul
INDEX
84
exact Fisher pentru a obţine un rezultat util. Acesta aplică o formulă recurentă care
determină şi valoarea semnificaţiei corespunzătoare, deci pcalculat. În final, comparaţia
se face tot cu 0,05, acceptând sau nu ipoteza testată.
Se pune evident problema dimensiunii eşantionului de studiu. Aceasta se poate
deduce conform metodelor prezentate în capitolul dedicat calculului volumului
necesar. Totuşi în anumite situaţii, pe care noi nu le putem anticipa, se întâmplă ca şi
valorile aşteptate (expected) să se apropie de 0. Studii laborioase au arătat că atât timp
cât valorile frecvenţelor aşteptate sunt mai mari ca 1, testele exacte dau rezultate
corecte (Larntz K, Small-sample comparisons of exact levels for chi-squared goodness-
of-fit statistics. Journal of the American Statistical Association 73, 253-263, 1978.)
Formula generală de calcul pentru statistica 2
Este uşor de determinat această formulă de calcul deoarece generalizarea este
intuitivă, plecând deja de la formulele prezente.
Calculul frecvenţelor aşteptate cât şi a statisticii Chi pătrat au deja o formă
generală ce se poate aplica şi pentru cazul tabelelor cu p rânduri şi q coloane.
Trebuie menţionat că eşantionul trebuie să fie aleator ales din cadrul populaţiei de
studiu, să fie consistent deci dimensiunea lui să determine prezenţa în limita acceptată
a informaţiei necesare. Categoriile ce definesc variabilele de comparat trebuie să se
excludă reciproc – de exemplu, să nu existe elemente comune care să poată avea
valoarea V1=1 şi V1=0 în acelaşi timp.
Formula generală de calcul pentru statistica Chi pătrat:
.2
2
E
EOcalculat
Creăm tabelul de contingenţă pentru două variabile cu mai mult de două categorii.
Tabelul 2.9 4 - Tabelul de contingenţă pentru cazul general.
V2
categorii 1 2 … q Total
V1
1 O(1,1) O(1,2)
q
j
jO1
),1(
2
… O(i,1) O(i,j)
P O(p,q)
q
j
jpO1
),(
Total
p
i
iO1
)1,(
p
i
jiO1
),(
p
i
qiO1
),(
n
INDEX
85
Valoarea aşteptată (teoretică) pentru elementul de pe rândul i şi coloana j este:
n
jiOjiO
jiE
q
j
p
i
11
),(),(
),( . Reprezintă produsul dintre total rând şi total coloană
raportat la totalul general.
Numărul gradelor de libertate este : df = (p-1) (q-1).
Semnificaţia standard este p=0,05 (5%).
Evident, calculul este anevoios, dar există un mare număr de programe
informatice (SPSS, Statistica, EpiInfo, SAS) care au implementate aceste formule de
determinare. Sunt prezentate chiar în diferite aproximări ale statisticii şi de asemenea,
valoarea semnificaţiei calculate pcalculat este determinată. Aceasta este corespunzătoare
valorii Chi deduse şi matematic este o integrală din densitatea de probabilitate.
Paradoxul Simpson – în tabele 2x2
Vom prezenta un exemplu de verificare a independenţei variabilelor de studiu,
care prin forma sa, va determina o eroare de calcul, evident cu efecte nedorite.
Pentru a compara două tratamente se poate crea tabelul de contingenţă, în care pe
linii avem tratamentul iar pe coloane supravieţuirea, respectiv decesul.
Dacă avem mai multe stadii ale maladiei, o metodă globală este să adunăm datele
din tabelele componente şi să creăm un tabel global final.
Vrem prin exemplul generic imaginat, să arătăm că există situaţii în care această
metodă de compunere a tabelelor într-un tabel global nu este întotdeauna benefică.
Caracteristicile tabelului compus pot intra în contradicţie cu tabelele componente ca
trăsătură a datelor analizate.
Inspiraţi din exemplul prezentat de Lloyd, C.J.(1999) Statistical Analysis of
Categorical Data, Willey New York, pag 153-154, am generat tabelul:
Tabelul 2.9 5.
Supravieţuire Deces Total
Tratament T1 175 110 285
T2 210 65 275
Total 385 175 560
Valorile calculate: 58,142 calculat , corectat are valoarea 89,132 Yates cu
nivelul de semnificaţie corespunzător p=0,0001.
Conchidem astfel că cele două tratamente diferă semnificativ statistic din punct de
vedere al procentului de supravieţuire.
Avem pentru tratamentul T1 proporţia de supravieţuire P1=175/285 = 61,4% ;
respectiv pentru T2, P2 = 210/275 = 76,3%. Deducem că tratamentul 2 este mai bun
faţă de 1, prin faptul că proporţia de supravieţuire este superioară.
Totuşi să încercăm să privim problema mai în profunzime şi să descompunem
datele în două noi tabele corespunzătoare stadiului de evoluţie al bolii.
INDEX
86
Tot în mod generic creăm tabelele următoare:
În ambele tabele procentul de supravieţuire este mai bun pentru tratamentul T1,
comparativ cu T2. Mai mult chiar, în stadiul 1 testul este şi semnificativ.
Se observă totuşi că proporţiile de supravieţuire diferă puternic între cele două
stadii. În stadiul 1 proporţia de supravieţuire este peste 50%, iar în stadiul 2 mult sub
50%.
S-a obţinut astfel un rezultat contrar celui obţinut prin compunerea tabelelor.
Situaţia prezintă un caz extrem, rar întâlnit în practică.
Concluzia este clară: Tabelele pot fi sumate într-o formă globală dacă
caracteristicile individuale sunt aceleaşi şi în proporţii asemănătoare.
Trebuie să reţinem că sumarea datelor din tabele individuale pentru o analiză
globală poate anula sau chiar modifica caracteristicile prezente ale populaţiilor.
Riscul, Cota şi Valorile relative
În cadrul studiilor epidemiologice este nevoie să se determine influenţa factorilor
de risc în cadrul anumitor maladii. Testul Chi pătrat prezintă rezultatul verificării
prezenţei dependenţei sau independenţei între două variabile. Acesta nu ne dă
informaţie asupra puterii legăturii, într-o măsură numerică.
Riscul se defineşte ca fiind numărul de cazuri raportate la numărul total de
elemente studiate. Dacă avem un eşantion de 250 de pacienţi, din care 64 s-au
îmbolnăvit pe perioada studiată, putem determina riscul ca fiind 64/250=25,6% (este o
noţiune similară incidenţei dacă sunt implicate cazuri noi).
Putem crea două populaţii, în sensul grupării după criteriul factor de risc prezent,
respectiv factor de risc absent. Avem astfel posibilitatea de a determina frecvenţele
absolute prezentate în tabelul următor.
Tabelul 2.9 8.
Maladie
Prezentă Absentă Total
Factor Prezent a b a+b
Absent c d c+d
Total a+c b+d n
Riscul relativ este utilizat în studii de cohortă, în care persoanele care sunt expuse
sau nu unui factor de risc sunt urmărite în timp (studiu prospectiv) pentru a vedea care
este legătura cu maladia studiată. Acest indicator reprezintă o măsură a asocierii dintre
factorul de risc şi afecţiunea analizată.
Tabelul 2.9 6.
Stadiul 2 S D Total
T1 20 105 125
T2 3 40 43
Total 23 145 168
Niv. de semnificaţie p=0,21
P1 = 16% ; P2 = 7,5%
Tabelul 2.9 7.
Stadiul 1 S D Total
T1 155 5 160
T2 207 25 232
Total 362 40 392
Niv. de semnificaţie p=0,01
P1 = 96,8% ; P2 = 89,2%
INDEX
87
Riscul relativ, notat de obicei cu RR, este raportul între frecvenţa de apariţie a
cazurilor în cadrul populaţiei supusă factorului şi frecvenţa de apariţie a maladiei în
populaţia în care factorul de risc nu este prezent.
dcc
baa
RR
)(. După formula de calcul, observăm că domeniul de variaţie este
cuprins între 0 şi valori pozitive foarte mari (acceptăm că valorile a,b,c,d sunt diferite
de 0).
În situaţia în care riscul relativ este 1, putem afirma că factorul luat în considerare
nu are efect asupra frecvenţei de apariţie a maladiei. Deci nu există legătură între
variabilele studiate.
Valori mai mari ca 1 indică o creştere a frecvenţei pentru cazurile cu factor
prezent, ceea ce generează un efect negativ. Factorul implicat conduce la creşterea
frecvenţei de îmbolnăvire.
Valori mai mici decât 1 arată că factorul are efect pozitiv, benefic, ducând la
scăderea frecvenţei de apariţie a maladiei.
Fiind determinat din eşantioane de analiză, riscul relativ prezintă o incertitudine în
măsurarea punctuală. Pentru a avea o anumită încredere în studiu, este nevoie să se
lucreze cu o anumită probabilitate. În forma standard de 95% încredere (deci
semnificaţie de 5%), se poate determina intervalul de variaţie al riscului. Semnificaţia
legăturii posibile între factor şi maladie este legată de prezenţa în intervalul calculat a
valorii 1, valoare ce arată că factorul nu are efect asupra frecvenţei de apariţie a
maladiei.
În concluzie, factorul are influenţă asupra prezenţei maladiei doar dacă intervalul
de confidenţă a riscului relativ nu cuprinde valoarea 1. Astfel, testul este considerat
semnificativ statistic. Menţionăm că valoarea riscului relativ poate fi sau nu mai mare
ca 1. Valoarea 1 este considerată de referinţă, deoarece funcţie de aceasta se deduce
semnificaţia statistică a legăturii posibile între variabile.
Iată avem un exemplu generic de determinare a riscului relativ, în situaţia
îmbolnăvirilor de cancer de plămân, raportat la factorul de risc, cunoscut ca fiind
fumatul.
Tabelul 2.9 9.
Cancer plămân
Prezent Absent Total
Fumător Da 121 243 364
Nu 41 727 768
Total 162 970 1132
Conform formulei de calcul avem:
7274141
)243121(121
RR , RR=6,23.
Calculând şi intervalul de confidenţă obţinem: 4,47 <RR< 8,67.
INDEX
88
Valoarea 1 nu este cuprinsă în domeniul de variaţie. Astfel, există diferenţă
statistică semnificativă şi decidem că riscul de a te îmbolnăvi de cancer la plămâni este
de aproximativ 6 ori mai mare pentru fumători comparativ cu nefumătorii.
În situaţia studiilor de tip caz-martor (case-control), pentru a exprima legătura
existentă, se foloseşte indicatorul raportul cotelor (odd ratio), sau raportul şanselor.
Studiul de acest tip este retrospectiv, având ca scop compararea între persoanele care
prezintă maladia (cazuri), respectiv cele ce nu sunt bolnave (martori sau control)
grupate după prezenţa sau nu a factorului de risc.
Cota se defineşte ca raportul dintre probabilitatea de apariţie a evenimentului
studiat şi probabilitatea evenimentului complementar.
)(1
)(
)(
)(
eP
eP
eP
ePCota
.
Cota - pentru diferite valori ale
probabilităţii
0
5
10
15
20
0 0.2 0.4 0.6 0.8 1Probabilitatea P(e)
Figura 2.9 1.
Putem reprezenta grafic cota şi observăm o variaţie de la 0 până la valori foarte
mari, funcţie de probabilitatea P(e).
Pentru tabelul iniţial avem formulele de calcul:
Cota 1 (factor prezent) = a/b ; Cota 2 (factor absent) = c/d (folosind tabelul 2.9 8).
Raportul cotelor (odd ratio) cb
daOR
. Ca şi riscul relativ, acest raport poate
varia între 0 şi valori foarte mari.
Asemănător cazului precedent, intervalul de confidenţă pentru raportul cotelor
este caracterizat de prezenţa sau nu a valorii 1. Există semnificaţie statistică şi prin
urmare, legătură între proporţiile determinate de factorul de risc, dacă acest interval de
confidenţă nu conţine valoarea 1. În caz contrar, înseamnă că proporţiile sunt egale şi
factorul studiat nu are efect asupra proporţiilor îmbolnăvirilor.
Dacă tabelul precedent cu valori numerice ar reprezenta date culese dintr-un
studiu caz-martor, atunci raportul cotelor ar fi util de determinat.
INDEX
89
82,841243
727121
cb
daOR .
Interpretarea este formulată astfel: şansele de a se îmbolnăvi de cancer la plămâni
sunt de 8,82 ori mai mari la fumători faţă de nefumători.
Ca observaţie generală, atât riscul relativ cât şi raportul cotelor exprimă în esenţă
aceeaşi caracteristică a datelor. Dacă riscul relativ prezintă semnificaţie statistică este
de aşteptat ca şi raportul cotelor să respecte aceeaşi regulă. Dacă riscul relativ este
supraunitar (sau subunitar), la fel va fi si raportul cotelor. Practic sunt două forme ce
prin calcul aduc în atenţia noastră valori numerice ce arată proporţional intensitatea
asocierii existente.
Exemplu de calcul folosind programul SPSS
Presupunem că dorim să realizăm un studiu de verificare a existenţei diferenţei
semnificative între două tratamente (T1, T2) din punct de vedere a frecvenţei de deces.
Creăm două variabile numite Tratament, respectiv Deces. Codificăm cu 1,
respectiv cu 2 cele două tratamente, apoi cu 1 decesul iar cu 2 supravieţuirea.
Codificarea este la liberă alegere, totuşi datele în tabelul de contingenţă sunt ordonate
după valoarea numerică utilizată. Astfel, este bine să codificăm evenimentele în
ordinea în care dorim să fie afişate.
După introducerea datelor, alegem pentru analiză Analyze + Descriptive Statistics
+ Crosstabs….
Figura 2.9 2 – SPSS tabele de contingenţă
Pe rânduri vom trece tratamentele, iar pe coloane decesul sau supravieţuirea.
Avem mai multe opţiuni care pot fi setate astfel încât informaţia să satisfacă
cerinţele analizei.
INDEX
90
Pentru a realiza calculul semnificaţiei prin metoda Fisher vom bifa opţiunea Exact
+ Monte Carlo. Aceasta este utilă în situaţia în care o valoare aşteptată calculată este
mai mică decât 5. Metoda Fisher calculează exact valoarea nivelului de semnificaţie.
Putem impune atât afişarea valorilor aşteptate cât şi a procentelor pe linii sau
coloane.
SPSS este un program de statistică performant, permiţând setarea din grupul
Statistics… a diferite teste suplimentare care evaluează şi puterea legăturii dintre cele
două variabile.
Obţinem astfel tabelul de contingenţă prezentat mai jos, cât şi tabelul cu valorile
statisticilor calculate.
Tabelul 2.9 10 – Tratament * Deces Crosstabulation
Deces Total
Deces Supravietuire
Tratament Trat. 1 Count 105 20 125
Expected Count 107.9 17.1 125.0
Trat. 2 Count 40 3 43
Expected Count 37.1 5.9 43.0
Total Count 145 23 168
Expected Count 145.0 23.0 168.0
Tabelul 2.9 11 – Chi-Square Tests(d)
Value df
Asymp. Sig.
(2-sided)
Exact Sig.
(2-sided)
Exact Sig.
(1-sided)
Pearson Chi-Square 2.205 1 .138 .198 .106
Continuity Correction 1.507 1 .220
Fisher's Exact Test .198 .106
N of Valid Cases 168
Valoarea Pearson este determinată cu formula standard generală fără corecţii,
aceasta fiind 2,205.
În rândul al doilea al tabelului precedent este prezentată valoarea Yates, prin
corecţia de continuitate. Aceasta este specifică tabelelor de tip 2x2.
Valoarea Fisher este valoarea exactă a nivelului de semnificaţie, p=0,198.
În cazul nostru, toate valorile de semnificaţie sunt mai mari ca 0,05, de unde
deducem că ipoteza nulă este adevărată, deci nu există legătură sau relaţie între
frecvenţele de deces şi tratamente. Putem spune că tratamentele nu diferă semnificativ
din punct de vedere al decesului.
INDEX
91
În situaţia în care am studia riscul sau cota, în cadrul programului SPSS s-ar fi
calculat atât riscul relativ, cota relativă, cât şi intervalele de confidenţă pentru corecta
interpretare şi comparare faţă de valoarea 1.
Exemplu de calcul folosind programul EpiInfo
Vom utiliza aceeaşi bază de date cu cele două coloane: Tratament, Deces.
Deschidem fişierul folosind comanda Read(Import). Intrăm în grupul de analiză
(Analyze Data) şi alegem Statistics + Tables.
Figura 2.9 3 – EpiInfo tabele de contingenţă
Completăm conform figurii alăturate variabilele din tabelul de contingenţă.
Rezultatele obţinute sunt prezentate în următoarele două tabele.
Tabelul 2.9 12 – Chi-Square Tests(d)
Tratament 1 2 TOTAL
1 Row %
Col %
105
84.0
72.4
20
16.0
87.0
125
100.0
74.4
2 Row %
Col %
40
93.0
27.6
3
7.0
13.0
43
100.0
25.6
TOTAL Row %
Col %
145
86.3
100.0
23
13.7
100.0
168
100.0
100.0
Tabelul 2.9 12 este asemănător tabelului 2.9 10 realizat în SPSS şi reprezintă
frecvenţele observate cât şi procentele pe rânduri, respectiv coloane.
INDEX
92
Analiza datelor este prezentată în tabelul 2.9 13. EpiInfo calculează raportul
cotelor (Odds Ratio) cât şi limitele de confidenţă (cu 95% încredere), riscul relativ
(Risk Ratio) şi limitele de confidenţă ale acestuia iar în final, valoarea statisticii Chi
pătrat prin diferite metode şi corespunzător nivelul de semnificaţie.
Tabelul 2.9 13– Single Table Analysis
Point 95% Confidence Interval
Estimate Lower Upper
PARAMETERS: Odds-based
Odds Ratio (cross product) 0.3938 0.1109 1.3979 (T)
Odds Ratio (MLE) 0.3956 0.0893 1.2983 (M)
0.0714 1.4437 (F)
PARAMETERS: Risk-based
Risk Ratio (RR) 0.9030 0.8073 1.0101 (T)
Risk Difference (RD%) -9.0233 -18.9875 0.9410 (T)
(T=Taylor series; C=Cornfield; M=Mid-P; F=Fisher Exact)
STATISTICAL TESTS Chi-square 1-tailed p 2-tailed p
Chi square - uncorrected 2.2045 0.1376057317
Chi square - Mantel-Haenszel 2.1914 0.1387823163
Chi square - corrected (Yates) 1.5070 0.2195927872
Mid-p exact 0.0695927534
Fisher exact 0.1059606825
Limitele intervalului de confidenţă ale raportului cotelor cât şi ale riscului relativ
cuprind valoarea 1 (acestea sunt calculate prin diferite metode cum ar fi seriile Taylor
sau metoda Fisher). Putem astfel decide că nu există asociere între tratament şi numărul
de decese. Tratamentele pot fi considerate asemănătoare.
Acelaşi rezultat îl obţinem prin calculul statisticii Chi pătrat şi al nivelului de
semnificaţie. Acesta are valoarea p=0,13 sau 0,219 prin metoda Yates. Valoarea este
mult mai mare decât 0,05 ceea ce ne permite să afirmăm că tratamentele nu diferă
semnificativ.
Era şi de aşteptat, atât prin analiza riscului relativ a raportului cotelor cât şi prin
utilizarea statisticii Chi pătrat se obţine acelaşi rezultat.
INDEX
93
1.10. REGRESIA LINIARĂ ŞI CORELAŢIA
S-au prezentat până acum metode de estimare a indicatorilor statistici (media ca
indicator de bază), determinare a volumului eşantionului, tehnici de comparare a
variabilelor de tip continuu (testul t, ANOVA) sau categorial (Chi pătrat), calculul
intervalului de variaţie cu încredere de 95%.
Sunt situaţii în care ne interesează să estimăm intensitatea legăturii dintre două sau
mai multe variabile, sau să găsim o relaţie deci o formă analitică matematică care să
exprime o variabilă funcţie de altele implicate în procesul studiat.
Iată ca exemplu, am putea fi interesaţi în a verifica existenţa unei relaţii între
înălţimea tatălui (nu a tatălui adoptiv) şi cea a copilului. Am putea căuta o legătură
între indicele de masă corporală şi presiunea arterială (pentru persoane de vârsta a
treia), căutăm să estimăm dependenţa între efortul fizic şi frecvenţa cardiacă, poate
acestea depind şi de vârstă, etc.
Regresia reprezintă expresia matematică ce permite estimarea unei variabile
funcţie de cel puţin o altă variabilă. Regresia ajută în determinarea relaţiei şi este
folosită în special în studii de predicţie.
Corelaţia exprimă puterea legăturii dintre două variabile (intensitatea relaţiei).
Atât prin regresie cât şi prin corelaţie putem determina dacă relaţia este direct
proporţională (creşterea variabilei 1 implică creşterea variabilei 2 ; scăderea variabilei
1 implică scăderea variabilei 2), sau invers proporţională (creşterea variabilei 1 duce la
scăderea variabilei 2).
Regresia liniară
Termenul de regresie a fost introdus de matematicianul Galton. Metoda constă în
determinarea unei funcţii liniare (este cea mai simplă formă de dependenţă)
f(x) = y = a + bx, care să aproximeze calculul valorilor y prin valorile x (y – este
variabila dependentă, x – variabila independentă sau predictor). Atât x cât şi y sunt
variabile de tip continuu.
Metoda de calcul pentru parametrii dreptei de regresie constă în definirea unei
erori şi minimizarea acesteia.
Considerăm că avem două şiruri de date corespunzător variabilelor aleatoare de
interes X şi respectiv Y (caracterizate ca fiind distribuite normal sau gausian).
În tabelul următor sunt prezentate cele două şiruri:
Tabelul 2.10 1.
X: x1 x2 …. xn
Y: y1 y2 … yn
INDEX
94
Figura 2.10 1 – Dreapta de regresie.
Dorim să determinăm parametrii a, b ce definesc dreapta de regresie:
f(x) = y = a + bx.
Pentru aceasta se foloseşte metoda celor mai mici pătrate, care constă în a
minimiza suma pătratelor erorilor dintre valorile yi (extrase din experiment) şi valorile
f(xi) calculate cu ajutorul formulei dreptei de regresie.
Se defineşte eroarea: iiiii yxbayxf )( .
Unele valori ale erorii i sunt pozitive, altele sunt negative, dar eroare există în
toate cazurile când i 0. Pentru a nu pierde această informaţie se va folosi pătratul
erorii. Eroarea totală va fi formată din suma tuturor erorilor determinate de cele n
valori experimentale:
n
i
ii
n
i
i yxba1
2
1
2 .
Această sumă a pătratelor diferenţelor este pozitivă. Astfel privind problema cu
necunoscutele a respectiv b, funcţia de gradul doi va admite un minim (fiind suma
pătratelor va fi numai pozitivă). Eroarea totală trebuie minimizată pentru a obţine o
aproximare cât mai corectă a valorilor lui y funcţie de x. Condiţia este ca derivata
funcţie de fiecare variabilă în parte să fie zero. Obţinem astfel sistemul de ecuaţii:
.02
,02
0
0
0
0
1
1
1
2
1
2
n
iiii
n
iii
n
iii
n
iii
xyxba
yxba
b
yxba
a
yxba
b
a
INDEX
95
)2(.0)(
)1(,0
2
1
1
1
iii
n
ii
n
iiin
iii
yxxbxa
XbYn
xby
ayxban
Înlocuim valoarea lui a din prima ecuaţie în a doua şi aflăm parametrul b.
011
2
1
i
n
ii
n
ii
n
ii yxxbxXbY . (3)
Ne folosim de formula: nXnn
x
x
n
iin
ii
1
1
. (4)
Înlocuim (4) în (3) şi avem:
011
22
n
iii
n
ii yxxbXnbXnY .
Extrăgând pe b obţinem:
n
ii
n
iii
xXn
yxYXn
b
1
22
1 . (5)
Valoarea lui a se calculează conform celor demonstrate cu formula:
XbYa . (6)
În concluzie s-au dedus parametrii dreptei: y = a + bx.
Coeficienţii (parametrii) dreptei de regresie
Parametrul a reprezintă intersecţia dreptei de regresie cu axa YY’. Dacă x=0
atunci y = a.
Dacă avem mai multe cazuri cu x=0, atunci valoarea lui a va fi egală cu media
tuturor valorilor pentru care x este 0.
Trebuie avut în vedere că nu în orice situaţie este posibilă şi are sens această
intersecţie cu axa YY’. De exemplu pentru predictor X reprezentând presiunea sistolică
sau temperatura corpului, valoarea 0 nu are interpretare în cazuri normale (studiem
pacienţii deci persoane în viaţă).
Parametrul b este panta dreptei (tangenta unghiului dintre dreaptă şi linia
orizontală).
INDEX
96
Dacă valoarea lui b este pozitivă atunci dependenţa între cele două variabile
aleatoare este direct proporţională. Astfel, o creştere a variabilei x va duce la o creştere
a variabilei y, respectiv o scădere a variabilei x va duce la o scădere a variabilei y.
Dacă valoarea parametrului b este negativă atunci dependenţa între cele două
variabile aleatoare este invers proporţională. Variaţia într-un anume sens a variabilei x
va duce la o variaţie în sens contrar a variabilei y.
Cazul în care nu există dependenţă între cele două variabile x, respectiv y se
obţine pentru b=0. Oricât am modifica variabila x, atunci y va rămâne constant y = a.
Panta dreptei reprezintă variaţia variabilei dependente y, pentru o creştere sau
descreştere a predictorului (x) cu o unitate.
Avem formula dreptei de regresie: y = a + bx.
Creştem valoarea lui x cu o unitate, 1 xx .
Noul y va fi y1 = a + b (x+1) = a + bx + b.
Se observă că diferenţa dintre y şi y1 este egală cu b.
Testarea modelului prin metoda analizei varianţei (ANOVA)
Determinarea coeficienţilor dreptei de regresie a permis crearea unui model
matematic ce exprimă legătura între cele două variabile.
Este important să putem verifica dacă modelul creat este bun în sensul aproximării
cât mai corecte a datelor.
Analiza varianţei este o metodă statistică ce permite evaluarea performanţei
modelului determinat. Variaţia unei variabile aleatoare Y este măsurată prin abaterea
standard, dar poate fi folosită şi deviaţia faţă de valoarea medie YYi .
Variaţia totală poate fi exprimată folosind suma pătratelor deviaţiilor astfel:
i
i YYSST2
(SST – Total Sum of Square). (7)
Facem apel la valorile estimate prin modelul regresional propus, notate
ii XbaY ˆ .
Exprimăm astfel: YYYYYY iiii ˆˆ .
Ridicând la pătrat expresia alăturată se poate arăta că
i
i
i
ii YYYYSST22
ˆˆ .
Primul termen: i
ii YY2
ˆ reprezintă variaţia datelor în jurul dreptei de
regresie. Această variaţie nu este dorită fiind considerată o eroare. Este notată SSE
(Error Sum of Square).
Al doilea termen, i
i YY2
ˆ exprimă deviaţiile faţă de medie ale valorilor
estimate. Este suma diferenţelor faţă de medie ale valorilor determinate prin regresie.
INDEX
97
Acestea sunt exprimate de modelul creat. Este notat prescurtat SSR (Regression Sum of
Square).
Obţinem astfel: SST = SSE + SSR.
Raportul notat SST
SSRr 2
se numeşte coeficient de determinare şi reprezintă
pătratul coeficientului de corelaţie ce va fi discutat într-un capitol următor.
Definirea mediilor sumelor pătratelor diferenţelor ce exprimă eroarea şi regresia
se realizează prin determinarea gradelor de libertate.
Gradele de libertate notate df (degree of freedom) exprimă dimensiunea necesară
unui spaţiu de lucru. Este numărul de date independente. De exemplu, daca avem o
condiţie de minimizare a erorii, atunci din numărul total de date n, condiţia de minim
va scădea gradele de libertate cu 1. Gradele de libertate definesc un parametru
aparţinând unei statistici (statistica Fisher de exemplu).
Avem astfel: SSR este caracterizată de df=1, SSE de df=n-2 şi SST de df=n-1.
Putem calcula mediile:
1
SSRMSR ,
2
n
SSEMSE . (8)
Raportul notat MSE
MSRF este o statistică de tip Fisher care prin nivelul de
semnificaţie determinat (notat p), ne dă informaţia cheie asupra modelului regresional
determinat. Dacă valoarea semnificaţiei este p<0,05 deci sub 5%, atunci modelul liniar
dezvoltat este util in predicţie.
Iată un exemplu în care tabelul de analiză a varianţei în situaţia regresiei liniare
este realizat prin softul de statistică (poate fi SPSS, Statistica sau în Ms Excel).
Tabelul 2.10 2 – Analiza varianţei ANOVA pentru modelul regresional liniar.
ANOVA
df SS MS F Significance F
Regression 1 130.5375 130.5375 3.381801 0.087223337
Residual (Error) 14 540.4 38.6
Total 15 670.9375
Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
Intercept 69.1333333 10.4099 6.641117 1.11E-05 46.80632795 91.46034
Birthweigh 0.15733333 0.085555 1.838967 0.087223 -0.02616446 0.340831
Eroarea sau reziduul au în acest context aceeaşi semnificaţie.
În linia corespunzătoare regresiei avem calculate valorile SSR, MSR şi gradele de
libertate. Cu cât această valoare SSR va fi mai mare cu atât modelul nostru va explica
mai bine variaţiile prezente.
INDEX
98
Pe rândul următor sunt datele cu privire la suma erorilor (reziduu), SSE, MSE. Cu
cât acestea sunt mai mici cu atât şi erorile sistemului sunt mai mici iar modelul prezintă
un grad mai mare de încredere.
În continuare se prezintă valoarea statisticii Fisher şi corespunzător nivelul de
semnificaţie. Dacă avem p sub 0,05 deducem că dreapta de regresie aproximează bine
datele noastre. Dacă avem p calculat peste 0,05 dar sub 0,1 (10%), putem deduce că
variabila independentă are o anumită influenţă asupra celei dependente dar nu în
totalitate. Putem adăuga date noi sau cerceta şi influenţa altor variabile în sistem.
În final avem datele necesare modelului deci constanta a = Yintercept şi panta b, ce
are valoarea 0,157 pentru datele prezente studiate.
Aşa cum am calculat şi utilizat statistica F şi nivelul de semnificaţie corespunzător
întregului sistem, putem calcula pentru coeficienţii dreptei de regresie a şi b statistica t
şi nivelul de semnificaţie. Acestea ne ajută la verificarea diferenţei faţă de valoarea
nulă. De asemenea, sunt prezente limitele minimă şi maximă de variaţie a acestor
coeficienţi cu încredere de 95%. Dacă aceste limite cuprind valoarea 0 (zero), atunci nu
există semnificaţie statistică şi ipoteza nulă este acceptată.
Observaţii
1 – În cazurile practice variabilele x şi y pot să nu fie distribuite normal. Acest
neajuns poate fi corectat prin aplicarea unor transformări cum ar fi logaritmarea pentru
a transforma distribuţia în forma gausiană. Evident, vom avea grijă la interpretarea
corectă a rezultatelor (deci a pantei şi a termenului liber).
2 – Atât a cât şi b sunt deduse din eşantioane. Aceşti parametri aşadar, reprezintă
variabile aleatoare. Astfel se poate construi un interval de încredere pentru cele două
necunoscute a şi b.
Prin estimarea parametrilor a şi b se vor obţine pentru intervale simetrice valorile
limită: aaa 0 , respectiv bbb 0 .
Reprezentând grafic dreapta de regresie pentru cele 4 cazuri limită obţinem o
suprafaţă de regresie.
aaa min , aaa max .
bbtgb 1min , bbtgb 2max .
Figura 2.10 2 - Reprezentarea grafică a suprafeţei de regresie.
X
Y
amin
amax
y=a+bx
2
1
INDEX
99
În acest caz unei valori xi îi va corespunde un interval de valori
maxmin , YYyi . Pentru x=0 intervalul coincide cu (amin, amax). Acest interval este
datorat tocmai estimărilor parametrilor dreptei de regresie.
Corelaţia
Noţiuni
Legătura dintre două variabile aleatoare în care una dintre ele variază constant
(sau controlat), iar cealaltă variază aleator a fost descrisă de forma liniară a dreptei de
regresie.
Corelaţia caracterizează legătura dintre două variabile aleatoare X şi Y cu repartiţii
normale 2, xxN , respectiv 2, yyN . Densitatea de probabilitate a funcţiei de
repartiţie normală bivariată (având doi parametri) are expresia:
2
12
1exp
12
1),(
x
xyxf x
yx
2
2y
y
y
y
x
xyyx
. (9)
În această formulă reprezintă coeficientul de corelaţie. Domeniul de variaţie este
cuprins între –1 şi 1, 1,1 . Practic, gradul de dependenţă dintre cele două
variabile aleatoare este definit de acest coeficient de corelaţie (se notează cu ,,r” când
este determinat din datele reale – conţine o anumită eroare).
Dacă =0, atunci nu există dependenţă între cele două variabile aleatoare, acestea
fiind considerate independente.
Calculând densitatea de probabilitate obţinem:
2
2
2
2
22
2
1
2
1),(0 y
y
x
xy
y
x
x
eeyxf
,
)()(),( yfxfyxf .
Interpretare
Dacă 0 , atunci cele două variabile aleatoare sunt dependente stocastic
(aleator).
Pentru >0 spunem că cele două variabile aleatoare sunt dependente direct
proporţional. Cu cât se apropie de valoarea 1 cu atât dependenţa este mai
puternică.
Dacă <0, atunci cele două variabile aleatoare variază invers proporţional şi
legătura este cu atât mai puternică cu cât coeficientul de corelaţie este mai
apropiat de valoarea –1.
INDEX
100
Practic, valoarea la pătrat a corelaţiei calculate r2 (amintim că se notează cu r
deoarece este determinat din datele reale, deci reprezintă o aproximare)
exprimă procentul din variaţia variabilei Y ce poate fi explicată de variaţia
variabilei X. În analiza regresiei şi corelaţiei se prezintă această valoarea a
coeficientului de determinare. Amintim formula de calcul din analiza
varianţei: SST
SSRr 2
.
Graficele de mai jos indică o legătură puternică, respectiv slabă, între două
variabile aleatoare.
Figura 2.10 3 - Tipuri de legături între seturi de date.
Calculul coeficientului de corelaţie se realizează prin deducerea mediei produselor
abaterilor normate:
y
y
x
xyx
M
.
Prelucrând formula precedentă se ajunge la:
21
2
1
yi
n
i
xi
n
i
yixi
yx
yx
.
Această formulă de calcul poate fi aplicată doar în cazul a două variabile aleatoare
repartizate normal.
Testarea coeficientului de corelaţie
Este important să putem afla dacă variaţia cu încredere de 95% a acestui
coeficient cuprinde sau nu valoarea nulă. Cu alte cuvinte trebuie să răspundem la
întrebarea privind diferenţa semnificativă a coeficientului de corelaţie faţă de valoarea
nulă.
Ştim că în orice experiment sau proces intervine factorul de tip aleator ce implică
existenţa unei variaţii în valoarea indicatorilor statistici. Dorim să vedem dacă această
Y Y
X X
Legătură puternică Legătură slabă
INDEX
101
variaţie implicită este depăşită în cazul nostru, ceea ce ar indica existenţa reală a unui
efect pe care de fapt îl căutăm şi îl studiem.
Se demonstrează că următoarea funcţie respectă o distribuţie de tip t (Student):
21
2
r
nrt
. (10)
Verificăm ipoteza nulă H0: 0 prin distribuţia menţionată ştiind că este
caracterizată de n-2 grade de libertate (n este numărul de date din eşantion – volumul
eşantionului).
Dacă valoarea calculată pcalculat este mai mică decât 5%, avem semnificaţie
statistică, deci coeficientul de corelaţie este diferit de 0 antrenând existenţa unei
anumite relaţii între variabile.
A doua metodă de interpretare face apel efectiv la valoarea statisticii t calculate cu
formula 10. Dacă această valoare este mai mare ca cea tabelată corespunzătoare unui
număr de grade de libertate n-1 şi unei încrederi bilaterale de 95%, atunci avem
semnificaţie statistică.
Exemplu
Pentru datele a căror analiză ANOVA a fost prezentată anterior se obţine
r = 0,441 iar volumul eşantionului este n=16 valori.
Calculăm valoarea statisticii t , 838,11945,01
216441,0
t .
Din datele tabelate ale statisticii t, pentru încredere bilaterală 95%, deci risc
%5 şi n-2=14 grade de libertate obţinem valoarea 145,214,
205,0
t .
Valoarea calculată 1,838 este mai mică decât cea tabelată 2,145 ceea ce denotă că
variaţia întâlnită se încadrează în domeniul acceptat, deci nu există diferenţă
semnificativă statistic. Cu alte cuvinte putem afirma cu încredere de 95% că valoarea
coeficientului de corelaţie poate fi nulă. Aceasta înseamnă că relaţia exprimată prin
valoarea punctuală r = 0,441 este rezultatul hazardului.
Observaţii asupra regresiei liniare şi corelaţiei
Presupunem că avem două seturi de date X: x1, x2, … , xn respectiv Y: y1, y2, …yn.
Calculând regresia y = f(x) = a + bx obţinem anumite valori pentru coeficienţii a
şi b. Dacă extragem pe x funcţie de y avem: ybb
ax
1. (11)
Calculând regresia x = g(y) = a’ +b’y (12) şi comparând cu relaţia (11) cele două
drepte pot sau nu coincide.
Deducerea coeficienţilor a,b, respectiv a’, b’ diferă substanţial deoarece în primul
caz s-a pus condiţia ca suma pătratelor erorilor pe direcţia OY să fie minimă iar în al
doilea caz condiţia a fost ca suma pătratelor erorilor pe OX să fie minimă.
Corelaţia exprimă tocmai această asemănare dintre cele două drepte de regresie.
INDEX
102
Notăm cu A dreapta y=f(x), respectiv cu B dreapta x=g(y).
Dacă dreptele se suprapun atunci =1, iar dependenţa aleatoare devine
deterministă (unui punct pe x îi corespunde un singur punct pe y) şi dreptele de regresie
au alura primei bisectoare. Astfel, cunoscând pe x, putem determina pe y cu o precizie
bună în funcţie de datele din eşantion.
Dacă = -1 atunci dreptele se suprapun dar au forma bisectoarei a doua iar
dependenţa este invers proporţională. Şi în acest caz legătura este de tip determinist.
În general dreptele pot sau nu să se apropie mai mult sau mai puţin demonstrând
dependenţa datelor. Prezentăm mai jos în patru grafice succesive cele relatate.
Figura 2.10 4 – Tipuri de dependenţe între regresie şi corelaţie.
Dacă valoarea coeficientului de corelaţie este 0, atunci cele două drepte fac un
unghi de 900 (sunt perpendiculare).
Este normal ca legătura dintre cele două drepte să determine şi semnul
coeficientului de corelaţie. Dacă din y=f(x) obţinem o pantă negativă atunci tot
negativă va fi şi panta obţinută din calculul x=g(y) şi tot negativ va fi şi coeficientul de
corelaţie (evident legătura rămâne valabilă şi pentru cazul pantei pozitive).
A , B A B
Dependenţă deterministă
direct proporţională
1
Dependenţă stohastică
direct proporţională
A B A , B
1
Dependenţă deterministă
invers proporţională
Dependenţă stohastică
invers proporţională
INDEX
103
1.11. MODELE NELINIARE DE REGRESIE
În practica de zi cu zi se întâlnesc des cazuri în care legătura de tip liniar dintre
două variabile nu este respectată şi reprezintă doar un aspect particular al realităţii. Se
impune astfel dezvoltarea de metode de deducere a legăturilor de tip neliniar existente
între variabila de intrare notată x (numită şi variabilă independentă sau factor) şi
variabila y (numită şi variabilă dependentă).
Prezentăm în continuare câteva modele neliniare de interes pentru determinarea
regresiei.
Modele parabolice
Parabola este exprimarea variabilei dependente faţă de variabila x la puterea a
doua, conţinând eventual un termen liber şi eventual un termen x la puterea întâi.
Expresia matematică este: y = a + b x + c x2 .
Folosind forma logaritmică putem avea următoarele exprimări :
y = a + b lg(x) + c (lg(x))2,
lg(y) = a + b x + c x2,
lg(y) = a + b lg(x) + c (lg(x))2.
Forma grafică a parabolei y = a + b x + c x2 este prezentată în figura următoare.
Figura 2.11 1 - Regresii parabolice
Funcţie de semnul parametrului de regresie c parabola prezintă un punct de
extrem. Dacă c > 0 parabola prezintă un punct de minim notat cu ,,m” iar în cazul în
care c < 0, punctul de extrem este un maxim notat cu ,,M”.
Calculul punctului de extrem este realizat din punct de vedere matematic prin
condiţia ca derivata întâi în raport cu variabila x să fie egală cu zero.
Interpretarea practică este importantă deoarece acest punct reprezintă minimul sau
maximul atins de curba parabolică.
Determinarea coeficienţilor a, b, c, de regresie se face asemănător regresiei liniare
şi există multe programe soft realizate pentru deducerea acestora (de exemplu,
produsul Microsoft Excel - de mare popularitate).
Menţionăm că parabola este un caz particular al polinomului de ordin n.
X
Y M
m
0
C>0
C<0
INDEX
104
X
Y
A(0,a)
b>0 b<0
0
Modele hiperbolice
Există modele în cadrul fenomenelor reale biologice care pot lua o formă
hiperbolică. Exprimarea matematică este: x
bay , pentru x > 0.
Graficul funcţiei depinde de semnul coeficientului b (ca şi în celelalte cazuri).
Pentru b < 0 avem dependenţă crescătoare, curba tinzând asimptotic la valoarea a
(y = a ) pentru x tinzând la infinit. Pentru b > 0 avem dependenţă descrescătoare şi
curba tinde asimptotic tot la valoarea a pentru x tinzând la infinit.
Reprezentarea grafică a hiperbolei este realizată în figura următoare:
Figura 2.11 2 – Regresii hiperbolice
Există mai multe modele hiperbolice, dintre care menţionăm:
x
bxay
x
ba
yxba
y
,1
,1
.
Model exponenţial
Funcţia de tip exponenţial are forma matematică următoare:
,, xcueay xb.
Pentru x = 0 se obţine y = a, iar toate curbele au un punct comun anume A (0, a).
Pentru coeficient b > 0 se obţine o curbă crescătoare iar pentru coeficientul b < 0
se obţine o curbă descrescătoare.
Figura 2.11 3 – Regresii de tip exponenţial
X
Y
b>0
b<0
0
a
INDEX
105
Analiza de regresie multiplă (analiza multivariată)
Legătura multiplă reprezintă o relaţie matematică în care există mai multe
variabile factoriale sau independente (independent, explanatory variable or
covariates). Astfel, variabila dependentă (sau răspuns) poate fi exprimată matematic cu
formula: )( ixfy , cu i având valori de la 1 la n (n reprezintă numărul de
variabile).
Sunt situaţii în care nu se cunosc care variabile să se ia în consideraţie în cadrul
regresiei multiple. Pentru a determina variabilele independente care au efect important
asupra variabilei rezultative (y) se calculează spre exemplu coeficientul de corelaţie şi
se aleg apoi acele variabile ce corespund valorilor maxime ale acestui coeficient.
Există şi alte metode de analiză discriminantă pentru alegerea variabilelor factoriale de
interes. Această alegere are un efect important asupra erorii sistemului, căci eliminând
o parte din variabile, aproximarea sistemului este mai ,,grosolană” .
Funcţia f(xi) poate fi liniară, ceea ce reprezintă cazul cel mai simplu sau
dimpotrivă, poate depinde neliniar de variabilele de interes.
În cadrul unei legături multiple liniare ecuaţia este de forma:
y = a0 + a1 x1 + a2 x2 + … + an xn
n
iii xaay
10 .
Fiecare coeficient ,,ai” reprezintă influenţa variabilei corespunzătoare xi, iar a0
(termenul liber) reprezintă influenţa celorlalţi factori, care sunt consideraţi ca o acţiune
constantă.
Dacă în coordonate bidimensionale regresia liniară este o dreaptă, în coordonate
n-dimensionale regresia liniară va reprezenta o suprafaţă multidimensională ce trece
prin punctul valorilor medii ale variabilelor.
Şi în acest caz pentru aflarea coeficienţilor ,,ai” se aplică metoda celor mai mici
pătrate (descrisă la regresia liniară cu o singură variabilă).
Pentru aceasta se calculează valoarea aşteptată prin regresie
n
i
jii
j xaay1
0ˆ , unde i reprezintă numărul de variabile
independente (i variază de la 1 la n), iar j reprezintă numărul de date
cunoscute deci volumul eşantionului sau lotului (j variază de la 1 la m).
Se defineşte eroarea jjj yy ˆ , unde y
j este valoarea reală
măsurată sau cea din eşantion.
Se pune condiţia ca suma pătratelor erorilor să fie minimă prin
egalarea cu zero a derivatei de ordinul întâi pentru fiecare coeficient
în parte.
INDEX
106
Parametrii de regresie a0, ai au aceeaşi interpretare dacă variabilele sunt
independente. Primul parametru a0 arată influenţa celorlalţi factori care nu sunt
cuprinşi în ecuaţie.
Ceilalţi parametri ai descriu variaţia ieşirii pentru creşterea cu o uniate a variabilei
xi şi păstrarea constantă a celorlalţi factori.
Exemplu Se prezentă în continuare o metodă liniară de estimare (predicţie) a indicelui de
rezistenţă a muşchiului respirator PEmax (cm H2O) în funcţie de variabilele
independente (predictoare), înălţime (cm, notată H) şi greutate (kg, notată G).
PE max = a0 + a1 H + a2 G.
Prin calculul coeficienţilor ,,ai” se obţine:
PE max = 47,36 + 0,146 H + 1,025 G.
Având această relaţie prin măsurarea înălţimii şi greutăţii unei persoane putem
estima valoarea PE max cu o eroare acceptabilă.
Interacţiuni între variabile
Acestea pot fi puse în evidenţă prin introducerea de termeni ce sunt egali cu
produsul a două variabile. Iată un exemplu:
21322110 xxaxaxaay .
Astfel, efectul pe care îl are variabila x1 depinde de prezenţa variabilei x2. Evident,
interpretarea coeficienţilor de regresie este diferită tocmai datorită modificărilor
existente (cunoscută în literatură cu numele de effect modifications – un factor
influenţează efectul altora).
De multe ori pentru a optimiza un model de regresie se pot introduce aceşti
termeni ce exprimă interacţiunea dintre variabile.
Analiza ANOVA pentru validarea modelului multivariabil
Ca şi în cazul liniar univariat se definesc următoarele deviaţii:
Suma totală a pătratelor deviaţiilor: j
j yySST2
.
Suma pătratelor erorilor (sau reziduurile): j
jj yySSE2
ˆ .
Suma pătratelor deviaţiilor de regresie: j
j yySSR2
ˆ , unde j variază de la
1 la m (m este volumul eşantionului).
Programele speciale de statistică vor produce tabelul următor:
INDEX
107
Tabelul 2.11 1. Sursa de
variaţie
Suma
pătratelor
SS
Gradele de
libertate (df)
Media
pătratelor
Statistica
Fisher
Valoarea
semnificaţiei
p
Regresie SSR n (nr. de variabile
independente)
MSR = SSR / n F = MSR/MSE p
Eroare
(reziduu)
SSE m – n – 1 MSE = SSE /
( m – n – 1)
Total SST m – 1 (m volumul
eşantionului)
Se poate calcula de asemenea coeficientul de determinate SST
SSRR 2
. Acesta
înmulţit cu 100 arată procentul din variaţia variabilei dependente explicat de factorii ce
au fost incluşi în calcul.
Cu cât valoarea SSR este mai mare cu atât modelul „explică” mai bine variaţiile
ieşirii.
Cu cât SSE este mai mic cu atât erorile sunt mai mici şi modelul propus este cu
atât mai bun.
Se calculează statistica Fisher şi nivelul de semnificaţie p.
Dacă p este mai mic decât 0,05 (5%), deducem atunci că variaţia explicată de
model este mai mult decât întâmplătoare, deci modelul este considerat drept unul bun
iar nivelul de determinare este diferit de 0. Cu alte cuvinte, setul de factori reuşesc să
facă o predicţie semnificativă asupra variabilei dependente.
Dacă valoarea p este mai mare decât 5%, putem afirma că modelul nu este
satisfăcător şi poate sunt necesare şi alte variabile ca factori de influenţă asupra ieşirii.
Testarea semnificaţiei unui singur factor dintre predictori
Se pune problema verificării influenţei asupra întregului model a unui nou factor
adăugat. Dacă efectul este semnificativ statistic în predicţia variabilei dependente, acest
nou element va fi acceptat în formula de calcul.
Ipoteza nulă este: Noul factor xi , nu are efect asupra variabilei dependente faţă
de modelul fără xi.
Astfel, coeficientul ai poate fi considerat nul, deci ipoteza nulă devine Ho: ai = 0.
Pentru aceasta se foloseşte statistica i
i
aSE
at
ˆ
ˆ . Aceasta este de tip Student iar
prin SE înţelegem eroarea standard (notarea ia se foloseşte pentru a specifica că
variabila sau parametrul este dedus din datele experimentale deci conţine o eroare).
Numărul de grade de libertate este df = m – n – 1 (m – volumul eşantionului, n –
numărul de variabile din model).
INDEX
108
Corespunzător valorii t calculate se poate determina nivelul de semnificaţie p.
Practic, factorul testat drept variabilă nouă introdusă în model este acceptat dacă
pcalculat este mai mic decât 5% (0,05). Aceasta înseamnă că noul model este diferit
semnificativ statistic faţă de cel precedent ce nu conţinea noua variabilă.
Testarea semnificaţiei unui grup de variabile introduse în model
Datorită posibilităţilor de interacţiune dintre variabile şi a legăturilor probabile
existente este necesară verificarea utilităţii setului de mai mult de 2 variabile în noul
model. Aceasta se testează prin calculul unei statistici de tip Fisher descrise în
continuare.
Dacă notăm numărul variabilelor de testat cu „k”, atunci ipoteza Ho devine a1 = a2
= … = ak = 0 (coeficienţii sunt nuli).
Avem de comparat două modele, primul cu toate cele n variabile xi iar al doilea cu
n-k variabile.
Calculăm astfel suma pătratelor deviaţiilor de regresie SSR1, respectiv SSR2 pentru
modelul 2.
Media diferenţei va fi : MDR = (SSR1-SSR2)/k.
Statistica Fisher se calculează prin: F = MDR / MSE, unde MSE este media
sumelor pătratelor deviaţiilor pentru sistemul 1 (sistemul „mare”, cu toate variabilele).
Numărul de grade de libertate este n respectiv m – k – 1, ).1,( nmkF
S-a respectat notaţia: n este numărul total de variabile, k este numărul de variabile
din grupul de test, m este volumul eşantionului.
Interpretarea se face la fel ca în exemplele precedente, ţinând cont de nivelul de
semnificaţie calculat, p.
Dacă p < 0,05, atunci setul de k variabile testate este util în sistem.
Determinarea variabilelor din model pas cu pas
De interes major în crearea unui model de regresie este determinarea variabilelor
ce au efect în predicţia comportării sistemului analizat. Practic, care din factorii
presupuşi a fi implicaţi în regresie au într-adevăr efect semnificativ?
Se poate greşi prin alegerea de elemente ce nu au influenţă în regresie şi se
produce astfel o eroare de tip I – fals pozitiv. Aceasta va duce la mari confuzii şi în
mod evident este de dorit ca eroarea să fie minimizată.
O metodă ce permite atingerea acestui scop constă în introducerea pas cu pas a
unei noi variabile predictoare şi testarea semnificaţiei acesteia. În mod asemănător, dar
judecând complementar, din totalul de variabile putem să eliminăm pe rând pe cele
care nu au rol în determinarea ieşirii dorite.
Avem astfel două metode numite cu înlănţuire înainte (forward selection) pentru
selecţie, respectiv cu înlănţuire înapoi (backward elimination) pentru eliminare.
INDEX
109
Pentru a alege din totalul variabilelor pe cele semnificative, se poate aplica testul t
(sau Student - descris anterior) de verificare a diferenţei faţă de 0 a coeficientului de
regresie corespunzător. Se calculează pentru fiecare factor implicat în studiu nivelul de
semnificaţie şi se selectează variabila cu cea mai mare influenţă.
În continuare se verifică întregul model cu noua variabilă, comparativ cu modelul
precedent prin analiza varianţei (testul Fisher – deja prezentat).
Mai există şi procedeul regresiei folosind paşii inteligenţi (stepwise regression
procedure), ce permite reevaluarea modelului la fiecare pas şi adăugarea sau
eliminarea factorilor ce devin nesemnificativi.
Programele dedicate de statistică au aceşti algoritmi implementaţi (SPSS, SAS,
STATISTICA).
INDEX
110
Regresia logistică
Până în acest moment regresia a fost aplicată variabilelor cantitative care puteau
lua valori reale într-un anumit interval (de exemplu, înălţimea poate fi cuprinsă între
1,55 m şi 1,95 m în majoritatea cazurilor).
Există multe situaţii în medicină, farmacie în care variabila de interes nu mai este
continuă şi prezintă doar două valori atributive (este deci binară sau dicotomică).
Acestea sunt de obicei răspunsuri de genul ,,da” sau ,,nu”; ,,adevărat” sau ,,fals”.
Pentru a lucra cu variabile de acest fel se foloseşte o metodă matematică specifică
numită regresie logistică. Aceasta ne ajută în estimarea proporţiei indivizilor cu o
anumită caracteristică dintr-o anumită populaţie. Astfel, vom căuta să determinăm
probabilitatea de a avea evenimentul notat ,,da” sau evenimentul notat ,,nu”.
Raportul dintre probabilitatea de a observa un fapt şi cea de a nu-l observa se
numeşte cotă (odds), p
p
1cota . Logaritmul natural din această cotă defineşte
funcţia numită logit, folosită în regresie logistică.
În regresia multiplă liniară rezultatul final este o mărime continuă pe un anumit
interval, funcţie de domeniile de definiţie ale variabilelor ,,xi”. Proporţia subiecţilor cu
o anumită caracteristică este o valoare cuprinsă între 0 şi 1. În concluzie ne trebuie o
funcţie matematică care să realizeze conversia din domeniul [0,1], într-un interval de
lungime maximă, în general de la (-, +). Aceasta este motivaţia folosirii funcţiei
logit.
Formula de calcul este următoarea:
p
p
1lnlogit(p) , unde:
p reprezintă probabilitatea realizării evenimentului de interes.
1-p reprezintă probabilitatea realizării evenimentului opus.
Probabilitatea p, variază între 0 şi 1 iar funcţia logit are codomeniul (- , + ).
Regresia logistică se bazează pe formula:
nn xaxaap
pp
....
1ln)(logit 110 .
Coeficienţii ao,…,an se deduc prin metode matematice specifice folosind un calcul
laborios care se realizează doar cu ajutorul computerului.
Dacă exprimăm probabilitatea p funcţie de factorii xi, atunci avem:
),...xx,f(x
xiai-exp1
1p n10
i
, aceasta este numită funcţia logistică
şi este diferită în mod evident de funcţia logit.
Funcţia logistică face conversia din domeniul (- ,+), ca posibil de variaţie
pentru variabilele xi, în domeniul probabilităţii unui eveniment, deci [0,1].
INDEX
111
Dacă reprezentăm grafic variabila dependentă în funcţie de cea independentă, în
situaţia în care avem doar două variante pentru y, atunci aceasta ar fi o reprezentare de
puncte doar pe două linii paralele pentru cele două valori posibile, 0 respectiv 1 ale lui
Y. Valoarea 1 înseamnă că evenimentul a avut loc, iar 0 evident opusul. În această
situaţie probabilitatea lui Y după experiment poate avea doar valorile 0 sau 1.
Figura 2.11 4 – Funcţia logistică comparativ cu regresia liniară.
Se observă conform figurii alăturate că dreapta de regresie (linia pe diagonală
trasată punctat) prezintă mari dezavantaje. În primul rând, conţine puncte ale căror
ordonate au valori mai mari ca 1 şi mai mici decât 0. Deci, în cazul estimării unor
probabilităţi ar conţine erori fatale. Un alt mare dezavantaj constă în faptul că eroarea
nu este distribuită normal şi nici variabila dependentă (y) nu se încadrează în această
clasă de repartiţie. Condiţia este necesară pentru determinarea coeficienţilor de regresie
– deci metoda celor mai mici pătrate nu se aplică aici.
Funcţia logistică este reprezentată prin linia curbă în formă de S. Aceasta
aproximează mult mai bine probabilitatea evenimentului studiat.
Probabilitatea lui Y depinde de variabila independentă X. Matematic putem scrie:
)1()( xXYPx . Aceasta reprezintă probabilitatea condiţionată a lui Y (de a se
îndeplini evenimentul Y, deci Y=1) pentru diferite valori (deci şi în domeniul continuu)
ale variabilei X.
Determinarea coeficienţilor de regresie logistică
Variabila Y poate avea numai două valori acceptate, „Adevărat” sau „Fals”, „Da”
sau „Nu”, „Prezent” sau „Absent”, „Sănătos” sau „Bolnav”, „Pozitiv” sau „Negativ”.
Aceasta este caracterizată de probabilitatea de realizare a unor asemenea evenimente
modelate matematic prin funcţia logistică.
Y este distribuită binomial (Bernoulli). Astfel, dacă avem m încercări ale
experimentului, atunci probabilitatea ca evenimentul să se realizeze de j ori este :
1
0
Prob(Y)=
X
INDEX
112
jmj ppj
mjY
1)Pr( , unde
jmC
j
m
sunt combinări de m luate
câte j: !!
!
jmj
m
j
m
; p este probabilitatea de realizare a evenimentului (este ).
Aceasta se numeşte funcţia probabilitate de masă (probability mass function).
Variabila Y este caracterizată de medie şi varianţă. Pentru cazul binomial avem:
media= mYE )( iar varianţa este 1)( mYVar .
Pentru determinarea coeficienţilor se aplică metoda verosimilităţii maxime
(prezentată detaliat în anexă).
Funcţia de verosimilitate (notată L) este produsul probabilităţilor pentru toate
elementele din eşantion.
n
i
yiL1
)Pr( . Probabilitatea se calculează cu funcţia probabilitate de masă în
care p este funcţia logistică. Se pune condiţia de maxim (derivata de ordinul întâi egală
cu 0) pentru verosimilitate maximă şi se ajunge la un sistem având ca necunoscute
coeficienţii de regresie a0, a1, …,an.
Programele actuale de statistică deduc aceşti coeficienţi ce exprimă legătura
căutată.
Interpretarea coeficienţilor în cazul regresiei logistice
Ţinând cont de formula de calcul:
nn xaxaap
pp
....
1ln)(logit 110 putem interpreta în prima
formă coeficienţii de regresie ai.
Vom presupune că modificăm doar valoarea x1 cu o unitate, deci 11
,
1 xx .
Pentru valoarea x1 avem probabilitatea p1 iar pentru ,1x vom determina probabilitatea
,1p .
Se poate calcula 11,1 )(logit)(logit app , ceea ce înseamnă că diferenţa
logaritmilor cotelor pentru o creştere cu 1 a variabilei xi reprezintă coeficientul ai –
evident o interpretare greoaie !
Putem prelucra totuşi ultima formulă prin exponenţiere. Notăm cota cu 1C
respectiv `1C pentru x1 respectiv
,1x (
p
pC
1).
Vom aplica exponenţiala pentru 11
1
,1
,1
1ln
1ln a
p
p
p
p
.
INDEX
113
Obţinem: )exp( 11
'1 a
C
C . Interpretarea este evidentă. Exponenţiala unui coeficient
al regresiei logistice reprezintă raportul cotelor pentru creştere cu o unitate a valorii
variabilei independente.
Exemplu Se studiază influenţa fumatului, a obezităţii şi a sforăitului asupra hipertensiunii.
Practic, problema se rezumă la a estima în prima etapă prin regresie multiplă logistică
influenţa asupra cotei logaritmate (ln(C)) realizată de factorii fumat, obezitate şi
sforăit.
Se deduc coeficienţii de regresie conform formulei:
Logit (p) =
p
p
1ln = – 2,379 + 0,685 F + 0,694 O + 0,871 S , unde:
F - reprezintă faptul că persoana fumează sau nu (poate fi 0 sau 1).
O - indică prezenţa obezităţii (este variabilă binară, poate fi 0 sau 1).
S - reprezintă prezenţa sforăitului (variabilă binară, poate avea valorile 0 sau 1).
Dacă comparăm persoanele care fumează cu cele care nu fumează se ajunge la
două ecuaţii. Una dintre ecuaţii se obţine pentru F=1 iar cealaltă pentru F=0.
Diferenţa: logit(pfumător) – logit(pnefumător) = 0,685. Aplicând funcţia exponenţială se
obţine:
98,1)1(
)1(
fumatornefumator
nefumatorfumator
nefumator
fumator
PP
PP
C
C.
Acest rezultat reprezintă numeric riscul de hipertensiune printre fumători în raport
cu nefumătorii (riscul de a avea hipertensiune este de 1,98 ori mai mare la fumători faţă
de nefumători).
În final menţionăm că există metode de verificare statistică a semnificaţiei
coeficienţilor (metoda Wald) cât şi a întregului model propus (metoda Chi pătrat). De
asemenea, modelul de regresie poate fi pas cu pas optimizat prin verificarea
variabilelor independente introduse (cu înlănţuire înainte sau înapoi conform
procedurii prezentate la regresia multiplă).
INDEX
114
1.12. ANALIZA SUPRAVIEŢUIRII
Introducere
Analiza supravieţuirii a fost iniţial folosită în domeniul medical, biologic dar în
timp utilitatea sa a fost materializată şi prin aplicaţii în domeniile economice şi tehnice.
Supravieţuirea se referă la analiza în timp a probabilităţii de apariţie a unui anumit
eveniment. Decesul a fost iniţial urmărit iar variabila ce caracterizează perioada de
viaţă este timpul scurs până la „realizarea” acestuia.
Putem da câteva exemple cu efecte atât pozitive cât şi negative, care au făcut tema
unor studii în cadrul cercetărilor:
- timpul scurs de la îmbolnăvire până la deces.
- timpul scurs până la apariţia recidivelor.
- timpul de utilizare a unui cateter.
- timpul scurs până la însănătoşire în cazul aplicării unui anumit tratament.
- timpul scurs până la apariţia sarcinii în cadrul cuplurilor sterile (sub
tratament).
- timpul de utilizare a unui produs.
Dacă avem de studiat eficienţa unui tratament asupra unei maladii în fază
terminală, variabila de interes este perioada de supravieţuire a pacientului. În principiu
se pot folosi metodele statistice standard de calcul şi estimare a mediei de
supravieţuire, a medianei sau se pot realiza comparaţii între aceşti indicatori pentru
diferite loturi studiate.
Apar totuşi unele aspecte specifice procesului de analiză în timp a datelor.
1 – O parte din pacienţii care iniţial au fost incluşi în studiu vor fi pierduţi pe
parcurs datorită cauzelor obiective (pierderea contactului cu persoana prin diferite
forme: schimbarea adresei, abandon; deces din alte cauze sau terminarea studiului şi
neapariţia evenimentului analizat). Acestea sunt cunoscute drept date cenzurate (sau
eliminate) şi sunt utile până în momentul înlăturării din studiu.
2 – Putem înrola în cercetare noi pacienţi ce apar pe perioada definită de analiză.
Aceştia la rândul lor aduc un aport de informaţie care ajută la eliminarea indeciziilor
existente.
Metodă
Analiza supravieţuirii trebuie interpretată în mod corect ca o analiză în timp a
realizării evenimentului. Funcţia de supravieţuire este descrisă de probabilitatea ca la
momentul ti pacienţii să se afle în viaţă. Vom vedea cum se poate deduce această
probabilitate cunoscând numărul de decese şi numărul de cazuri cenzurate în fiecare
interval de studiu.
INDEX
115
Interpretarea generală a funcţiei de supravieţuire este realizată însăşi prin
probabilitatea ca la momentul ti evenimentul sa nu se fi produs (probabilitatea de
supravieţuire este complementară probabilităţii decesului). Este clar că în timp această
probabilitate variază, scade şi astfel forma sa capătă o tendinţă descrescătoare. Cu cât
timpul trece, cu atât mai puţini pacienţi vor fi în viaţă şi astfel probabilitatea de
supravieţuire va scădea.
La diferite momente de timp ti se produc evenimente ce reprezintă decesul sau
cenzura. Acestea definesc punctele în care probabilitatea de supravieţuire îşi schimbă
valoarea.
Dacă am schiţa o expunere în timp a apariţiei evenimentelor ce caracterizează
starea pacienţilor (cenzură sau deces) cât şi a înrolării de noi cazuri, acestea ar putea fi
reprezentate grafic asemănător celor din figura 2.12 1. Observăm că există un
eveniment de start (marcat cu romb negru) şi apoi evenimentul ce defineşte sfârşitul
(marcat prin cerc).
Pentru studiu ne interesează intervalul de timp cuprins între cele două evenimente,
de start respectiv de stop.
Figura 2.12 1 – Monitorizarea pacienţilor pe perioada de studiu.
Pentru interpretarea corectă trebuie să realizăm o translaţie în sensul aducerii
tuturor punctelor de start la un moment de referinţă comun, considerat reper zero al
axei timpului. Graficul cu transformarea realizată este prezentat în figura 2.12 2.
timp (calendaristic)
Sfârşit studiu
Cenzură
Pacienţi
Eveniment de studiu
realizat
P1
P2
INDEX
116
Figura 2.12 2 – Aducerea la reper zero în timp a pacienţilor din studiu.
Evenimentele au loc la momentele notate: T1, T2, … Ti, … Tn. Între acestea se
respectă relaţia: T1 < T2 < … < Ti < … < Tn. Momentul de start este T0 definit de
scopul studiului. Aici trebuie să se acorde o atenţie deosebită, deoarece poate exista o
mare relativitate în stabilirea momentului de start (de exemplu în cancerul de sân, care
este momentul de determinare a prezenţei neoplaziei?). Toate cazurile luate în studiu
trebuie să fie tratate unitar pentru a nu introduce erori.
Funcţii ce descriu distribuţia timpului de supravieţuire
Timpul de supravieţuire este măsurat din momentul începerii analizei şi până la
realizarea evenimentului studiat (deces, recidivă, apariţie simptome, căsătorie, divorţ,
concepţie, etc.). Există posibilitatea pierderii subiecţilor analizaţi, aceştia reprezentând
datele cenzurate.
Timpul este variabila de studiu şi se manifestă aleator, având de cele mai multe ori
o distribuţie necunoscută. Dacă am reuşi în anumite situaţii să demonstrăm că această
variabilă respectă o distribuţie normală (caz aproape neîntâlnit în practică), atunci am
avem tehnica de analiză cunoscută (distribuţia Gauss-Laplace este studiată în
amănunt). Totuşi datele cenzurate pot ajuta parţial cu informaţia introdusă. Acestea
necesită un tratament aparte.
Există trei funcţii care descriu distribuţia de supravieţuire:
A) Funcţia de supravieţuire notată S(t).
B) Funcţia densitate de probabilitate f(t) şi integrala acesteia F(t) – funcţia de
probabilitate cumulată.
C) Funcţia Hazard, h(t) şi H(t) – funcţia hazard cumulată (integrala h(t)).
Timp (ca dimensiune)
Reperul T0 este determinat
Sfârşit studiu
Pacienţi
P1
P2
T0 T1 T2 T3 Ti
INDEX
117
Notăm cu T variabila aleatoare ce defineşte timpul de supravieţuire.
Funcţia de supravieţuire (survival function)
Aceasta exprimă probabilitatea ca un individ să supravieţuiască mai mult de
momentul te timp notat t.
Avem astfel S(t) = P(T>t), S(t) este funcţia de supravieţuire, P este probabilitatea.
Dacă nu avem elemente cenzurate, atunci putem calcula funcţia de supravieţuire
cu formula:
S(t) = (număr pacienţi în viaţă la momentul t) / (nr. total pacienţi luaţi în studiu).
Această formulă este corectă pentru un volum foarte mare al eşantionului.
La momentul iniţial toţi pacienţii luaţi în studiu sunt în viaţă, deci pentru t=0,
S(0)=1.
Dacă facem ca variabila timp să tindă către infinit, atunci ne aşteptăm ca
evenimentul deces să se realizeze pentru toate cazurile studiate deci S(t=maxim)=0.
Cu cât înaintăm în timp pierdem pacienţi prin deces, deci funcţia de supravieţuire
este de aşteptat să fie descrescătoare.
Pentru caracterizarea corectă a funcţiei de supravieţuire se foloseşte mediana în
locul mediei. Aceasta exprimă corect valoarea centrală deoarece distribuţia în general
nu este de tip normal iar cazurile extreme pot influenţa în mod eronat valoarea mediei.
Sunt foarte utile şi cuartilele, deci cele 3 valori ce împart distribuţia în 4 grupe de
probabilităţi egale cu 25% (cuartila 2 este tocmai mediana).
Forma grafică a funcţiei de supravieţuire este prezentată alăturat.
Figura 2.12 3 – Funcţia de supravieţuire
Mediana reprezintă timpul (luni, ani, săptămâni) pentru care probabilitatea de
supravieţuire a scăzut la jumătate, 50%.
Timp
S(t)
Q1 Me Q3
50%
INDEX
118
Funcţia densitate de probabilitate (probability density function)
Orice variabilă aleatoare are o funcţie densitate de probabilitate (notată f(t)) cât şi
o funcţie de repartiţie (notată F(t)).
Densitatea de probabilitate exprimă probabilitatea ca pentru un individ să aibă loc
evenimentul studiat în următorul interval de timp t foarte mic (infinitezimal).
Aceasta se defineşte printr-un proces de trecere la limită de forma:
t
tttintervalulinrealizatestelevenimentuPtf
t
),(lim)(
0.
Fiind o limită a probabilităţii valoarea nu poate fi negativă, deci f(t) ≥ 0, pentru
orice t. Pentru timp negativ densitatea de probabilitate este 0. Noţiunea de timp
negativ trebuie definită. Practic valori ale timpului negativ t<0, sunt scoase din calcul.
De exemplu, înaintea începerii studiului nu avem informaţie deci este impropriu să
calculăm şi să determinăm probabilităţi.
Ca şi în cazul funcţiei de supravieţuire, valoarea f(t) se poate aproxima prin calcul
direct doar în situaţia inexistenţei cenzurilor.
f(t) = (numărul de evenimente realizate începând cu t) / [(nr. total pacienţi luaţi în
studiu) • ( t )].
Se mai numeşte şi rata necondiţionată de realizare a evenimentului studiat
(unconditional failure rate).
Ca forme grafice posibile există variante multiple:
Figura 2.12 4 – Funcţia densitate de probabilitate.
Funcţia hazard (hazard function)
Se defineşte ca fiind probabilitatea realizării evenimentului studiat într-un interval
de timp foarte scurt ( t ) cunoscând că până la momentul t evenimentul nu s-a realizat.
Se aseamănă cu definirea densităţii de probabilitate dar conţine o informaţie
suplimentară. Aceasta este condiţia ca evenimentul să nu se fi realizat până la
momentul t.
t
tlapanaev.eanerealizardetaconditiona
Δtt,tintervalulinrealizatestelevenimentuP
tht
lim0
)( .
Funcţia hazard exprimă riscul de a deceda în unitatea de timp la o anumită vârstă,
sau riscul în general, de a se realiza evenimentul la un moment t.
Timp (t)
f(t) 1 2
3
INDEX
119
Se mai întâlneşte şi sub numele de rata condiţionată a mortalităţii, forţa
mortalităţii sau rata instantanee a producerii evenimentului.
Dacă nu avem evenimente cenzurate atunci metoda de calcul aproximativ este
bazată pe formula:
h(t) = (numărul de evenimente realizate începând cu t) / [(nr. de pacienţi ajunşi în
studiu la momentul t)•( t )].
Faţă de expresia densităţii de probabilitate, h(t) diferă tocmai prin numărul de
pacienţi plasat în formulă la numitorul fracţiei.
Funcţia hazard poate fi constantă în timp, poate creşte sau descreşte, deci are
diferite forme posibile.
Figura 2.12 5 – Funcţia hazard – posibile forme.
Există relaţii de legătură între cele trei funcţii astfel încât având una din ele, putem
să le deducem pe celelalte două. Aşadar este suficient doar una din aceste trei funcţii să
o cunoaştem sau să o deducem din date experimentale.
Prezentăm fără a demonstra relaţiile existente între aceste funcţii.
T – variabila aleatoare ce este analizată.
S(t) = P(T>t) este funcţia de supravieţuire.
f(t) este funcţia densitate de probabilitate; F(t) funcţia de probabilitate cumulată.
h(t) este funcţia hazard; H(t) funcţia hazard cumulată.
1. )(1)( tStF .
2. )()(1)()( tStSdt
dtF
dt
dtf - densitate de probabilitate şi
supravieţuire.
3. )(
)()(
tS
tfth sau
)(1
)()(
tF
tfth
- legătura dintre hazard şi probabilitate.
4. )(log)(
)(
)(
)()( tS
dt
d
tS
tS
tS
tfth
- legătura dintre hazard şi supravieţuire.
5. )(exp)()( tHthtf - densitatea de probabilitate funcţie de hazard.
Pentru amănunte în demonstraţie se poate studia „Statistical Methods for Survival
Data Analysis” – Elisa T. Lee, John Wenyu Wang ; A John Wiley &Sons. Inc.,
Publication 2003.
Timp (t)
h(t) 1
2
3
4
INDEX
120
Analiza supravieţuirii utilizând metoda Kaplan Meier
Analiza în timp a evenimentului (time to event analysis; product limit estimate)
Metoda Kaplan Meier este o tehnică statistică neparametrică ce determină
probabilităţile de supravieţuire în timp, acceptă lucrul cu date cenzurate şi permite
introducerea de noi cazuri în perioada de cercetare.
Funcţia de supravieţuire sau rata de supravieţuire este definită prin probabilitatea
ca o persoană (sau caz de studiu) să supravieţuiască mai mult de n unităţi de timp
)( iTTPs . Aceste unităţi de timp sunt tocmai valorile discrete T1, T2, …Tn.
Se poate calcula uşor probabilitatea pe fiecare interval [Ti-1, Ti]. Aceasta este însă
o probabilitate condiţionată. Practic în intervalul Ti-1–Ti , avem o anumită structură a
lotului de studiu. La momentul Ti1 avem în viaţă Ni-1 pacienţi. Aceştia sunt supuşi
riscului de a deceda. În intervalul precizat o parte din pacienţi vor fi eliminaţi din
studiu (cenzuraţi), notaţi cu Ci, iar o altă parte vor deceda, notaţi Di.
Putem calcula numărul de pacienţi supuşi riscului la momentul Ti. Vom scădea pe
cei decedaţi şi pe cei cenzuraţi. iiii CDNN 1 .
Probabilitatea de deces pe acest interval, condiţionată de faptul că pacienţii au
supravieţuit până la începutul intervalului de timp este 1
1)(
i
i
iiN
DTTTTPd .
T reprezintă timpul de supravieţuire ce caracterizează studiul. Astfel,
probabilitatea de supravieţuire condiţionată se exprimă prin:
1
111)(1)(
i
i
iiiiN
DTTTTPdTTTTPs .
Această probabilitate se poate evalua pe fiecare interval ce prezintă evenimente de
tip deces sau cenzură. Menţionăm că ea nu reprezintă probabilitatea de supravieţuire.
Pentru determinarea funcţiei de supravieţuire trebuie să calculăm probabilitatea
necondiţionată )( iTTPs în fiecare punct din domeniul variabilei T.
Făcând apel la teoria probabilităţilor avem:
)(
)()(
BP
BAPBAP
- formula de calcul a probabilităţii condiţionate.
Evenimentul A poate fi de exemplu, timpul de supravieţuire mai mare decât Ti
(T>Ti), iar evenimentul B poate reprezenta T>Ti-1. Observăm că probabilitatea de
intersecţie a evenimentelor )()( 1 ii TTTTPBAP este tocmai P(A)
deoarece evenimentul A este mai restrictiv decât B (dacă persoana a ajuns la momentul
Ti sigur a fost în viaţă la momentul anterior).
INDEX
121
În acest caz avem: )(
)()(
1
1
i
i
iiTTP
TTPTTTTP . Obţinem probabilitatea de
supravieţuire pentru intervalul de rang i ca un produs de forma:
)()()( 11 iiii TTPsTTTTPsTTPs .
Înlocuind în continuare probabilitatea de supravieţuire de la momentul Ti-1 cu o
formulă asemănătoare celei de sus, obţinem un produs al probabilităţilor condiţionate.
În final, ultima valoare va fi probabilitatea de supravieţuire la momentul 0 (aceasta este
considerata iniţial de valoare egală cu 1, 1)( 0 TTPs ).
Este justificat astfel şi pseudonimul: „product limit estimate”.
)()(.....)()( 0121 TTPsTTTTPsTTTTPsTTPs iii .
Fiind un produs de probabilităţi putem uşor observa că în timp forma grafică va fi
descrescătoare.
Practic, vom determina pe fiecare interval numărul de pacienţi la risc (Ni),
numărul de decese (Di) şi numărul de pacienţi eliminaţi (sau cenzuraţi, Ci). Se poate
calcula apoi probabilitatea condiţionată şi în final prin produsul acestora se exprimă
funcţia de supravieţuire în fiecare moment de timp în care se produc evenimente.
Exemplu de calcul
Presupunem că avem în cadrul unui studiu tabelul 2.12 1 cu datele pe zile despre
evenimentele cenzurate şi cele urmărite. Examinările sunt desfăşurate pe o durată de 14
zile iar datele culese sunt prezentate mai jos.
Tabelul 2.12 1 – Date generice - Studiu supravieţuire
Ziua Cenzuri Eveniment urmărit
1 7 2
2 4 1
3 2 2
4 3 3
6 1 2
8 3 4
10 2 1
11 2 2
13 1 2
14 0 1
Total 25 20
INDEX
122
Numărul total de pacienţi din studiu este suma celor două coloane şi are valoarea
45 pentru exemplul prezent.
Tabelul 2.12 2 – Etape de calcul – Funcţia de supravieţuire Z
iua
Cen
zuri
Ev
enim
ent
urm
ări
t Pacienţi la
risc
Probabilitatea
condiţionată pe
interval
Probabilitatea de
supravieţuire
(produsul prob.
condiţionale)
1 7 2 45 1-2/45=0.955 0.955
2 4 1 45-7-2=36 1-1/36=0.972 0.955*0,972=0.929
3 2 2 36-4-1=31 1-2/31=0.935 0,929*0,935=0.869
4 3 3 31-2-2=27 1-3/27=0.888 0.869*0.888=0.772
6 1 2 27-3-3=21 1-2/21=0.904 0.772*0.904=0.698
8 3 4 21-1-2=18 1-4/18=0.777 0.698*0.777=0.543
10 2 1 18-3-4=11 1-1/11=0.909 0.543*0.90=0.494
11 2 2 11-2-1=8 1-2/8=0.75 0.494*0.75=0.370
13 1 2 8-2-2=4 1-2/4=0.5 0.370*0.5=0.185
14 0 1 4-1-2=1 0 0
total 25 20
Etapele de calcul sunt detaliate în tabelul 2.12 2. Se vor determina mai întâi pentru
fiecare interval pacienţii la risc. Pentru primul interval numărul pacienţilor la risc este
egal cu suma tuturor pacienţilor luaţi în calcul. Pentru celelalte intervale se scade în
mod repetat atât numărul de cenzuri cât şi numărul de evenimente urmărite realizate.
În etapa următoare se poate calcula probabilitatea condiţionată de supravieţuire.
Aceasta are valoarea egală cu 1 din care se scade raportul dintre numărul de
evenimente urmărite şi numărul de pacienţi la risc. Se observă că această probabilitate
poate creşte sau descreşte pe fiecare interval în funcţie de numărul de evenimente care
s-au consumat.
În final, prin înmulţirea cumulată a probabilităţilor condiţionate se obţine
probabilitatea de supravieţuire. Aceasta are o tendinţă descrescătoare putând atinge la
sfârşit valoarea 0.
Forma grafică este reprezentată în figura 2.12 6. Alura este în formă de scară cu
trepte de diferite lungimi şi înălţimi. Aceste caracteristici sunt date de numărul de
evenimente consumate în fiecare interval de timp.
INDEX
123
Figura 2.12 6 – Funcţia de supravieţuire.
O formă descriptivă de interpretare a supravieţuirii constă în calculul mediei, a
medianei, a cuartilelor şi a intervalelor de confidenţă al acestora. Programul SPSS ne
permite aceste calcule, pe care le prezentăm în continuare, împreună cu verificarea
existenţei semnificaţiei statistice între două curbe de supravieţuire.
Comparaţii între funcţiile de supravieţuire
Funcţia de supravieţuire ne creează o imagine asupra descreşterii în timp a
probabilităţii. O descriere a valorilor indicatorilor de supravieţuire poate fi realizată
prin calculul mediei, a medianei, a valorilor cuartilelor dar şi prin estimarea
intervalului de confidenţă a acestor indicatori.
Dacă sunt mai multe grupuri de date care reprezintă funcţii diferite de
supravieţuire, atunci acestea pot fi comparate prin teste statistice ca: Log Rank
(Mantel-Cox), Breslow (Generalized Wilcoxon) sau Tarone-Ware. Aceste teste
reprezintă statistici de tip Chi pătrat (2 ) pentru care se poate calcula valoarea p a
nivelului de semnificaţie.
Una dintre cele mai populare metode de comparare este testul logrank (sau Log
Rank). Acesta ia în calcul întreaga durată de urmărire a cazurilor şi are marele avantaj
că nu necesită anumite condiţii impuse asupra formei sau distribuţiei timpilor de
supravieţuire. Se foloseşte pentru a testa ipoteza nulă definită prin lipa diferenţei
semnificative între probabilităţile de apariţie a evenimentului studiat între grupurile
comparate.
Pentru fiecare grup se determină valorile observate ale frecvenţelor absolute
(valorile determinate experimental, notate cu O) şi se calculează de asemenea valorile
aşteptate (expected values, notate cu E).
INDEX
124
De exemplu, pentru două loturi de 30, respectiv de 40 pacienţi în care avem în
prima săptămână un singur deces, putem calcula aceste valori ale frecvenţelor:
- frecvenţa absolută observată O=O1+O2=1, respectiv cea relativă este
1/(30+40)=0,0142.
- frecvenţa absolută aşteptată în grupul 1 este 428,00142,0301
1 grup
E .
- frecvenţa absolută aşteptată în grupul 2 este 572,00142,0402
1 grup
E .
Se calculează pentru fiecare grup frecvenţele absolute aşteptate în fiecare moment
în care avem evenimente prezente. Evident, vor fi recalculate volumele eşantioanelor
(valorile 30, respectiv 40) eliminând cenzurile şi decesele prezente pe interval. În final
se face suma frecvenţelor observate totale şi aşteptate pentru grupul 1, respectiv grupul
2.
Se poate aplica testul Chi pătrat folosind formula:
22
22
21
212
gruptotal
gruptotaltotal
gruptotal
gruptotaltotal
calculat
E
EO
E
EO
. Valorile total sunt
calculate ca sume ale valorilor parţiale.
În mod corespunzător se poate determina valoarea 2 tabelată cu 95% încredere
pentru un număr de grade de libertate egal cu numărul de grupuri de comparat minus 1.
Dacă valoarea calculată este mai mare decât cea tabelată, atunci există diferenţă
semnificativă statistic.
Acelaşi rezultat se poate obţine calculând nivelul de semnificaţie p determinat din
valoarea 2 calculat. Dacă p este mai mic decât 0,05 atunci va exista semnificaţie
statistică, aşadar diferenţele dintre grupuri nu sunt întâmplătoare.
Observaţii
Menţionăm că în cazul studiului decesului, panta echivalentă a curbei de
supravieţuire este de dorit să fie cât mai mică, implicând ca graficul să fie cât mai
aproape de o paralelă cu axa XX’. Aceasta ar determina o scădere lentă a valorilor
probabilităţilor de supravieţuire în timp. Efectul ar fi un timp de viaţă îndelungat,
evident sperat poate de mulţi dintre noi.
Dacă intenţionăm să studiem timpul necesar pentru ca un medicament să aibă
efect în însănătoşirea pacientului, atunci de dorit este ca panta să fie cât mai mare,
adică efectul să fie cât mai rapid.
În concluzie depinzând de situaţia în care ne aflăm, forma grafică a funcţiei va fi
diferită, având caracteristici chiar opuse, tocmai datorită scopului optim de atins ce
poate să aibă cerinţe opuse.
INDEX
125
Exemplu de realizare a analizei de supravieţuire folosind metoda Kaplan
Meier în SPSS
Programul de analiză statistică SPSS permite analiza supravieţuirii prin mai multe
tehnici printre care şi metoda Kaplan Meier.
Lansarea în execuţie se realizează apelând meniul şi urmând calea: Analyze
Survival Kaplan Meier (conform cu figura 2.12 7).
Figura 2.12 7 – SPSS - lansarea în execuţie a analizei Kaplan Meier.
Pentru a putea analiza supravieţuirea se încarcă mai întâi fişierul de date cu cel
puţin două coloane ce reprezintă timpul dintre evenimentul de start şi cel de stop,
respectiv tipul evenimentului (cenzură sau deces).
Codificările pentru evenimente pot fi numerice în majoritatea cazurilor: 0
reprezintă cenzură iar 1 reprezintă deces (fig.2.12 7).
Fiecare rând din tabel defineşte practic un pacient inclus în eşantionul de studiu.
Astfel, numărul total de rânduri va fi egal cu volumul eşantionului (număr total
pacienţi).
Figura 2.12 8 – Definirea variabilelor utilizate în analiză.
INDEX
126
În etapa următoare se definesc variabilele de lucru: variabila ce determină timpul
scurs între evenimente (pentru cazul nostru coloana notată „Zi”), respectiv variabila ce
precizează tipul evenimentului (pentru cazul nostru coloana „Cenz_Deces”).
Pentru a preciza tipul de codificare utilizat se foloseşte butonul „Define Event” în
care se specifică valoarea din coloană pentru evenimentul deces (sau evenimentul
studiat). În situaţia noastră setarea se realizează cu valoarea 1 (figura nr. 2.12 9).
Figura 2.12 9 – Specificarea codificării.
Dacă se doreşte o comparare între diferite curbe de supravieţuire se poate
specifica coloana factor ce defineşte subgrupurile pentru analiză. Se specifică de
asemenea şi testele statistice de verificare a diferenţelor presupuse (figura 2.12 10).
Figura 2.12 10 – Definirea testelor de verificare a semnificaţiei statistice
pentru comparaţii.
Coloana factor poate fi spre exemplu, o variabilă de tip dicotomic ce defineşte
tratamentul aplicat. Se doreşte o comparaţie între două tratamente pentru a vedea care
dintre ele prezintă un timp de supravieţuire mai îndelungat.
Amintim că testele de comparare funcţionează şi pentru un număr de grupe mai
mare ca 2 (de exemplu 4 tratamente).
INDEX
127
Figura 2.12 11 – Definirea opţiunilor.
În final, cu ajutorul butonului Options (figura 2.12 11) se definesc indicatorii
statistici ce se vor calcula cât şi graficele ce pot fi realizate. Cel puţin funcţia de
supravieţuire trebuie reprezentată grafic cât şi calculele necesare realizării tabelei de
supravieţuire.
Interpretarea rezultatelor
În SPSS rezultatele analizelor sunt salvate într-un fişier de ieşire (extensia „spo”).
Pentru analiza cerută va fi prezentat un tabel de supravieţuire conţinând pentru fiecare
caz în parte momentul de timp al evenimentului realizat, valorile funcţiei de
supravieţuire şi a erorii standard, numărul de evenimente cumulative şi cele rămase.
Dacă s-a cerut calculul anumitor indicatori statistici (medie, mediană, cuartile)
aceştia sunt prezentaţi într-un tabel separat, fiind calculat şi intervalul de confidenţă.
Acestea pot fi folosite pentru verificarea într-o primă formă a suprapunerii intervalelor
de confidenţă pentru compararea diferitelor curbe. Dacă există o suprapunere a
intervalelor atunci şansa de a diferi semnificativ este minimă.
Tabelul 2.12 3. Means and Medians for Survival Time
Tratament
Mean(a) Median
Estimate
Std. Error
95% Confidence Interval
Estimate
Std. Error
95% Confidence Interval
Lower Bound
Upper Bound
Lower Bound
Upper Bound
1 9.205 .779 7.677 10.732 10.000 1.480 7.099 12.901
2 8.377 .645 7.114 9.641 8.000 1.063 5.917 10.083
Overall 8.717 .494 7.749 9.685 8.000 1.019 6.003 9.997
(1 – tratament clasic , 2 – tratament nou)
INDEX
128
Tabelul 2.12 4. Percentiles
Tratament 25.0% 50.0% 75.0%
Estimate Std. Error Estimate Std. Error Estimate Std. Error
1 13.000 1.149 10.000 1.480 6.000 1.442
2 13.000 1.045 8.000 1.063 4.000 .696
Overall 13.000 .818 8.000 1.019 5.000 .727
Iată în exemplul nostru intervalele pentru medii cât şi pentru mediane se suprapun,
chiar mai mult, intervalul de confidenţă pentru grupul format de tratamentul 1 cuprinde
valoarea punctuală calculată a indicatorului studiat (medie, respectiv mediană) pentru
celălalt grup.
Testele de comparare au valorile prezentate în tabelul următor. Se acceptă un prag
de 10% (iată şi o valoare standard peste 5%) sau o semnificaţie de 0,1. Dacă valoarea
nivelului de semnificaţie calculat este sub 0,1 atunci se poate decide că diferenţa este
semnificativă statistic şi nu întâmplător cele două curbe diferă. Astfel tratamentul 1
este diferit faţă de tratamentul 2 în ceea ce priveşte evenimentul studiat.
Tabelul 2.12 5 – Testarea diferenţei dintre cele două curbe de supravieţuire.
Chi-Square df Sig.
Log Rank (Mantel-Cox) .608 1 .436
Breslow (Generalized Wilcoxon) .427 1 .514
Tarone-Ware .545 1 .460
Pentru cazul nostru valoarea Sig. reprezintă nivelul de semnificaţie p şi este cu
mult peste pragul de 10% în toate cele trei teste aplicate. În concluzie, nu există
diferenţă semnificativă statistic, aşadar cele două tratamente au efecte asemănătoare.
În încheiere se reprezintă grafic cele două curbe de supravieţuire (figura 2.12 12).
INDEX
129
Figura 2.12 12 – Curbele de supravieţuire Kaplan Meier.
Folosind softul EpiInfo versiunea 3.3.2 din februarie 2005 se pot reprezenta grafic
datele şi se efectuează testul Log Rank pentru comparaţie. Evident, rezultatele sunt
aceleaşi atât timp cât datele de intrare coincid.
La sfârşitul capitolului EpiInfo este prezentat acelaşi exemplu de supravieţuire.
Datele utilizate pentru supravieţuire se află în tabelul din anexa F.
INDEX
130
Analiza supravieţuirii utilizând metoda Cox
Analiza timpului de supravieţuire poate fi realizată şi prin precizarea unei funcţii
(deci o formă analitică) care să modeleze datele. Este de fapt o metodă de regresie iar
coeficienţii necunoscuţi trebuie determinaţi.
Dacă în cadrul evoluţiei participă covariabile (variabile independente) ce au efect
asupra determinării timpului de supravieţuire (variabila dependentă), atunci metoda
Kaplan Meier este improprie pentru analiză. Ar trebui pentru fiecare covariabilă o
analiză separată dar şi pentru combinaţiile posibile ale valorilor acestora. Dacă avem 2
covariabile cu câte 3 grade lingvistice (ex: stadiu1, stadiu2 şi stadiu3) numărul de
combinaţii posibile s-ar ridica la 9 (3 la puterea a doua). Ar fi nepotrivit să comparăm
cele 9 variante găsite. Dar dacă am avea 5 posibile covariabile implicate în analiză ?
Uşor s-ar atinge valori de ordinul zecilor sau chiar sutelor de variante de comparat.
Evident calculele devin extrem de laborioase iar metoda de studiu este nepotrivită.
Metoda Cox este avantajoasă în modelarea corectă a timpilor de supravieţuire
atunci când în studiu apar covariabile sau se propun anumiţi parametri care
influenţează evoluţia în timp a evenimentului. Funcţia hazard este cea implicată în
modelare. Aceasta se presupune a avea o formă proporţională (proportional hazards
model). Se respectă astfel următorul model matematic:
),...,()()...,( 21021 nn xxxgthxxxth ,
unde:
)...,( 21 nxxxth este funcţia hazard ce caracterizează evenimentul studiat, ea
depinde de timp şi de covariabile x1, x2, …xn.
)(0 th funcţia hazard de bază depinde doar de timp.
),...,( 21 nxxxg funcţia ce exprimă efectul covariabilelor nu depinde de timp.
Funcţia g poate avea diferite forme de exemplu: liniară, exponenţială etc.
Modelul Cox defineşte funcţia g ca fiind de tip exponenţial:
n
jjj xbxg
0
exp)( , unde bj sunt coeficienţii ce trebuie determinaţi iar xj
covariabilele implicate în model.
Funcţia hazard de bază (h0(t)) determină forma în timp a evoluţiei hazardului iar
funcţia g(x1,…xn) determină doar amplitudinea şi depinde doar de valorile iniţiale
incluse în variabilele xi. Timpul este inclus doar în funcţia hazard de bază.
Ce înseamnă de fapt această formă proporţională a hazardului ?
Presupunem că avem două cazuri: A cu valorile x1a, x2a ….xna, respectiv B cu
valorile x1b, x2b ….xnb.
INDEX
131
Un posibil exemplu medical ar fi studiul comparativ a două metode de
imunoterapie împotriva unei tumori maligne a pielii. Se foloseşte o anumita modalitate
pentru mărirea duratei de remisiune ceea ce are efect pozitiv asupra timpului de
supravieţuire. Se observă că vârsta, sexul, stadiul iniţial al bolii, durata de remisiune şi
evident, tratamentul aplicat pot fi considerate covariabile în studiul timpului de
supravieţuire.
În cele ce urmează utilizăm următoarele notaţii: vârsta cu x1, sexul cu x2, stadiul
bolii cu x3 şi durata de remisiune cu x4. Vom avea două grupuri, presupuse a fi diferite,
de comparat, funcţie de tratamentul aplicat.
Pentru pacientul A funcţia hazard este de forma:
n
jjajnaaanaaaA xbthxxxgthxxxthth
0021021 exp)(),...,()()...,()( .
Prin x1a se înţelege vârsta pacientului A, x2a sexul şi aşa mai departe. În concluzie,
funcţia g pentru pacientul A este o constantă în timp, la fel pentru pacientul C, D, etc.
Pentru pacientul B (care are altă vârstă, stadiu iniţial, … etc.):
n
jjbjnbbbnbbbB xbthxxxgthxxxthth
0021021 exp)(),...,()()...,()( .
Dacă facem raportul celor două funcţii hazard obţinem o valoare constantă ce
depinde doar de starea iniţială a pacienţilor. În concluzie, pentru două cazuri, raportul
funcţiilor hazard este constant în timp – modelul hazardului proporţional.
n
jjbj
n
jjaj
B
A
xb
xb
th
th
0
0
exp
exp
)(
)( raport ce este constant în timp.
Determinarea coeficienţilor bj reprezintă o problemă de analiză matematică şi se
bazează pe estimarea acestora prin metoda verosimilităţii maxime (maximum
likelihood estimator).
Variabilele x1,….xn pot fi de tip continuu, discret sau categorial. Acesta reprezintă
un avantaj ce dă generalitate maximă modelului regresional utilizat.
Metoda Cox este extinsă şi pentru covariabile xj ce depind de timp – acestea se
introduc într-o manieră specială ca o funcţie de timp. De exemplu, în loc de x4 putem
scrie t x4 sau exp(t+2)x4. Trebuie însă să avem cunoştinţe despre presupusa relaţie
între timp şi covariabila implicată.
Există legătură între hazard şi funcţia de supravieţuire după cum a fost prezentată
anterior:
INDEX
132
dtxbthtS
t
o
n
j
jajoA
0
exp)(exp)( este deci o legătură exponenţială
negativă.
Nu pare foarte intuitivă acesta formulă însă exponentul negativ arată că legătura
este invers proporţională (dependenţă care era aşteptată între supravieţuire şi rata
condiţionată de deces).
Dacă condiţia de proporţionalitate a hazardului nu este îndeplinită, atunci se poate
defini acea variabilă ca fiind de stratificare şi astfel se calculează alte funcţii hazard de
bază pentru categoriile prezente. Coeficienţii bj vor rămâne aceeaşi în formula
hazardului, modificându-se doar h0(t).
Cazurile cenzurate ajută doar la determinarea funcţiei hazard de bază nu şi la
aflarea coeficienţilor bj.
Pentru coeficienţii de regresie bj, este important să se calculeze semnificaţia lor
statistică, deci influenţa covariabilei în model trebuie verificată. Dacă semnificaţia
calculată nu este sub 0,05, atunci acea covariabilă are efect întâmplător, deci poate fi
eliminată din analiză.
Interpretarea coeficienţilor de regresie se face într-un mod intuitiv prin valoarea
lor exponenţială, exp(bj). Aceasta arată valoarea prezisă a modificării valorii funcţiei
hazard pentru o creştere cu o unitate a covariabilei.
Variabile:
a) – Pentru variabila de tip dicotomic (de exemplu sexul, notat cu 1-masculin,
respectiv 0-feminin). Dacă obţinem valoarea exp(bsex)=1,72, atunci funcţia
hazard pentru cei de sex masculin (codificaţi cu 1) este de 1,72 ori mai mare
faţă de cei de sex feminin (codificaţi cu 0). Astfel, interpretăm că bărbaţii sunt
mai expuşi riscului de a deceda faţă de femei. Interpretarea raportată la riscul
relativ este corectă. Putem deci afirma că riscul estimat de deces este de 1,72
ori mai mare la bărbaţi faţă de femei.
b) – Pentru variabila de tip discret. Putem avea o covariabilă ce măsoară timpul
în luni de aplicare a terapiei. Valoarea exponenţială exp(bterapie) obţinută este
0,94. Aceasta arată că funcţia hazard este redusă cu 100%-100*0,94 = 6%
pentru prima lună de terapie susţinută de pacient. Astfel, pentru un pacient ce
a făcut terapie 3 luni avem o reducere cu %94,160,94100-100%3 a
valorii funcţiei hazard. În concluzie, funcţia hazard este redusă cu un procent
ce poate fi determinat din valoarea coeficientului de regresie pentru o anumită
schimbare a covariabilei implicate.
Modelul Cox este foarte important în practică, deoarece ajută la identificarea
factorilor de pronostic în studiul supravieţuirii. Pentru compararea evoluţiei procesului
studiat, funcţie de diferite tratamente sau mai general, funcţie de diferite criterii de
grupare, există teste speciale (ce apelează distribuţia Chi pătrat).
INDEX
133
Exemplu SPSS – studiu de supravieţuire
În cadrul unui studiu asupra funcţiei renale ne interesează analiza timpului de
declanşare a insuficienţei renale terminale. Acest stadiu este caracterizat de atingerea
unei valori a cleareance’ului de creatinină sub 15 ml/min/1,73 m2 (notat ClCr). Sunt
luate în calcul doar cazurile în care evoluţia a fost negativă în sensul scăderii valorii
ClCr.
Evenimentul studiat reprezintă scăderea valorii ClCr sub nivelul de 15. Acesta va
fi notat cu 1. Cazurile cenzurate vor fi codificate cu 0 şi reprezintă pacienţii pierduţi
din studiu sau cei a căror valoare ClCr nu a scăzut sub 15 pe perioada studiului.
Se propun următoarele covariabile ce pot afecta evoluţia timpului:
1 – diagnosticul bolii de bază (DG1).
2 – durata HTA în intervalul studiat, măsurată în luni.
3 – afectarea cardiacă la debut.
4 – vârsta la debut (ani).
Diagnosticul bolii de bază este de tip dicotomic : notat 1 – GNC
(glomerulonefrită), 2 – malf R (malformaţii renale).
Afectarea cardiacă este tot de tip dicotomic, marcată prin Da, respectiv Nu.
Pentru lansarea analizei de supravieţuire se urmează paşii : Analyze + Survival +
Cox Regression…
Se obţine fereastra din figura de mai jos ce trebuie încărcată cu informaţie.
Figura 2.12 13 – Metoda Cox – SPSS
aceste exemple sunt preluate din studiul doctoral “Hipertensiunea arterială secundară la
copil” cu permisiunea autoarei Dr. Cristina Gavrilovici.
INDEX
134
Timpul este măsurat în luni şi reprezintă durata din momentul diagnosticării până
la atingerea insuficienţei renale terminate.
Statusul este exprimat (după cum s-a menţionat deja) de variabila ce defineşte
evenimentul cenzură, respectiv evenimentul studiat. Codificarea este 0 pentru cenzură,
respectiv 1 pentru evenimentul ClCr≤15.
Covariabilele propuse şi utilizate în acest fişier sunt: Vârsta (de tip numeric
discret), Diag_c (diagnosticul codificat 0,1), Afect_card (afectarea cardiacă de tip
dicotomic) şi Durata_HTA (discretă exprimată în luni).
Figura 2.12 14 – Metoda Cox – SPSS. Definirea variabilelor categoriale.
Deoarece variabilele de tip categorial sunt tratate separat este nevoie să le definim
aşa cum se prezintă în figura de mai sus.
Pentru reprezentarea grafică programul propune mai multe variante dar cele de
bază, obligatorii sunt funcţia de supravieţuire şi funcţia hazard.
Figura 2.12 15 – Metoda Cox – SPSS. Definirea reprezentărilor grafice.
Opţiunile sunt de un real folos iar intervalul de confidenţă al coeficienţilor bj
calculaţi prin funcţia exponenţială sunt strict necesari.
INDEX
135
Figura 2.12 16 – Metoda Cox – SPSS. Definirea opţiunilor
Interpretarea rezultatelor.
Primul tabel prezintă informaţii despre componenţa lotului sau eşantionului de
studiu.
Tabelul 2.12 6 – Case Processing Summary
N Percent
Cases available in analysis
Event(a) 300 57.1%
Censored 225 42.9%
Total 525 100.0%
Cases dropped
Cases with missing values 0 .0%
Cases with negative time 0 .0%
Censored cases before the earliest event in a stratum
0 .0%
Total 0 .0%
Total 525 100.0%
În total avem 525 de cazuri, din care 225 sunt cenzuri iar restul de 300 sunt
pacienţi ce au evenimentul studiat realizat. Cazurile cenzurate nu au ajuns în
insuficienţă renală terminală în perioada de timp cât au fost studiate. Nu există
elemente eliminate din studiu. Dorim să amintim, cazurile cenzurate se folosesc doar la
determinarea funcţiei hazard de bază.
Tabelul 2.12 7 – Categorical Variable Codings(b,c)
Frequency (1)
Afect_Card(a)
da 285 1
nu 240 0
Diag_c(a)
1=GNC 330 1
2=malf R 195 0
a Indicator Parameter Coding b Category variable: Afect_Card (Afectare Cardiaca) c Category variable: Diag_c (Diagnostic codificat)
Variabilele categoriale sunt codificate iar corespondenţa codurilor este prezentată
în tabelul alăturat. Este foarte importantă această codificare deoarece reprezintă baza
INDEX
136
de interpretare a rezultatelor. Implicit, referinţa este considerată ultima categorie. În
cazul nostru aceasta este cea notată cu 0, iar pentru afectarea cardiacă este cea
corespunzătoare valorii lingvistice „nu”, respectiv „malf R” pentru diagnostic.
Tabelul 2.12 8 – Variables not in the Equation(a)
Score df Sig.
Varsta 108.805 1 .000
Diag_c 7.504 1 .006
Afect_Card 10.761 1 .001
Durata_HTA 22.517 1 .000
a Residual Chi Square = 164.134 with 4 df Sig. = .000
Iniţial se calculează efectul fiecărei covariabile în cadrul modelului. Este blocul de
start în calcul. Dacă există semnificaţie statistică se decide că acele date (Varsta,
Afect_Card,..) sunt utile şi sunt introduse în calcul. Pentru semnificaţii egale se începe
cu acel element ce are valoarea scorului maximă.
În cazul nostru prima covariabilă introdusă în model este „Vârsta” conform
tabelului de mai sus (are semnificaţie statistică şi scor maxim).
Crearea modelului este un proces iterativ prin care se introduc una câte una
covariabilele ce au influenţă în determinarea timpului de supravieţuire analizat.
Tabelul 2.12 9 – Omnibus Tests of Model Coefficients(e,f)
Step
-2 Log Likelihood
Overall (score) Change From Previous Step
Change From Previous Block
Chi-square df Sig.
Chi-square df Sig.
Chi-square df Sig.
1(a) 3252.118 108.805 1 .000 132.373 1 .000 132.373 1 .000
2(b) 3233.921 133.857 2 .000 18.198 1 .000 150.571 2 .000
3(c) 3218.216 156.793 3 .000 15.704 1 .000 166.275 3 .000
4(d) 3212.586 164.134 4 .000 5.630 1 .018 171.906 4 .000
a Variable(s) Entered at Step Number 1: Varsta b Variable(s) Entered at Step Number 2: Durata_HTA c Variable(s) Entered at Step Number 3: Afect_Card d Variable(s) Entered at Step Number 4: Diag_c e Beginning Block Number 0, initial Log Likelihood function: -2 Log likelihood: 3384.492 f Beginning Block Number 1. Method = Forward Stepwise (Likelihood Ratio)
Următorul bloc de calcul prezintă înlănţuirea înainte prin introducerea variabilelor
şi calculul semnificaţiei modelului creat pas cu pas. Ordinea de introducere este
conform scorului obţinut şi este prezentată în tabelul 2.12 9: Vârsta, Durata_HTA,
Afect_Card şi Diag_c. Se observă că semnificaţia statistică există atât pentru scorul
total cât şi pentru schimbarea secvenţială, pas cu pas.
Astfel putem afirma că respectivele covariabile alese au influenţă asupra
modelului căutat.
INDEX
137
Tabelul 2.12 10 – Variables in the Equation
B
SE
Wald
df
Sig.
Exp(B)
95.0% CI for Exp(B)
Lower Upper
Step 1 Varsta .222 .022 99.886 1 .000 1.249 1.196 1.305
Step 2
Varsta .207 .022 92.278 1 .000 1.229 1.179 1.282
Durata_HTA -.020 .005 16.120 1 .000 .980 .971 .990
Step 3
Varsta .204 .020 101.175 1 .000 1.227 1.179 1.276
Afect_Card -.530 .133 15.946 1 .000 .588 .453 .763
Durata_HTA -.019 .005 16.435 1 .000 .981 .972 .990
Step 4
Varsta .201 .020 99.484 1 .000 1.223 1.176 1.272
Diag_c -.308 .129 5.683 1 .017 .735 .571 .947
Afect_Card -.443 .138 10.254 1 .001 .642 .490 .842
Durata_HTA -.021 .005 17.524 1 .000 .979 .970 .989
În continuare se prezintă valorile coeficienţilor bi, eroarea standard (SE), statistica
Wald, semnificaţia statistică, valorile exponenţiale ale coeficienţilor şi intervalul de
variaţie cu 95% confidenţă.
Dacă statistica Wald este semnificativă atunci rezultă că acel element este util
modelului. Observăm că toate valorile sunt semnificative statistic.
Interpretarea coeficienţilor B (notaţi cu bj în formulele matematice)
Pentru variabile de tip continuu valoare exp(b)<1 indică faptul că o creştere a
valorilor covariabilei respective duce la o creştere a timpilor de supravieţuire. Dacă
exp(b)>1, atunci creşteri ale covariabilei duc la descreşteri ale timpilor de
supravieţuire.
Iată pentru vârstă (valoarea exponenţială este 1,223) deducem că odată cu mărirea
acesteia scad timpii de supravieţuire renală, deci se ajunge mai repede la insuficientă
renală totală (IRT). De asemenea prin faptul că valoarea coeficientului b corespunzător
(0,201) este pozitivă decidem că riscul de a ajunge in IRT creşte odată cu vârsta.
Pentru un an de creştere în vârstă hazardul cumulat creşte cu valoarea absolută din
100%-(100*1,223)=22,3%. Pentru 3 ani creştere în vârstă mărirea hazardului este
3223,1*100%100 = 82,9%. Aşadar şi riscul creşte.
Pentru durata HTA, variabilă discretă, efectul este contrar. Valoarea coeficientului
este negativă (-0,021). Riscul de a ajunge în IRT scade odată cu creşterea duratei HTA.
Această legătură din punct de vedere medical nu era previzibilă. Trebuie să ţinem cont
că aceşti pacienţi au fost trataţi atât pentru hipertensiune cât şi pentru recuperarea
funcţiei renale, poate de aceea rezultatele nu sunt cele aşteptate.
Pentru variabile dicotomice diagnosticul este codificat cu 1 pentru GNC, respectiv
0 pentru malformaţii renale. Riscul de a intra în IRT este de 0,735 (valoarea
exponenţială) ori mai mic în GNC decât in malf R. Altfel spus, de 1/0,735 = 1,36 ori
mai mare pentru cazurile malf R.
INDEX
138
În concluzie, fiecare coeficient are o valoare ce descrie relaţia dintre hazard sau
supravieţuire şi covariabila respectivă.
Se prezintă de asemenea intervalele de confidenţă. Dacă aceste au limitele
apropiate de valoarea 1, atunci influenţa lor în model este mică. Poate un număr mai
mare de date ar aduce informaţie suplimentară utilă în dezvoltarea cât mai performantă
a sistemului de regresie pentru supravieţuire.
În final se prezintă atât graficele funcţiei de supravieţuire cât şi a hazardului.
Figura 2.12 17 – Funcţia de supravieţuire.
Figura 2.12 18 – Funcţia hazard.
INDEX
139
Top Related