Post on 16-Sep-2015
description
ANALIZA DATELOR CALITATIVE
CURSUL 6
DATE CALITATIVE
Datele calitative (nominale sau categoriale) i apar atunci cnd subieciise pot clasifica n dou sau mai multe categorii
bolnav/sntos
starea unui pacient ca fiind "precar", "echilibrat", "bun" sau "excelent
M/F
Datele calitative pot fi nregistrate i sub form de coduri numerice 1, 2, 3, sau 4 ns numrul nu are o semnificaie numeric (nu reprezint o cantitate). Am putea codifica "da" ca fiind 1 i "nu" ca fiind 2, sau "da", ca fiind 2 i "nu" ca fiind 1 i nu s-ar face nici o diferen n analiza lor.
Variabile categorice cu doar dou categorii, de exemplu "viu" sau "mort", sau "feminin" sau "masculin" sunt numite atribute, date dicotomice sau binare
datele cantitative - numere pentru care magnitudinea (valoarea) reprezint ceva (sunt rezultatul unei msurtori) - tensiunea arterial
Metode statistice pentru analiza datelor calitative
testul hi-ptrat de asociere
testul Fisher exact
testul hi-ptrat pentru trend-uri
raportul riscurilor, riscul relativ sau raportul anselor (RR)
riscul relativ estimat sau raportul cotelor (OR)
numrul necesar de pacieni care trebuie tratai.
TABELE DE CONTINGEN Un tabel de contingen este un tabel construit pentru dou variabile categoriale (tabel
cu dou intrri)
Acceptarea testului HIV n funcie de grupele strii civile (Meadows et al., 1994)
Totalurile rndurilor i coloanelor sunt numite totaluri marginale, iar numrul total de observaiidin tabel se numete total general
Ne vom referi adesea la un tabel folosind dimensiunea tabelului. Tabel de tip 4x2 deoarece are patru rnduri i dou coloane. Uneori se folosete termenul
general de tabel de tip rxc unde r indic numrul de rnduri i c numrul de coloane
TESTUL HI-PTRAT
Testarea ipotezei nule - nu exist nici o relaie ntre dou variabile. Vom folosi termenul de "asociere" pentru o relaie ntre dou variabile categorice.
Dac eantionul este mare putem s folosim testul hi-ptrat.
Dac eantionul este mic, vom folosi testul Fisher exact
Ipoteza nul stabilete c nu exist nici o asociere ntre cele dou variabile (pentru care este construit tabelul de contingen).
Ipoteza alternativ se refer la faptul c exist o asociere de un anumit tip.
Testul hi-ptrat se bazeaz pe calculul frecvenelor pe care ne-am atepta s le obinem n celule, n cazul n care nu exist absolut nici o asociere (frecvene estimate sau frecvene ateptate).
Proporia de femei care au acceptat testul HIV este de 134/788. Deci, din 486 de femei cstorite neateptm ca 486 134/788 = 82.6 s accepte testul HIV, dac ipoteza nul (referitoare la asociere) esteadevrat.
n mod similar, proporia de femei care au refuzat testul este = 654/788. Deci din 486 de femei cstorite,ne ateptm ca 486 654/788 = 403.4 s refuze testul, dac ipoteza nul este adevrat.
Se observ c 82.6 + 403.4 = 486. Deci suma frecvenelor estimate (ateptate) este aceeai ca i sumafrecvenelor observate.
n acelai mod, pentru 222 femei necastorite care au un partener ne ateptm ca 222 134/788 = 37.8s accepte testul HIV, dac ipoteza nul este adevrat, i 222 654/788 = 184.2 s refuze testul. Din nouse observ c 37.8 + 184.2 = 222, numrul total din al doilea rnd.
n mod similar se obin frecvenele estimate sau ateptate pentru toate celulele din tabel. Se observ c82.6 + 37.8 + 8.5 + 5.1 = 134.0 i 403.4 + 184.2 + 41.5 + 24.9 = 654.0. Frecvenele observate i cele estimateau aceleai totaluri pe rnduri i pe coloane. Se poate vedea, de asemenea, c pentru fiecare celuldin Tabelul 1, am calculat o frecven la care ne ateptm (frecven estimat) n Tabelul 2, cu ajutorulformulei
n mod similar se obin frecvenele estimate sau ateptate pentru toate celulele din tabel. Se observ c 82.6 + 37.8 + 8.5 + 5.1 = 134.0 i 403.4 + 184.2 + 41.5 + 24.9 = 654.0.
Frecvenele observate i cele estimate au aceleai totaluri pe rnduri i pe coloane. Pentru fiecare celul din frecvenelor observate, am calculat o frecven la care ne ateptm (frecven estimat) n cel de-al doilea tabel, cu ajutorul formulei
TESTUL HI-PTRAT
Testul hi-ptrat pentru tabele de contingen folosete diferenele dintre frecvenele observate i cele ateptate (estimate). Cu ct sunt mai mari aceste diferene cu att aceasta reprezint o dovad mai puternic a faptului c cele dou variabile sunt asociate. Nu se poate face doar o nsumare a acestor diferene pentru c suma lor este ntotdeauna zero.
Vom proceda n acelai fel ca atunci cnd am calculat abaterea standard i anume, le vom ridica la ptrat.
Cu ct sunt mai mari frecvenele, cu att este mai mare i valoarea posibil a diferenei dintre frecvenele observate i cele estimate.
Eantioanele mari produc diferene mai mari dect eantioanele de mici dimensiuni.
Aceast problem se poate corecta prin mprirea ptratului diferenei dintre frecvena observat i cea ateptat la valorile estimate (ateptate) - motivele exacte pentru aceast alegere sunt mai degrab abstracte i matematice
Vom calcula acest raport (observat - ateptat)2/ateptat pentru fiecare celul din tabel i apoi vom nsuma toate rapoartele
TESTUL HI-PTRAT
n exemplul nostru aceast sum este de 9.15
Suma rapoartelor (observat - ateptat)2/ateptat este numit statistica hi-ptrat i uneori este scris ca X2.
Aceasta reprezint statistica testului. Din formularea clasic a unui test de semnificaie, aceast statistic ar trebui s urmeze o anumit distribuie, n cazul n care ipoteza nul este adevrat. Pentru acest test, distribuia este distribuia hi-ptrat.
"Hi-ptrat", de cele mai multe ori apare scris ca fiind 2, unde este litera greceasc "chi", pronunat "ki".
Distribuia hi-ptrat este asemntoare cu distribuia t, de care este strns legat.
Exist o ntreag familie de distribuii, iar un membru special al acestei familii este definit printr-un singur parametru numit grade de libertate
TESTUL HI-PTRAT
Atunci cnd numrul gradelor de libertate este micdistribuia este asimetric spre dreapta, iar cndnumrul gradelor de libertate crete ea devine mult maisimetric, putnd eventual s arate ca i distribuianormal. Ne ateptm ca acest lucru s se ntmple,deoarece aceast distribuie este obinut prinnsumarea unor entiti i, acestea tind s generezedistribuia normal, cnd numrul de entiti nsumatecrete.
La fel ca i la distribuia t, la distribuia normal nu exist o formulsimpl pentru calculul ariei de sub curb i, prin urmare, pentru acalcula probabilitatea de a depi o anumit valoare dat.Se poate folosi un tabel de probabiliti laborios calculate printr-ometod matematic de aproximare
TESTUL HI-PTRAT
Pentru un tabel de contingen gradele de libertate sunt date de formula:
(nr de rnduri 1) x (nr de coloane 1)
(4 - 1) (2 - 1) = 3 grade de libertate
Statistica testului chi-ptrat pentru datele noastre este 9.15, valoare care se afl ntre cele dou puncte, astfel nct probabilitatea testului este ntre 5% i 1%. Vom scrie acest lucru ca p
Condiii care trebuiesc ndeplinite referitor la datele observate pentru ca testul hi-ptrat s fie valid:
eantionul trebuie s fie suficient de mare
observaiile trebuie s fie independente ntre ele
Testul hi-ptrat este valid n cazul n care cel puin 80% din frecvenele estimate (ateptate) depesc valoarea 5 i toate frecvenele estimate depesc valoarea 1. Acest criteriu este ndeplinit pentru eantioane mari.
Cu ct valorile estimate tind s devin mai mici, cu att va fi testul mai instabil.
Pentru tabelul nostru, toate valorile estimate depesc 5.0
Deoarece avem 8 frecvene estimate am putea accepta ca 8 x 0.2 = 1.6 din frecvenelor estimate s fie mai mici ca valoarea 5.
Vom rotunji aceast valoare n jos la 1.0 i vom spune c o frecven estimat cu valoare ntre 1 i 5 nu ar fi o problem.
Pentru un tabel de tip 2 x 2, 20% din celule reprezint 4 x 0.20 = 0.80, care este mai puin de 1, deci nici o celul nu ar trebui s aib frecvena estimat mai mic dect 5
Testul hi-ptrat pentru asociere ntr-un tabel de contingen este, de asemenea, cunoscut i sub numele de testul hi-ptrat Pearson
Statistica hi-ptrat nu este un indice care indic puterea de asociere.
Dac vom dubla frecvenele, se va dubla i valoarea statisticii hi-ptrat ns puterea de asociere rmne neschimbat.
TESTUL FISHER EXACT
(testul exact Fisher-Irwin)
n cazul n care testul hi-ptrat nu este valid, deoarece frecveneleestimate sunt prea mici
se poate aplica pentru orice tip de eantion, dei este folosit ngeneral numai pentru eantioane mici n tabele de tip 2 x 2, dincauza problemelor de calcul
Se calculeaz probabilitile tuturor tabelelor posibile, care audate totalurile pe rnduri i coloane.
Se nsumeaz apoi probabilitile pentru toate tabelele pentrucare am obinut probabiliti mai mici dect cea observat
Pentru ex testul Fisher exact d p = 0.029. Vom compara aceastvaloare cu cea obinut pentru testul hi-ptrat, adic cu p = 0.027.Sunt foarte asemntoare. Acest lucru nu este ntotdeaunaadevrat
testul Fisher exact: p = 0.029 testul hi-ptrat p = 0.027.
CORECIA YATES corecia de continuitate a testului hi-ptrat
Pentru tabele cu frecvenele estimate mici, testul hi-ptrat d probabiliti mai mici dect testul Fisher exact.
Yates a introdus o modificare a testului hi-ptrat pentru tabele de tip 2 x 2 ale crui valori aproximeaz foarte bine probabilitile obinute n testul Fisher exact.
Testul modific diferena dintre frecvena observat i cea ateapt fcnd-o mai apropiat de zero cu 0.5 nainte de ridicarea la ptrat
este aplicat la tabele 22 atunci cnd exist celule cu mai puinde 5 elemente (anumii autori o recomand la toate tabelele 22).
Prin corecia Yates se obine o mai bun aproximare a distribuieibinomiale, rezultatul este conservator n sensul c se obine mai greu semnificaia dect la aplicarea direct a testului 2 .
YATES
Este o msur a legturii ntre o boal i prezena unui factor de risc, presupus a influena apariia bolii Riscul Relativ, este raportul dintre riscul la cei expui, i riscul la cei neexpui.
Riscul relativ - definiii
Ne arat de cte ori este mai mare riscul la expui fade neexpui i este o msur a forei asocierii dintrefactorul de risc (expunere) i efect (boal)
Cu ct este mai mare RR, cu att argumentul cexpunerea i efectul sunt asociate este mai puternic
Riscul atribuibil ne arat ci indivizi vom salva de laefectul urmrit dac eradicm expunerea. Cu ct risculatribuibil este mai mare, cu att efectul evitrii expuneriieste mai mare
Riscul relativ
Studiile caz-
control
Studii n care se urmrete realizarea asocierii expunerii la un factor de risc a unei serii de cazuri ce prezint boala respectiv (caz), n comparaie cu un grup neafectat de boal (control, martor)
I. Recenzii sistematice, metaanaliza
II. Studii clinice randomizate
III. Studii de cohort
IV. Studii caz-control
V. Studii transversale
VI. Studii de caz i serii de cazuri
Nivelul dovezii (evidence-based medicine).
Piramida studiilor
Sunt cele mai frecvente studii epidemiologice analitice, observaionale
Sunt studii longitudinale (se refer la un interval de timp)
Retrospective (cercettorul privete napoi, de la boal spre o cauz posibil a acesteia)
Unitatea de observaie: individul (nu grupul, populaia)
Se studiaz n special bolile cu:
o perioad lung de laten (ex. cancerul)
cu o incubaie de durat
boli care sunt rare
Studiile caz-control
Factorul de risc (FR), n studiul caz-control este reprezentat de un eveniment care a survenit n trecutul subiecilor, naintea declanrii bolii
Exemple de FR:
Fumatul Medicamente administrate Caracteristici individuale (grupa
sanguin), etc.
Un indicator al asocierii ntre factorul de risc i boal este depistarea unei expuneri mai mari la factorul de risc al cazurilor, comparativ cu cel al
grupului de control, asocierea avnd importan etiologic
Sursa informaiilor: anamneza, istoricul afeciunii din fia medical, etc.
Studiul caz- martor se utilizeaz cnd prevalena bolii n populaie este mic
Permite studiul asociaiei mai multor factori de risc cu aceeai boal
maladiile cronice unde sunt incriminai mai muli factori de risc
Studiile caz martor sunt criticate deoarece nu sunt realizate ntr-o manier experimental, direcia studiului fiind de la boal spre factorul de risc
Este necesar eantionarea
cazurile luate n studiu trebuie s fie reprezentative pentru toate cazurile din maladia luat n studiu
ntrebare: selectm cazuri prevalente (care au boala de un timp), sau incidente (nou diagn.)
mai uor s lum prevalente, mai ales n cazul bolilor rare, unde pentru a gsi incidente trebuie s ateptm destul de mult
Din punctul de vedere al validitii - indicat s lum cazuri incidente (reducem suprareprezentarea cazurilor cu evoluiede lung durat i erorile sistematice de memorie)
n cazul maladiilor rare lum n studiu i cazuri noi i cazuri vechi
Exemplu: n cazurile vechi de boal, frecvena FR < n urma comportamentului modificat al bolnavului; va fi o diferen sistematic ntre cazurile diagnosticate de mai mult timp, deoarece pacienii pot fi informai despre cauzele bolii, iar martorii nu sunt informai
Lotul martor poate fi constituit din:
B. Lotul martor
Un eantion dintr-o anumit populaie, pentru grupul de cazuri ce fac parte din acea populaie
Un grup de pacieni internai sau luai n eviden la aceeai instituie de unde sunt selectate cazurile, dar cu alt diagnostic
Un grup de persoane din aceeai populaie ca icazurile, asemntoare cu acestea din punct de vedere al altor factori de risc
Grupuri de vecintate - grup de rude sau vecini ale cazurilor
1.
2.
3.
4.
Msurarea asociaiei FR - efect
Datele obinute ntr-un studiu caz martor se introduc ntr-un tabel de contingen 2x2
SAU
a persoanele ce fac boala dintre cei expui ; b - persoanele ce nu fac boala dintre cei expui.c - persoanele ce fac boala dintre cei nonexpui ; d - persoanele ce nu fac boala dintre cei nonexpui.a+b totalul expuilor. c+d totalul nonexpuilor. a+c totalul bolnavilor. b+d - totalul nonbolnavilor
Pentru msurarea forei asociaiei epidemiologice n anchetele de tip caz control se utilizeaz odds ratio (raportul cotelor, OR)
Cota (odds, O) unui eveniment este definit ca raportul dintre probabilitatea realizrii acelui eveniment raportat la probabilitatea nerealizrii lui
Diferena ntre probabilitate i cot (ODDS)
Termenii cot i probabilitate (risc) sunt folosii frecvent, n situaii diverse, de multe ori fcnd confuzie ntre ei. n statistic lucrurile sunt diferite.
Ambii termeni arat ct de probabil este ceva, dar se calculeaz diferit, fiind folosii n situaii diferite.
Probabilitatea =numrul cazurilor egal posibile care realizeaz evenimentul
numrul cazurilor egal posibile
Cota =numrul de apariii ale evenimentului
numrul de neapariii ale sale
Prob=1/6
Odds=1/5 Odds=
1
Riscul este probabilitatea de a suferi efectul
Cota (odds) este raportul dintre probabilitatea de a suferi
efectul i probabilitatea de a nu-l suferi
n cazul unei anchete epidemiologice raportul cotelor (OR) se definete:
OR = cota bolii la expui
cota bolii la nonexpui
n cazul bolilor rare (ex: bolile cronice cu prevalen
cota este ntotdeauna mai mare dect riscul, iar raportul cotelor (odds ratio) este ntotdeauna mai mare dect riscul relativ.
Riscul bolii la expui
Riscul bolii la nonexpui
Riscul relativ - demonstreaz de cte ori este mai mare riscul bolii la expui fa de cei nonexpui. Deci, grupul expuilor are un risc de RR ori mai mare de apariie a bolii dect grupul nonexpui
Cota bolii la expui e de OR mai mare dect la neexpui sau ansa expunerii la factorul de risc (F) este de (OR) mai mare n cazul celor care sufer deboala B fa de ansa de a fi fost expus la factorul F n cazul persoanelor sntoase
Riscul relativ
Cota bolii la expui OREXP= a/c
Cota bolii la ne-expui ORNEEXP= b/d
Raportul cotelor
Exemplul 1:
este diabetul factor de risc pentru infarctul acut de miocard?
Identificm
cazurile (indivizi cu infarct miocardic acut)
martorii (indivizi fr infarct miocardic acut)
i comparm pe unii cu ceilali n privina existenei diabetului:
Dac diabetul este mai frecvent la cazuri dect la martori, este posibil ca acesta s fie factor de risc.
Care sunt cotele (odds) diabetului zaharat (n acest caz factor de risc) la cazuri, respectiv la martori (aadar, cotele factorului de risc la bolnavi i la sntoi?
Dac avem mai muli martori pentru 1 caz, puterea studiului va crete. Numrul cazurilor este de obicei limitat (boala este rar de cele mai multe ori), dar martorii ar putea fi orici. Creterea puterii statistice a studiului nu mai e la fel de spectaculoas atunci cnd se depete un nr. de 4 martori/1caz
cota diabetului la cei cu infarct miocardic este
ORIMA/DZ=20/80=0,25 ; ORMARTORI=40/360=0,111
raportul cotelor OR= 0,250/0,111=2,25
Cum OR estimeaz riscul relativ (RR), pe care n studiile caz-martor nu avem cum s-l calculm, putem spune c pacienii cu infarct miocardic au un risc de 2,25 de ori mai mare s aib diabet dect pacienii fr infarct miocardic, iar transpus n relaia cauz-efect pe care o studiam noi, c pacienii cu diabet au un risc de 2,25 ori mai mare s fac infarct dect pacienii fr diabet
Date iniiale
Calculul valorilor ateptate
Valori ateptate
Dac in urma analizei statistice se obine p
Prezentarea i prelucrarea datelor n EpiInfo
Pentru OR sunt calculate i intervalele de ncredere [a, b]. Interpretarea lor este
imediat: Dac a1b, atunci variabila de expunere este
un factor indiferent
Dac 1 < a, atunci variabila de expunere este
un factor de risc
Dac b < 1, atunci variabila de expunere este un factor de protecie
Testul statistic adecvat este testul Chi
Dac in urma analizei statistice se obine p
Pentru evaluarea existenei unei legturi ntre boal i factorul de risc
-testul Hi ptrat (Chi square) (testul bidirecional two tails)
interpretare:
dac p0,05 nu se poate respinge ipoteza nul p este probabilitatea de a obine un rezultat ca cel gsit din cauza
ntmplrii n situaia n care n realitate nu exist legtur ntre parametrii urmrii
ales ntruct sunt date de tip calitativn formatul: p=valoare (cu maxim 3 zecimale)-numele testului folositEx: p=0.005 test student pentru eantioane perechi
NUMRUL NECESAR DE PACIENI CARE TREBUIESC TRATAI
NNT (number needed to treat)
conceput ca o modalitate util de a prezenta rezultatele unui studiu clinic, astfel ca medicii s poataprecia cu uurin eficacitatea unui tratament
reprezint numrul de pacieni care ar trebui s urmeze, mai degrab un anumit tratament dect altul,pentru a se obine beneficii suplimentare pentru un singur pacient
EXEMPLU:
Ct de muli oameni trebuie s se trateze cu bandaj elastic n loc de inelastic pentru a obine o singurvindecare suplimentar?
Dac diferena este de 25.4%, aceasta nseamn c pentru fiecare 100 de persoane pe care le tratmcu bandaj elastic n loc de inelastic, 25.4 se vor vindeca suplimentar. Prin urmare, pentru a vindeca opersoan n plus, trebuie s se trateze 100/25.4 = 3.9 pacieni. Pentru fiecare 3.9 persoane tratate cubandaj elastic n loc de inelastic, se estimeaz c o persoan n plus va fi vindecat
n mod clar un NNT mic este bun, deoarece este necesar s tratm doar civa pacieni pentru ca unul nplus s se vindece
NNT poate fi negativ? Un NNT negativ apare cnd proporia de vindecai pentru tratamentul testat(bandaj elastic) este mai mic dect proporia de vindecai pentru tratamentul de control (bandajinelastic). Tratamentul face mai mult ru dect bine. n acest caz, avem numrul de pacieni necesar a fitratai pentru a determina apariia unui efect negativ, notat cu NNTH (number needed to treat to harm)