MG_LP07_2014

download MG_LP07_2014

of 8

Transcript of MG_LP07_2014

  • 8/10/2019 MG_LP07_2014

    1/8

    MG - Lucrarea practic 72014/2015 UMF Carol Davila Informatic Medical i Biostatistic

    116

    Lucrarea practic 7

    Indicaii generale:

    Afirmaii de tipul fumatul este asociat cu decesul timpuriu, dup un prim atac de

    cord, fcute n urma comparrii unor proporii calculate cu date obinute din eantioanereprezentative, pot fi confirmate statistic prin teste hi ptrat (care n asemenea situaiisunt considerate ca teste de semnificaie statistic, i nu ca teste de bonitate).

    Aplicaiile statistice (SPSS, Epi I nfo, ) au evident implementate module pentruefectuarea direct a calculelor necesare. Dar rezultatele pot fi obinute i cu ajutorulaplicaiei Excel, controlnd n mod corespunztor desfurarea calculelor.

    n aceast lucrare practic:a) vei exersa modul de obinere a tabelelor de contingen din datele primare,

    att n Excel, ct i n FoxPro;

    b)

    vei aplica teste Z i hi ptrat pe tabele de contingen simple;c) vei nva s lucrai cu comanda TABLES din acest modul, comand dedicat

    obinerii tabelelor de contingen i a rezultatelor conexe.

    d) vei exploata funcia RAND pentru a obine un eantion aleator,

    e) vei folosi Excel pentru a obine o curb ROC.

    Teme32: tabele de contingen n Excel33: testul hi ptrat n Excel34: comanda TABLES n Epi Info35: extragerea eantioanelor aleatoarespecial: obinerea curbei ROC n Excel

    Softul ce va fi utilizat n lucrarea practic:

    Epi I nfo

  • 8/10/2019 MG_LP07_2014

    2/8

  • 8/10/2019 MG_LP07_2014

    3/8

    MG - Lucrarea practic 72014/2015 UMF Carol Davila Informatic Medical i Biostatistic

    118

    Vom ncerca s confirmm ultima afirmaie (este cauz) prin efectuarea unui test desemnificaie. Compararea celor dou populaii, anume a celor care n-au mai fumat,respectiv a celor care au continuat s fumeze se va face la nivelul proporiilor riscurilor dedeces.

    Ipoteza nul, pe care ncercm s o respingem n urma efecturii testului desemnificaie, este urmtoarea

    21 i ea exprim faptul c cele dou proporii nu difer semnificativ una de alta. Ipotezaalternativ, pe care o vom accepta dac vom reui respingerea ipotezei nule, este urmtoarea:

    21 .Evident, ea exprim faptul c riscul de deces este mai mare pentru cei care continu sfumeze.

    Proporiile riscurilor de deces sunt estimate prin frecvenele relative observate,1234.01p , 0701.02p , calculate pe baza datelor din eantioane. Ele sunt n concordan

    cu ipoteza alternativ!(Este important s facem aceast observaie! Cci n cazul n care frecvenele relativeobservate nu erau n concordan cu ipoteza alternativ, am fi confirmat o alt afirmaie!)

    Avem nevoie i de riscul de deces pentru ntreaga populaie, uor de calculat

    %24.9368

    34p . De asemenea, trebuie s reinem i volumele eantioanelor, 1541n ,

    2142n .

    Statistica pe care o folosim este

    21

    12

    11)1(

    nnpp

    ppz iar valoarea obinut o vom

    compara cu valoarea prag z corespunztoare nivelului de semnificaie ales. Mai precis,vom putea respinge ipoteza nul doar dac vom constata c zz .

    S ne alegem un nivel de semnificaie 01.0 . Valoarea prag z va fi obinut n Excel

    prin formula=NORMSINV(0.99)

    plasat ntro celuloarecare. (Atenie, 0.99 este 1 .) Ar trebui s o gsim 2.326.Copiai ntreaga foaie de calcul Conting ntro foaie nou, denumit ZTest. Plasai aici

    n celula E2 inscripia Frecvene relative iar dedesubt afiai coninutul celulelor cu 4zecimale (numeric, nu n procente).

    Plasai n celulaA7inscripia Nivelul de semnificaie, iar n celula B7numrul 0.01. ncontinuare, plasai n celula C7inscripia Valoarea prag, iar n celula D7formula=NORMSINV(1-B7)

    De asemenea, plasai n celula E7 inscripia Valoarea statisticii, iar n celula F7formula de calcul:=(E3-E4)/SQRT(E5*(1-E5)*(1/D3+1/D4))

    n sfrit, n celulaA8plasai, aliniat la stnga,formula logic:=IF(F7>D7,"respingem H0","nu putem respinge H0")

    Care este rezultatul?Modificai acum nivelul de semnificaie, n celula B7, la 0.05. Ce se ntmpl?Ar trebui, cu nivelul de semnificaie de 5%, s tragei concluzia c fumatul n continuare

    are efect negativ asupra ratei de supravieuire a pacienilor ce au suferit un atac de cord.

  • 8/10/2019 MG_LP07_2014

    4/8

    UMF Carol Davila Informatic Medical i Biostatistic MG - Lucrarea practic 7 2014/2015

    119

    Totui, cu nivelul de semnificaie mai mic, de doar 1%, aceast concluzie nu mai estesusinut de dateledin eantioane.

    Putem afla oare nivelul de semnificaie limit pentru care concluzia este susinut dedatele din eantioane?

    Plasai n celulaA9inscripia Valoarea p (riscul acceptrii ipotezei alternative), iar ncelula B9formula=1-NORMSDIST(F7)

    Ar trebui s obinei 4.08%.

    Copiai acum ntreg coninutul foii de calcul ZTest n alt foaie de calcul, pe care o veiredenumi Gripa.

    Modificai aici coninutul tabelului dinA2:D5, aa nct s apar astfel:S-au mbolnvit de grip Nu s-au mbolnvit de grip Total

    Vaccinai 80 420 ?Nevaccinai 150 535 ?

    Total ? ? ?Este vorba despre rezultatul unui studiu organizat de o companie farmaceutic, pentru a

    testa eficacitatea unui vaccin nou mpotriva gripei. n acest studiu, au fost selectai n modaleatoriu o serie de locuitori ai unui ora mare (ci anume?), care au fost urmrii dinnoiembrie pn n februarie. Dintre acetia, unii (ci anume?) au fost vaccinai, ceilali nu.Se poate afirma c vaccinul este eficient n combaterea gripei? (Se va alege ca nivel desemnificaie 05.0 .) Care este valoarea p a acestei afirmaii?

    Tema 33: testul hi ptrat n Excel

    S relum afirmaia fumatul este ASOCIAT CU decesul timpuriu, dup un prim atac decord. Ea poate fi confirmat cu ajutorul unui test hi-ptratDE SEMNIFICAIE.

    n Excel calculele necesare confirmrii vor exploata tabelul de contingen (din domeniulB3:C4 (care, reamintim, conine datele observate).Acest tabel are dou rnduri i doucoloane. Prin urmare, numrul gradelor de libertate este (21) (21) = 1.

    Copiai tabelul de pe foaia ZTest pe o foaie nou, unica foaie de calcul din fiierulnume_HIPATRAT.xls. Redenumii ChisqTest aceast foaie.

    Preluai, de asemenea, o copie a rndurilor 7:8de pe foaia ZTest pe foaia ChisqTest.Aceste rnduri conin nivelul de semnificaie, valoarea prag, valoarea statisticii, precum iformula de calcul a deciziei de a respinge sau nu ipoteza nul.

    Formula de calcul a valorii prag, din celula B9, a fost pregtit pentru testul Z; ea trebuieadaptat pentru testul hi ptrat. Aadar, o vei modifica n=CHIINV(B7, 1)

    Rmne doar s adaptm statistica pe care o folosim i care de data aceasta este cea a lui

    Pearson2

    2

    N

    NNN

    NN

    NX crrc

    crr c

    , unde rN sunt totalurile pe linii, cN sunt

    totalurile pe coloane, iar N este totalul general. Aceste totaluri au fost calculate pe coloanaDi pe rndul 5.

  • 8/10/2019 MG_LP07_2014

    5/8

    MG - Lucrarea practic 72014/2015 UMF Carol Davila Informatic Medical i Biostatistic

    120

    Formula pe care ar trebui s o plasm n celula F9este destul de complicat. Ar fi de

    preferat calculul preliminar al expresiilorN

    NN cr , pe care l-am putea efectua de exemplu n

    domeniul F3:G4, prin formula=$D3*B$5/$D$5

    i analoagele ei.

    Ar urma calculul preliminar al termenilor2

    N

    NNN

    NN

    N crrc

    cr

    , pe care l-am putea

    efectua de exemplu n domeniul I3:J4, prin formula=1/F3*(B3-F3)^2

    i analoagele ei.Acestea fiind calculate, formula din celula B9devine o simpl nsumare:=SUM(I3:J4)

    iar concluzia privind confirmarea afirmaiei (prin respingerea ipotezei nule) apare automat ncelulaA8.Ar fi interesant s plasai n celulaA9 inscripia Valoarea p (riscul acceptrii ipotezei

    alternative), iar n celula B9formula de calcul, care n cazul acestui test hi ptrat devine=CHITEST(B3:C4,F3:G4)

    Ar trebui s obinei o valoare dubl fa de valoarea pe care ai obinut-o (pentru acelainivel de semnificaie ales), n celulaA9 de pe foaia ZTest. Avei o explicaie pentruaceast coinciden?

    Tema 34: comanda TABLES n Epi Info

    Vom folosi acum modulul Analyze Dataal aplicaiei EpiInfopentru a analiza dateleprimare din fiierul LP07_1.xls.

    nainte de toate este necesar s prelum acest fiier, care nu a fost creat cu aplicaiaEpiInfo! Pentru aceasta vom folosi comanda Read (Import)din gruparea de comenzi Data.n caseta de dialog READ va trebui s alegem Excel 8.0 n lista Data Formats, apoi sidentificm fiierul n casetaData Source.

    Comenzile date, exprimate n limbajul aplicaiei, vor fi afiate n fereastra ProgramEditor. Ele vor putea fi reluate (eventual dup modificri) cu butonul Run din aceastfereastr.

  • 8/10/2019 MG_LP07_2014

    6/8

    UMF Carol Davila Informatic Medical i Biostatistic MG - Lucrarea practic 7 2014/2015

    121

    Apelai comanda List pentru a vedea coninutul fiierului. Observai cum suntidentificate datele, pe linii i pe coloane. (Este un exemplu simplificat de tabel coninnddate primare.)

    Apelai comanda Tablespentru a crea tabelul de contingen ntre variabilele Cont_smok

    i Deceased. Alegei aceste variabile n casetele list Exposure Variablerespectiv OutcomeVariable (ca n figura de mai sus).

    Observai rezultatele afiate. n tabelul de contingen, pe lng numerele cu care ne-amobinuit, sunt afiate i procentajele pe linii (Row%) i pe coloane (Col%). Pentru a scpade ele, reluai comanda, apsai butonul Settings(vezi figura) i renunai la Show Percents.

    Observai restul rezultatelor afiate n special n ultima parte. Ce putei identifica?STATISTICAL TESTS Chi-square 1-tailed p 2-tailed p

    Chi square - uncorrected 3,0321 0,0816356755

    Chi square - Mantel-Haenszel 3,0238 0,0820513166

    Chi square - corrected (Yates) 2,4299 0,1190395582

    Mid-p exact 0,0441211064

    Fisher exact 0,0603417435

    Tema 35: extragerea eantioanelor aleatoare.

    Teoria statisticii se bazeaz pe presupunerea c eantionul a fost ales aleator n populaie.Vei exersa acum tehnica extragerii unui eantion aleator de pacieni.

    S admitem c dorim extragerea unui numr determinat (prin calcule statistice anterioare)de pacieni, n condiiile n care fiecrui pacient trebuie s i se acorde anse egale de a fi ales.(Atenie, atunci cnd afirmm c extragem la ntmplare, de fapt subnelegem c ansa dea fi ales este aceeai pentru fiecare candidat potenial.)

    Probabil c dintre aplicaiile larg utilizate cea mai dotat pentru simulri aleatoare esteExcel. Ea dispune de funcia RAND, precum i de un modul de generare de numerealeatoare distribuite Bernoulli, binomial, Poisson, normal etc. Cea mai adecvat scopuluinostru este funcia RAND, care returneaz UN numr distribuit uniform ntre 0 i 1 ceea censeamn, n principiu, c orice numr dintre 0 i 1 are aceleai anse de a fi returnat de ctrefuncie. (Atenie, funcia RAND d un rezultat volatil, care se modific la orice schimbareefectuat pe foaia de calcul!)

    Soluia de alegere la ntmplare a unui numr de indivizi este bazat pe exploatareafunciei RAND.

    Pentru exemplificare, s folosim datele celor 368 pacieni stocate n foaia de calcul

    LP07_2.xls, presupunnd c acetia au fost toi pacienii examinai de medicul A.B. ndecursul unui an. Vom selecta la ntmplare un eantion format din 20 de pacieni.Observm c sunt ocupate doar coloaneleA-E. ColoanaA, sub titulatura id conine

    coduri-numere de ordine. Atunci cnd efectuai selecii, asigurai-v c fiecare nregistrare(pacient) are un identificator unic, de acest tip.

    Vom efectua operaiunea de selecie exploatnd celulele din coloana F. Mai precis, ncelula F1vom plasa textul selectia, iar n celula F2vom plasa coninutul =RAND() (ar fide preferat s-o facei prin intermediul comenzii InserareFuncie.)

    Odat plasat acest coninut, l vei extinde pe vertical prin tragere de mnerul celuleila domeniul F2:F369.

    (Ar trebui s observai c n urma extinderii coninutul din F2se schimb; motivul estevolatilitatea funciei RAND.)

  • 8/10/2019 MG_LP07_2014

    7/8

    MG - Lucrarea practic 72014/2015 UMF Carol Davila Informatic Medical i Biostatistic

    122

    Selectai acum datele din celuleleA-F (prin tragere deasupra butoanelor-indicator decoloan). Sortai aceste date, dup valorile coloanei F. Folosii comanda DateSortare.Acum, primele 21 de rnduri vor conine datele celor 20 de indivizi selectai n eantion.

    Copiai acesteprime 21 rnduri ntro foaie nou, pe care o denumii Eantion1. Repetai

    procedura de selecie prin sortarea dup datele din coloana F, prelund o copie a primelor 21rnduri n alt foaie,pe care o denumii Eantion2. Redenumind Originale foaia iniiala fiierului, salvai-l cu denumirea nume_SELECTII.xls(dar i ca pagin Web!).

    Tema special: obinerea curbei ROC n Excel.

    Vei efectua acum calculele necesare pentru a obine o curb ROC.Curbele ROC (receiver-operating characteristic) sunt diagrame de evaluare a

    performanelor realizate de un test (biologic) n clasificarea n dou clase (sntos/ bolnav).Se construiesc prin reprezentarea grafic a senzitivitii n raport cu valoarea 1specificitatea, pentru diverse praguri alese n domeniul valorilor testului.

    Pentru a le defini, s facem urmtoarele precizri. S presupunem c valori mari la testne ndeamn s diagnosticm boala (dar nu cu certitudine absolut!). Subiecii pozitivisunt cei pentru care a fost certificat boala, ceilali sunt negativi. Odat fixat un prag ,senzitivitatea asociat pragului este proporia subiecilor pozitivi pentru care valoarea latest depete pragul . Specificitatea asociat pragului este proporia subiecilor negativi(adic sntoi) pentru care valoarea la test nu depete pragul .

    Concret, senzitivitatea se obine mprind numrul de subieci true positives la numrultotal de subieci pozitivi (bolnavi), iar specificitatea se obine mprind numrul desubieci true negatives la numrul total de subieci negativi.

    Preluai foaia de calcul din fiierul LP07_3.xlsn foaiape care o vei denumi Datele

    din cartea de calcul pe care o vei denumi nume_ROC.xls. Vei gsi valorile testului pentru32 de subieci, mpreun cu clasificarea lor, certificat clinic.Un prim calcul ce trebuie realizat, dup sortarea nregistrrilor n ordinea cresctoare a

    valorilor testului, este cel al valorilor extreme ale testului. Plasai n celula C1 textulExtreme, apoi n celulele din domeniul C2:C3 inserai formulele de calculcorespunztoare. (n C2 formula de obinere a valorii minime=MIN(A2:A33), iar n C3formulapentru valoarea maxim=MAX(A2:A33).)

    Inserai n cartea de calcul nume_ROC.xls o foaie nou, denumind-o Calcule. Veiefectua aici urmtoarele operaiuni, n ordine:

    a) preluai din foaia Datele coloaneleAi B;b) plasai n coloana Cvalorile-prag pentru care calculm senzitivitatea i specificitatea.

    Plasai n celula C1textul Praguri, n C2

    formula primului prag (care este cu 1 mai micdect valoarea minim)=Datele!C21, iar n C3formula primului prag intermediar (careeste media aritmetic a primelor dou valori)=(A3+A2)/2. Extindei formula din C3 ladomeniul C3:C33iar dedesubt plasai formula ultimului prag =Datele!C3+1;

    c) este obligatoriu s identificm pragurile intermediare care coincid cu valori ale testului,pentru a fi eliminate. n acest scop vei compara coloanaCcu coloanaAa valorilor testului,iar rezultatele comparrii le vei trece pe coloana D. Aadar, n celula D1plasai textulElimin rndul?, iar n D2 formula =IF(C2=A2,da,nu)pe care o extindei ladomeniul D2:D34;

    d) urmeaz stabilirea numrului de subieci true negatives, false negatives, truepositives i false positives pentru fiecare prag. Vei rezerva n acest scop coloanele E:H,n care:

  • 8/10/2019 MG_LP07_2014

    8/8

    UMF Carol Davila Informatic Medical i Biostatistic MG - Lucrarea practic 7 2014/2015

    123

    pe rndul 1vei plasa texte de identificare, de exemplu True neg n celula E1, Falsenegn celula F1, False pos n celula G1i True pos n celula H1;pe rndul 2vei plasa valori de iniializare, de exemplu 0 n celulele E2i F2, apoi

    =COUNTIF($B$2:$B$33,"sanatos")E2 n celula G2, iar n celula H2 formula

    =COUNTIF($B$2:$B$33,"bolnav")F2;pe rndul 3vei plasa alte valori de iniializare n celulele E3i F3, apoi le vei extinde

    pe rndurile urmtoare, pn la 34. Formulele sunt=COUNTIF($B$2:$B3,"sanatos")resp. =COUNTIF(...,"bolnav")

    (Ai identificat rolul acestor formule?)e) n sfrit, coloanele I i J vor servi pentru calcularea senzitivitilor respectiv

    specificitilor. Plasai n celula I1 textul 1 Specif iar n J1 textul Senzit, inseraidedesubt formulele de calcul, =1E2/(E2+G2)n celula I2i =F2/(F2+H2)n celulaJ2dup care extindei formulele la domeniul I2:J34.

    Inserai n cartea de calcul nume_ROC.xls a treia foaie, denumind-o Grafica. Vei

    aduce aici datele de care avem nevoie pentru a efectua reprezentarea grafic dorit. Maiprecis, preluai n domeniulA1:C34prin Copiere/Lipire special (Valori), una dup alta,coloanele identificate de textele Elimin rndul?, 1 Specif i Senzit din foaiaCalcule.

    Selectai domeniulA1:C34i sortai-l dup valorile din coloana Eliminrndul?. Dupsortare eliminai toate rndurile care au valoarea da n aceast coloan.

    Cu datele rmase n coloanele Bi Cvei construi reprezentarea grafic. Dup selectarealor inserai diagrama de tipul X-Y (cu marcatoriunii prin segmente). Introducei prin tastaretitlurile 1 Specificitatea pe axa X iSenzitivitatea pe axa Y. Eliminai legenda itoate liniile de ghidare.

    Modificai scalarea pe ambele axe aa nctvalorile extreme s fie 0 1.

    Folosind instrumentele de desenare, plasai pediagonalun segment de dreapt, iar apoi textularia = 0.675 ntro caset text.

    Preluai diagrama obinut n documentulnume_CURBA_ROC.doc plasnd-o caexemplu dup paragrafele pe fond gri anterioare.