Biostatistica MG - Cursul II

download Biostatistica MG - Cursul II

of 11

Transcript of Biostatistica MG - Cursul II

  • 8/15/2019 Biostatistica MG - Cursul II

    1/11

     Biostatistică – Cursul al II-lea

    CURSUL AL II-LEA

    2. Indicatori statistici

    2.1. Serii de valori. Aşa cum s-a văzut în cursul anterior, uneori este necesar să urmărim mai întâi o singurăvariabilă numerică din multitudinea de variabile înregistrate într -un tabel de date. În acest caz, datelenumerice pe care le avem la dispoziţie sunt un simplu şir de numere asociate, fiecare din ele, unui individ.

    Aceste şiruri de numere rezultate din datele culese le vom numi serii statistice sau serii de date sau serii devalori. 

    Ceea ce trebuie urmăr it în primul rând la o serie de valori  este modul în care valorile din serie suntdistribuite în plaja de valori între un minim şi un maxim, cum se distribuie în jurul mediei, care este tendinţacentrală a seriei, care sunt valorile cel mai des întâlnite, etc.

    Caracterizarea sintetică a unei serii de valori este dată de aşa numiţii indicatori statistici, între care media,deviaţia standard, mediana, etc, indicatori pe care îi vom descrie în continuare. 

    Definiţie: Indicatorii statistici  sunt numere reale, care sintetizează o parte dininformaţia conţinută de o serie de valori, dând posibilitata aprecierii globale a întregiiserii, în loc să ţinem cont de fiecare valoare din şir. 

    Aşa cum se va vedea în acest curs, fiecare indicator urmăreşte să scoată în evidenţă proprietăţi diferite aleşirului de valori.

    Astfel, prin combinarea mai multor indicatori, obţinem informaţii relevante şi sintetice despre valorileşirului. Dacă în locul şirului propriu-zis, folosim o serie de indicatori statistici, o parte din informaţie se

     pierde. Totuşi, de obicei se pierde ceea ce este nesemnificativ, accidental, indicatorii statistici reţinând doaresenţailul. De aici şi utilitatea şi importanţa lor în statistică. 

    În cele ce urmează, valorile din şirul de numere ce constituie o serie de valori le vom nota cu

     X: x1 , x2 ,....... xn , sau Y: y1 ,y2 ,…..yn 

    sau notaţii asemănătoare folosind alte litere ale alfabetului. 

    De exemplu, în loc să spunem că cele 10 valori ale glicemei la cei zece pacienţi dintr -un lot sunt: 88, 97, 103,89, 93, 105, 98, 105, 88, 103, vom scrie în loc de Glicemie litera X , şi în locul fiecărui număr din cele zece,simbolurile x1 , x2 ,….x10. Deci, x1 ţine locul lui 88, x2  pe cel al lui 97, etc. Aceste notaţii le folosim pentru auşura înţelegerea formulelor de calcul pentru unii indicatori.

    Valori extreme, amplitudine

    Cel mai uşor de căutat şi de înţeles ca semnificaţie sunt indicatorii Minim  şi Maxim care sunt cei ce neindică  plaja de valori  pe care se întinde seria de valori. Minim este cea mai mică valoare din serie, iarMaxim este cea mai mare.

    Amplitudinea absolută, este diferenţa dintre maximul şi minimul unei serii de valori şi ne dă informaţiidespre lărgimea plajei de valori pe care se întind datele din serie (vezi figura 1.1). O serie de valori cu oamplitudine mare indică o plajă de valori întinsă datorată fie unei dispersii sau împrăştieri mari a datelor, fiesimplului fapt că sunt multe valori. Dacă două serii de valori au acelaşi număr de valori, dar una are oamplitudine mai mare, atunci valorile ei sunt mai împrăştiate. 

     Figura 1.1. Indicatorii medie, minim, maxim, amplitudine absolută şi amplitudine relativă. 

    1

  • 8/15/2019 Biostatistica MG - Cursul II

    2/11

     Biostatistică – Cursul al II-lea

    De cele mai multe ori, valorile minimă şi maximă dintr -o serie nu se înscriu în limitele de normalitate, ceeace nu înseamnă neapărat că seria  conţine valori anormale. Totuşi, de obicei, cele mai îndepărtate câtevavalori, atât cele mai mici cât şi cele mai mari trebuie verificate pentru a ne asigura că nu este vorba de dateeronate.

    De exemplu, deşi se consideră că valorile normale pentru latenţa semnalului nervos pe nervul optic întrestimularea retinei şi răspunsul cortical sunt situate aproximativ între 90 ms şi 115 ms, un eşantion de indivizi

    sănătoşi poate să producă o serie de valori care are şi una sau câteva excepţii. De aceea, din 20 sau 30 devalori, una poate fi 88 ms iar alta 117 ms, majoritatea fiind însă între 90 şi 115 ms.  

    2.2. Valori medii. Media aritmetică a unei serii de valori. Este un indicator simplu şi în acelaşi timp foartesintetic, fiind un foarte bun indiciu al valorii în jurul căreia se grupează datele. Se notează cu litera m sau,

    dacă seria de valori este notată cu o majusculă ca X sau Y, media se notează cu  X   sau Y  . Formula este ceacunoscută: 

     X   x x x 

    nm

    n=

    + +=

    1 2  .........

      (1.1)

    Definiţie: 

     Media aritmetică unei serii de valori este raportul dintre suma valorilor seriei şi numărul lor. 

    Media este indicatorul care arată tendinţa centrală a seriei de valori, şi de obicei arată unde tinddatele să se aglomereze. De cele mai multe ori, valorile din serie sunt situate în majoritate în apropiereamediei, iar o mai mică parte din ele sunt situate mult în stânga sau în dreapta mediei. O situare a valorilor dinserie faţă de medie se poate observa din aşa-numitul grafic punctual de dispersie, din care este dat unexemplu în figura 1.2 

    Figura 1.2. Cele mai multe valori sunt de obicei mai apropiate de medie.

    Dar nu totdeauna datele din seria de valori se situează preponderent în apropierea mediei. Mai rar, şioarecum mai forţat, ne putem întâlni şi cu situaţii în care datele din serie se situează preponderent în stânga şidreapta, departe de medie şi doar o mică parte dintre ele se situează aproape de medie, aşa cum se observă înfigura 1.3.

    Figura 1.3. Uneori, cele mai multe valori sunt sub medie şi peste medie, destul de departe de aceasta. În seriile de mai sus, avem aceeaşi medie, dar este evident că nu avem aceeaşi situaţie. Valorile din seria de jos

     sunt mai împrăştiate. 

    Astfel, dacă în acelaşi lot sunt cuprinşi indivizi hipertiroidieni şi hipotiroidieni, şi se măsoară la fiecareconcentraţia hormonului tiroidian T4, vom observa că hipotiroidienii au preponderent valori în stânga mediei,cei mai mulţi destul de departe de medie, iar hipertiroidienii au preponderent valori în dreapta, tot departe de

    medie.De fapt într-un asemenea caz, în zona centrală lipsesc exact ceea ce am spune că sunt normalii, adică indivizicare au valori pentru T4 uşor peste medie şi uşor sub medie, şi care nu au fost incluşi într -un astfel de lot.

    2

  • 8/15/2019 Biostatistica MG - Cursul II

    3/11

     Biostatistică – Cursul al II-lea

    Evident că un eşantion aşa de eterogen nu este folosit prea des în statistică pentru că, aşa cum vom vedea, înacest caz este foarte indicat să se constituie două eşantioane distincte pentru cele două categorii de pacienţi.Totuşi, asemenea situaţii, chiar dacă de obicei nu sunt indicate şi sunt puţin artificiale, există. Situaţia de maisus este ilustrată în figura 1.3.

    O formulă simplificată pentru media aritmetică este dată de: 

    n

    nn

    F F F 

    F  x F  x F  x  X 

    +++

    ⋅++⋅+⋅=

    ...........

    ............

    21

    2211  

    unde cu n am notat numărul de valori diferite din seria de valori, iar F 1 , F 2 , ...,F n sunt frecvenţele de apariţieîn serie ale valorilor x1 , x2 , ...,xn. 

    Această formulă se spune că este formula pentru media ponderată. Nu trebuie să credem că media ponderată calculată cu formula de mai sus şi media aritmetică calculată cu formula (1.1), sunt indicatoridiferiţi. Ambele medii sunt în realitate identice. Media ponderată se calculează de obicei mai simplu şi decinu reprezintă decât o formă mai simplă de calcul al mediei aritmetice. 

    Prin faptul că este un indicator extrem de fidel al tendinţei centrale al unei serii statistice, media este unindicator extrem de mult utilizat în statistică. Media aritmetică are dezavantajul că este sensibilă la valoriextreme fie foarte mici, fie foarte mari. Adăugarea unei singure valori (sau a câtorva) mult mai mari decât

    celelalte, modifică sensibil media aritmetică. De asemenea, dacă datele sunt distribuite în jurul mediei puternic asimetric, media îşi pierde din puterea de aevoca tendinţa centrală, în aceste cazuri fiind mult mai utilă mediana (vezi mai jos). 

    2.3. Împrăştiere. Valorile dintr-o serie de valori pot fi mai aglomerate în jurul mediei sau mai dispersate,adică la distanţe mari de medie. Un mod de a măsura aceste abateri de la medie este să se facă diferenţa întretoate aceste valori şi media lor. Unele abateri vor fi pozitive, altele negative. Ele nu pot fi adunate, deoarece,

     prin adunare dau suma 0.

    Dispersia. Un mod de a ocoli faptul că suma abaterilor absolute este 0, este ridicarea la pătrat a acestoraînainte de a fi adunate, pentru a face să dispară semnele negative la unele şi pozitive la altele.

    Suma obţinută, ar trebui împărţită la numărul de abateri pentru a se obţine o medie. În realitate, din motive

    teoretice foarte bine întemeiate, dar mai greu de explicat în cuvinte simple, împărţirea se face la n-1 şi nu lan. Motivul pentru care se face acest lucru va fi înţeles mai bine în contextul unor noţiuni enunţate la cursuldespre teoria estimaţiei. Valoarea care se obţine astfel se numeşte dispersie şi este un indicator al gradului deîmprăştiere al seriei. Dispersia se notează cu D şi are formula: 

    1

    )(.......)()(   2222

    1

    −++−+−=

    n

     X  x X  x X  x D   n  

    După cum se observă, numărătorul fracţiei din definiţia dispersiei este cu atât mai mare cu cât abaterileindividuale de la medie sunt mai mari şi deci este natural să considerăm că o valoare mare a dispersiei arată oîmprăştiere mare a valorilor din serie. 

    De fapt, este bine de reţinut că: 

    •  La medii aproximativ egale, este mai împrăştiată seria cu dispersia mai mare. 

    •  La dispersii aproximativ egale, este mai împrăştiată seria cu media mai mică. 

    Dispersia are dezavantajul că se exprimă cu unităţile de măsură ale valorilor din serie, ridicate la pătrat, şi areîn general valori foarte mari comparativ cu abaterea medie. De exemplu, dacă valorile din serie se măsoară înmg/l, atunci dispersia se măsoară în mg2/l2, ceea ce este în mod evident extrem de nenatural.

    În plus, dacă abaterile absolute au o medie, de exemplu în jurul lui 10, dispersia va avea o valoare în jurul lui100, adică exagerat de mare în comparaţie cu abaterile absolute. De aceea se mai foloseşte un alt indicator,numit abatere standard care este radicalul dispersiei.

    Abaterea standard. Se notează cu σ   şi are formula: 

    σ    =   D  sau1

    )(.......)()(   2222

    1

    −++−+−=

    n

     X  x X  x X  x nσ    

    3

  • 8/15/2019 Biostatistica MG - Cursul II

    4/11

     Biostatistică – Cursul al II-lea

    Acest indicator se exprimă cu aceeaşi unitate de măsură ca şi valorile din seria considerată şi este unindicator foarte fidel al împrăştierii seriei. Abaterea standard, nu are dezavantajele dispersiei, adică unitateade măsură este aceeaşi cu a valorilor din serie, şi, are o valoare comparabilă cu abaterile individuale de lamedie.

    Exemplu de calcul:

    Să presupunem că am măsurat zilnic tensiunea arterială sistolică la doi pacienţi timp de 10 zile, obţinând

     pentru fiecare următoarele valori: •  170, 180, 160, 180, 190, 190, 180, 190, 170, 190, pentru primul pacient şi 

    • 

    160, 170, 190, 160, 190, 190, 200, 180, 180, 180, pentru al doilea.

    Lăsând la o parte studiul modului cum evoluează de la zi la zi tensiunea pacienţilor, care este bineînţelesimportantă, să ne propunem să determinăm care are tensiunea cu valori mai împrăştiate, indiferent deevoluţia în timp. 

     Notând prima serie cu X  iar pe a doua cu Y  se constată uşor că ambele au media 180 (datele nu sunt reale, aufost deliberat alese ca să simplifice calculele). Atunci, vom avea pentru abaterile de la medie şi pentru

     pătratele lor următoarele valori: 

    •  xi -  X : -10, 0, -20, 0, 10, 10, 0, 10, -10, 10.  X = 180.

    •  yi - Y  : -20, -10, 10, -20, 10, 10, 20, 0, 0, 0. Y  = 180.

    •  (xi -  X  )2 : 100, 0, 400, 0, 100, 100, 0, 100, 100, 100.

    •  (yi - Y  )2 : 400, 100, 100, 400, 100, 100, 400, 0, 0, 0.

    Deci vom avea pentru Dx:

     D  x X x X x X  

     x  =

    − + − + + −

    =+ ⋅

    = =( ) ( ) ....... ( )

    ,12

    2

    2

    10

    2

    10 1

    400 6 100

    9

    1000

    91111  

    şi cu un calcul absolut analog, D y = 1600 / 9 = 177,7 . Se observă că, în timp ce abaterile de la medie sunt de

    ordinul zecilor, dispersiile sunt de ordinul sutelor, ceea ce este destul de nenatural, şi în plus, după cum ammai spus, unitatea de măsură este cu totul alta.

    Pentru abaterile standard, vom avea:

    σ  

    σ  

     x x

     y y

     D

     D

    = = =

    = = =

    111 1 10 5

    177 7 13 3

    , ,

    , , 

    calculele fiind făcute cu aproximaţie. Deci, este ceva mai împrăştiată seria Y .

    De fapt, este bine de reţinut că: 

    •  La medii aproximativ egale, este mai împrăştiată seria cu deviaţia standard mai mare.

    • 

    La deviaţii standard aproximativ egale, este mai împrăştiată seria cu media mai mică. 

    Ce se întămplă însă dacă mediile şi deviaţiile sunt foarte diferite? Atunci o bună apreciere se obţine dacă sefoloseşte raportul deviaţiei standard faţă de medie, exprimat în procente, acest raport fiind un alt indicator alîmprăştierii valorilor dintr -o serie. Acest indicator se numeşte coeficient de variaţie.

    Coeficientul de variaţie. Este raportul dintre deviaţia standard şi medie, atunci când media este diferită de 0şi se exprimă în procente: 

     X V C 

      σ  

    =..  

    Pentru seriile de mai sus, coeficientul de variaţie este mai mare pentru cea mai împrăştiată, adică pentru cea

    cu deviaţia standard mai mare: •  C.V.x= 10,5 / 180 = 0,058 = 5,8 %.

    •  C.V.y = 13,3 / 180 = 0,073 = 7,3%.

    4

  • 8/15/2019 Biostatistica MG - Cursul II

    5/11

     Biostatistică – Cursul al II-lea

    Totuşi, seriile de mai sus sunt comparabile cu ajutorul abaterilor standard, deoarece au aceeaşi medie, şi, aşacum s-a văzut, la medii egale sau aproximativ egale, are valorile mai împrăştiate seria cu abaterea standardmai mare.

    Aprecierea cu ajutorul coeficientului de variaţie se face mai ales atunci când două serii de valori au mediimult diferite şi deviaţiile standard pot să nu ne dea o indicaţie suficient de utilă. De exemplu, măsurândlatenţa şi  amplitudinea  semnalului electric pe nervul optic  la 120 de pacienţi cu  scleroză multiplă, s-au

    obţinut următoarele rezultate: • 

     Latenţa medie: 113,6

    • Abaterea standard a latenţei: 14,7

    •  Amplitudinea medie: 2,68

    • Abaterea standard a amplitudinii: 2,03

    Dacă dorim să apreciem împrăştierea valorilor din cele două serii, abaterile standard nu ne sunt de ajutor.Într-adevăr, latenţa are o abatere standard mult mai mare decât amplitudinea, dar şi media latenţei este cumult mai mare decât aceea a amplitudinii. De aceea, în acest caz, doar coef icientul de variaţie ne permite oapreciere corectă a împrăştierilor, în vederea comparării lor: 

    • 

    Pentru latenţă: %9,12129,06,113

    7,14

    ..   ===laten ţaV C   

    • Pentru amplitudine: %7,75757,068,2

    03,2..   ===eamplitudinV C   

    Se observă că valorile amplitudinii sunt cu mult mai împrăştiate decât cele ale latenţei. Acest fapt sedatorează atât unei variabilităţi biologice mai mari la amplitudine decât la latenţă, cât şi unei variabilităţidatorate aparatelor de măsură, care măsoară latenţa cu mai multă precizie, în timp ce la măsurareaamplitudinii, erorile de măsurare sunt mai mari. 

    Coeficientul de variaţie este cel mai fidel indicator al împrăştierii unei serii statistice, dar are şi el uninconvenient, este cu atât mai fidel cu cât mediile sunt mai depărtate de 0.  

    La medii foarte apropiate de 0 îşi pierde din fidelitate şi nu este indicat să fie folosit. Acest lucru se întâmplămai ales atunci când valorile din serie sunt şi negative şi pozitive, şi când, din acest motiv, media poate fiaproape de 0.

    2.4. Indicatori de asimetrie. Atunci când valorile unei serii sunt distribuite nesimetric în jurul mediei, acestfapt este imposibil de surprins cu ajutorul indicatorilor de dispersie. De aceea, s-au introdus indicatori care să

     pună în evidenţă şi acest aspect al seriilor de valori: excentricitatea, sau asimetria. Va trebui să ţinem contatât de numărul de valori care sunt în stânga şi în dreapta mediei, cât şi depărtarea lor faţă de medie.  

    Mediana. Este un indicator al tendinţei centrale, şi anume este valoarea de mijloc, într -o serie de valori.

    Definiţie: 

     Mediana este acea valoare dintr-o serie de valori, pentru care exact jumătate din ele sunt maimici decât ea, iar jumătate mai mari. 

    Altfel spus, este valoarea măsurată pentru individul din mijloc, dacă indivizii pe care s-au făcut măsurătorilear fi ordonaţi creascător. Pentru o înţelegere mai uşoară, să luăm un exemplu cu numai 10 înregistrări:tensiunea arterială maximă la un bolnav în 10 zile: 

    150, 160, 160, 170, 160, 170, 150, 160, 170,160.

    Dacă se aşază aceste valori într -un şir crescător, obţinem: 

    150, 150, 160, 160, 160, 160, 160, 170,170,170.

    În acest caz, mediana se ia între a cincia şi a şasea valoare din acest şir ordonat, adică 160. Dacă aceste douăvalori de mijloc diferă, se ia media lor aritmetică. Dacă numărul de măsurători este impar atunci madiana

    este chiar valoarea de mijloc, care în acest caz este unică. 

    De fapt, mediana este importantă în primul rând la serii de valori cu foarte multe înregistrări, caz în care se poate lucra direct pe tabelul de frecvenţă, sau chiar pe tabelul pe clase.

    5

  • 8/15/2019 Biostatistica MG - Cursul II

    6/11

     Biostatistică – Cursul al II-lea

    Pentru a exemplifica modul cum se caută mediana pe tabelul de frecvenţă, vom lua tabelul 1.3, în care suntcentralizate vârstele a 234 de pacienţi, fiecare valoare a vârstei având o anumită frecvenţă absolută F i ,  ofrecvenţă relativă f i şi o frecvenţă relativă cumulată crescător, f icc (vezi mai sus, pentru amănunte). 

    Valoarea medianei se culege din coloana întâi, a vârstelor, dar pentru a şti care valoare trebuie aleasă, trebuiesă privim pe ultima coloană, a frecvenţelor cumulate, f icc, în dreptul frecvenţei cumulate de 50%. 

    Se observă că, pe coloana frecvenţelor cumulate, nu există frecvenţa de 50%, dar, există frecvenţa de 47,9%,

    care este prea mică, şi frecvenţa de 53,8%, care este prea mare. În acest caz, mediana se citeşte din dreptul primei frecvenţe cumulate crescător care depăşeşte 50%, în cazul nostru, în dreptul frecvenţei de 53,8%, şi pe coloana Vârsta citim 55 ani. Deci, vârsta mediană este 55 ani. 

    Tabelul 1.3. Vârstele a 234 de pacienţi centralizate într -un tabel de frecvenţă 

    Deci, vom spune că jumătate dintre pacienţi au vârstele cuprinse între 26 şi 55 ani şi jumătate au vârstele maimari decât 55 ani. Această alegere este permisă în cazul acesta al vârstelor care se înregistrează cu valori

    întregi.

    Mediana este un indicator al tendinţei centrale, ca şi media, dar oferă mai puţină informaţie decât aceasta dinurmă. La distribuţiile echilibrate, la care valorile din serie se dispun aproximativ simetric în stânga şi îndreapta mediei, media şi mediana sunt foarte apropiate, deci folosirea medianei este superfluă. Dacă însămediana este mult în stânga sau în dreapta mediei, distribuţia se zice că este excentrică. 

    De exemplu, venitul median este mai informativ decât venitul mediu deoarece distribuţia veniturilor într -o populaţie este foarte excentrică, fiind foarte mulţi indivzi cu salarii foarte mici şi foarte puţini indivizi cusalarii foarte mari.

    Cuartilele. În mod asemănător cu căutarea medianei, se poate pune problema căutării unor valori pentru caresă avem un sfert din valorile seriei mai mici şi respectiv, mai mari.  

    Definiţie: 

    Cuartila Q1 este acea valoare dintr-o serie de valori, pentru care 25% din valorile

    seriei sunt sub Q1 şi 75%, peste.

    Pentru tabelul de frecvenţe 1.3, cuartila Q1 se caută în dreptul frecvenţei relative cumulate crescător de 25%.În tabel găsim procentul de 24,4% şi în dreptul lui vârsta de 47 de ani, precum şi frecvenţa de 29,9 şi îndreptul ei vârsta de 48 de ani. Vom lua tot vârsta care corespunde primului procent peste 25%, adică 48 deani.

    Definiţie: 

    Cuartila Q3 este acea valoare dintr-o serie de valori, pentru care 75% din valorile

    seriei sunt sub Q3 şi 25%, peste.

    Pentru tabelul 1.3, cuartila Q3 se ia din dreptul frecvenţei relative cumulate crescător de 75%. Poate fi luatăcu aproximaţie, 60 ani.

    6

  • 8/15/2019 Biostatistica MG - Cursul II

    7/11

  • 8/15/2019 Biostatistica MG - Cursul II

    8/11

     Biostatistică – Cursul al II-lea

    Totuşi, vom întâlni şi parametri care se distribuie cu asimetrie stânga în patologii: hemoglobina, calcemia,sodiul ionic, etc. Hemoglobina, de exemplu, se poate distribui cu frecvenţă mai mare la   valori relativnormale şi cu frecvenţe din ce în ce mai mici pe măsură ce coborâm la valori mai mici. Chiar dacă avem o

     patologie de tip anemie, ne aşteptăm ca frecvenţa în jurul a 9-10 să fie mai mare decât frecvenţa în jurul a 7-8, frecvenţă care ne aşteptăm să fie foarte mică. 

    Excentricitatea unei serii de valori x1, x2,…..xn, se calculează cu formula: 

    3

    1

    3)(

    σ  n

     X  x

    sk 

    n

    i

    i∑=

    =  

    Cu cât o distribuţie este mai simetrică cu atât sk   tinde la 0. Ca o regulă generală, la distribuţiile cuexcentricitate pozitivă, media este mai mare decât mediana. Evident, media este mai mică decât medianala distribuţiile cu excentricitate negativă. Există cazuri rare în care regula de mai sus nu este valabilă.  

    Sunt multe alte formule pentru alţi coeficienţi de excentricitate şi când vorbim despre excentriciatte, trebuiesă menţionăm la ce coeficient de excentricitate ne referim. Uneori se foloseşte un coeficient de asimetrie caremăsoară diferenţa dintre medie şi mediană, eventual raportată la abaterea standard sau la intervaleintercuartilice( Q3 - Q1). Indiferent ce formulă se foloseşte, o excentricitate egală cu zero, sau foarte apropiatăde zero, este un indiciu al simetriei repartiţiei valorilor din serie. Din contră, excentricităţi mult diferite de 0,

     peste 0,15 -0,20, sau mai jos de -0,15 -0,20 sunt indicii ale asimetriei. Dăm mai jos, cu titlu facultativ, câtevaformule pentru coeficienţi de excentricitate. 

    σ  

     Mo X sk 

      −=1  

    σ  

    )(32

     Me X sk 

      −

    =  13

    133

    )2(2

    QQ

     MeQQsk 

    −+=  

    ( ) ( )( ) ( )

    13

    134

    Q Me MeQ

    Q Me MeQsk 

    −+−

    −−−=  

    Boltirea (facultativ). Boltirea este un indicator care se bazează pe lungimea cozilor unei distribuţii. Cele cucozi relativ mari se numesc leptocurtice  iar cele cu cozi relativ mici se numesc platicurtice  (vezi figura1.4). Formula de calcul a boltirii este:

    3

    )(

    4

    1

    4

    =

    ∑=

    σ  n

     X  x

    n

    i

    i

     

    Aşa cum se va vedea în capitolul despre repartiţii, boltirea este un indicator util în aprecierea apropieriirepartiţiei de repartiţia normală. Distribuţiile din figura 1.4 au aceeaşi medie, aceeaşi dispersie, aproximativaceeaşi excentricitate dar diferă mult ca boltire.

     Figura 1.4. Distibuţie leptocurtică şi distribuţie platicurtică. 

    2.5. Clasificarea indicatorilor

    Indicatorii statistici poartă în ei, fiecare, o anumită cantitate de informaţie, din seria de valori pentru care aufost calculaţi. Aşa cum s-a văzut în paragrafele precedente, unii indicatori ne dau informaţii despre tendinţacentrală a valorilor din serie, alţii ne dau informaţii despre împrăştierea valorilor, alţii ne dau indicaţii despresimetria valorilor din serie, boltirea ne dă indicaţii despre lungimea cozilor distribuţiei, etc.

    Informaţia oferită de indicatorii statistici este redundantă, în sensul că, de exemplu, împrăştierea valorilor dinserie este indicată şi de dispersie şi de abaterea standard şi de amplitudinea absolută şi de coeficientul devariaţie, etc. Totuşi, fiecare din ei aduce o mică informaţie specifică, deci, nu ne putem lipsi de unul sau altul

    8

  • 8/15/2019 Biostatistica MG - Cursul II

    9/11

     Biostatistică – Cursul al II-lea

    dintre indicatorii statistici. Uneori trebuie folosiţi unii dintre indicatori, fiind cei mai eficienţi, alteori tr ebuiefolosiţi alţii. 

    Pentru a avea o ideie despre modul cum trebuie folosiţi indicatorii statistici, ei sunt clasificaţi în câtevacategorii mai importante, categorii care vor fi exemplificate mai jos, insistând pe aceia care sunt cei maiimportanţi, restul fiind indicatori mai rar folosiţi, numai în cazuri speciale. 

    Indicatori ai tendinţei centrale. Cei mai importanţi indicatori ai tendinţei centrale sunt media, mediana şimodul. Media indică tendinţa centrală atunci când seria de valori este repartizată simetric în jurul ei şi cândvalorile nu au o dispersie exagerat de mare. În cazul seriilor de valori distribuite foarte asimetric, tendinţacentrală nu mai este indicată de către medie, ci de către mediană. 

    Modul, este un indicator al tendinţei centrale, la seriile unimodale, adică atunci când în tabelul de frecvenţeexistă un singur maxim. Dacă avem o serie multimodală, modul îşi pierde calitatea de indicator al tendinţeicentrale.

    Indicatori ai împrăştierii. Folosiţi mai des în practică, şi deci mai importanţi, sunt dispersia, abatereastandard şi coeficientul de variaţie.

    Abaterea standard este indicatorul folosit cel mai des pentru aprecierea împrăştierii, dar atunci când mediilediferă mult, este mai util coeficientul de variaţie. Dispersia este folosită ca măsură a împrăştierii în testele

    statistice (vezi capitolul dedicat testelor statistice).Indicatori ai asimetriei. Mediana  şi cuartilele  sunt cel mai mult folosite pentru aprecierea asimetrieivalorilor dintr-o serie. De fapt, mediana se foloseşte în combinaţie cu media pentru aprecierea asimetriei. Omediană mult diferită de medie indică asimetrie puternică, iar o mediană foarte apropiată de medie indică otendinţă spre simetrie. 

    Cuartilele, se folosesc în combinaţie cu mediana şi indicatorii minim şi maxim, pentru aprecierea simetriei.

    Indicatorii statistici fundamentali. Sunt indicatorii care poartă în ei cea mai mare cantitate de informaţiedin informaţia conţinută de seria de valori.

    La seriile de valori distribuite relativ simetric, indicatorii statistici fundamentali sunt media şi deviaţiastandard. În capitolul dedicat repartiţiilor, se va vedea că, dacă o serie de valori are o repartiţie normală şi

    are suficient de multe valori, cei doi indicatori, poartă în ei aproape toată informaţia. Astfel, dacă o serie devalori de acest tip are media  X şi deviaţia standard σ   , scrierea încetăţenită este σ  ± X   

    La seriile distribuite asimetric, deşi se consideră ca indicatori fundamentali tot media şi deviaţia standard,sunt mai utile mediana şi cuartilele. În acest caz, este încetăţenită scrierea medianei M  şi a cuartilelor Q1 şiQ3 în forma M [Q1; Q3]. De exemplu, dacă o serie puternic asimetrică are mediana 2,45, iar cuartilele suntQ1=1,54 şi Q3=6,23, acest fapt se precizează astfel: 2,45 [1,54; 6,23]. 

    3. Chestiuni de examen:

    1. Definiţia si f ormula mediei

    2. Formula deviaţiei standard si a coeficientului de variaţie 

    3. Definiţia medianei si a cuartilelor Q1, Q3

    4. Media unei serii de valori numerice este:A.

     

    Suma valorilor împărţită la numărul lor B.

     

    Mai mare decât valoarea minimă din serie C.  Mai mică decât valoarea maximă din serie D.  Un indicator al tendinţei centrale a valorilor seriei 

    5. Media unei serii de valori numer ice are următoarele proprietăţi:

    A. 

    Este egală cu cea mai mică valoare din serie B. 

    Dacă schimbăm o valoare din serie, mărind-o, media se schimbă, mărindu-seC.

     

    Dacă schimbăm o valoare din serie, mărind-o, media se schimbă, micşorându-seD.

     

    Dacă ştergem o valoare din serie, media râmîne nemodificată 

    9

  • 8/15/2019 Biostatistica MG - Cursul II

    10/11

     Biostatistică – Cursul al II-lea

    6. Media unei serii de valori numerice este un indicator al:A.  Tendinţei centrale a valorilor seriei B.  Împrăştierii valorilor seriei C.

     

    Plaja de valori între care sunt cuprinse valorile serieiD.

     

    Media nu este indicator statistic

    7. Dispersia unei serii de valori numerice este un indicator al:

    A. 

    Tendinţei centrale a valorilor seriei B.

     

    Împrăştierii valorilor seriei C.  Plaja de valori între care sunt cuprinse valorile serieiD.

     

    Simetriei distribuţiei valorilor seriei în jurul mediei 

    8. Dispersia unei serii de valori numerice are printre dezavantaje:A.  Se măsoară cu unitatea de măsură a valorilor seriei, ridicată la pătrat  B.

     

    Are valori prea mari, comparativ cu abaterile individuale de la medie

    C.  Indică şi tendinţa centrală a valorilor seriei D.

     

     Nu se poate calcula cu exactitate

    9. Abaterea standard unei serii de valori numerice are printre avantaje:A.

     

    Se măsoară cu unitatea de măsură a valorilor seriei  B.

     

    Are valori comparabile cu abaterile individuale de la medie

    C.  Indică şi tendinţa centrală a valorilor seriei D.

     

     Nu se poate calcula dacă dispersia este negativă 

    10. Dacă două serii de valori au aproximativ aceeaşi medie, atunci: A.  Este mai împrăştiată cea cu dispersia mai mare B.  Este mai împrăştiată cea cu abaterea standard mai mică C.  Sunt la fel de împrăştiate D.

       Nu se pot compara împrăştierile cu ajutorul dispersiei în acest caz

    11. Dacă două serii de valori au medii foarte diferite, atunci: A.

     

    Este mai împrăştiată cea cu dispersia mai mare B.  Este mai împrăştiată cea cu abaterea standard mai mare C.

     

    Nu se pot compara nici cu ajutorul dispersiei şi nici cu ajutorul abaterii standardD.

     

    Au aceeaşi împrăştiere 

    12. Dacă media unei serii de valori este 10 şi dispersia 4, atunci coeficientul de variaţie este:  A.  40%B.

     

    20%

    C. 

    80%D.

     

    10%

    13. Dacă mediile a două serii de valori sunt foarte diferite, iar abaterile standard sunt tot foarte   diferite,atunci este mai împrăştiată :A.

     

    Cea cu coeficientul de variaţie mai mare B.  Cea cu raportul dintre abaterea standard şi medie mai mare  C.

     

    Cea cu coeficientul de variaţie mai mic D.

     

    Împrăştierile celor două serii de valori nu se pot compara 

    14. Mediana unei serii de valori numerice este:A.

     

    Egală cu media B.

     

    Un graficC.  Un număr D.

     

    Un tabel de frecvenţă 

    15. Mediana unei serii de valori numerice este:A.  Valoarea pentru care jumătate din valorile seriei sunt mai mari şi jumătate mai mici B.

     

    Valoarea situată la mijloc, între minimul seriei şi maximul seriei 

    10

  • 8/15/2019 Biostatistica MG - Cursul II

    11/11

     Biostatistică – Cursul al II-lea

    C. 

    Valoarea cea mai frecvent întâlnită printre valorile seriei D.

     

    Un indicator al excentricităţii valorilor seriei 

    16. Dacă o serie de valori are în componenţă 21 de numere, atunci, pentru aflarea medianei, se ordoneazăvalorile crescător şi se ia:

    A.  Valoarea a 11-a din şirul ordonat B.

     

    Media între valorile a 10 şi a 11-a

    C. 

    Media între valorile a 11 şi a 12-aD.  Valoarea a 10-a din şirul ordonat 

    17. Dacă o serie de valori are în componenţă 24 de numere, atunci, pentru aflarea medianei, se or doneazăvalorile crescător şi se ia:

    A. 

    Valoarea a 12-a din şirul ordonat B.

     

    Media între valorile a 11-a şi a 12-aC.

     

    Media între valorile a 12-a şi a 13-aD.  Valoarea a 13-a din şirul ordonat 

    18. Cuartila întâi a unei serii de valori este:A.  Valoarea din seria ordonată situată la 25% din numărul de valori al seriei  B.

     

    Valoarea din seria ordonată situată la 75% din numărul de valori al seriei C.

     

    Valoarea numerică pentru care un sfert din valorile seriei ordonate sunt mai mici  D.

     

    Valoarea numerică pentru care un sfert din valorile seriei sunt mai mici

    19. Cuartila a treia a unei serii de valori este:A.  Valoarea din seria ordonată situată la 25% din numărul de valori al seriei B.

     

    Valoarea din seria ordonată situată la 75% din numărul de valori al seriei  C.

      Valoarea numerică pentru care un sfert din valorile seriei ordonate sunt mai miciD.

     

    Valoarea numerică pentru care trei sferturi din valorile seriei ordonate sunt mai mari 

    20. Referitor la indicatorii decile, este adevărat: A.

     

    Avem exact nouă decile B.

     

    Avem exact 99 de decileC.

     

    Decila 50 este medianaD.

     

    Decila a treia este mediana

    21. Indicatorii statistici fundamentali sunt:A.  Dispersia şi media B.

     

    Media şi abaterea standard C.

      Abaterea standard şi mediana D.

     

    Mediana şi cuartilele 

    22. Indicatorii de dispersie (sau de împrăştiere) sunt: 

    A. 

    Amplitudinea, media, dispersia şi mediana B.  Abaterea standard, media, dispersia şi mediana C.

      Amplitudinea, media, dispersia şi abaterea standard D.  Abaterea standard, dispersia şi coeficientul de variaţie 

    23. Care din următorii indicatori statistici ajută la aprecierea asimetriei:A.  Mediana, media şi excentricitatea B.

     

    Mediana, cuartilele şi excentricitatea C.

     

    Mediana, cuartilele şi media D.

     

    Mediana, dispersia şi excentricitatea

    24. Indicatorii statistici pentru tendinţa centrală a valorilor unei serii de valori sunt: 

    A. 

    Media, dispersia şi mediana B. 

    Media, abaterea standard şi modul C.

     

    Media, dispersia şi excentricitatea D.  Media, mediana şi modul 

    11