Distribuții de probabilitate Sumarizareastatistică a datelor...

42
Distribuții de probabilitate & Sumarizarea statistică a datelor medicale

Transcript of Distribuții de probabilitate Sumarizareastatistică a datelor...

Distribuții de probabilitate& Sumarizarea statistică a datelor medicale

2

Discrete Probabilitățile asociate fiecărei valori specifice a variabilei aleatoare

Continue Probabilitățile asociate unui şir de valori ale variabilei aleatoare

Vorbim despre distribuții de probabilitate atunci când avem mai multe valori nu o singură valoareProbabilitatea este determinată de aria de sub curba distribuției de probabilitate

Distibuții de probabilitate continue

3

Distribuția normală – Z sau GaussDistribuția STUDENT (t)Distribuția PEARSON (χ2)Distribuția FISHER…

Exemple de distribuţii de probabilitate continue

4

X este o variabilă aleatorie normal distribuită de forma N(μ,σ) dacă distribuția ei depinde de 2 parametrii: media (μ) şi deviația standard (σ)

Distribuţia normală

Distribuția normală standard are o medie egală cu 0 şi o variație egală cu 1

Distribuţia normală

6

μ ± 1*σ: contains ~ 68% of cases (34% from each part of distribution)μ ± 2*σ: contains ~ 95% of casesμ ± 3*σ: contains ~ 99.7% of cases

0 1 2 3‐1‐2‐3

area = 0.3413

Distribuţia normală: acoperirea

7

Distribuția Student sau Distribuția tDistribuția  de  probabilitate  care  apare  în estimarea  mediei  unui  eşantion  provenit distr‐o  populație  în  cazul  în  care  volumul eşantionului este mai mic de 30

Distribuţia Student

ProprietățiEste diferită pentru diferite volume de eşantioaneÎn  general  are  aspectul  de  clopot,  dar  deoarece  este asociată  unui  volum  de  eşantion  mic  prezintă  o variabilitate  mai  mare  în  comparație  cu  distribuția normală, devenind mai flată.▪ Distribuția  este  mai  aplatizată  în  comparație  cu distribuția normală iar “cozile” sunt mai voluminoase.

▪ Odată  cu  creşterea  volumului  eşantionului,  distribuția se  apropie  tot  mai  mult  de  distribuția  normală  →pentru n > 30 diferența este neglijabilă

Distribuţia Student

Proprietăți:Media  este  zero  (ca  şi  la  distribuția  normală standard)Distribuția este simetrică în jurul mediei.Varianția este mai mare decât 1 dar se apropie de 1 pe măsură ce volumul eşantionului creşteIa  în  considerare  faptul  că  deviația  standard  a populației este necunoscută.Populația  din  care  a  fost  extras  eşantionul  este normal distribuită (unimodală şi simetrică)

Distribuţia Student

Student vs Gauss Distributions

11

12

13

Principii de sumarizare tabelarăPrincipii de reprezentare graficăSumarizarea tabelară şi/sau reprezentarea grafică a datelor:Atribut (calitative): o variabilăAtribut (calitative): două variabileNumerice (cantitative): o variabilăNumerice (cantitative): două variabile

14

1. Simple: de preferat 2/3 tabele mai mici în loc de unul încărcat

2. Informative prin ele înseleAbrevieri sau simboluri explicate la subsolul tabeluluiEtichete de rând şi coloanăUnități de măsurăTitlul: ce? când? Unde?Linii şi/sau coloane de sinteză (total)

3. Dacă datele nu sunt originale trebuie să se menționeze sursa lor într‐o notă de subsol

15

Orice reprezentare grafică trebui să aibă:TitlulDefinirea axelorUnități de măsură pentru fiecare axă (dacă este cazul)Legendă (dacă este cazul) O reprezentare grafică trebuie să se “înțeleagă” singură!▪ Fără a se citi textul!!!

16

Scopul unei reprezentări grafice este de a transmite o informațieCând  construim  o  reprezentare  grafică  trebuie  să răspundem  la  întrebarea:  Care  este  scopul  acestei reprezentări?Datele trebuie reprezentate grafic în aşa fel încât să fie utile în înțelegerea fenomenului clinicAtenție  la compoziția culorilor  (nu puneți  fundaluricolorate) şi la dimensiunea caracterelor!

17

Se ordonează datele crescătorSe determină frecvența fiecărei valoriSe includ valorile distincte şi frecvențele într‐un tabel pe două coloane:Frecvența absolută (numărul de cazuri care îndeplinesc criteriul)Frecvența relativă = raportul dintre frecvența absolută şi volumul eşantionului/populației (simbol = n). Valorile se pot prezenta şi procentual.

18

Se pot alcătui tabele de frecvențe cu mai multe coloane care să cuprindă:frecvențe absolutefrecvențe absolute cumulate crescător / descrescătorfrecvențe relativefrecvențe relative cumulate crescător / descrescător

Microsoft Excel: funcția COUNTIFTabele Pivot [Data ‐ Pivot Table and Pivot ChartReport ...]

19

Diagnostic fa fr fa cumulat ↑ fr cumulat ↑Asfixia la naştere 527 26.10 527 26.10Traumatisme obstreticale 92 4.56 619 30.66Stare septică 7 0.35 626 31.01Pneumonie 181 8.96 807 39.97Diaree 8 0.40 815 40.37Malformaţii congenitale 598 29.62 1413 69.99Alte cauze 606 30.01 2019 100Total 2019 100

Suma frecvenţelor absolute ale tuturor valorilor seriei care sunt mai mici sau egale decât x

Suma frecvenţelor relative ale tuturor valorilor seriei care sunt mai mici sau egale decât x/n

20

Pentru seria statistică 5, 6, 7, 7, 8, 8, 5, 7, 8, 7 cărei din valorile de mai jos îi corespunde frecvența relativă cumulată crescător de 0.7:

A. 8B. 6 C. 5 D. 7 E. Nici un răspuns nu este corect

21

Greutate (g) fa fr fr cumulată ↑(2800 – 3200] 151 18,60 18,60(3200 – 3400] 299 36,82 55,42(3400 – 3600] 300 36,95 92,37(3600 – 3800] 0 0,00 92,37(3800 – 4000] 62 7,64 100Total 812 100

1 variabilă:Media±Deviația standard – dacă datele sunt normal distribuiteMediana & cvartilele 1 şi 3 [Q1 to Q3] – dacă datele nusunt normal distribuite

2 variabile:Coeficientul de corelație

22

TBC+ TBC‐ Total

Feminin 2 10 12

Masculin 24 54 78

Total 26 64 90

23

Coloane:Histograma pentru variabile cantitative (clase de frecvență): alegerea intervalelor este importantă (alegerea inadecvată a acestora poate influența modelul distribuției)Variabile calitative: scală ordinală sau nominală –modulul

Plăcinta (PIE): permite identificarea proporțiilorVariabile calitative

Linie:secvență de timpOrdinea evenimentelor 24

Grafic  de  tip  puncte  (Scatter)(pune  în  evidență  relația dintre variabile):

Se  reprezintă  grafic  o  pereche  de  valori  cantitative  pentru fiecare pacient în parte Indică dacă punctele sunt împrăştiate la întâmplare sau nu.

Distribuția de frecvențe 2DReprezentarea a mai multor caracteristici Frecvența fiecărei coloane este citibilă dar cititorul trebuie să extrapoleze  înălțimea  coloanei,  extrapolarea  putând  fi distorsionată din cauza 3D

25

Relationship between prostatic volume and age

0

10

20

30

40

50

60

70

80

50 52 54 56 58 60 62 64 66 68 70 72 74 76 78 80age (years)

pros

tate

vol

ume

(ml)

28

29

30

31

32

33

34

35

36

37

38

39

Informații concise, afişare eficientă.Permit prezentarea nivelului de detaliu şi de precizie dorit.Numerotați tabelele consecutiv în ordinea în care sunt citate în text.Fiecare coloană şi rând trebuie să aibă o denumire şi să prezinte unitățile de măsură.Dacă utilizați abrevieri pentru denumirea coloanelor sau a rândurilor prezentați la subsolul tabelului definiția abrevierilor.Dacă utilizați data care nu sunt ale dvs., fie că aceste date sunt publicate sau nu, trebuie să obțineți permisiunea de folosire şi să specificați sursa acestora.

40

Reprezentarea grafică trebuie să fie auto‐explicativăTitlul şi detaliile cu privire la reprezentarea grafică aparțin legendei – nu le includeți în figură.Figurile trebuie numerotate consecutiv în ordinea citării în text.Dacă  figura  a  fost  publicată  anterior  specificați  sursa  de unde a‐ti  luat‐o  şi obțineți de  la autori  sau de  la casa de editură acordul scris de acceptare al utilizării. Explicați clar în legendă semnificația simbolurilor utilizate precum  şi  a  altor  semne  (de  exemplu  săgeți,  numere, litere, etc.)Evitați reprezentările 3D! 41

Grafic de tip puncte (SCATTER): 2 variabile cantitative

Bare: Variabile calitativeVariabile cantitative – Clase de frecvență ‐Histograma

Linie: evoluție în timp …Plăcintă (PIE): 1/2 variabile calitative

42