LP05 - PREZENTAREA DATELOR STATISTICE (1)ileana.brudiu.ro/MVR/LUCRARI PRACTICE/MV LP05.pdf ·...

6
Matematici aplicate științelor biologie Lab05 MV 20192020 LP05 - PREZENTAREA DATELOR STATISTICE (1) Obiective: I. Prezentarea datelor prin tabele - Întocmirea tabelului de evidenţă primară Acest tabel conţine valori de observaţie distincte xi ale caracterului studiat. - Întocmirea tabelului sau distribuţiei de frecvenţă Distribuţia de frecvenţe este o listă a valorilor (categoriilor) posibile ale unei variabile, însoţite de numărul de observaţii care iau respectivele valori (care se află în fiecare din respectivele categorii). - Calcul: Frecvența absolută (fa) Frecvența cumulată (fc) Frecvența relativă (fr) Frecvența relativă cumulată frc Frecvența relativă procentuală fr% Frecvența relativă procentuală cumulată fr%c II. Prezentarea grafică a datelor - Construirea unui grafic - Citirea şi interpretarea unui grafic 1. Graficele bară Se utilizează atunci când dorim să reprezentăm o variabilă „discretă” (care prezintă valori întregi). 2. Graficele plăcintă (PIE) Este utilizat în situaţiile în care valorile sunt „parte a unui întreg Graficele bară şi plăcintă sunt utilizate pentru a arăta dimensiunile relative de date. 3. Graficul linie Un grafic linie se foloseşte pentru a reprezenta grafic variabile cantitative continue. Acesta tip de grafic este creat prin conectarea unei serii de puncte unite de o linie. arătând schimbările în timp. La aceste tipuri de grafice, axa Ox reprezintă axa timpului, iar axa Oy reprezintă caracteristica studiată 4. Histograma Este reprezentarea grafică a distribuţiei de frecvenţă. Cele două axe reprezintă: axa Ox - caracteristica studiată, axa Oy frecvenţa de apariţie a caracteristicii studiate. Este asemănătoare cu graficul bară, datele observate sunt grupate şi ordonate crescător. 5. Norul de puncte (scater plot) Acest tip de grafic arată relaţia dintre două seturi de date.

Transcript of LP05 - PREZENTAREA DATELOR STATISTICE (1)ileana.brudiu.ro/MVR/LUCRARI PRACTICE/MV LP05.pdf ·...

Page 1: LP05 - PREZENTAREA DATELOR STATISTICE (1)ileana.brudiu.ro/MVR/LUCRARI PRACTICE/MV LP05.pdf · Matematici aplicate științelor biologie Lab05 MV 2019 4. Reprezentarea grafică a frecvențelor

Matematici aplicate științelor biologie Lab05 MV 20192020

LP05 - PREZENTAREA DATELOR STATISTICE (1)

Obiective:

I. Prezentarea datelor prin tabele

- Întocmirea tabelului de evidenţă primară Acest tabel conţine valori de observaţie distincte xi ale caracterului studiat.

- Întocmirea tabelului sau distribuţiei de frecvenţă Distribuţia de frecvenţe este o listă a valorilor (categoriilor) posibile ale unei variabile, însoţite de numărul de observaţii care iau respectivele valori (care se află în fiecare din respectivele categorii).

- Calcul: Frecvența absolută (fa) Frecvența cumulată (fc) Frecvența relativă (fr) Frecvența relativă cumulată frc Frecvența relativă procentuală fr% Frecvența relativă procentuală cumulată fr%c

II. Prezentarea grafică a datelor - Construirea unui grafic - Citirea şi interpretarea unui grafic

1. Graficele bară Se utilizează atunci când dorim să reprezentăm o variabilă „discretă” (care prezintă valori întregi).

2. Graficele plăcintă (PIE) Este utilizat în situaţiile în care valorile sunt „parte a unui întreg Graficele bară şi plăcintă sunt utilizate pentru a arăta dimensiunile relative de date.

3. Graficul linie Un grafic linie se foloseşte pentru a reprezenta grafic variabile cantitative continue. Acesta tip de grafic este creat prin conectarea unei serii de puncte unite de o linie. arătând schimbările în timp. La aceste tipuri de grafice, axa Ox reprezintă axa timpului, iar axa Oy reprezintă caracteristica studiată

4. Histograma Este reprezentarea grafică a distribuţiei de frecvenţă. Cele două axe reprezintă: axa Ox - caracteristica studiată, axa Oy frecvenţa de apariţie a caracteristicii studiate. Este asemănătoare cu graficul bară, datele observate sunt grupate şi ordonate crescător.

5. Norul de puncte (scater plot) Acest tip de grafic arată relaţia dintre două seturi de date.

Page 2: LP05 - PREZENTAREA DATELOR STATISTICE (1)ileana.brudiu.ro/MVR/LUCRARI PRACTICE/MV LP05.pdf · Matematici aplicate științelor biologie Lab05 MV 2019 4. Reprezentarea grafică a frecvențelor

Matematici aplicate științelor biologie Lab05 MV 20192020

Problemă: Un medic a realizat un studiu pentru a identifica riscul cardiac. Datorită resurselor limitate s-a recurs la alegerea aleatoare a unui eşantion de 30 pacienţi. Următoarele date au fost culese de la fiecare pacient: sex, consumul afirmativ de alcool (da/nu), fumat (da/nu, afirmativ), vârsta (ani, fişa pacientului). Următoarele măsurători au fost realizate pentru fiecare pacient: greutate (kg), înălţime (cm), TAS (tensiunea arterială sistolică, mmHg), TAD (tensiunea arterială diastolică, mmHg). Următoarele determinări biochimice au fost realizate în urma recoltării unei probe de sânge: glicemie (mg/dl) şi colesterol (mg/dl). Datele au fost colectate şi sunt prezentate în tabelul de mai jos:

Sex Alcool Fumat Vârsta (ani)

Greutate (kg)

Inălţime (cm)

TAS (mmHg)

TAD (mmHg)

Glicemie(mg/dL) Colesterol

(mg/dL)

F nu nu 27 53 162 110 80 75 168

M nu nu 41 106 176 130 70 92 343

M nu nu 67 91 170 170 100 77 229

F nu nu 60 107 168 190 120 128 157

M nu nu 26 84 174 130 90 81 161

M nu nu 46 119 182 170 90 138 192

M nu da 34 86 180 110 70 88 218

M nu nu 31 80 178 110 70 72 159

M da da 45 82 179 100 70 71 272

M nu nu 35 100 172 130 90 80 195

F nu nu 64 74 162 130 100 91 220

F nu nu 64 78 154 170 100 94 246

F nu nu 34 55 152 110 80 90 147

M nu da 35 57 173 110 70 90 157

M da nu 41 89 172 120 90 96 175

F nu nu 49 95 163 130 100 83 257

F nu nu 64 78 154 160 110 88 223

M nu nu 43 79 180 120 80 92 184

M nu nu 58 96 178 145 85 79 245

M nu nu 44 64 155 150 100 75 242

F nu nu 45 51 152 120 80 92 162

M nu da 25 71 177 130 80 96 215

F da nu 62 76 158 130 80 88 293

F nu da 39 81 158 100 70 72 197

M nu nu 26 75 176 120 80 77 219

F nu nu 41 70 162 120 80 86 225

M nu nu 30 86 173 120 80 74 178

F nu nu 49 76 165 130 80 80 152

M nu da 24 88 178 120 70 90 154

M nu da 27 88 182 130 90 88 216

Cerinţe:

1. Descărcați Tabel Lab05 de pe server.

2. Realizați tabelele de frecventa pentru variabilele TAS și TAD.

3. Completați tabelele cu frecvențele observate (fa) cu încă 5 (cinci) coloane unde calculați: Frecvența cumulată (fc) Frecvența relativă (fr) Frecvența relativă cumulată frc Frecvența relativă procentuală fr%

Page 3: LP05 - PREZENTAREA DATELOR STATISTICE (1)ileana.brudiu.ro/MVR/LUCRARI PRACTICE/MV LP05.pdf · Matematici aplicate științelor biologie Lab05 MV 2019 4. Reprezentarea grafică a frecvențelor

Matematici aplicate științelor biologie Lab05 MV 20192020

Frecvența relativă procentuală cumulată fr%c

4. Reprezentaţi grafic pentru variabilele TAS și TAD: 4.1. Sub formă de coloane (histogramă) frecvențele absolute 4.2. Grafic linie frecvențele cumulate 4.3. Grafic pie (plăcintă) frecvențe relative

5. Realizaţi tabelele de frecvenţă pentru variabilele calitative (Sex, Alcool, Fumat) utilizând Pivot table

6. Realizați histogramele pentru aceste variabile utilizând Pivot Chart. Indicații: 1. Salvați tabelul descărcat în folderul dv, [File – Save As] Se consideră că acesta este tabelul de evidență primară. În studiile biostatistice, tabelul este principalul mod de prezentare a datelor statistice. De aceea, tabelele sunt construite astfel încât să permită realizarea unei analize corecte. La realizarea tabelelor se va ţine cont de:

- tabelul treuie să aibă titlu, care trebuie să fie la concis şi la obiect; - rândurile şi coloanele ce indică natura datelor sunt etichetate simplu şi precis; - sunt incluse unităţile de măsură ale datelor; - sunt precizate sursele de informare; - este de preferat să există linii sau coloane ce conţin medii sau totaluri; - formatarea tabelelor trebuie să fie sugestivă.

2. Realizarea tabelelor de frecvenţă Tabelele de frecvență sunt tabele cu 2 colane (xi ni) unde xi este caracterul cercetat și ni frecvența lui de apariție sau frecvența absolută (fa). Frecvenţă absolută a unei valori x dintr-o serie statistică S este numărul de repetări ale valorii x în seria S. Deci suma frecvenţelor absolute ale tuturor valorilor distincte dintr-o serie statistică este egală cu talia sau volumul seriei. Tabelele de frecvență se pot obține prin mai multe metode:

1. Prin numărarea efectivă 2. În Excel prin numărarea cu ajutorul funcției COUNT sau COUNTIF 3. În Excel utilizând funcția FREQVENCY 4. În Excel utilizâmd obțiunea HISTOGRAM din Data Analisys

În lucrarea LP05 se utilizează metoda 1 și 2. Prin metoda 1, pentru întocmirea acestor tabele se procedează astfel:

- Coloana ce conține variabila se copiază din tabel în foaia de calcul întro altă coloană; - Se ordonează crescător; - Se întocmește tabelul de frecvență (xi ni), fiecare valoare distinctă xi

1 (vezi footnote) se scrie întro celulă a foii de calcul și în dreptul ei, în celula alăturată frecvența ei de apariție. De exemplu pentru variabila TAS valoarea 100 apare de 2 ori, valoarea 110 de 5 ori ș.a.m.d.

Prin metoda 2 ne propunem ca Excel să numere (COUNT) cîte valori selectăm sau (COUNTIF) câte valori egale cu valoarea introdusă la Criteria se găsesc în domeniul selectat la Range.

Sintaxa funcției COUNT Funcției COUNT are următoarele argumente:

valoare1 Obligatoriu. Primul element, referința de celulă sau zona din care doriți să contorizați numere.

1 Valorile distincte xi se pot obține utilizând obțiunea Remove duplicates din meniul Data

Page 4: LP05 - PREZENTAREA DATELOR STATISTICE (1)ileana.brudiu.ro/MVR/LUCRARI PRACTICE/MV LP05.pdf · Matematici aplicate științelor biologie Lab05 MV 2019 4. Reprezentarea grafică a frecvențelor

Matematici aplicate științelor biologie Lab05 MV 20192020

valoare2, ... Opțional. Până la 255 de elemente suplimentare, referințe de celule sau zone în care doriți să contorizați numere. De exemplu, puteți introduce următoarea formulă pentru a contoriza numerele din zona A1:A20: =COUNT(A1:A20). În acest exemplu, dacă cinci dintre celulele din zonă conțin numere, rezultatul este 5. Sintaxa fincției COUNTIF(zonă, criterii) zonă (obligatoriu) Grupul de celule pe care doriți să le contorizați. Zona poate conține numere, matrice, o zonă numită sau referințe care conțin numere. Valorile text și necompletate sunt ignorate. criterii (obligatoriu) Un număr, o expresie, o referință de celulă sau un șir de text care determină celulele care vor fi contorizate. De exemplu:

=COUNTIF(A2:A5;"mere") numără câte celule din zona A2:A5 conțin textul "mere"

=COUNTIF(A2:A5;A4) numără câte celule din zona A2:A5 conțin valoarea ce se află în celula A4

3. În urma rezolvării punctului 2 se obțin frecvențele absolute sau frecvențele de aparitiție (fa) . Însumarea lor

reprezintă numărul total de observații (30). Pentru variabila TAS și TAD tabelul frecvențelor se completează cu încă cinci coloane unde se vor calcula: frecvențele cumulate, relative, relative cumulate, relative procentuale și relative cumulate procentuale.

- Frecvențele cumulate (fc) se calculează prin cumularea frecvenței următoare la totalul frecvenței anteriaore. (2; 2+5=7; 7+7=14; etc.) (Se introduce formulă de calcul)

Frecvenţa absolută cumulată crescătoare a unei valori x dintr-o serie statistică S este suma frecvenţelor absolute ale valorilor seriei mai mici sau egale cu x.

Frecvenţa absolută cumulată descrescătoare a unei valori x dintr-o serie statistică S este suma frecvenţelor absolute ale valorilor seriei mai mari sau egale cu x.

- Frecvențele relative (fr) reprezintă ponderea fiecărei frecvență în totalul n (30). (Se introduce formulă de calcul) Frecvenţa relativă a unei valori x dintr-o serie statistică S este raportul dintre frecvanţa absolută a valorii x şi talia (volumul) seriei. De obicei frecvenţa relativă este prezentată în procente. După cum se observă în figura de mai sus, în coloana D unde se calculează frecvența relativă, formula de calcul introdusă cuprinde două referințe B2 și $B$12. Conform formulei, frecvența relativă se obține impărțind frecvența absolută (B2) la numărul total de observații care se află în exemplul meu în celula B12. Deoarece frecvențele absolute se vor impărții la aceiași valoare aflată în celula B12, în formula de calcul referinșa B12 este absolută, coloana și rândul fiind precedate de simbolul $.

- Frecvențele relative cumulate (frc) se calculează la fel ca cele absolute cumulate (vezi mai sus) (Se introduce formulă de calcul)

Frecvenţa relativă cumulată crescătoare a unei valori x dintr-o serie statistică S este raportul dintre frecvenţa absolută cumulată crescătoare a valorii x şi talia (volumul) seriei.

Frecvenţa relativă cumulată descrescătoare a unei valori x dintr-o serie statistică S este raportul dintre frecvenţa absolută cumulată descrescătoare a valorii x şi talia (volumul) seriei.

- Frecvențele relative procentuale se calculează conform formulei (vezi curs) sau prin formatare datelor (copiați frecvențele relative, selectați și alegeți Percentaje în meniul General) (Se introduce formulă de calcul)

- Frecvențe relative cumulate procentuale se calculează la fel ca frecvențele cumulate doar că se aplică asupra frecvențelor relative procentuale. Formulele de calcul se introduc pentru prima linie a tabelului după care se copiază cu Fill down. Frecvențele procentuale se formatează cu Percentage

Page 5: LP05 - PREZENTAREA DATELOR STATISTICE (1)ileana.brudiu.ro/MVR/LUCRARI PRACTICE/MV LP05.pdf · Matematici aplicate științelor biologie Lab05 MV 2019 4. Reprezentarea grafică a frecvențelor

Matematici aplicate științelor biologie Lab05 MV 20192020

4. Reprezentarea grafică a frecvențelor absolute (fa)

Reprezentarea grafică a frecvențelor absolute se numește HISTOGRAMĂ. Într-o histogramă, pe axa X (axa orizontală) sunt reprezentate valorile caracteristicii sau clasele în cazul grupării pe clase, iar pe axa Y (axa verticală) sunt reprezentate valorile frecvenţelor de apariție (ni). Pentru realizarea histogramei se poate utiliza creionul și hârtia (manual) sau funcțiile EXCEL. Atenție!!!! Graficul trebuie să aibe titlu, pe axa Ox vor apărea valorile caracteristicii (100,110, etc) și pe axa Oy frecvența de apariție (2, 5 etc). Realizarea graficului se poate face prin 2 metode (vezi lucrarea LP04): 4.1 În imaginea de mai jos se poate vedea histograma valorilor TAS.

Pentru histogramă se alege graficul coloană (2D). Deoarece valorile pentru TAS sunt valori discrete, coloanele sunt despărțite prin spațiu (gap). Dacă volrile reprezentate sunt continue, aceste spații nu trebuie să apară (gap=0). Pentru a controla “gapul” se utilizează opțiunea Format data seriee (clik dreapta).

4.2. Pentru reprezentarea graficului frecvențelor relative se utilizează graficul PIE.

0

1

2

3

4

5

6

7

8

9

10

100 110 120 130 145 150 160 170 190

Histograma TAS(mmHg)

7%

17%

24%30%

3%

3%

3% 10%3%

Frecvențe relative TAS(mmHg)

100 110 120 130 145 150 160 170 190

Page 6: LP05 - PREZENTAREA DATELOR STATISTICE (1)ileana.brudiu.ro/MVR/LUCRARI PRACTICE/MV LP05.pdf · Matematici aplicate științelor biologie Lab05 MV 2019 4. Reprezentarea grafică a frecvențelor

Matematici aplicate științelor biologie Lab05 MV 20192020

4.3. Pentru reprezentarea grafică a frecvențelor cumulate se utilizează graficul linie.

5. Realizarea tabelei de frecvență pentru variabilele calitative. In tabela din această lucrare variabile calitative sunt: Sex, Alcool și Fumat. Aceste variabile iau 2 valori (Da sau Nu, respectiv F sau M). Tabela de frecvență constă în a afla câte observații din totalul lor (30) au valoarea Da și câte valori au valoarea Nu. Pentru realizarea tabelei de frecvență pentru acest tip de variabile, cel mai simplu se poate utiliza Tabela pivot. - Se copiază coloana respectivă într-o foaie de calcul - Se selectează coloana inclusiv celula etichetă - Se selectează din meniul Insert opțiunea Insert Pivot Table - În fereastra Pivot Table Field List, prin Drag &Drop se plasează în Row Labels și S Values (Count Of ...) variabila în cauză. Vezi imaginea alăturată. - Pentru a obține histograma pentru aceste variabile (calitative), în momentul obținerii tabelei de frecvență utilizând Pivot table, în meniul specific acestei opțiuni, apare meniul specific ANALYZE de unde se alege Pivot Chart. Se obțin graficele de mai jos.

0

5

10

15

20

25

30

35

100 110 120 130 145 150 160 170 190

Frecvențe cumulate TAS(mmHg)