Operaţia de sortare în tabele de date MG - Cursul III.pdf · 2013-12-04 · De exemplu, nu este...

13
Biostatistică – Cursul al III-lea CURSUL AL III-LEA Operaţia de sortare în tabele de date Sortarea este operaţia prin care înregistrările unui tabel de date sunt aranjate în ordine după un anumit criteriu Exemple: sortare după vârstă, după nume şi prenume, după anul naşterii, după durata de supravieţiure, etc Poate fi sortare ascendentă sau sortare descendentă În tabelele cu date medicale, de cele mai multe ori, o înregistrare conţine datele referitoare la un pacient. Acestea sunt listate pe o linie a tabelului. De aceea, uneori, în aceste tabele, este acelaşi lucru să spunem “înregistrare”, “linie a tabelului”, sau “pacient”. În orice tabel, este posibil să fie sortate înregistrările după coloanele existente în acel tabel. De exemplu, nu este posibilă sortarea înregistrărilor după afecţiune, dacă în tabel nu a fost prevăzută o coloană pe care să fie înregistrate afecţiunile. Sortare după un criteriu. Tabelul de mai jos este o mică porţiune dintr-un tabel de date, din care au fost decupate numai primele 8 coloane şi primele 16 linii. Acest tabel, sortat după criteriul vârstei, adică după coloana „VIRSTA”, arată ca în figura de mai jos. A fost efectuată sortarea ascendentă, adică înregistrările, sau pacienţii au fost aranjaţi după vârstă în ordine crescătoare.

Transcript of Operaţia de sortare în tabele de date MG - Cursul III.pdf · 2013-12-04 · De exemplu, nu este...

Page 1: Operaţia de sortare în tabele de date MG - Cursul III.pdf · 2013-12-04 · De exemplu, nu este posibilă sortarea înregistrărilor după afecţiune, dacă în tabel nu a fost

Biostatistică – Cursul al III-lea

CURSUL AL III-LEA Operaţia de sortare în tabele de date Sortarea este operaţia prin care înregistrările unui tabel de date sunt aranjate în ordine după un anumit criteriu Exemple: sortare după vârstă, după nume şi prenume, după anul naşterii, după durata de

supravieţiure, etc Poate fi sortare ascendentă sau sortare descendentă

În tabelele cu date medicale, de cele mai multe ori, o înregistrare conţine datele referitoare la un pacient. Acestea sunt listate pe o linie a tabelului. De aceea, uneori, în aceste tabele, este acelaşi lucru să spunem “înregistrare”, “linie a tabelului”, sau “pacient”.

În orice tabel, este posibil să fie sortate înregistrările după coloanele existente în acel tabel. De exemplu, nu este posibilă sortarea înregistrărilor după afecţiune, dacă în tabel nu a fost prevăzută o coloană pe care să fie înregistrate afecţiunile. Sortare după un criteriu. Tabelul de mai jos este o mică porţiune dintr-un tabel de date, din care au fost decupate numai primele 8 coloane şi primele 16 linii.

Acest tabel, sortat după criteriul vârstei, adică după coloana „VIRSTA”, arată ca în figura de mai jos. A fost efectuată sortarea ascendentă, adică înregistrările, sau pacienţii au fost aranjaţi după vârstă în ordine crescătoare.

Page 2: Operaţia de sortare în tabele de date MG - Cursul III.pdf · 2013-12-04 · De exemplu, nu este posibilă sortarea înregistrărilor după afecţiune, dacă în tabel nu a fost

Biostatistică – Cursul al III-lea Dacă însă, vom aranja înregstrările în ordine descrescătoare, tabelul va arăta în felul ca în tabelul de mai jos.

Dacă vom sorta înregistrările după criteriul duratei de supravieţuire, adică după coloana “DURSUP”, atunci tabelul va arăta în felul următor:

Sortare multicriterială Este sortarea în care se ţine cont de două sau mai multe criterii Exemplu: sortarea după nume şi prenume, sortarea după stadiul de evoluţie în cancer şi

durata supravieţuirii Programul sortează după primul criteriu şi, NUMAI dacă apar şi valori egale, acele

înregistrări le sortează şi după al doilea criteriu, etc. De exemplu, acelaşi tabel de mai sus, sortat după nume şi prenume, va arăta astfel:

Page 3: Operaţia de sortare în tabele de date MG - Cursul III.pdf · 2013-12-04 · De exemplu, nu este posibilă sortarea înregistrărilor după afecţiune, dacă în tabel nu a fost

Biostatistică – Cursul al III-lea

Principiul de bază al sortării multicriteriale se observă în tabelul de mai jos, unde înregistrările au fost sortate după două criterii: stadiul de evoluţie, înregistrat pe coloana numită STEV şi drata de supravieţuire, înregistrată pe coloana DURSUP.

Se observă că programul a ordonat înregistrările după prima coloană de sortare, STEV, şi la acele înregsitrări la care a găsit acelaşi stadiu, sunt sortate după a doua coloană, DURSUP. Acelaşi tabel, poate fi sortat şi după trei coloane. În figura de mai jos, înregistrările sunt sortate după sex, mediu şi vârstă, în această ordine. Deci, programul a sortat iniţial după sex, punând întâi bărbaţii (b) şi apoi femeile (f). Bărbaţii au foat apoi sortaţi după mediu, întâi cei din rural (r) şi apoi cei din urban (u), iar la fiecare categorie, ordonarea se face după cel de-al treilea criteriu: vârsta. La fel, femeile sunt listate întâi cele din rural, apoi cele din urban, în ordinea vârstei.

Page 4: Operaţia de sortare în tabele de date MG - Cursul III.pdf · 2013-12-04 · De exemplu, nu este posibilă sortarea înregistrărilor după afecţiune, dacă în tabel nu a fost

Biostatistică – Cursul al III-lea Sortare utilă la întocmirea tabelelor În tabelul de mai jos, sunt listate primele 10 coloane şi primele 55 de linii ale aceluiaţi tabel de date. Ne punem problema de a realiza câte un tabel separat, pentru fiecare tip de terapie aplicată şi pentru fiecare tip de răspuns terapeutic. Datele despre terapie şi despre răspunsul terapeutic, sunt înregistrate pe coloanele care se nuemsc TERAPIE şi RASPTERAP. Se observă că terapia aplicată a fost fie CH (chemoterapie), fie CH+CO (chemoterapie şi cobaltoterapie).

Pentru realizarea tabelelor separate, se vor sorta înregstrările după terapie şi răspuns terapeutic, rezultatul sortării find listat în tabelul de mai jos.

Page 5: Operaţia de sortare în tabele de date MG - Cursul III.pdf · 2013-12-04 · De exemplu, nu este posibilă sortarea înregistrărilor după afecţiune, dacă în tabel nu a fost

Biostatistică – Cursul al III-lea

Se observă că în cadrul terapiei CH (chemoterapie), sunt patru tipuri de răspuns terapeutic, şi anume D – dispărut, RC-remisiune completă, RN-răspuns negativ şi RP-remisiune parţială. În cadrul celei de-a doua terapii, sunt doar două tipuri de răspuns, RC şi RP. Tabelele rezultate în urma acestei operaţii, sunt listate mai jos.

Page 6: Operaţia de sortare în tabele de date MG - Cursul III.pdf · 2013-12-04 · De exemplu, nu este posibilă sortarea înregistrărilor după afecţiune, dacă în tabel nu a fost

Biostatistică – Cursul al III-lea

Page 7: Operaţia de sortare în tabele de date MG - Cursul III.pdf · 2013-12-04 · De exemplu, nu este posibilă sortarea înregistrărilor după afecţiune, dacă în tabel nu a fost

Biostatistică – Cursul al III-lea

Operaţia de selectare în tabele de date

Informaţiile despre pacienţi sunt de cele mai multe ori păstrate în tabele de dimensiuni mari, care pot conţine sute sau mii de pacienţi. Căutarea informaţiei referitoare la un pacient, sau a informaţiei despre un grup de pacienţi este în aceste cazuri extrem de anevoioasă, dacă ar fi să fie făcută manual. Programele de calculator pun la dispoziţie funcţii rapide pentru căutarea informaţiei. Printre aceste funcţii, funcţia de selectare este una dintre cele mai puternice şi utile.

Selectarea este operaţia prin care o parte a înregistrărilor unui tabel este temporar îndepărtată, rămânând numai înregistrările care îndeplinesc un criteriu dat.

În tabelul de mai jos, este redată o mică parte a unui tabel foarte mare, din care au fost păstrate primele 10 coloane şi primele 54 de linii (adică primii 54 de pacienţi, sau 54 de înregistrări). Având doar aceste informaţii, vom face câteva exerciţii, fără a uita că, în practică avem de lucru cu tabele mult mai lungi, de sute sau mii de pacienţi şi operaţiile pe care le vom face ca exerciţiu aici, în practică vor arăta diferit.

Page 8: Operaţia de sortare în tabele de date MG - Cursul III.pdf · 2013-12-04 · De exemplu, nu este posibilă sortarea înregistrărilor după afecţiune, dacă în tabel nu a fost

Biostatistică – Cursul al III-lea Una din cele mai simple operaţii de selectare este separarea bărbaţilor şi a femeilor în două tabele diferite, mai mici.

Pentru a face o selectare, într-un tabel trebuie întâi introduse filtre de selectare, care arată ca în figura de mai sus. Ele sunt reprezentate grafic în Excel prin mici pătrate pe prima linie a tabelului, pe fiecare pătrat fiind aşezat câte un triunghi cu vârful în jos (veţi exersa la laborator).

Filtru unic de selectare. După cum se vede în figura de mai sus, pe coloana sex nu este înregistrat decât fie litera b, pentru bărbaţi, fie f, pentru femei. Prin acţionarea filtrului de pe coloana SEX, veţi alege fie una, fie cealaltă din cele două litere (la laborator). Efectul va fi cel din figura de mai jos, unde se observă că au fost selectate femeile.

La fel, în figura de mai jos, se observă că au fost aleşi numai pacienţii din stadiul 3, care au fost trataţi cu chemoterapie “CH”. Alegerea pacienţilor din stadiul 3 a fost făcută prin acţionarea butonului de pe coloana STADIUEV, iar alegerea celor trataţi cu chemoterapie a fost făcută prin acţionarea butonului de pe coloana TERAPIE.

Page 9: Operaţia de sortare în tabele de date MG - Cursul III.pdf · 2013-12-04 · De exemplu, nu este posibilă sortarea înregistrărilor după afecţiune, dacă în tabel nu a fost

Biostatistică – Cursul al III-lea Mai jos, listăm câteva alte condiţii pe care le putem cere, pentru alegerea categoriilor respective de pacienţi:

SEX=”f” – alege numai femeile

MEDIU=”r” – alege numai pacienţii din mediul rural

TERAPIE=”CH” – alege numai pacienţii trataţi cu chemoterapie

RASPTERAP=”RC” – alege numai pacienţii cu remisiune completă (RC)

NUME=”Streche” – alege pacientul cu numele Streche

NUME>”Fronie” – alege pacientul cu numele Fronie

Când punem condiţii în care trebuie să alegem valori numerice, folosirea ghilimelelor din exemplele de mai sus nu mai este necesară. Programul Microsoft Excel nu foloseşte ghilimele nici când o condiţie alege între litere sau texte. Veţi vedea când lucraţi cu EPI INFO 2000, că folosirea ghilimelelor este obligatorie, însă numai la alegerea de litere, ca în exemplele de mai sus. Spre deosebire, în exemplele de mai jos, în care trebuie alese sau se fac comparări cu numere, folosirea ghilimelelor nu este necesară

STADIUEV=3 – alege pacienţii aflaţi în stadiul al treilea de boală

VIRSTA<30 – alege pacienţii sub 30 de ani, exclusiv 30

VIRSTA=50 – alege numai pacienţii cu vârsta de 30 de ani

VIRSTA>=60 – alege pacienţii cu vârsta peste 60 de ani, inclusiv 60

DURATASUP>=24 – alege pacienţii cu durata de supravieţuire de 24 de luni şi peste peste 24 de luni

DURATASUP<=36 – alege pacienţii cu durata de supravieţuire de 36 de luni şi sub 36 de luni

Două sau mai multe astfel de condiţii simple pot fi unite şi formează o condiţie dublă, sau triplă (după caz) de selectare, aşa cum sunt exemplele următoare. După exemple, sunt listate şi rezultatele aplicării filtrului pe tabelul de mai sus.

1. SEX=”f” AND MEDIU =”u” – selectează pacientele femei din mediul urban

2. SEX=”b” AND RASPTERAP=”RC” – selectează bărbaţii care au ca şi răspuns terapeutic remisiunea completă

Page 10: Operaţia de sortare în tabele de date MG - Cursul III.pdf · 2013-12-04 · De exemplu, nu este posibilă sortarea înregistrărilor după afecţiune, dacă în tabel nu a fost

Biostatistică – Cursul al III-lea

3. STADIUEV=4 AND DURATASUP>24 – selectează pacienţii din stadiul 4 cu durata de supravieţuire peste 24 de luni

4. STADIUEV=4 AND RASPTERAP=”RC” – selectează pacienţii din stadiul 4 şi cu raspunsul terapeutic remisiune completă

5. VARSTA<35 AND DURATASUP<24 – selectează pacienţii sub 35 de ani şi cu durata de supravieţuire sub 24 de luni

6. VARSTA<40 AND STADIUEV=2 AND DURATASUP>24 – selectează pacienţii sub 40 de ani, în stadiul al doiea şi cu durata de suprevieţuire peste 24 de luni

7. SEX=”b” AND DURATASUP>=24 AND RASPTERAP=”RP” – selectează bărbaţii cu durata de supravieţuire mai mare sau egală cu 24 de luni şi cu răspounsul terapeutic remisiune parţială

8. SEX=”f” AND DURATASUP<=24 AND RASPTERAP=”RC” – selectează femeile cu durata de supravieţuire de 24 şi sub 24 de luni, cu remisiune completă

Rezultatul aplicării selecţiei 1

Rezultatul aplicării selecţiei 3

Rezultatul aplicării selecţiei 4

Rezultatul aplicării selecţiei 5 – o singură pacientă

Rezultatul aplicării selecţiei 6 – o singură pacientă

Page 11: Operaţia de sortare în tabele de date MG - Cursul III.pdf · 2013-12-04 · De exemplu, nu este posibilă sortarea înregistrărilor după afecţiune, dacă în tabel nu a fost

Biostatistică – Cursul al III-lea Rezultatul aplicării selecţiei 7 – nici un pacient nu a îndeplinit criterriile cerute

Rezultatul aplicării selecţiei 8

Condiţii multiple formate cu “OR”

Condiţiile simple pot fi unite şi cu ajutorul conectorului OR (=SAU). O înregsitrare este păstrată în tabel dacă îndeplineşte fie una din condiţii, fie cealaltă condiţie, fie pe amândouă. În aceste cazuri, urmărirea rezultatului unei selecţii poate deveni mai greu de urmărit.

Exemple:

1. STADIUEV=4 OR DURATASUP>24 – selecteză pacienţii care, fie sunt în stadiul 4, fie au supravieţuiri peste 24 de luni. Elimină acei pacienţi care nu îndeplinesc nici una din condiţii, adică elimină pacienţii din stadiile 1, sau 2, sau 3, precum şi toţi pacienţii cu durate de supravieţuire sub 24 de luni

2. STADIUEV=4 OR RASPTERAP=”RC” – selecteză pacienţii care, fie sunt în stadiul 4, fie au răspunsul terapeutic remisiune completă. Elimină acei pacienţi care nu îndeplinesc nici una din condiţii, adică elimină pacienţii din stadiile 1, sau 2, sau 3, precum şi toţi pacienţii cu alte răspunsuri terapeutice

3. VIRSTA<35 OR DURATASUP<24 – selectează pacienţii care au fie vârsta sub 35 de ani, fie durata de supravieţuire sub 24 de luni. Elimină pacienţii care au 35 de ani sau mai mult, precum şi pacienţii care au supravieţuire de 24 de luni sau mai mare

Rezultatul obţinut prin aplicarea condiţiei 1 de mai sus, la tabelul din pagina 1

Page 12: Operaţia de sortare în tabele de date MG - Cursul III.pdf · 2013-12-04 · De exemplu, nu este posibilă sortarea înregistrărilor după afecţiune, dacă în tabel nu a fost

Biostatistică – Cursul al III-lea Rezultatul obţinut prin aplicarea condiţiei 2 de mai sus, la tabelul din pagina 1

Rezultatul obţinut prin aplicarea condiţiei 3 de mai sus, la tabelul din pagina 1

Page 13: Operaţia de sortare în tabele de date MG - Cursul III.pdf · 2013-12-04 · De exemplu, nu este posibilă sortarea înregistrărilor după afecţiune, dacă în tabel nu a fost

Biostatistică – Cursul al III-lea Condiţii care se contrazic

Uneori, putem pune condiţii care au ca rezultat un tabel fără pacienţi. Acest fapt se întâmplă ori de câte ori, în tabelul în care facem selecţia, nu este nicio înregistare care să îndeplinească condiţiile cerute. Ca exemplu, aţi văzut condiţia simplă nr.7, de mai sus, care a avut ca efect obţinerea unui tabel cu nicio înregstrare.

Alteori, condiţiile pe care le punem sunt în contradicţie una cu alta şi în mod logic nicio înregistrare nu le va îndeplini. Tabelul rezultat după selecţie va fi un tabel fără înregsitrări. De data aceasta însă, nu din cauză că nu există înregsitrări care să îndeplinească condiţiile ci pentru că nici nu ar putea exista înregsitrări care să le îndeplinească.

Exemple:

VIRSTA<30 AND VIRSTA>50 – niciun pacient nu pate avea şi vârsta sub 30 de ani ŞI vârsta peste 50 de ani

SEX=”f” AND SEX=”b” – niciun pacient nu poate fi şi femeie şi bărbat

RASPTERAP=”RC” AND RASPTERAP=”RP” – niciun pacient nu poate avea şi remisiune parţială şi remisiune completă.

3. Chestiuni de examen: 1. Ce este sortarea? 2. Ce este selectarea sau filtrarea?