FUNDAMENTE DE SISTEME BIOLOGICE ŞI INFORMATICĂ MEDICALĂ BIOINFORMATIC Ă STRUCTURALĂ

Cursul 312-10-2011

Ş.l.dr.ing. Adriana [email protected]

www.aut.upt.ro/~adrianaa

FUNDAMENTE DE SISTEME BIOLOGICE ŞI

INFORMATICĂ MEDICALĂBIOINFORMATICĂ

STRUCTURALĂ

mailto:[email protected]

2Relaţia dintre inteligenţa artificială şi medicină

Sisteme decizionale (prima parte) sisteme suport pentru decizii sisteme bazate pe cunoştinţe (inferenţa logică)

folosirea metodelor statistice pentru implementarea sistemelor suport pentru decizii (inferenţa statistică)

Conţinut

3

INTELIGENŢA ARTIFICIALĂ ŞI MEDICINA

4

Relaţia IA – medicină A apărut în domeniul diagnozei

medicale S-a căutat un răspuns la întrebarea:

Cum poate un program să asiste un doctor să interpreteze constatările sale clinice ajutându-l să producă un diagnostic?

Luarea unei decizii – important şi dificil Medicul trebuie să aibă abilitatea de a

decide, în orice circumstanţă, legat de starea de sănătate a pacientului tratamentul adecvat evoluţia pacientului

5

Relaţia IA – medicină Tehnologia poate fi folosită pentru

a evita rezultate negative a reduce riscul apariţiei erorilor

Avantajele tehnologiei: pragmatism repetabilitate eficienţă imunitate faţă de factori perturbatori

specific umani (oboseală, stres, atenţie diminuată)

IMPORTANT: Decizia finală este luată de medic

6

SISTEME SUPORT PENRU DECIZII

7

Cea mai plauzibilă alternativă Uneori, la stabilirea unui diagnostic,

apar mai multe alternative Se poate construi un program care să

sugereze care este cea mai plauzibilă alternativă

Această soluţie se bazează pe sistemul lui Nash şi este foarte simplu de implementat

Structurile de date necesare sunt: o matrice K un vector R

8

Cea mai plauzibilă alternativă

K

1

2

.

.

.

.

m

1 2 . . . n

R

1

2

.

.

.

.

m

SIMPTOME

BOLI

9

Cea mai plauzibilă alternativă În vectorul R

fiecare poziţie are asociată o boală iniţial se setează pe zero

În matricea K rândurile – boli coloanele – simptome completarea se face la construirea

sistemului valorile sunt propuse de medic (0-100) reprezintă plauzibilitatea ca un anumit

simptom să apară la o anumită boală

10

Cea mai plauzibilă alternativă Algoritmul:

R=0 se parcurg de la 1 la n simptomele

dacă simptomul apare la pacient, coloana corespunzătoare acestuia se adună la R

se afişează toate bolile asociate poziţiilor din R în ordinea descrescătoare a valorilor finale

Valorile obţinute pentru fiecare boală sunt interpretate ca scoruri de plauzibilitate

11

Cea mai plauzibilă alternativă Acest tip de programe este numit

sistem suport pentru decizii (DSS – decision support system)

Domeniul de aplicabilitate nu este doar medicina; oriunde există, în anumite condiţii date, posibilitatea de a lua mai multe decizii se pot utiliza astfel de sisteme (în domeniile economic, militar etc.)

12

Cea mai plauzibilă alternativă Avantajul – simplitatea Dezavantajul – lipsa unui fundament

matematic

Totuşi, pornind de la acest model, se pot dezvolta noi variante, cu funcţionalitate mai ridicată şi mai bine aprofundate teoretic

13

SISTEME BAZATE PE CUNOŞTINŢE

14

Simularea raţionamentului uman Se construieşte un program care pe

baza unor premise, prin mecanisme de inferenţă logică, deduce diagnosticul

Programul trebuie să încorporeze piese de cunoaştere necesare efectuării raţiona-mentului

Acest tip de programe se numeşte sistem bazat pe cunoştinţe (KBS – knowledge based system)

15

Simularea raţionamentului uman Structura de date folosită – un graf

orientat Peste graf se aplică un mecanism de

evaluare logică în lanţ Pentru a realiza sistemul e nevoie de un

set de reguli create din premise şi operaţii logice

În diagnoza medicală premisele sunt reprezentate prin simptome şi rezultate ale testelor care se realizează când un pacient se prezintă la medic

16

Simularea raţionamentului uman Exemplu – diagnoză pentru hepatită Considerăm tipurile de hepatită B, C şi

B+D Se realizează pe baza analizării unor marker-i: AgHBs anti-VHD anti-VHC

Valorile acestor marker-i formează premisele (vezi tabelul următor)

17

Simularea raţionamentului uman

Marker Valoare Denumire premisă

AgHBs Pozitiv P1AgHBs Negativ P2

anti-VHD Negativ P3anti-VHD Pozitiv P4anti-VHC Pozitiv P5

Premisele pentru diagnosticarea hepatitei

18

Simularea raţionamentului uman Pe baza premiselor (utilizând operatori

logici) se alcătuiesc regulile:

R1: dacă P1 ŞI P3 atunci “hepatită B”R2: dacă P1 ŞI P4 atunci “hepatită B+D”R3: dacă P2 ŞI P5 atunci “hepatită C”

19

Simularea raţionamentului uman Graful rezultat:

P1

P2

P3

P4

P5

AND

AND

AND

B

B+D

C

20

Simularea raţionamentului uman Avantaj: uşor de implementat pentru

reguli simple de genul premise logice concluzii

Dezavantaje: dacă se lucrează cu cantităţi mari de date

graful devine prea complex uneori e dificil să se definească regulile

sistemului transformarea cunoştinţelor explicite în

reguli implicite poate duce la pierderea sau distorsionarea informaţiilor

21

PROBABILITĂŢILE ÎN INFORMATICA MEDICALĂ

22

Problema modelului DSS Modelul DSS (decision support system)

nu are un suport matematic înglobează empiric într-o matrice

cunoştinţe medicale provenite din cărţi articole experienţă personală

23

Problema modelului KBS Inferenţa logică nu este o soluţie dacă

sunt analizaţi mulţi parametrii există numeroase combinaţii între aceşti

parametrii deoarece regulile se definesc greu şi

există riscul apariţiei inexactităţilor

24

Soluţia Soluţia ar fi stocarea într-o bază de date

a unui număr mare de pacienţi Informaţiile reţinute sunt:

toate premisele standardizate (un set de simptome şi analize clinice unitare)

diagnosticul final (se presupune a fi corect) o sursă viabilă de informaţii (oarecum

diferită de experienţa personală) asupra acestor informaţii se pot folosi

elemente din teoria probabilităţilor

25

Definiţii şi notaţii utile

– mulţimea tuturor rezultatelor posibile ale unui eveniment (se consideră finită) ex. pentru aruncarea unui zar

={1,2,3,4,5,6} E, F, … – evenimente (submulţimi ale lui

) Evenimentul se numeşte evenimentul

cert Evenimentul {} (notat şi I) se numeşte

evenimentul imposibil

26

Definiţii şi notaţii utile p(E) – probabilitatea unui eveniment E este un număr real are următoarele proprietăţi axiomatice:

0 p(E) 1; p() = 1; p(I) = 0.

27

Definiţii şi notaţii utile Dacă două evenimente E şi F sunt

mutual exclusive (mulţimi disjuncte), probabilitatea ca măcar unul să apară este suma probabilităţilor lor individuale: E F = {} p(EF) = p(E) + p(F).

Probabilitatea p(EF) semnifică faptul că şi evenimentul E şi evenimentul F trebuie obligatoriu să apară împreună şi se numeşte probabilitate compusă. Se notează: p(EF) = p(E,F)

28

Definiţii şi notaţii utile Probabilitatea condiţionată a

evenimentului E în cazul apariţiei obligatorii a lui F este notată p(E|F)

Când p(F) 0, p(E|F) se defineşte ca raportul dintre probabilitatea compusă p(E,F) şi probabilitatea de apariţie a lui F:

)(),()|(

FpFEpFEp

29

Exemplu Care este probabilitatea să apară la aruncarea

zarului un număr par când se consideră că este cert că numărul va fi mai mic decât 4?

E={2,4,6} – numere pare p(E)=p({2})+ p({4})+ p({6})=1/6+1/6+1/6=1/2

F={1,2,3} – numere mai mici decât 4 p(F)=p({1})+ p({2})+ p({3})=1/6+1/6+1/6=1/2

EF={2} – numerele pare mai mici decât 4 p(E,F)=p({2})=1/6

31

2161

)(),()|(

FpFEpFEp

30

Utilizarea teoriei probabilităţilor în diagnoza medicală – mulţime de pacienţi (numită şi

populaţie statistică) j –variabilă asociată unei boli

(diagnosticul) Dj – mulţimea tuturor pacienţilor care au

acea boală S = { 1, 2, … , n } – mulţimea tuturor

simptomelor considerate standard De exemplu:

2 = 0 înseamnă că pacienţii nu au temperatură 2 = 1 înseamnă că pacienţii au temperatură

31

Utilizarea teoriei probabilităţilor în diagnoza medicală Baza de date considerată (investigată),

conţine pentru fiecare pacient: un vector de simptome s = ( s1, s2, … , sn )

reprezentând valorile asociate variabilelor din S

boală j ( j = 1,m unde m este numărul de boli luate în considerare)

32

Utilizarea teoriei probabilităţilor în diagnoza medicală Pentru un nou pacient:

se cunoaşte vectorul s asociat (toate simptomele şi analizele sale)

scopul: sugerarea unui diagnostic În acest sens, se calculează pentru

fiecare boală k probabilitatea asociată, adică valoarea p(Dk|S=s)

33

Teorema lui Bayes

34

Teorema lui Bayes Thomas BAYES 1702 – 1761 matematician englez a studiat logica şi

teologia cel mai important

lucru care a rămas de la el este teorema care-i poartă numele

http://yudkowsky.net/assets/images/Bayes-mugshot.jpeg

36

Teorema lui Bayes p(Dk) este simplu de calculat, cunoscând

frecvenţa cu care k=1 apare în populaţia :

cardcardD

cardxxcard

Dp kkk

}1)(|{)(

37

Teorema lui Bayes p(S|Dk) necesită mai multe calcule şi

trebuie presupus că simptomele sunt independente condiţionat în prezenţa bolii k

unde:

şi:

n

ikik DpDSp

1

)|()|(

)(),(

)|(k

kiki Dp

DpDp

card

SDcardcard

xxxcardDp ikikki

}{}1)(,1)({),(

38

Teorema lui Bayes p(S) este, de asemenea, destul de greu

de calculat; dacă se presupune că toate bolile sunt mutual exclusive, adică fiecare pacient trebuie să aibă la un moment dat doar o singură boală (şi nu este întotdeauna aşa) se poate folosi următoarea formulă:

unde j este un indice al tuturor bolilor investigate 1, 2, …, m, iar termenii sumei se calculează folosind relaţiile anterioare

m

jjj DpDSpSp

1

)()|()(

39

Teorema lui Bayes În final rezultă, pentru teorema lui

Bayes, relaţia de calcul:

k=1,m

m

j

n

ijij

n

ikik

k

DpDp

DpDpSDp

1 1

1

)|()(

)|()()|(

40

Teorema lui Bayes Aplicarea formulei date de teorema lui

Bayes asupra unei baze de date care reprezintă o populaţie statistică cu scopul de a determina un diagnostic pentru un nou pacient se numeşte inferenţă prin regula bayes-iană.

Pentru rezultate cât mai bune: populaţie statistică mare număr ridicat de simptome omogenitatea bolilor

41

Exemplu – hepatita B Hepatita B este o boală gravă, ea

ucigând anual între 1 şi 2 milioane de persoane

Simptomele şi analizele sunt în general suficient de evidente pentru a putea determina medicul să declare că o anumită persoană este infectată cu virusul hepatic B

Problema este că nu toţi pacienţii evoluează la fel şi că în momentul internării, pe baza simptomelor şi a analizelor, e greu de prevăzut cum se vor comporta aceştia

42

Exemplu – hepatita B Există trei tipuri evolutive ale hepatitei B

obişnuit, cu recăderi şi cu decompensări

şi şase forme ale bolii uşoară, medie, gravă, prelungită, colestatică şi comatoasă

43

Exemplu – hepatita B

Ar fi foarte interesant şi util dacă, la internarea unui pacient despre care se ştie că este infectat cu virusul hepatitei B, s-ar putea preciza, cu o oarecare probabilitate, care va fi tipul evolutiv şi forma bolii, astfel încât el să poată fi tratat corespunzător şi să se evite riscurile agravării stării lui de sănătate

45

Baza de date Informaţiile prelucrate de teorema lui

Bayes trebuie să fie sub formă booleană (există sau nu există un anumit simptom/valoare)

Din acest motiv rezultatele analizelor de laborator de exemplu trebuie prelucrate şi împărţite pe intervale cu o anumită semnificaţie din punct de vedere medical (vezi tabelul următor)

46

Baza de dateSex Vârsta Mediu Contact Transfuzii Tratamente

parenterale

m/f<20/20-30/ 30-45/>45

(ani)rural/urban d/n d/n d/n

Timp debut Inapetenţă Greaţă Vomă Astenie Febră

<8/8-21/>21(zile)

d/n d/n d/n d/n d/n

Urinehipercrom

e

Icter tegumenta

rArtralgii Mialgii Erupţii

cutanate Icter

d/n d/n d/n d/n d/n 0-1/2/3-6Ficat Bilirubină Tymol TGP Tip Formă

0-2/>2 (cm)

<1/1-10/>10 0-4/>4 0-400/

>400 o/r/d u/m/g/p/ col/com

47

Acurateţe Procentul de pacienţi diagnosticaţi

corect Depinde foarte mult de populaţia

statistică

În exemplul descris anterior teorema lui Bayes are acurateţea 73.33%

48

Îmbunătăţiri ale inferenţei bayesiene

49

Formula lui Aitken În cazul unor populaţii statistice mari,

teorema lui Bayes duce la un timp excesiv de calcul pentru probabilitatea p(S|Dk)

Se poate folosi formula lui Aitken:

în care:

T

t

ststnk mk

TDSp

1

,...,1,)1(1)|(

50

Formula lui Aitken T = numărul total de pacienţi n = numărul de simptome = factor de “netezire” pentru boala

0.5 1 stabilit empiric

valoare mică pentru boli mai răspândite valoare apropiată de 1 pentru boli mai rare

st = distanţa Hamming între valoarea S=(S1, S2, …, Sn) a pacientului diagnosticat şi St=(S1

t, S2t , …, Sn

t) a pacientului t din baza de date

51

Formula lui Aitken Distanţa Hamming

derivată din formula generală a lui Minkovski

consideră că toate caracteristicile Si şi Sit,

i=1, …, n, sunt codificate binar este egală cu numărul de caracteristici care

sunt diferite în S şi St

n

i

tiingHammi SSXORd

1

),(

52

Bayes – forma generală Forma simplă a teoremei lui Bayes se

bazează pe două presupuneri importante: simptomele sunt independente condiţionat

de cele mai multe ori această cerinţă nu e îndeplinită

de exemplu anemia şi oboseala de obicei nu sunt independente

bolile sunt mutual exclusive un pacient trebuie să aibă o singură boală la un

moment dat toate problemele sunt generate de acea unică

boală

53

Bayes – forma generală Forma generală a teoremei lui Bayes

elimină aceste două probleme:

)...()()|...(

)...|(21

2121

n

nn p

DpDpDp

54

Probleme Implementaţi un sistem suport pentru

decizii Implementaţi un sistem bazat pe

cunoştinţe Implementaţi un sistem decizional bazat

pe inferenţă statistică

55

Bibliografie1. Adriana ALBU: “Stabilirea de baze de

date pentru diagnosticarea hepatitelor virale prin analiza imaginilor ficatului obţinute prin tomografiere” – Teză de doctorat, Editura Politehnica, 2006

56

Vă mulţumesc pentru atenţie

FUNDAMENTE DE SISTEME BIOLOGICE ŞI INFORMATICĂ MEDICALĂ BIOINFORMATIC Ă STRUCTURALĂ

Documents

Transcript of FUNDAMENTE DE SISTEME BIOLOGICE ŞI INFORMATICĂ MEDICALĂ BIOINFORMATIC Ă STRUCTURALĂ