FUNDAMENTE DE SISTEME BIOLOGICE ŞI INFORMATICĂ MEDICALĂ BIOINFORMATIC Ă STRUCTURALĂ
description
Transcript of FUNDAMENTE DE SISTEME BIOLOGICE ŞI INFORMATICĂ MEDICALĂ BIOINFORMATIC Ă STRUCTURALĂ
Cursul 312-10-2011
Ş.l.dr.ing. Adriana [email protected]
www.aut.upt.ro/~adrianaa
FUNDAMENTE DE SISTEME BIOLOGICE ŞI
INFORMATICĂ MEDICALĂBIOINFORMATICĂ
STRUCTURALĂ
2Relaţia dintre inteligenţa artificială şi medicină
Sisteme decizionale (prima parte) sisteme suport pentru decizii sisteme bazate pe cunoştinţe (inferenţa logică)
folosirea metodelor statistice pentru implementarea sistemelor suport pentru decizii (inferenţa statistică)
Conţinut
3
INTELIGENŢA ARTIFICIALĂ ŞI MEDICINA
4
Relaţia IA – medicină A apărut în domeniul diagnozei
medicale S-a căutat un răspuns la întrebarea:
Cum poate un program să asiste un doctor să interpreteze constatările sale clinice ajutându-l să producă un diagnostic?
Luarea unei decizii – important şi dificil Medicul trebuie să aibă abilitatea de a
decide, în orice circumstanţă, legat de starea de sănătate a pacientului tratamentul adecvat evoluţia pacientului
5
Relaţia IA – medicină Tehnologia poate fi folosită pentru
a evita rezultate negative a reduce riscul apariţiei erorilor
Avantajele tehnologiei: pragmatism repetabilitate eficienţă imunitate faţă de factori perturbatori
specific umani (oboseală, stres, atenţie diminuată)
IMPORTANT: Decizia finală este luată de medic
6
SISTEME SUPORT PENRU DECIZII
7
Cea mai plauzibilă alternativă Uneori, la stabilirea unui diagnostic,
apar mai multe alternative Se poate construi un program care să
sugereze care este cea mai plauzibilă alternativă
Această soluţie se bazează pe sistemul lui Nash şi este foarte simplu de implementat
Structurile de date necesare sunt: o matrice K un vector R
8
Cea mai plauzibilă alternativă
K
1
2
.
.
.
.
m
1 2 . . . n
R
1
2
.
.
.
.
m
SIMPTOME
BOLI
9
Cea mai plauzibilă alternativă În vectorul R
fiecare poziţie are asociată o boală iniţial se setează pe zero
În matricea K rândurile – boli coloanele – simptome completarea se face la construirea
sistemului valorile sunt propuse de medic (0-100) reprezintă plauzibilitatea ca un anumit
simptom să apară la o anumită boală
10
Cea mai plauzibilă alternativă Algoritmul:
R=0 se parcurg de la 1 la n simptomele
dacă simptomul apare la pacient, coloana corespunzătoare acestuia se adună la R
se afişează toate bolile asociate poziţiilor din R în ordinea descrescătoare a valorilor finale
Valorile obţinute pentru fiecare boală sunt interpretate ca scoruri de plauzibilitate
11
Cea mai plauzibilă alternativă Acest tip de programe este numit
sistem suport pentru decizii (DSS – decision support system)
Domeniul de aplicabilitate nu este doar medicina; oriunde există, în anumite condiţii date, posibilitatea de a lua mai multe decizii se pot utiliza astfel de sisteme (în domeniile economic, militar etc.)
12
Cea mai plauzibilă alternativă Avantajul – simplitatea Dezavantajul – lipsa unui fundament
matematic
Totuşi, pornind de la acest model, se pot dezvolta noi variante, cu funcţionalitate mai ridicată şi mai bine aprofundate teoretic
13
SISTEME BAZATE PE CUNOŞTINŢE
14
Simularea raţionamentului uman Se construieşte un program care pe
baza unor premise, prin mecanisme de inferenţă logică, deduce diagnosticul
Programul trebuie să încorporeze piese de cunoaştere necesare efectuării raţiona-mentului
Acest tip de programe se numeşte sistem bazat pe cunoştinţe (KBS – knowledge based system)
15
Simularea raţionamentului uman Structura de date folosită – un graf
orientat Peste graf se aplică un mecanism de
evaluare logică în lanţ Pentru a realiza sistemul e nevoie de un
set de reguli create din premise şi operaţii logice
În diagnoza medicală premisele sunt reprezentate prin simptome şi rezultate ale testelor care se realizează când un pacient se prezintă la medic
16
Simularea raţionamentului uman Exemplu – diagnoză pentru hepatită Considerăm tipurile de hepatită B, C şi
B+D Se realizează pe baza analizării unor marker-i: AgHBs anti-VHD anti-VHC
Valorile acestor marker-i formează premisele (vezi tabelul următor)
17
Simularea raţionamentului uman
Marker Valoare Denumire premisă
AgHBs Pozitiv P1AgHBs Negativ P2
anti-VHD Negativ P3anti-VHD Pozitiv P4anti-VHC Pozitiv P5
Premisele pentru diagnosticarea hepatitei
18
Simularea raţionamentului uman Pe baza premiselor (utilizând operatori
logici) se alcătuiesc regulile:
R1: dacă P1 ŞI P3 atunci “hepatită B”R2: dacă P1 ŞI P4 atunci “hepatită B+D”R3: dacă P2 ŞI P5 atunci “hepatită C”
19
Simularea raţionamentului uman Graful rezultat:
P1
P2
P3
P4
P5
AND
AND
AND
B
B+D
C
20
Simularea raţionamentului uman Avantaj: uşor de implementat pentru
reguli simple de genul premise logice concluzii
Dezavantaje: dacă se lucrează cu cantităţi mari de date
graful devine prea complex uneori e dificil să se definească regulile
sistemului transformarea cunoştinţelor explicite în
reguli implicite poate duce la pierderea sau distorsionarea informaţiilor
21
PROBABILITĂŢILE ÎN INFORMATICA MEDICALĂ
22
Problema modelului DSS Modelul DSS (decision support system)
nu are un suport matematic înglobează empiric într-o matrice
cunoştinţe medicale provenite din cărţi articole experienţă personală
23
Problema modelului KBS Inferenţa logică nu este o soluţie dacă
sunt analizaţi mulţi parametrii există numeroase combinaţii între aceşti
parametrii deoarece regulile se definesc greu şi
există riscul apariţiei inexactităţilor
24
Soluţia Soluţia ar fi stocarea într-o bază de date
a unui număr mare de pacienţi Informaţiile reţinute sunt:
toate premisele standardizate (un set de simptome şi analize clinice unitare)
diagnosticul final (se presupune a fi corect) o sursă viabilă de informaţii (oarecum
diferită de experienţa personală) asupra acestor informaţii se pot folosi
elemente din teoria probabilităţilor
25
Definiţii şi notaţii utile
– mulţimea tuturor rezultatelor posibile ale unui eveniment (se consideră finită) ex. pentru aruncarea unui zar
={1,2,3,4,5,6} E, F, … – evenimente (submulţimi ale lui
) Evenimentul se numeşte evenimentul
cert Evenimentul {} (notat şi I) se numeşte
evenimentul imposibil
26
Definiţii şi notaţii utile p(E) – probabilitatea unui eveniment E este un număr real are următoarele proprietăţi axiomatice:
0 p(E) 1; p() = 1; p(I) = 0.
27
Definiţii şi notaţii utile Dacă două evenimente E şi F sunt
mutual exclusive (mulţimi disjuncte), probabilitatea ca măcar unul să apară este suma probabilităţilor lor individuale: E F = {} p(EF) = p(E) + p(F).
Probabilitatea p(EF) semnifică faptul că şi evenimentul E şi evenimentul F trebuie obligatoriu să apară împreună şi se numeşte probabilitate compusă. Se notează: p(EF) = p(E,F)
28
Definiţii şi notaţii utile Probabilitatea condiţionată a
evenimentului E în cazul apariţiei obligatorii a lui F este notată p(E|F)
Când p(F) 0, p(E|F) se defineşte ca raportul dintre probabilitatea compusă p(E,F) şi probabilitatea de apariţie a lui F:
)(),()|(
FpFEpFEp
29
Exemplu Care este probabilitatea să apară la aruncarea
zarului un număr par când se consideră că este cert că numărul va fi mai mic decât 4?
E={2,4,6} – numere pare p(E)=p({2})+ p({4})+ p({6})=1/6+1/6+1/6=1/2
F={1,2,3} – numere mai mici decât 4 p(F)=p({1})+ p({2})+ p({3})=1/6+1/6+1/6=1/2
EF={2} – numerele pare mai mici decât 4 p(E,F)=p({2})=1/6
31
2161
)(),()|(
FpFEpFEp
30
Utilizarea teoriei probabilităţilor în diagnoza medicală – mulţime de pacienţi (numită şi
populaţie statistică) j –variabilă asociată unei boli
(diagnosticul) Dj – mulţimea tuturor pacienţilor care au
acea boală S = { 1, 2, … , n } – mulţimea tuturor
simptomelor considerate standard De exemplu:
2 = 0 înseamnă că pacienţii nu au temperatură 2 = 1 înseamnă că pacienţii au temperatură
31
Utilizarea teoriei probabilităţilor în diagnoza medicală Baza de date considerată (investigată),
conţine pentru fiecare pacient: un vector de simptome s = ( s1, s2, … , sn )
reprezentând valorile asociate variabilelor din S
boală j ( j = 1,m unde m este numărul de boli luate în considerare)
32
Utilizarea teoriei probabilităţilor în diagnoza medicală Pentru un nou pacient:
se cunoaşte vectorul s asociat (toate simptomele şi analizele sale)
scopul: sugerarea unui diagnostic În acest sens, se calculează pentru
fiecare boală k probabilitatea asociată, adică valoarea p(Dk|S=s)
33
Teorema lui Bayes
34
Teorema lui Bayes Thomas BAYES 1702 – 1761 matematician englez a studiat logica şi
teologia cel mai important
lucru care a rămas de la el este teorema care-i poartă numele
35
Teorema lui Bayes Este una din formulele de calcul cu
probabilităţi condiţionate care arată că:
Cu ajutorul ei se poate calcula p(Dk|S=s) Teorema lui Bayes aplicată în diagnoza
medicală:
)()()|()|(
FpEpEFpFEp
)()()|(
)|(Sp
DpDSpSDp kk
k
36
Teorema lui Bayes p(Dk) este simplu de calculat, cunoscând
frecvenţa cu care k=1 apare în populaţia :
cardcardD
cardxxcard
Dp kkk
}1)(|{)(
37
Teorema lui Bayes p(S|Dk) necesită mai multe calcule şi
trebuie presupus că simptomele sunt independente condiţionat în prezenţa bolii k
unde:
şi:
n
ikik DpDSp
1
)|()|(
)(),(
)|(k
kiki Dp
DpDp
card
SDcardcard
xxxcardDp ikikki
}{}1)(,1)({),(
38
Teorema lui Bayes p(S) este, de asemenea, destul de greu
de calculat; dacă se presupune că toate bolile sunt mutual exclusive, adică fiecare pacient trebuie să aibă la un moment dat doar o singură boală (şi nu este întotdeauna aşa) se poate folosi următoarea formulă:
unde j este un indice al tuturor bolilor investigate 1, 2, …, m, iar termenii sumei se calculează folosind relaţiile anterioare
m
jjj DpDSpSp
1
)()|()(
39
Teorema lui Bayes În final rezultă, pentru teorema lui
Bayes, relaţia de calcul:
k=1,m
m
j
n
ijij
n
ikik
k
DpDp
DpDpSDp
1 1
1
)|()(
)|()()|(
40
Teorema lui Bayes Aplicarea formulei date de teorema lui
Bayes asupra unei baze de date care reprezintă o populaţie statistică cu scopul de a determina un diagnostic pentru un nou pacient se numeşte inferenţă prin regula bayes-iană.
Pentru rezultate cât mai bune: populaţie statistică mare număr ridicat de simptome omogenitatea bolilor
41
Exemplu – hepatita B Hepatita B este o boală gravă, ea
ucigând anual între 1 şi 2 milioane de persoane
Simptomele şi analizele sunt în general suficient de evidente pentru a putea determina medicul să declare că o anumită persoană este infectată cu virusul hepatic B
Problema este că nu toţi pacienţii evoluează la fel şi că în momentul internării, pe baza simptomelor şi a analizelor, e greu de prevăzut cum se vor comporta aceştia
42
Exemplu – hepatita B Există trei tipuri evolutive ale hepatitei B
obişnuit, cu recăderi şi cu decompensări
şi şase forme ale bolii uşoară, medie, gravă, prelungită, colestatică şi comatoasă
43
Exemplu – hepatita B
Ar fi foarte interesant şi util dacă, la internarea unui pacient despre care se ştie că este infectat cu virusul hepatitei B, s-ar putea preciza, cu o oarecare probabilitate, care va fi tipul evolutiv şi forma bolii, astfel încât el să poată fi tratat corespunzător şi să se evite riscurile agravării stării lui de sănătate
44
45
Baza de date Informaţiile prelucrate de teorema lui
Bayes trebuie să fie sub formă booleană (există sau nu există un anumit simptom/valoare)
Din acest motiv rezultatele analizelor de laborator de exemplu trebuie prelucrate şi împărţite pe intervale cu o anumită semnificaţie din punct de vedere medical (vezi tabelul următor)
46
Baza de dateSex Vârsta Mediu Contact Transfuzii Tratamente
parenterale
m/f<20/20-30/ 30-45/>45
(ani)rural/urban d/n d/n d/n
Timp debut Inapetenţă Greaţă Vomă Astenie Febră
<8/8-21/>21(zile)
d/n d/n d/n d/n d/n
Urinehipercrom
e
Icter tegumenta
rArtralgii Mialgii Erupţii
cutanate Icter
d/n d/n d/n d/n d/n 0-1/2/3-6Ficat Bilirubină Tymol TGP Tip Formă
0-2/>2 (cm)
<1/1-10/>10 0-4/>4 0-400/
>400 o/r/d u/m/g/p/ col/com
47
Acurateţe Procentul de pacienţi diagnosticaţi
corect Depinde foarte mult de populaţia
statistică
În exemplul descris anterior teorema lui Bayes are acurateţea 73.33%
48
Îmbunătăţiri ale inferenţei bayesiene
49
Formula lui Aitken În cazul unor populaţii statistice mari,
teorema lui Bayes duce la un timp excesiv de calcul pentru probabilitatea p(S|Dk)
Se poate folosi formula lui Aitken:
în care:
T
t
ststnk mk
TDSp
1
,...,1,)1(1)|(
50
Formula lui Aitken T = numărul total de pacienţi n = numărul de simptome = factor de “netezire” pentru boala
0.5 1 stabilit empiric
valoare mică pentru boli mai răspândite valoare apropiată de 1 pentru boli mai rare
st = distanţa Hamming între valoarea S=(S1, S2, …, Sn) a pacientului diagnosticat şi St=(S1
t, S2t , …, Sn
t) a pacientului t din baza de date
51
Formula lui Aitken Distanţa Hamming
derivată din formula generală a lui Minkovski
consideră că toate caracteristicile Si şi Sit,
i=1, …, n, sunt codificate binar este egală cu numărul de caracteristici care
sunt diferite în S şi St
n
i
tiingHammi SSXORd
1
),(
52
Bayes – forma generală Forma simplă a teoremei lui Bayes se
bazează pe două presupuneri importante: simptomele sunt independente condiţionat
de cele mai multe ori această cerinţă nu e îndeplinită
de exemplu anemia şi oboseala de obicei nu sunt independente
bolile sunt mutual exclusive un pacient trebuie să aibă o singură boală la un
moment dat toate problemele sunt generate de acea unică
boală
53
Bayes – forma generală Forma generală a teoremei lui Bayes
elimină aceste două probleme:
)...()()|...(
)...|(21
2121
n
nn p
DpDpDp
54
Probleme Implementaţi un sistem suport pentru
decizii Implementaţi un sistem bazat pe
cunoştinţe Implementaţi un sistem decizional bazat
pe inferenţă statistică
55
Bibliografie1. Adriana ALBU: “Stabilirea de baze de
date pentru diagnosticarea hepatitelor virale prin analiza imaginilor ficatului obţinute prin tomografiere” – Teză de doctorat, Editura Politehnica, 2006
56
Vă mulţumesc pentru atenţie