Download - Referat-Learning Baysian .doc

Transcript

Capitolul 1

Neapolitan R. E. - Learning Bayesian Networks, sectiunile 1.1-1.2Cuprins

1. Introducere n Reele Bayesian

2. Bazele teroriei probabilitilor 2.1 Funcii de probabilitate i spaiu 2.2 .Probabilitatea condiionat i independena 2.3 Teorema Bayes 2.4 Variabile aleatoare i probabilitatea de distribuie joint

3. Interferena Bayesian 3.1 Variabile aleatoare i probabiliti n Aplicaii Bayesiane.

3.2 Definirea variabilelor aleatoare i a probabilitii de distribuie comun pentru inferena Bayesian 3.3 Exemple clasice de interferen Bayesian

4. Concluzii

1. Introducere n Reele Bayesian

Rolul unei reele Bayesiene este reprezentarea unor distribuii de probabilitate pentru nite variabile aleatoare {X1 , . . . , Xn }. i n cazul cel mai simplu al variabilelor aleatoare boolene, o distributie de probabilitate comun necesit precizarea pentru toate combinaiile de valori binare ale v.a. ( variabile aleatorii ) X1 , . . . , Xn .

Dup cum se obsearv se ia n considerare situaia n care o caracteristic a unei entiti are o influen direct asupra unei alte caracteristici a acestei entiti. Un exemplu concret este prezena sau absena unei boli ntr-o fiin uman , ce are o influen direct , dac un test pentru aceast boal este pozitiv sau negativ. Timp de decenii, teorema lui Bayes "a fost utilizat pentru a efectua influena probabilistic n aceast situaie. n exemplul curent, teorema ne ajut pentru a calcula probabilitatea condiionat ca o persoan avnd o boal , atunci cand face un un test pentru aceast boal s aib o ertitudine pozitiv. n aceast situaie , mai multe caracteristici sunt legate prin lanuri de interferen: dac omul este fumtor activ de mai mult timp, acest lucru are o influen direct pentru ca persoana s aib bronit , i poate c persoana are cancer pulmonar. La rndul su, prezena sau absena fiecreidin aceste boli are o influen direct asupra individului. Prezena sau absena de cancer pulmonar are o influen direct asupra radiografiei indiferent dac stestul cu razele X este pozitiv. Bronita nu are nici o influen direct dac testul cu razele X-este pozitiv. Se obsearv c aceste probabiliti condiionate nu pot fi calculate folosind o aplicaie simpl a teoremei lui Bayes. Exist un algoritm simplu de calcul al acestora, dar valorile de probabilitate pe care le necesit, nu sunt de obicei accesibile; n plus, algoritmul are spaiu i complexitate exponenial de timp.Reele bayesiene au fost dezvoltate pentru a aborda aceste dificulti. Prin exploatareaindependenelor condiionate, determinate de lanurile de influen, suntem n msur s reprezintm o instan mai mare ntr-o reea Bayesian, folosind puin spaiu i se pot efectua deducie probabilistic printre caracteristicile n timp acceptabile.

2. Bazele teroriei probabilitilor. Conceptul de probabilitate are o istorie bogat i diversificat, care include multe i diferite abordri filozofice. Aceste abordri includ noiuni de probabilitate ca un raport, ca o frecven relativ. n continuare se vor prezenta cele trei abordri i modul n care acestea sunt legate.

2.1 Funcii de probabilitate i spaiu

n 1933 A.N. Kolmogorov a dezvoltat definiia de probabilitate,care servete ca fundament matematic pentru toate aplicaiile de probabilitate.Teoria probabilitilor are de a face cu experimente care au un set distinct de rezultate. Exemple de astfel de experimente sunt: ultima carte de la un pachet de 52 carti cu 52 de rezultate; aruncarea unei monede cu dou fee, cu cele dou rezultate posibile ; alegerea unei persoana din populaie i de a stabili dac persoana este un fumator( cu dou rezultate "fumtor" i "non-fumtor") ; alegera unei persoane dintr-o populaie i stabilirea dac persoana respectiv are cancer pulmonar ( cu dou rezultate "avnd cancer pulmonar" i "a nu avea cancer pulmonar") , dup identificarea a 5 nivele de calciu seric ; se alege o persoana din populaie i se determin nivelul de calciu seric individului cu cele 5 rezultate ; alegerea o persoana dintr-o populaie i determinareanivel individual, de calciu seric cu numr infinit de rezultate Ultimele dou experimente nu sunt bine definite pn cnd nu se va identifica un set de rezultate. Alegerea unei persoane pentru msurare nivel calciu, poate fi asociat cu multe experimente diferite, n funcie de ceea ce se consider rezultat distinct, setul de rezultate poate fi infinit. Odata ce un experiment este bine definit, pentru obinerea tuturor rezultatelor se numete sample space. Matematicacesta este un set, iar rezultatele sunt elemente ale setului. n cazul unui sample space , fiecare subset al spatiului este numit eveniment. Un subset care conine un singur element este numit eveniment elementar. Un sample space identificat, are o funcie de probabilitate definit astfel, conform definiiei:Definiia 1. Presupunem c avem un spaiu coninnd n elemente distincte: = {e1, e2,. . . en}. O funcie ce atribuie un numr real P (E) pentru fiecare eveniment E este apelat o funcie de probabilitate, pentru setul de subseturi ale lui de dac ndeplinete urmtoarele condiii:1. 0 P ({ei}) 1 pentru 1 i n.2. P ({e1}) + P ({e2}) +. . . + P ({en}) = 1.3. Pentru fiecare eveniment E = {ei1, ei2,. . . eik} ce nu este un eveniment elementar,P (E) = P ({ei1}) + P ({ei2} ei2) +. . . + P ({eik }). Perechea (, P), se numete spaiu de probabilitate.

Se poate spune c P este o funcie de probabilitate, pe , acesta fiind un set de subseturi pentru . Funciile de probabilitate au aprut datorit jocurilor de noroc, folosindu-se conform exemplului de mai jos:

Exemplul 1. Experimentul se refer la cartea de deasupra unui pachet format din 52 de cri de joc. contine feele celor 52 de cri, i folosind principiul de indiferen, se va atribui P ({e}) = 1/52 pentru fiecare e . Prin urmare, dac vom lsa kh i ks pentru regele de inim roie i a regelui de pic, respectiv, P ({kh}) = 1/52, P ({ks) = 1/52, i P ({kh, ks}) = P ({kh} ) + P ({ks}) = 1/26.Principiul de indiferen (un termen popularizat de JM Keynes n anul 1921) se refer la faptul c evenimentele elementare trebuie s fie considerate echilibrat probabile, dac nu avem nici un motiv pentru a se prefera unul n locul cellalt. Conform acestui principiu, atunci cnd exist sunt n evenimente elementare, probabilitatea pentru fiecare dintre ele , este raportul 1 / n. Acesta este modul n care se atribuie probabilitile de la mai multe n jocuri de noroc, fiind o probabilitate de alocare care se numete raport, raie.Urmtorul exemplu arat o probabilitate care nu poate fi calculat folosind principiul de indiferen.

Exemplul 2. Aruncarea unei monezi care are dou modaliti de a ateriza. Din cauza lipsei de simetrie se atribuie o probabilitate de 1/2 la fiecare dintre aceste evenimente. Acest experiment poate fi repetat de mai multe ori. n 1919, Richard von Mises a dezvoltat abordarea frecvenei relative a probabilitii , care spune c n cazul n care un experiment se poate repeta de mai multe ori, probabilitatea ca oricare dintre rezultate este limit de ncercri ce tinde spre infinit, din raportul dintre numrul de evenimente ale rezultatului i numrul total de ncercri . De exemplu, pentru un numr m de ncercri avem :

P ({evenimente}) = lim ( #evenimente / m ) m

Dac s-ar arunca o moned de 10.000 de ori i va ateriza conduce 4373 de ori, pe o parte am putea estima probabilitatea de aproximativ 0.4373. Probabilitile obinute prin abordarea din exemplul anterior sunt numitefrecvene relative. n 1946 J.E. Kerrich a efectuat mai multe experimente folosind jocuri denoroc, n care principiul de indiferen prea s se aplice ( o carte din pachetul de cri de joc) iar rezultatele au indicat faptul c frecvena relativ apare ca o aproximatie a limitei dintre acestea i limita raiei. Exemplul 3. Exist exemple unde probabilitatea nu se poate obine cu raie sau cu frecvene relative. Unul dintre acestea, este la un pariu pentru un meci, de fotbal sau baschet , unde probabilitatea ca o anumit echip s ctige nu este cu siguran conform unei raii sau frecvene relative, deoarece jocul nu poate fi repetat de multe ori n aceleai condiii Probabilitatea n aceast situaie reprezint doar opiunile pariorului, fiind o probabilitate subiectiv. Pentru acest tip de stabilire a probabilitilor avem un anumit numr de moduri de a le stabili. Una dintre metodele cele mai populare este cel sugerat de D.V. Lindley n anul 1985. Aceast metod spune c este un rezultat incert la un joc de noroc , este ca o urn care conine bile albe i negre. O astfel de probabilitate poate fi construit folosind reduceri binare. Poate fi o fraciune de 0.75, pentru ca o echip s ctige sau fraciune de 0.6, pentru victorie, folosind metodele de pn acum, iar ambele ar fi corecte. Probabilitile subiective spre deosebire de cele cu raporturi raie i frecvenele relative, nu au valori obiective cu care s fim pe deplin de acord, de aceea se numesc subiective.

Neapolitan [ n 1996] a discutat despre construcia probabilitilor subiective care de obicei un anumit grad de realitate. Cnd exist posibilitatea de a calcula raporturi sau frecvenele relative, probabilitile obinute sunt de acord cu convingerile mai multor persoane . n exemplul cu crile de joc, cele mai multe persoane ar putea atribuio probabilitate subiectiv de 1/13 la cartea de deasupra fiind un as, ca n cazul n care o bil alb a fost trase dintr-o urn care conine o bil alb din 13 bile totale.Un alt exemplu care arat o probabilitate subiectiv, mai relevante pentru de reele bayesiene este urmtorul:

Exemplu 4 : Dup examinarea unui pacient i rezultatul analizelor razelor X pentru acesta. Dr. Gloviak decide probabilitatea c pacientul are cancer pulmonar de 0.9. Aceast probabilitate este probabilitatea subiectiv a Dr. dup acest rezultat.Un medic poate utiliza estimri de frecvene relative (cum ar fifraciuni de persoane fizice cu cancer pulmonar au analize pozitive la raze X) i poateexperimenta diagnosticarea mai multor pacieni similar pentru a ajunge la probabilitate, care ns este evaluat subiectiv. Dr. Gloviak poate afirma c este subiectivprobabilitatea de estimare , de frecvena relativ cu care pacienii, care au aceste simptome, au cancer pulmonar. Cu toate acestea, nu exist niciun motiv de a crede c judecata subiectiv va converge, i va continua diagnosticarea pacienilor cu aceste simptome, la frecvena relativ real cu cei care au cancer pulmonar.

Se poate demonstra urmtoarea teorem cu privire la probabilitii n spaiu:

Teorema 1. Fie (, P), un spaiu de probabilitate. Apoi

1. P () = 1.

2. 0 P (E) 1 pentru orice E .

3. Pentru E i F avem c E F = ,

P (E F) = P (E) + P (F).

Condiiile din aceast teorem au fost etichetate de axiome de probabilitate a teroriei lui A.N. Kolmogorov n 1933. Cnd condiia (3) se nlocuiete cu infinitul numrabil, aceste condiii sunt folosite pentru a defini o probabilitate n spaiu, n matematica probabilitii textelor..

Exemplul 5: S presupunem c trage prima carte dintr-un set de cri. Setul conine 4 regine i 4 regi. P (Regin Rege) = P (Regin) + P (Regele) = 1/13 + 1/13 = 2/13

Deoarece Regina Regele = . Remarcm i notm c avem 13 cri de PIC . Setul de Pic i Regina nu sunt disjuncte, aa c probabilitile lor nu sunt adunate.Nu este greu s dovedim faptul c, n general:

P (E F) = P (E) + P (F)-P (E F).

Astfel

P (Regina Pic) = P (Regina) + P (Pic)-P (Regina Pic)

2.2 .Probabilitatea condiionat i independena

Una dintre cele mai importante concepte din teoria probabilitii, este probabilitatea condiionat.

Definiia 2. Fie E i F sunt evenimente astfel nct P (F) 0. Apoi, condiiile de probabilitate pentru E respectiv F , notat P (E | F), este dat de relaia :

Intuiia iniial de probabilitateacondiionat vine de la probabilitatea acestor raporturi. n cazul de raportului, P (E | F), astfel definit mai sus, este o fraciune de elemente din F, care sunt, de asemenea, n E. Fie : n numrul de elemente din spaiul eantion, numrul de elemente din F, numrul de elemente din E F. ApoiAtunci:

este fraciunea de elemente din F, care sunt, de asemenea, n E. n ceea ce privete sensul, P (E | F), nseamn probabilitatea de elemente E ce apar avnd n vedere c au fost i n F.

Exemplu 6: Revenind la exemplul cu crile de joc: se ia n considerare din nou cartea de sus dintr-un pachet de cri, setul conine 4 Regine fi setul de 4 regine, set de 12 cri regale, i 13 cri de pic. 1 P (Regina) = 13

P (Regina Regale Cri ) 1/13 1P (Regina | Regale | Cri) = = =

P(Regina| Cri) 3/13 3

P (Regina Carte de Pic) 1 / 52 1P (Regina | Carte de Pic). = = =

P ( Carte de Pic ) 1 / 4 13

Se obsearv n exemplu faptul c P (Regina | Carte de Pic ) = P (Regina). Aceastanseamn c gsirea unei cri de pic nu face mai mult sau mai puin probabil ca aceasta s fie i Regina.Putem spune c cele dou evenimente sunt independente n acest caz, care este cuprins n urmtoarea definiie:

Definiie 3: Dou evenimente E i F sunt independente, dac se realizeaz una dintre urmtoarele condiii :

1. P (E | F) = P (E) i P (E) 0, P (F) 0.

2. P (E) = 0 sau P (F) = 0.

Se obsearv c strile din definiie au cte dou evenimente care sunt independente, dei se bazeaz pe probabilitatea condiionat de E i F. Motivul este faptul c independena este simetric. Aceasta este, n cazul n care P (E) 0 i P (F) 0, atunci P (E | F) = P (E), dac i numai dac P (F | E) = P (F). Se va dovedi simplu c E i F sunt independente dac i numai dac P (E F) = P (E), P (F).

Exemplul urmtor ilustreaz o extindere a noiunii de independen.

Exemplul 7 : Fie E = {kh, ks, qh}, F = {kh, kc, qh}, G = {kh, ks, kc, kd}, unde kh este regele de inim roie , ks este regele de pic, etc Apoi:3P (E) = 52 2P (E | F) = 3 2 1P (E | G) = = 4 2 1P (E | F G) =. 2

Deci, E i F nu sunt independente, dar ele vor fi independente, odat cu condiie pentru G.n exemplu, E i F se spun c ar fi condiionat independente de o independen, condiionat G. Este foarte important n reele bayesiene acest lucru.

Definiie 4. Dou evenimente E i F sunt condiionat independente dat Gn cazul n care P (G) 0 i se ndeplinesc una dintre urmtoarele condiii:

1. P (E | F G) = P (E | G) i P (E | G) 0, P (F | G) 0.

2. P (E | G) = 0 sau P (F | G) = 0.

Un alt exemplu de independen condiionat este:

Exemplu 8: Fie un set ce conine obiectele din figur:

Vom atribui o probabilitate de 1/13 la fiecare obiect, i Negru pentru setul de obiectele negre, Alb s fie setul de obiecte albe, Ptrat s fie setul de obiecte ptrate, i Unu pentru setul de obiecte care conin un '1 '. Atunci avem: 5P (Unu) = 13 3P (Unu | Ptrat) = 8

3 1P (Unu | Negru) = = 9 3 2 1P (Unu | Ptrat Negru) = = 6 3

2 1P (Unu | Alb) = = 4 2 1P (Unu | Ptrat Alb) =. 2

Deci Unul i Ptrat nu sunt independente, dar ele sunt independente condiionatavnd n vedere Negru i Alb dat.O regul foarte util care implic probabiliti condiionate este preyentat n continuare . Presupunem c avem n evenimente E1,E2. . . En, astfel nct Ei Ej = pentru i j i E1 E2 . . . En = . Astfel de evenimente se numesc reciproc exclusive i exhaustive. Legea de probabilitate total, spune pentru orice alt eveniment F, nP (F) = P (F Ei). (1) i = 1 Dac P (Ei) 0, atunci P (F Ei) = P (F | Ei), P (Ei). Prin urmare, n cazul n care P(Ei) 0 pentru orice i, regula se aplic n forma urmtoare:nP (F) = P (F | Ei), P (Ei) (2) i = 1

Aceasta se folosete pentru a obine axiomele teoriei probabilitii i regula de probabilitate condiionat atunci cnd probabilitile sunt raporturi. Cu toate acestea,ele pot fi, de asemenea, obinute n frecvena relativ 2.3 Teorema Bayes

Timp de decenii probabilitile condiionate de evenimente au fost calculate de la probabilitile cunoscute , folosind teorema lui Bayes. Aceast teorem este:

Teorema 2 (Bayes) : Avnd n vedere dou evenimente E i F, astfel nct P (E) 0 iP (F) 0, avem : P (F | E) P (E)P (E | F) =. ( 3) P (F)

Avnd n vedere n evenimente exclusive i exhaustive E1,E2. . . astfel nct P (E) 0 pentru orice i, avem pentru 1 i n,eu

P (F | Ei) P (Ei)P (Ei | F) =. ( 4 ) P (F | E1), P (E1) + P (F | E2), P (E2) + P (F | En), P (En)

Pentru a obine egalitatea ( 3 ) , se folosete prima definiia condiionat a probabilitii :

P (E F) P (F E)P (E | F) = i P (F | E) = . P (F) P (E)

n continuare se vor multiplica fiecare dintre aceste egaliti :

P (E | F) P (F) = P (F | E), P (E) deoarece ambele sunt egale P (E F). n cele din urm, se va mpri aceast egalitate la P (F) pentru a obine rezultatele. Pentru a obine egalitatea (4) , se pune expresie pentru F, obinut prin regulade probabilitate total (relaia (2) ), n egalitatea de la (3). Ambele formule din teorema precedent, sunt numite teoremele lui Bayes, deoarece acestea au fost iniial dezvoltate de Thomas Bayes (publicate n anul 1763). Prima relaie permite calculul P (E | F), daca stim P (F | E), P (E), i P (F), n timp ceal doilea ne permite calculul P (Ei | F), cunoscnd P (F | Ej) i P (E) pentru 1 j n. Calculul probabilitii condiionate utiliznd oricare dintre aceste formule, se numete inferen Bayesian. Un exemplu de asemenea inferen Bayesian:

Exemplul 9: Fie setul de obiecte din figura anterioar, vom atribuie fiecaruiobiect o probabilitate de 1/13. De asemenea vom da Unu pentru toate obiectele care conin 1, Doi pentru toate obiectele care conin un 2, i Negru pentru toate obiectele negre. n conformitate cu teorema lui Bayes, avem

P (Negru | Unu) P (Unu)P (Unu | Negru) = P (Negru | Unu) P (Unu) + P (Negru | Doi) P (Doi)

care este de aceeai valoare pentru calcul P (Unu | Negru) n mod direct.

2.4 Variabile aleatoare i probabilitatea de distribuie joint

Definiie 5: Vom avea n vedere un spaiu de probabilitate (, P), i o variabila aleatoare X a funciei .O variabil aleatoare atribuie o valoare unic pentru fiecare element (rezultat)n spaiu eantion. Setul de valori ale variabilei aleatoare X pe care le poate avea se numeste spaiul X. O variabil aleatoare este discret, n cazul n care spaiul su este finit sau numrabil. n general, se dezvolt teoria presupunnd c variabilele aleatoaresunt discrete.

Exemplul 10. Fie ce conine toate rezultatele de la o aruncare de o pereche de zaruri cu ase-fee i atribuie P 1/36 pentru fiecare rezultat. Avem urmtorul set de perechi:

= {(1, 1), (1, 2), (1,3), (1,4), (1, 5), (1,6), (2, 1), (2, 2) ,. . . (6, 5), (6,6)}.

Fie variabila aleatoare X ce aloc suma din fiecare pereche, ordonat ca pereche, is atribuie variabila aleatoare Y pentru fiecare pereche de numere impare ( odd ) i pentru fiecare pereche de numere pare ( even ) , dac cel puin un numr n acea pereche este un numr par. Tabelul arat astfel dup valorile X i Y:

Spaiul pentru X este {2,3,4, 5,6,7,8, 9, 10, 11, 12}, i pentru Y este { impar, par}. Pentru o variabil aleatoare X, vom folosi X = x pentru a desemna setul tuturor elementelor e cnd X mapeaz valoarea de x. X = x , reprezint evenimentul {e astfel c X (e) = x}.

Diferena ntre X i x este: x denot orice element n spaiul X, n timp ce X este o funcie.

Exemplul 11: Fie , P, i X ca n Exemplul 10. Apoi fie :

X = 3 , reprezint evenimentului {(1, 2), (2, 1)} i 1P (X = 3) =. 18

Nu este greu s de observat c o variabil aleatoare induce o funcie de probabilitatepe spaiul su. Acesta este definit: PX ({x}) P (X = x), atunci PX este o astfel deprobabilitate a funciei.

Exemplul 12: Fie ce conin toate rezultatele de la o aruncare de un singur zar, i lui Pi se poate atribui 1/6 pentru fiecare rezultat, se atribuie Z la fiecare numr even, i odd pentru fiecare numr impar. 1PZ ({even}) = P (Z = even) = P ({2,4,6}) = 2 1

PZ ({odd}) = P (Z = odd) = P ({1,3, 5}) = . 2 Rareori se face referire la PX ({x}). Mai degrab se face referire la probabilitatea original a funciei P, numit P (X = x), distribuie de probabilitate aleatoare a variabile X. Se poate spune doar "distribuie" n loc de "probabilitate de distribuie ". Vom folosi de mai multe ori, un singur x pentru a reprezenta evenimentul X = x, i astfel se va scrie P (x) n loc de P (X = x). Ne vom referi la P (x), ca "probabilitatea de x".

Fie , P, i X ca n Exemplul10. Astfel dac x = 3, 1P (x) = P (X = x) = 18Avnd n vedere dou variabile aleatoare X i Y, definite pe acelai spaiul ,vom folosi X = x, Y = y pentru a desemna setul tuturor elementelor de e , care sunt mapate att prin X pentru x i Y de la y: X = x, Y = y reprezint evenimentul{e astfel c X (e) = x} {e astfel c Y (e) = y}.

Exemplul 13: Pentru , P, X, Y ca n Exemplul 10, avem X = 4, Y = odd , reprezint evenimentul {(1,3), (3, 1)}, i

P (X = 4, Y = odd) = 1/18.n mod evident, cele dou variabile aleatoare induc o funcie de probabilitate, pe spaiul cartezian. Cum este cazul pentru o variabil aleatoare singur, foarte rarse face referire la aceast funcie de probabilitate. Se face referin la probabilitatea original a funciei.

Exemplul 14 : Fie , P, X, Y ca n Exemplul 10. Dac x = 4 i y = impar,P (x, y) = P (X = x, Y = y) = 1/18.

Dac, de exemplu, am lsa A = {X, Y} i a = {x, y}, vom folosi A = a pentru a reprezenta X = x, y = y,i vom scrie P (a) n loc de P (A = a). Notaia se extinde la reprezentarea de trei sau mai multe variabile aleatoare. Pentru coeren, vom stabili P ( = ) = 1, n cazul n care este un set gol de variabile aleatoare. Dac este un set gol de evenimente, P () = 0.

Exemplul 15: Fie , P, X, Y ca n Exemplul 10. Dac A = {X, Y},A = {x, y}, x = 4, i y = odd,

P (A = a) = P (X = x, y = y) = 1/18.

Aceast notaie implic faptul c, dac avem, de exemplu, dou seturi de variabile aleatorii A = {X, Y} i B = {Z, W}, atunci

A = a, B = b reprezint X = x, Y = y , Z = z, W = w.

Avnd n vedere o distribuie de probabilitate n comun, legea probabilitii totale (1) implic distribuia de probabilitate de una dintre variabilele aleatoare ce poate fi obinut prin nsumarea tuturor valorilor de la alte variabile. De exemplu, s presupunem c avem o probabilitate de distribuie comun P (X = x, Y = y). Cnd avem:

P (X = x) = P (X = x, Y = y), y unde y nseamn ca y trece prin toate valorile de Y. Probabilitatea de distribuie P (X = x) se numete distribuia de probabilitate marginal a lui X, pentru c este obinut printr-un proces similar cu adugarea pe un rnd sau coloan ntr-un tabel de numere. Acest concept, de asemenea, se extinde ntr-un mod simplu la trei sau mai multe variabile aleatoare. De exemplu, dac avem o distribuie n comun, P (X = x, Y = y, Z = z) de X, Y, i Z, distribuia marginal de P (X = x, y = y) din X i Y este obinut prin nsumarea tuturor valorilor de Z. Dac A = {X, Y}, avem, de asemenea, distribuia de probabilitate marginal a lui A.

Exemplul 16 : Fie , P, X, Y ca n Exemplul 10. Apoi avem:

P (X = 4) = P (X = 4, Y = y) y 1 1 1= P (X = 4, Y = impar) + P (X = 4, Y = par) = + = 18 36 12

Exemplul 17: Fie un set de 12 persoane, i se atribuie P cu 1/12 pentru fiecarepersoan. S presupunem c avem urmtoarele date: tip sex sexes, nlime heights, i salariile wages aferente :

Variabile aleatoare S, W, H atribuie: sexul, nlimea i salariul de la persoan la persoan. Distribuiile pentru cele trei variabile sunt dup cum urmeaz ( innd cont c , de exemplu, P (s) reprezint P (S = s).):

Distribuia n comun de S i H este dup cum urmeaz:

Tabelul de mai jos arat, de asemenea distribuia n comun de S i H i ilustreazc distribuii individuale pot fi obinute prin nsumarea comun de distribuie,pentru toate valorile altor variabile :

Tabelul care urmeaz afieaz valorile : primele din distribuia n comun de S,H, i W. Exist 18 valori n total ( multe fiind de valoare 0 ) .

Putem deduce urmtoarea definiie:

Definiie 6: S presupunem c avem un spaiu probabilitate (, P), i dou seturi A iB, care conin variabile aleatoare definite pe . Se stabilete c seturile A i B pot s fie independente, n cazul n care, pentru toate valorile de variabilele din seriile A i B, evenimente A = a i B = b sunt independente. Acest lucru este pentru P (a) = 0 sau P (b) = 0 sau

P (a | b) = P (a).

Atunci cnd este cazul, vom scrie

IP (A, B),

n cazul n care IP reprezint independena n P.

Exemplul 18: Fie setul de cri ntr-o aezare obinuit, i lui P i se atribuie 1/52 la fiecare carte. Definirea variabilelor aleatoare, se face dup cum urmeaz:

Setul {R, T} i {S} sunt independente. Deci vom avea:

IP ({R, T}, {S}).

Pentru a demonstra acest lucru, avem nevoie s artm arta toate valorile r,t i s: P (r, t | s) = P (r, t).

Nu se afiseaz setul expresiilor probabilistice deoarece la o astfel de expresie se reprezint membrii unui set. Tabel care arat acest lucru este :

Definiie 7: S presupunem c avem un spaiu de probabilitate (, P), i trei seturi : A,B, i C care conin variabile aleatoare definite pe . Apoi se stabilec A i B care suntcondiionat independente cu setul C, dac pentru toate valorile de variabile a,b i c se stabilete P (c) 0, evenimentele A = a i B = b sunt independent condiionate, avnd n vedere evenimentul C = c. Pentru aceasta trebuie s fieP (a | c) = 0 sau P (b | c) = 0 sauP (a | b, c) = P (a | c).

Atunci cnd este cazul se va scrie:IP (A, B | C).

Exemplu 19: S d set pentru toate obiectele din figura anterioar , i s atribuie P1/13 pentru fiecare obiect. Se vor defini variabile aleatoare S (de form), V (de valoare), i C (de culoare), dup cum urmeaz:

{V} i {S} sunt condiionate independent de {C}. Atunci :IP ({V}, {S} | {C}).

Pentru a demonstra acest lucru, se arat pentru toate valorile de v,s, i c c

P (v | s,c) = P (v | c).

Rezultatele din Exemplul 8 arat :

P (v1 | s1, c1) = P (v1 | c1) i P (v1 | s1, c2) = P (v1 | c2). Tabelul care urmeaz arat egalitatea pentru alte valori ale variabilelor:

Pentru motive de concizie, se spune uneori doar cuvntul "independent", mai degrab dect "condiionat independent". Cnd un set conine doar un singur articol,se abandoneaz adesea notaia set i terminologia. n exemplul precedent putem spune c V i S sunt C, sunt independente de C i putem scrie IP (V, S | C).n final, avem regula lanului de variabile aleatoare, care spune c, avnd n variabile aleatoare X1, X2,. . . Xn, definit pe acelai eantion spaiul ,P (x1, x2, ... xn) = P (xn | xn-1, xn-2,.. x1) P (x2 | x1) P (x1) ori de cte ori P (x1, x2, ... xn) 0.

3. Interferena Bayesian

Teorema lui Bayes se folosete atunci cnd nu suntem n msur s determinm probabilitatea condiionat direct, dar suntem capabili de a determina probabilitatea din dreapta egalitii (3).

Nu se poate calcula probabilitatea condiionat direct din spaiul eantion, deoarece n aceste aplicaii probabilitatea spaiului nu este de obicei dezvoltat, ca n ordinea prezentat n seciunea anterioar. Nu se poate identifica spaiu de prob, pentru a putea determina probabilitatea de evenimente elementare, ce determin variabilele aleatoare, iar apoi calculul valorilor n distribuiile de probabilitate comune. n schimb, se pot identifica variabile aleatoare n mod direct, i se determin relaii probabilisticeprintre variabile aleatoare. n continuare se vor prezenta variabilele aleatoare i probabilitile n aplicaii bayesiene, precum i modul n care acestea suntidentificate direct.

3.1 Variabile aleatoare i probabiliti n Aplicaii Bayesiane.Cnd se realizeaz o inferen Bayesiana, se determin o entitate care are caracteristici i stri care s o stabileasc, dar care nu o pot determina sigur. Se determin ct de probabil este ca o caracteristic deosebit s fie ntr-o anumit stare. Entitatea ar putea fi un sistem unic sau un set de sisteme. Un exemplu de un singur sistem este introducerea beneficiilor chimice care ar putea fi cancerigene, determinarea relativ a riscului chimic fa de beneficiile sale. Un exemplu de un set de entiti este un set de pacieni cu boli i simptome similare. n acest caz, se dorete diagnosticarea bolilor pe baza simptomelor.n aceste aplicaii, o variabil aleatoare reprezint o parte caracteristic a entitii dea fi modelat, i suntem siguri cu privire la valorile caracteristicii pentru entiti speciale. Se vor dezvolta relaii probabilistice ntre variabile. Atunci cnd exist un set de entiti, vom presupune c toate entitile din set au aceleai relaii probabilistice privind variabilele utilizate n model. Cndnu este cazul, analiza noastr Bayesian nu este aplicabil. n cazul introducerilor chimice, caracteristicile pot include valoarea de expunere a omului i a potenialul cancerigen. Dac acestea sunt caracteristicile de interes, vom identifica variabile aleatoare HumanExposure i CarcinogenicPotential ( pentru simplitate, includem doar cteva variabile, real se includ mai multe ). n cazul unui set de pacienti, caracteristici de interes ar putea include sau nu o boala, cum ar fi prezen/a sau nu, a cancerului pulmonar, indiferent dac sunt sau nu manifestri de boli ( raze X, dac sunt prezente sau nu cauze de boli, cum ar fi fumatul ). Avnd n vedere aceste caracteristici, vom identifica variabile aleatoare ChestXray, LungCancer i SmokingHistory. Dup identificarea variabilelor aleatoare, se disting un set de valori reciproc exclusive i exhaustive pentru fiecare dintre ele. Valori ale unei variabile aleatoare sunt n stri diferite , care pot oferi caracteristica. De exemplu, starea de LungCancer ar putea fi prezent sau absent, starea deChestXray ar putea fi pozitiv sau negativ, precum i starea de SmokingHistoryar putea fi da sau nu. Pentru simplitate, se disting doar dou posibilevalori pentru fiecare dintre aceste variabile aleatorii. Cu toate acestea, n general, ele ar putea avea orice numr de valori posibile sau ar putea fi chiar continuu. De exemplu, am putea distinge 5 nivele diferite ale istoriei (fumat un pachet sau mai multe, timp de cel puin 10 ani, dou sau mai multe pachete de cel puin 10 ani, trei pachete sau mai mult, la zece ani, etc). Caietul de sarcini al variabilelor aleatoare i valorilor acestora trebuie s fie suficient de precise pentru a satisface cerinele speciale cu care a fost modelat, dar, de asemenea, trebuie s fie suficient de precise pentru a trece testul de claritate, care a fost dezvoltat de Howard n 1988. De exemplu un clarvztor, care tie exact starea actual din lume se refer la modelele de evenimentele din viitor, dar nu este n msur s determine valoarea fr echivoc a variabilei aleatoare.

De exemplu, n cazul introducerii chimice, dac HumanExposure are valori mici i mari, testul claritate nu este trecut, deoarece noi nu tim ce constituie mare sau mic. n cazul unei cereri medicale, dac vom da SmokingHistory numai valorile da i nu, testul claritate nu este trecut, deoarece nu tim dac da, nseamn c fumat igri, trabucuri, sau altceva, i nu sunt specificate cantitile pentru ca valoarea s fie da. Pe de alt parte, n cazul n care spunem da, nseamn c pacientul a fumat unul sau mai multe pachete de igri n fiecare zi, n timpul ultimilor 10 ani, iar testul este trecut claritate. Dup ce distingem valorile posibile ale variabilelor aleatoare (de exemplu spaii ale acestora ) , n general nu se determin ntotdeauna probabilitile anterioare; i nici nu se pot determina valorile dintr-o distribuie de probabilitate n comun, a variabilelor aleatoare. Se pot determina noi probabiliti, n ceea ce privete stabilirea relaiilor dintre variabile aleatoare, care sunt accesibile. De exemplu, am putem determina probabilitatea nainte de P (LungCancer = prezent), precum i probabilitile condiionate P (RazeX = pozitiv | LungCancer = prezent), P (RazeX = pozitiv | = LungCancer = absent), P (LungCancer = prezent | FumtorHistory = da), i n cele din urm P (LungCancer = prezent | FumtorHistory = nu). n acest fel se obin probabilitile, fie de la un medic sau de date, sau chiar ambele. n termeni de frecvene relative, P (LungCancer = prezent | FumtorHistory = da), poate fi estimat , prin observarea persoanelor fizice, cu o istorie n domeniul fumatului, determinnd ce fraciune dintre acestia au cancer pulmonar. Medicul folosete o astfel de probabilitate, privind pacienii cu un istoric n fumat. Pe de alt parte ns nu se pot determina uor valori ntr-o distribuie de probabilitate n comun, cum ar fiP (LungCancer = prezent, RazeX = pozitiv, FumtorHistory = da).n ceea ce privete natura acestor probabiliti,se iau n considerare n primul rnd introducerea de elemente chimice toxice. Probabilitile ale valorilor PotentialCarcinogenic se bazeaz pe datele care implic aceast substan chimic i altele similare. Acesta nu este un experiment repetabil, ca aruncatul monezii, prin urmare proabilitile nu sunt frecvenele relative. Acestea sunt probabilitile subiective, bazate pe o analiz atent a situaiei. Chiar dac probabilitile utilizate pentru a face inferena Bayesian sunt obinutede la date de frecven, acestea sunt doar estimri ale frecvenelor reale relative.Acestea sunt probabilitile subiective obinute din estimri relative de frecvennu sunt frecvenele relative. Obinute cu ajutorul Teoremei lui Bayes, probabilitatea de rezultat este doar o probabilitate subiectiv. S presupunem c avem doar dou variabile aleatoare LungCancer i RazeX, i probabilitatea P (LungCancer = prezent), probabilitile P (RazeX = pozitiv | LungCancer = prezent) i P (RazeX = pozitiv | LungCancer = absent). Probabilitile de valori ntr-o probabilitate comun de distribuie pot fi obinute de la aceste probabiliti folosind regula pentru probabilitatea condiionat dup cum urmeaz:

P (prezent, pozitiv) = P (pozitiv | prezent) P (prezent)

P (prezent, negativ) = P (negativ | prezent) P (prezent)

P (absent, pozitiv) = P (pozitiv | absent), P (absent)

P (absent, negativ) = P (negativ | absent), P (absent).

S-au identificat variabile aleatoare i de relaii probabilistice, precum i valori dintr-o distribuie a probabilitii n comun care pot fi adesea obinute de la probabilitileprivind variabilele aleatoare. Spaiu de prob poate fi pur i simplu produsul cartezian de seturi de valori posibile ale variabilelor aleatoare. De exemplu dac considerm din nou cazul n care am identificat variabilele aleatoare LungCancer i RazeX, se constat c valorile de probabilitate ntr-o distribuie n comun, aa cum este prezentat mai sus. Se poate defini urmtorul spaiu eantion:

= {(prezent, pozitiv), (prezent, negativ), (absent, pozitiv), (absent, negativ)}.

Putem considera fiecare variabil aleatoare , o funcie pe care acest spaiu l mapeaz pentru valoarea variabilei aleatoare . De exemplu, LungCancer este (prezent, pozitiv) i (prezente, negativ), fiecare n prezent. Vom atribui atunci fiecare eveniment elementar probabilitatea de a corespunde unui eveniment n distribuia comun. De exemplu, putem atribuiP ({(prezent, pozitiv)}) = P (LungCancer = prezent, RazeX = pozitiv).

Nu este greu s se demonstreze c aceasta nu produce o funcie de probabilitate, pe i c probabilitile iniial evaluate nainte i probabiliti condiionate sunt probabiliti de notaie care reprezint acest spaiu probabilitate (este un caz special al teoremei 5.). Deoarece variabilele aleatoare sunt de fapt identificate primul si singurul implicit ele devin funcii pe un spaiu eantion implicit.

3.2 Definirea variabilelor aleatoare i a probabilitii de distribuie comun pentru inferena Bayesian

Pentru a putea modela tipuri de probleme discutate n subseciunea precedent, putem defini o variabila aleatoare X, ca un simbol reprezentnd orice parte dintr-un set de valori, numit spaiul lui X. Pentru simplitate, vom presupune c spaiul X este numrabil, aceast teoria se extinde n mod natural i la cazul n care acesta nu este numrabil. De exemplu, putem identifica LungCancer ca variabila aleatoare avnd spaiul {prezent, absent}. Vom folosim notaia X = x ca o primitiv a expresiei de probabilitate, care nu este definit n termeni. Cererea LungCancer = prezent este o entitate modelat, ca avnd cancer pulmonar, dar matematic este pur i simplu o primitiv , care este utilizat n expresii de probabilitate. Avnd n vedere aceast definiie i primitivele, putem formula urmtoarea definiie de distribuie de probabilitate n comun:

Definiia 8. Fie un set de variabile aleatoare n V = {X1, X2,. . . Xn}, cu c fiecare Xi are un spatiu infinit numrabil . O funcie, care atribuie un numr real P (X1 = x1, X2 = x2, ... Xn = xn) la fiecare combinaie de valori a lui x, astfel nct valoarea lui x este aleas din spaiul lui X, se numete distribuie de probabilitate n comun a variabilelor aleatoare n V, n cazul n care satisfic urmtoarele condiii:

1. Pentru fiecare combinaie de valori ale lui xis,

0 P (X1 = x1, X2 = x2, ... Xn = xn) 1.1 1 2 2 n n2. AvemP (X1 = x1, X2 = x2, ... Xn = xn) = 1. x1,x2...xnNotaia x1, x2, ... xn nseamn c suma variabilelor x1,x2. . . xn trec prin toate valorile posibile n spaiile corespunztoare.

Este inmportant de reinut c o distribuie de probabilitate n comun, obinut prin definirea variabilelor aleatoare ca funcii pe un spaiu de prob, este o modalitate de a crea o probabilitate de distribuie comun, care satisface aceast definiie. Cu toate acestea, exist i alte moduri :

Exemplul 20: Fie V = {X, Y}, unde X i Y au spaiile {x1, x2} i { y1, y2} respective, i au urmtoarele valori specificate:

P (X = x1) = 0.2 P (Y = y1) = 0.3P (X = x2) = 0.8 P (Y = y2) = 0.7.

Se poate defini o distribuie de probabilitate n comun de X i Y, dup cum urmeaz:

P (X = x1, Y = y1) = P (X = x1) P (Y = y1) = (0.2) (0.3) = 0.06

P (X = x1, Y = y2) = P (X = x1) P (Y = y2) = (0.2) (0.7) = 0.14

P (X = x2, Y = y1) = P (X = x2) P (Y = y1) = (0.8) (0.3) = 0.24

P (X = x2, Y = y2 ) = P (X = x2) P (Y = y2) = (0.8) (0.7) = 0.56.

Din suma valorilor la 1, acesta este un alt mod de a specifica o probabilitate de distribuie comun n conformitate cu definiia 8. Acesta este modul n care s-ar specifica distribuia comun, dac X si Y sunt independente.Definiia 8 prezint probabilitatea de distribuie n comun P, ns nu menioneaz nimic despre distribuiile marginale. Valorile prevzute iniial nu reprezint distribuii marginale comune , P este o funcie care se definete singur

Teorema 3. Fie un set de variabile aleatoare V , date i probabilitatea de distribuie a variabilelor n V, n conformitate cu definiia 8. Pentru ca s fie produs cartezian al tuturor seturilor de valori posibile ale variabilelor aleatoare, atribuirea probabilitilor la evenimente elementare n sunt:P ({(x1, x2, ... xn)}) = P (X1 = x1, X2 = x2, ... Xn = xn).Exemplu 21: Specificm n mod direct o distribuie de probabilitate comun a lui Xi Y, fiecare cu spaiu de {x1, x2} i {y1, y2} aa ca n exemplul 20.Se vor specifica urmtoarele probabiliti:

P (X = x1, Y = y1)P (X = x1, Y = y2)P (X = x2, Y = y1)P (X = x2, Y = y2).

Iar : = {(x1, y1), (x1, y2), (x2, y1), (x2, y2)}, i se atribuieP ({(xi, yj)}) = P (X = xi, Y = yj).

X i Ysunt funcii de pe , definete n tabelele de mai jos:

Conform teoremei 3 putem spune c distribuia de probabilitate comun a acestor variabile aleatorii este la fel ca probabilitate distribuiei comune specificat iniial .

Datorit Teoremei 3, nu avem nevoie de postulate pentru probabilitatile ale combinaiilor de primitive ce nu sunt abordate prin definiia 8. n exemplul 20, datorit Teorema 3, P (X = x1), este o simpl valoare marginal a distribuiei dintr-o distribuire de probabilitate marginal comun. Astfel, valoarea acestuia se calculeaz astfel:

care este valoarea specificat iniial. Valorile specificate de probabilitate, nu sunt necesar egal cu probabilitile ,ele reprezint probabilitatea marginal de distribuie.

Exemplul 22: Fie V = {X, Y}, iar X i Y au spaii {x1, x2} i {Y1, Y2}cu urmtoarele valori specificate:

P (X = x1) = 0.2 P (Y = y1 | X = x1) = 0.3P (X = x2) = 0.8 P (Y = y2 | X = x1) = 0.7

P (Y = y1 | X = x2) = 0.4 P (Y = y2 | X = x2) = 0.6.

Se va defini o distribuie de probabilitate n comun de X i Y, dup cum urmeaz:

P (X = x1, Y = y1) = P (Y = y1 | X = x1), P (X = x1) = (0.3) (0.2) = 0.06

P (X = x1, Y = y2) = P (Y = y2 | X = x1), P (X = x1) = (0.7) (0.2) = 0.14

P (X = x2, Y = y1) = P (Y = y1 | X = x2) P (X = x2) = (0.4) (0.8) = 0.32

P (X = x2, Y= y2) = P (Y = y2 | X = x2) P (X = x2) = (0.6) (0.8) = 0.48.

Din suma valorilor la 1, acest lucru este un alt mod de a specifica o probabilitate de de distribuie n comun, n conformitate cu definiia 8. Aceast definiie se refer la orice cerere n care modelul de fenomene ce apar n mod natural, prin identificarea variabilelor aleatoare directe, includ mai multe aplicaii de statistic.

3.3 Exemple clasice de interferen Bayesian

Urmtoarele exemple ilustreaz modul n care teorema lui Bayes a fost n mod tradiionalaplicat pentru a calcula probabilitatea unui eveniment de interes pentru cunoaterea probabilitilor.

Exemplu 23. S presupunem c Joe are de fcut analize la plmni., necesitnd diagnostic dup raze X. Rezultatul este pozitiv. Joe devine panicat, nu are nici o cale de a afla ct de probabil este ca el s aib cancer pulmonar. Testul nu este absolut concludent, iar el decide s investigheze corectitudinea testului i nva c aceasta are o rata de rezultate de 0.4 fals negative si o rata de 0.02fals pozitiv. n primul rnd se vor defini aceste variabile aleatoare:

Avem urmtoarele probabiliti condiionate :

P (Test = pozitiv | LungCancer = prezent) = 0.6

P (Test = pozitiv | LungCancer = absent) = 0.02.

Avnd n vedere aceste probabiliti, Joe se simte un pic mai bine. El i d seama c nc nu ct de probabil este ca el s aib cancer pulmonar. Joe i reamintete n cele din urm teorema lui Bayes i i d seama c are nevoie de nc o alt probabilitate pentru a determina probabilitatea de a avea cancer pulmonar. Aceast probabilitate este P (LungCancer = prezent), care este probabilitatea de a avea cancer pulmonar nainte de orice informaii cu privire la test. Informaiile lui Joe, nainte de a luat rezultatul radiografiei, au fost , c el a fost unul dintr-o clas de angajai care au avut de realizat radiografiile, testul de rutin necesar noilor angajai. Aa c, atunci cnd nva c doar 1 din fiecare 1000 de angajai noi are cancer pulmonar, el atribuie 0.001 pentru P ( LungCancer = prezent). Apoi calculeay cu teroema lui Bayes:

Deci, Joe simte c probabilitatea de avea cancer pulmonar este de numai aproximativ 0.03, i se relaxeaz un pic n timp ce ateapt rezultatele testelor suplimentare.

O probabilitate ca P (LungCancer = prezent), se numete o probabilitate prealabil, deoarece, intr-un model special, este probabilitatea unui eveniment anterior actualizrii probabilitii acestui eveniment, n cadrul acestui model, utiliznd informaiile noi. O probabilitate ca P (LungCancer = prezent | Test= pozitiv) se numete o probabilitate posterioar, deoarece acesta este probabilitatea unui eveniment ,dup probabilitatea sa de dinainte de a fi actualizat, n cadrul unor model, bazat pe informaii noi. Urmtorul exemplu ilustreaz modul n care probabilitatea anterioar se poate modifica n funcie de situaia n care se modeleaz.

Exemplu 24 . Sam are acelai diagnostic pentru raze X, ca Joe. Cu toate acestea, el are rezultatul pozitiv, pentru c el a lucrat n mine, de de 20 de ani, i aproximativ10% din totalul lucrtorilor au cancer pulmonar, dup mai muli ani n mine.Sam, de asemenea, are testele pozitive. Probabilitatea ca el are cancer pulmonar este bazat pe informaiile cunoscute despre Sam nainte de test. Se va atribui o probabilitate prealabil de 0.1 lui Sam avnd cancer pulmonar. Folosind teorema lui Bayes, concluzionm c P (LungCancer = prezent | Test = pozitiv) = 0.769 pentru Sam. Sam ajunge la concluzia c este foarte probabil ca el s aib cancer pulmonar.

Cele dou exemple precedente ilustreaz faptul c o valoare de probabilitate este relativ la informaii despre un eveniment, nu este o proprietate a evenimentului n sine. n ambele exemple, Joe i Sam, , fie pot s aib, fie nu pot s aib cancer pulmonar. Ar putea s fie i varianta c doar Joe are iar Sam, nu. Cu toate acestea, pe baza informaiilor noastre, gradul nostru de probabilitate pentru Sam este mult mai mare dect Joe. Dac am obine mai multe informaii fa de eveniment (de exemplu, dacJoe fumeaza sau are un istoric de existen cancer n familie ), probabilitatea se va schimba.4. Concluzii Dup cum se obsearv modelele Byesiene sunt elemente de baz ale aplicaiilor legate de probabiliti. Acest domeniu, al probabilitilor poate fi aprofundat, mai temeinic n viitor, fiind baza multor calcule din diverse domenii de activitate.

Bibliografie.

1. Learning Bayesian Networks, Richard E. Neapolitan , Northeastern Illinois University , Chicago, Illinois2. Modele grafice probabilistice Note de curs, Lucian Sasu , Universitatea Transilvania, Brasov

23