Capitol 11 - RNA

99

11. Reele Neuronale Artificiale 11.1. Introducere

Pornindu-se de la performanele i capabilitile remarcabile pe care fiina umana le manifest n diferitele arii de activitate, n particular de la performanele creierului uman, diferite domenii teoretice, tehnice i aplicative au ncercat i ncearc s ating performane similare prin copierea diferitelor sisteme i funcii ale organismului uman i nu numai.

Creierul uman este o structur paralel de procesare i stocare a informaiei compus din aproximativ 10 miliarde de neuroni interconectai (1010). Se estimeaz c n medie n creierul uman sunt aproximativ 60 de trilioane de conexiuni neuronale. Un neuron are rolul fundamental de a primi, conduce, procesa i transmite diferite semnale primite de la organele de sim, diferii proprioceptori sau de la ali neuroni.

Fiecare neuron biologic este format din: - corpul celular (soma); - axon axonul transport semnalele la distan fa de corpul

celular, ctre ali neuroni sau celule int (de exemplu, motoneuronii care transport semnalele de la mduva spinrii pn la musculatura picioarelor au axoni cu lungimi de pn la un metru [a]); n final axonul se ramific ntr-un numr de terminaii axonale care se cupleaz prin intermediul sinapselor cu dendridele altor neuroni sau direct cu corpul altor neuroni;

- arbore dendridic este structura care primete semnale de la axonii altor neuroni (de exemplu exist neuronii care primesc informaii de la peste 100.000 de ali neuroni [a]);

- sinapse sinapsele sunt conexiunile ce se realizeaz la nivelul axonului unui neuron cu dendridele altui neuron.

Fa de structura fundamental de baz a unui neuron prezentat anterior exist o serie de excepii care in de: lipsa axonului (dendridele au rol att de receptor ct i de emitor), att axonii ct i dendridele pot forma sinapse cu ali axoni i cu alte dendride deci nu numai sinapse de tip axon-dendrid etc.

Cercettorii W.S. McCulloch i W. Pitts au propus n anul 1943 primul model neuronal artificial. Ca o particularitate a acestui model el este caracterizat de o activare de tip totul sau nimic (ieirea acestui model neuronal are doar dou stri); acest neuron lucreaz mai de grab ca un dispozitiv binar.

n Figura 11.1 se prezint structura general a unui neuron artificial.

100

Neuronul artificial modeleaz comportamentul unui neuron real. Astfel, conexiunile dintre neuroni, denumite ponderi sinaptice, sunt folosite n stocarea informaiei. Dup o procesare local a semnalului de intrare funcie de informaia stocat n ponderile sinaptice (multiplicarea acesteia cu valorile informaionale stocate) se produce o integrare (sumare) global a rezultatelor obinute proces similar cu cel ce are loc n corpul celular al unui neuron biologic real. Dac rspunsul global obinut depete un anumit prag informaia este transmis mai departe.

Figura 11.1. Structura fundamental a unui neuron artificial

Reelele neuronale artificiale (RNA) sunt structuri care ncearc s

copie modul de funcionare a creierului uman i sunt construite din mai multe elemente de procesare (EP) sau neuroni artificiali grupai n straturi, fiecare strat avnd un numr variabil de elemente.

Trsturile fundamentale ale RNA sunt urmtoarele: sunt structuri distribuite, sunt structuri adaptive, sunt maini universale de nvare neliniar.

Din punct de vederea al problemelor de clasificare, o reea neural d natere prin elementele sale de procesare la funcii discriminant. Topologia reelei este cea care definete i determin numrul i modalitatea de cuplare a funciilor discriminant. Suprafeele de decizie obinute prin gruparea acestor funcii discriminant se modific o dat cu topologia reelei i cu valorile ponderilor fiecrui neuron. Unul dintre avantajele centrale ale

w1

w2

w3

wd

x1

x2

x3

xd

...

f( )

Combinator liniar

Ponderi sinaptice

x1 w1

x2 w2

x3 w3

xd wd

Functia de activare

d

iii wxxg

1)(

Activareag(x)

bPragul

(threshold, bias)

y

)())((1

bwxfbxgfyd

iii

101

reelelor neurale este acela c sunt suficient de puternice pentru a crea funcii discriminant arbitrare astfel nct reeaua neuronal artificial s conduc la o clasificare optimal.

RNA aparin clasei clasificatorilor semiparametrici. Parametrii reelei neuronale (ponderile RNA) sunt determinate din setul de date pe baza unui algoritm de adaptare (similar ca n cazul clasificatorilor parametrici) n schimb reeaua neuronal nu face nici o supoziie n legtur cu distribuia datelor cu forma funcional a funciei densitate de probabilitate. ntr-o RNA i, n general, n cazul sistemelor adaptive cel care construiete reeaua nu trebuie s specifice parametrii sistemului (valorile ponderilor fiecrui neuron n parte). Valorile acestor parametri sunt extrai, n mod automat, din datele de intrare i din rspunsul dorit, folosind ca mijloc pentru atingerea acestui obiectiv anumii algoritmi.

Utilizarea acestor algoritmi (cunoscui sub numele de algoritmi de antrenare sau de adaptare) pentru modificarea valorilor ponderilor n scopul obinerii unei clasificri ct mai bune este unul din conceptele fundamentale ale unei RNA. Performanele clasificrii sunt cuantificate folosind pentru aceasta un criteriu de eroare.

Utilizarea extensiv a RNA n probleme de aproximare i clasificare este motivat de abilitatea demonstrat a unei reele neuronale cu dou straturi ascunse, antrenat cu algoritmul invers de propagare a erorii, de a aproxima orice funcie continu, cu o eroare orict de mic [Funahashi, 1989] conceptul de main universal de nvare neliniar. Condiia ca aceste structuri neuronale s fie maini universale de nvare este ca pe straturile ascunse s se regseasc un numr suficient de mare de neuroni [Hornik, 1989] astfel nct RNA s aib puterea necesar ndeplinirii acestei condiii. Astfel, pentru orice funcie f definit pe o submulime D a lui Rn:

f : D Rn R (11.1) putem gsi o aproximare foarte bun F (dat de o reea neuronal artificial), n sensul unei topologii definit pe D, cu o eroare mai mic dect un arbitrar ales pentru care s avem:

|| f F || = Dx

sup

| f (x) F (x)| < (11.2) Elemente definitorii n realizarea unei reele neurale (a unui

clasificator semiparametric) sunt: selecia formei funciilor discriminant, determinarea numrului funciilor discriminant i plasarea lor n spaiul trsturilor

102

astfel nct eroarea de clasificare s fie minim. Vom ncerca n continuare s discutm toate aceste elemente. De asemenea, vom discuta i analiza att capacitile de reprezentare ct i algoritmii de antrenare pentru diferite configuraiile de reele neurale artificiale.

11.2. Modelul neuronal Adaline n cadrul acestui subcapitol vom studia unul dintre modelele

"timpurii" ale neuron artificial modelul Adaline (ADAptive LINear Element). Acest model este de o mare importan conceptual i practic. Modelul Adaline este unul utilizat ntr-o gam extrem de larg de aplicaii i a fost introdus de B. Widrow i M.E. Hoff la nceputul anilor '60. Ieirea y a modelului este descris de relaia:

1;0

0 kxkd

ixkiwky

nni (11.3)

unde w0[k], w1[k], ..., wd[k] sunt ponderile sinaptice ale modelului la momentul k, iar x1n [k], x2n [k],..., xdn [k] sunt intrrile modelului date de vectorul de trsturi xn prezentat modelului neuronal la acelai moment k.

Comparativ cu reprezentarea grafic din Figura 11.1 se observ c modelul neuronal Adaline este o particularizare n care funcia de activare este egal cu unitatea iar pragul este nglobat n model prin intermediul intrrii x0n [k].

n continuare vom discuta despre dou proceduri de determinare (instruire, adaptare) a ponderilor modelului Adaline, descris de ecuaia (11.3).

Ambele proceduri fac parte din categoria procedurilor de instruire supervizat. Acest tip de proceduri utilizeaz pe lng setul de date de intrare A = {x1, x2, ..., xK} un set de exemplare ce vor caracteriza doritul reelei neuronale, fiecare element din acest set fiind asociat cu unul din elementele de intrare. Deci, n final vom avea un set de exemplare {xn, dn}, n = 1, 2, ... , K, unde xn este vectorul de intrare n model, xn = [x1n, x2n, ... , xdn]T, ce este aplicat la un anumit moment de timp, iar dn reprezint ieirea dorit, corespunztoare intrrii xn. Ponderile modelului se calculeaz astfel nct pentru fiecare intrare xn, ieirea yn a modelului s fie ct mai apropiat (conform unui criteriu de performan) de ieirea dorit dn.

n literatura de specialitate setul de exemplare {xn, dn}, cu n = 1, 2, ..., K, este cunoscut sub numele de set de antrenare.

103

11.2.1. Algoritmul MMSE (Minimum Mean Square Error) n cadrul acestei metode se calculeaz un vector wopt optim de ponderi

astfel nct s fie minimizat eroarea medie ptratic 2eE : nnnK

nn ydeeK

ydEeE

;11

222 (11.4)

n relaia (11.4) eroarea en poart numele de eroarea instantanee de instruire.

Ieirea neuronului Adaline este dat de: wxxwy TT (11.5)

n relaia (11.5) prin wT i xT s-au notat vectorii linie care sunt transpuii vectorilor coloan w (vector ponderi sinaptice) i x (vector de intrare).

Considernd c setul de antrenare este un proces statistic staionar (estimatorii momentelor statistice variaz lent n timp) ecuaia (11.4) se scrie sub forma:

wxdEwxxEwdEydEeE TTT }{2222 (11.6) Matricea Tx xxER este matricea de corelaie a vectorului aleator real

x de intrare. n plus, definim i vectorul P = E{d xT}. Cu aceste definiii, relaia (11.6) devine:

wPwRwdEeEw xT 222 (11.7) de unde se observ c eroarea medie ptratic este o funcie explicit dependent de vectorul ponderilor w.

Pentru determinarea vectorului wopt, corespunztor minimului erorii ptratice medii, se calculeaz derivatele funciei (w), i se folosete condiia de extrem:

PwRww

x 22)(

(11.8) Avnd n vedere faptul c funcia (w) este pozitiv, rezult c extremul

funciei este un minim dat de ecuaia: 022 PwR optx (11.9)

104

Din relaia (11.9) rezult c vectorul optim al ponderilor sinaptice pentru care se obine o eroare ptratic minim este wopt = Rx-1P.

Metoda MMSE poate fi sintetizat prin urmtoarele etape: 1. avnd ntregul set de antrenare, apriori cunoscut, se calculeaz

matricea de corelaie a intrrii Tx xxER i vectorul P = E{d xT};

2. se calculeaz vectorul optim al ponderilor cu relaia wopt = Rx-1P. Metoda MMSE presupune cunoaterea aprioric a ntregului set de

antrenare, fiind o metod de instruire de tip global sau bloc. n acele situaii n care nu se dispune apriori de un set de antrenare, sau

inversarea matricii de corelaie a serului de date, Rx, este dificil, se recurge la urmtoarea metoda de adaptare (instruire) a ponderilor ce va fi discutat n subcapitolul urmtor.

11.2.2. Algoritmul LMS (Least Mean Square) O alt modalitate de calcul a ponderilor, corespunztoare minimului

funciei (w), este dat de metoda de coborrea pe suprafaa funciei de eroare n direcia pantei celei mai abrupte.

Dac am analiza problema obinerii erorii minime, dat de relaia (11.4), pentru un caz unidimensonal considernd, n plus, i valoarea pragului egal cu zero am obine urmtoarea relaie:

K

m

nnnn

K

n

nn xwxwddK

wxdK

ydEw1

222

1

22 211 (11.10) n relaia (11.10) dac considerm drept variabil numai parametrul w iar

ceilali parametri sunt inui constani observm c obinem o ecuaie de gradul doi n w a crui coeficient a termenului ptratic w2 va fi ntotdeauna pozitiv. O posibil reprezentare grafic a erorii medii ptratice (a relaiei (11.10)) este dat n Figura 11.2 (Ex.0).

Gradientul pe suprafaa de eroare ntr-un anumit punct arbitrar, de exemplu n punctul wc, se poate determina cu relaia:

w

wwwwwcc

w

c

2lim0

(11.11) Din relaia (11.11) se observ c gradientul este direct proporional cu

panta suprafeei de eroare i ia valori negative n stnga punctului w* ( = wopt,

105

punct de minim al suprafeei de eroare) i valori pozitive n dreapta acestui punct.

Figura 11.2. Suprafaa de eroare Dei Figura 11.2 este reprezentat n situaia unui spaiu

monodimensonal de trsturi ea poate fi generalizat pentru situaia unui spaiu d dimensional unde vom obine o suprafa ptratic d dimensional. Aceast figur ne ajut de asemenea n gsirea unei metode intuitive de determinare a vectorului optim de ponderi wopt prin intermediul unei metode iterative. Astfel, dup cum se observ n oricare punct al suprafeei, direcia de coborre pe suprafaa de eroare este n direcia negativului gradientului funciei, din punctul respectiv. Astfel, punctul de minim poate fi determinat prin aplicarea iterativ a relaiei:

kwkwkw 1 (11.12) unde kw este gradientul T

dwww

...,

1,

0

n w[k], iar este o constant pozitiv denumit constant de adaptare (de nvare).

Dup cum am demonstrat anterior gradientul erorii ptratice medii se poate calcula prin intermediul relaiei (11.8) dac se cunosc matricea de corelaie a setului de date, Rx, i vectorul P. Dar exist situaii n care nu dispunem apriori de un set de instruire sau estimarea matricii Rx i a vectorului P este dificil. n aceste situaii se recurge la aproximarea gradientului erorii medii ptratice, , cu gradientul erorii ptratice instantanee. Algoritmii de calcul ai ponderilor rezultai n urma acestei aproximri formeaz clasa algoritmilor de tip gradient stohastic.

w

(w)

wopt

min (wopt) w b w a

(wb)

(wa) (wa) (wb)

106

Algoritmul de tip gradient stohastic utilizat n cadrul modelul Adaline este denumit n literatura de specialitate algoritmul Least Mean Square sau prescurtat LMS.

n cadrul procesului de adaptare a ponderilor ntregul set de antrenare {xn, dn}, i = 1, 2, ... , K, va fi prezentat modelului neuronal Adaline de mai multe ori pn cnd un anumit criteriu de performan este ndeplinit, de exemplu eroarea medie ptratic scade sub o anumit valoare. Prezentarea ntregului set de date modelului neuronal poart numele de epoc de antrenare. Astfel, procesul de adaptare al ponderilor este format dintr-un anumit numr de epoci de antrenare.

Eroarea ptratic instantanee a modelului Adaline este definit de relaia: nxkTwknyknykndke ;2 2 (11.13)

n relaia dn este ieirea dorit corespunztoare vectorului de intrare xn, iar yn este ieirea modelului la momentul de timp k calculat pentru vectorul de intrare xn i vectorul de ponderi w[k], n fiind numrul curent al perechii {xn, dn} din setul de antrenare. Deoarece procesul de antrenare este unul iterativ, dup cum s-a prezentat anterior, atingerea criteriului de oprire a procesului de adaptare a structurii neuronale necesit prezentarea de mai multe ori a setului de date de antrenare. Din aceast perspectiv, vom spune c algoritmul LMS necesit un anumit numr de epoci de antrenare pn la atingerea criteriului de convergent a ponderilor ctre acele valori ce determin obinerea unei erori globale minime. O epoc de anterenare este format din toate exemplare { xn, dn } existente n setul de antrenare. Revenind la relaia (11.13) indicele k precizeaz momentul de timp n care se face actualiazare; presupunnd c suntem n epoca nep (de exemplu, epoca 9) exemplarul n (de exemplu, n = 62) i o epoc este format din 100 de exemplare de antrenare (K = 100; n = 1, 2, ..., 100), atunci:

k = (nep - 1) K + n (11.14) rezultnd pentru exemplul particular anterior: k = 8 100 + 62 = 862.

n aceste condiii, gradientul erorii ptratice instantanee este dat de: nxkeke 2)

2( (11.15) Conform relaiilor (11.12) - (11.15) algoritmul LMS are urmtoarele

etape:

107

1. se iniializeaz vectorul w al ponderilor (n multe situaii practice pentru iniializare se folosesc valori mici, generate aleator);

2. la iteraia k a algoritmului de adaptare: se aplic un vector de intrare xi modelului; se calculeaz eroarea instantanee:

ek = di yi (11.16)

n relaia anterioar di este ieirea dorit, iar yi este produsul dintre vectorul corespunztor doritului actual, xi, i vectorului curent de ponderi, w[k]:

yi [k] = wT[k] xi (11.17)

se modific vectorul ponderilor cu relaia: ixkekwkw 21 (11.18)

3. se oprete procesul de adaptare a ponderilor o dat cu ndeplinirea unui anumit criteriu global (de exemplu eroarea instantanee coboar sub un anumit prag); n caz contrar se revine la punctul 2.

Problem 11.1: (a) Dezvoltai un program n mediul LabWindows CVI capabil s determine un numr arbitrar de coeficieni LPC (Linear Prediction Coefficients) prin metoda iterativ LMS. Programul va fi capabil s determine valorile coeficienilor filtrului FIR predictiv pentru orice serie de timp ncrcat dintr-un fiier de tipul TXT n care setul de date este stocat sub forma unei coloane.

(b) Pentru un semnal sinusoidal i unul de tip ECG (aceste semnale se regsesc n directorul de semnale asociat acestui capitol) determinai valorile coeficienilor modelului prin: metoda iterativ LMS i prin metoda de modelare autoregresiv Yule-Walker. Numrul coeficienilor utilizai n aceast modelare va fi cel optim. Acest numrul optim de coeficieni vor fi determinai pentru fiecare serie de timp n parte prin utilizarea erorii de aproximare a metodei Yule-Walker. Comparai valorile obinute prin cele dou metode. Explicai diferenele obinute.

Rezolvare: (a) Implementarea programului se gsete n directorul LMS -

predicie asociat acestui capitol. (b) Acest punct al problemei este tem de cas.

108

Convergena algoritmului LMS este asigurat dac factorul respect condiia [Gelfand, 1999]:

xRtr320 (11.19)

unde tr Rx este urma (suma elementelor de pe diagonala principal) a matricii Rx de corelaie a procesului x de la intrarea neuronului artificial.

Valoarea factorului de adaptare este esenial pentru nivelul performanelor de instruire ale neuronului Adaline. Algoritmul LMS clasic utilizeaz un factor de adaptare constant astfel ales nct s se respecte inegalitatea (11.19).

Dar, pentru a optimiza performanele de convergen ale neuronului Adaline, trebuie s fie variabil. Astfel, la nceputul instruirii trebuie s fie mare pentru a se obine o rat mare de convergen, de coborre pe suprafaa de eroare. Dup ce procesul de convergen a intrat ntr-o faz staionar este necesar s folosim un mic, pentru a se obine o valoare medie mic a erorii de instruire. Problem 11.2: Fiind dat un semnal arbitrar (s(t) discretizat s[n]), acesta se

va aproxima prin intermediul altuia caracterizat de relaia1:

k

l

k

mlm

lmlm

k

l

k

mlm

lmlm

k

mmm

k

mmm nndnncnnbnxnany

1 11 111

(11.20)

Semnalul ce realiza aproximarea va fi dat de o sum de componente spectrale caracterizate de urmtoarele componente:

fi : jjj mnx 2sin][ (11.21) 2 fi : jjj mn 222sin][ (11.22) fi fj : jijiij mmn 2sin][ (11.23) fi + fj : jijiij mmn 2sin][ (11.24)

1 Acest mod de compunere a unui semnal din aceste componente spectrale este caracteristic

modalitii de generare a undelor EEG n creierul uman. Diferitele unde EEG sunt generate n principal pe baza unor oscilaii spontane (caracterizate de frecvenele fi), de o serie de componente de autocuplare (situate la frecvene cu valori de tipul 2fi) i, n final, de o alt serie de componente de intercuplare (fi + fj i fi fj). Componentele de autocuplare, precum i cele de intercuplare apar n special datorit mecanismelor neliniare de interaciune ntre diferiii oscilatori interni din zonele corticale i cele subcorticale [Bai, 2000].

109

S se determine: (a) Relaiile matematice de modificare a amplitudinilor fiecrei

componente spectrale utiliznd algoritmul LMS tiind c funcia de cost a crui minim trebuie determinat este:

neJ 221 (11.25)

n relaia anterioar eroarea instantanee este dat de: nynsne (11.26)

(b) Relaiile matematice de modificare a fazelor fiecrei componente spectrale utiliznd algoritmul LMS, n aceleai condiiile ca cele prezentate la punctul anterior.

Rezolvare:

(a) Relaia ce va fi utilizat n modificarea iterativ a amplitudinii oscilaiilor spontane este similar cu (11.12) fiind dat de:

naJnana jajj j 1 (11.27) Derivnd funcia de cost se obine:

nanynena

na

nenana

jaj

jajj

j

j

2

21

1 (11.28)

n final se obine: nxnenana jajj j1 (11.29)

n mod similar pentru amplitudinile componentelor de autocuplare ct i pentru cele de intercupare se obine:

nnenbnb jbjj j 1 (11.30) nnencnc ijcijij ji 1 (11.31) nnendnd ijdijij ji 1 (11.32)

110

Verificarea corectitudinii acestor relaiilor, determinate anterior, se poate face i prin intermediul implementrii acestora ntr-un program i a testrii funcionrii algoritmului. Acest program se afl n directorul LMS modelare amplitudine.

(b) Acest ultim punct al problemei este tem de cas. Implemetarea programul ce realizeaz modelarea unui

semnal prin intermediul unor oscilaii spontane, a componentelor intercuplate i a celor autocuplate prin adaptarea att a informaiei de amplitudine ct i a celei de faz se afl n directorul LMS modelare amplitudine si faza.

11.3. Modelul neuronal McCulloch-Pitts

11.3.1. Capacitatea de discriminarea a modelului neuronal McCulloch-Pitts

Elementul de procesare sau neuronul McCulloch-Pitts (M-P) este o generalizare a modelului neuronal Adaline i este compus dintr-o sum de produse dintre intrrile neuronului i ponderile sinaptice ale acestuia plus o valoare constant, toate acestea trecute printr-o neliniaritate de tip prag. Ecuaia de intrare-ieire al acestui neuron artificail este:

d

iii bxwfxgfy

1 (11.33)

De altfel, modelul ce se utilizeaz la ora actual, al neuronului McCulloch-Pitts, prezentat n relaia (11.33) este o generalizare a modelului neuronal ce a fost propus n anul 1943 i care lucra atunci doar cu variabile de intrare binare (0 i 1) fiind caracterizat de ponderi i praguri fixe.

n relaia (11.33) d reprezint numrul de intrri ale neuronului (dimensionalitatea spaiului de intrare al trsturilor), xi reprezint valorile intrrilor elementului de procesare, wi sunt ponderile iar b este termenul bias sau prag. n cadrul modelului neuronal McCulloch-Pitts funcia de activare f este o funcie de tip semn (hard limited) definit prin relaia:

0 dac10 dac1

xx

xf (11.34)

Aceast funcie de activare neliniar poart i numele de funcie semn. Un astfel de sistem, realizat cu ajutorul unui neuron de tipul M-P, este

capabil s separe doar dou clase. O prim clas este asociat valorii +1 a

111

ieirii sistemului i cealalt clas este asociat valorii -1. Deci, elementul de procesare M-P este compus din:

elementul liniar adaptiv (combinatorul liniar), cunoscut sub numele de neuronul Adaline (Adaptive Linear Element), i

o funcie neliniar. n continuare vom studia i vom nelege capacitatea neuronului M-P de

a recunoate, de a clasifica diferiii vectori de trsturi. Din punct de vedere al teoriei clasificatorilor relaia (11.33) este generatoarea unei singure funcii discriminant. Aceast funcie discriminant este dat de relaia:

d

iiidd bxwbxwxwxwxg

12211 ... (11.35)

Din punct de vedere medical, fiziologic relaia anterioar este similar i modeleaz potenialul membranei unui neuron biologic.

n paragrafele urmtoare vom ncerca s nelegem n mod intuitiv ce reprezint aceast funcie discriminant generat de ctre neuronul M-P. Pentru facilitarea reprezentrii grafice i a nelegerii intuitive a capacitilor acestui neuron vom lucra mai departe ntr-un spaiu bidimensional de intrare sau de trsturi. n aceast situaie putem scrie ieirea elementului de procesare astfel:

1,2j

1,2j

0 dac 10 dac 1

bxw

bxwy

jj

jj (11.36)

Din relaia (11.36) se poate observa c valoarea ieirii neuronului este controlat n mod direct de ctre termenul:

w1x1+ w2x2+b (11.37) Termenul, anterior prezentat, reprezint ecuaia unei drepte. Dar

simultan acest termen este chiar funcia discriminant, g(x1,x2), generat de neuronul M-P. Mai mult, aceast funcie discriminat este ieirea pentru un neuron de tipul Adaline. Prin aplicarea funciei de activare neuronului Adaline va rezulta un sistem care mparte spaiul de intrare n dou semiplane, unul pentru vectorii de trsturi care sunt evaluai cu o valoare pozitiv (+1) i altul cu vectorii evaluai cu o valoare negativ (-1).

Ecuaia pentru suprafaa de decizie se obine prin egalarea cu zero a funciei discriminant:

0),( 221121 bxwxwxxg (11.38)

112

Problem 11.3: tiind modalitatea de definire a suprafeei/suprafeelor de decizie raportate la funciile discriminant a claselor, dovedii c relaia anterioar este corect.

Din relaia (11.38) rezultnd:

21

2

12 w

bxwwx (11.39)

Suprafaa de decizie este ecuaia unei drepte cu panta: 21 / wwm (11.40)

ce trece prin punctul (0, b/w2) i intersecteaz axa x2 n punctul:

22 w

bx (11.41) Aceast dreapt se gsete poziionat la o distan2 fa de origine egal

cu:

22

21 wwbd (11.42)

Datorit formei i a semnificaiei generate de relaia (11.42) termenul b este cunoscut n literatura de specialitate drept deplasare (bias n englez).

Dac sistemul caracterizat de ecuaia (11.33) ar fi liniar, extragerea caracteristicii intrare-ieire (a funciei de transfer) ar fi fost foarte uor de aflat i, n final, de vizualizat. Dar din pcate, pentru un sistem neliniar conceptul de funcie de transfer nu se aplic. Relaia (11.36) ne poate ajuta s vizualizm rspunsul neuronului de tipul M-P. Acest exemplu este unul foarte simplu n care ieirea are doar dou valori {-1, 1}, dar de obicei ieirea este foarte greu de obinut n mod analitic. Din acest motiv se prefer o determinare a caracteristicii neuronului (a suprafeei de decizie) printr-o parcurgere exhaustiv a ntregului spaiu de intrare. Suprafaa obinut reflectnd astfel legtura existent ntre intrarea i ieirea sistemului neuronal implementat n acest caz particular doar cu ajutorul unui singur neuron de tipul McCulloch-Pitts.

n cazul concret al relaiei (11.35) funcia discriminant este un plan. Acest plan se intersecteaz cu planul generat de trsturile x1 i x2 ntr-o dreapt

2 Distana dintre un punct de coordonate (x0, y0) i o dreapt de ecuaie a x + b y + c = 0

este:

2200

bacbyax

d

113

(care este chiar suprafaa de decizie) a crei ecuaie este dat de relaia (11.38), vezi Figura 11.3.

Acest exemplu prezentat anterior se poate extinde i pentru spaii de

intrare multidimensionale, numai c de data aceasta suprafaa de decizie, liniar n cazul anterior, devine un hiperplan cu o dimensiune mai mic cu o unitate fa de dimensiunea spaiul de intrare. Problem 11.4: Determinai ponderile, w1 i w2, precum i bias-ul, b, pentru

modelul neuronal McCulloch-Pitts astfel nct suprafaa de decizie s fie poziionat astfel: (a) S treac prin punctele (0.5, 0) i (0, -0.5). n plus, n planul

de intrare (x1, x2) neuronul s ntoarc o valoare egal cu +1 n partea dreapt a suprafeei de decizie, vezi

Figura 11.4.(a). (b) S treac prin punctele (0.5, 0) i (0, -0.5). n plus, n planul

de intrare (x1, x2) neuronul s ntoarc o valoare egal cu +1 n partea superioar a suprafeei de decizie, vezi

Figura 11.4.(b). (c) S treac prin punctul (0.5, 0) i s fie paralel cu axa x2.

Simultan mai exist i constrngerea ca n planul de intrare (x1, x2) neuronul s ntoarc o valoare egal cu +1 n partea stng

3210-1-2-3

32

10

-1-2

-3

50

25

0

-25

-50

-75

-100

Funcia discriminant Suprafaa de decizie g(x1, x2) = 0,

obinut la intersecia funciei discriminant cu planul (x1, x2), de pant = w1/w2

x1

x2 g(x1, x2) -b/w2

g > 0

g < 0 -b/|w|

Figura 11.3. Prezentarea funciei discriminant pentru cazul unui clasificator binar

114

a suprafeei de decizie i -1 n partea dreapt, vezi Figura 11.4.(c). (d) S treac prin punctul (0, 0.5) i s fie paralel cu axa x1. n

plus, n planul de intrare (x1, x2) neuronul s ntoarc o valoare egal cu +1 n partea superioar a suprafeei de decizie, vezi

Figura 11.4.(d). Pentru testarea corectitudinii valorilor calculate utilizai

implementarea din directorul Exemplul 01 asociat acestui capitol. n cazul concret al relaiei (11.35) funcia discriminant este un

plan. Acest plan se intersecteaz cu planul generat de trsturile x1 i x2 ntr-o dreapt (care este chiar suprafaa de decizie) a crei ecuaie este dat de relaia (11.38).

Figura 11.4. Reprezentrile grafice ale regiunilor decizionale pentru

neuronului McCulloch-Pitts pentru diferite valori ale ponderilor sinaptice i a biasului n conformitate cu datele problemei precedente

x1

x2

10.5

-0.5

-1

1 0.5

-0.5

1

0.5

x2

x1

- 0.5

1

0.5

1

x1

x2

-10.5- 0.5

- 0.5

1

0.

-0.5

-1

-0.5

-0.5 - x1

x2

(a) (b)

(c) (d)

115

11.3.2. Tipuri de neliniariti Pentru ecuaia (11.36) decizia aparteneei unui element la o clas sau

alta este una de tip crisp (elementul aparine sau nu clasei), deoarece funcia semn este utilizat la ieirea neuronului.

De asemenea, alte tipuri de neliniariti pot fi utilizate la ieirea neuronului. Dintre acestea cele mai cunoscute sunt cele ce au o form sigmoidal3. Dintre acestea, cele mai utilizate neliniariti sigmoidale sunt cele de tip: logistic (funcie sigmoidal unipolar) i tangent hiperbolic (funcie sigmoidal bipolar).

0101

xx

xf (11.43)

f(x) = tanh ( x) (11.44) xxf exp1

1 (11.45)

(a) (b) (c) Figura 11.5. Tipuri de neliniariti: (a) semn, (b) tangent hiperbolic i

(c) logistic Pentru ultimile dou neliniariti, prezentate grafic i analitic n Figura

11.5, parametrul determin panta neliniaritii i n mod uzual ia valoarea 1. Diferena major ntre ultimile dou neliniariti, prezentate n Figura 11.5(b) i Figura 11.5(c), este dat de domeniul de variaie a valorilor de ieire. Pentru funcia logistic domeniul este cuprins ntre [0, 1] n timp ce

3 aceasta funcie este una monoton cresctoare avnd o form de tip S

= 4

= 1

= 0.25

116

pentru funcia tangent hiperbolic ntre [-1, 1]. Prin introducerea i folosirea acestor neliniariti am obinut o generalizare a funciilor discriminant pentru neuronul M-P de tipul:

bxwfy

iii (11.46)

Funcia dat de (11.46) nu mai este un hiperlan similar cu cel dat de relaia (11.35) precum la neuronul Adaline. Avantajul fundamental al neliniaritilor de tip sigmoidal este dat de faptul c acestea sunt derivabile. Derivabilitatea acestor funcii constituie un avantaj mai ales n cadrul algoritmilor de adaptare nesupervizat cnd vom folosi derivatele n vederea gsirii minimului suprafeei de eroare. Ex.2.

Deoarece ieirea funciei logistice variaz ntre 0 i 1 n anumite situaii acest fapt ne permite o interpretare a ieirii neuronului drept probabilitate posterioar pentru o distribuie Gauss-ian a claselor de intrare.

Conform regulii Bayes o probabilitate de tip posterioar poate fi scris ca: xP cPcxfxcP iii (11.47)

Pentru situaia cnd avem numai dou clase numitorul relaiei (11.47) este dat de:

P(x) = f(x | c1) P(c1) + f(x | c2) P(c2) (11.48) unde c1 i c2 reprezint cele dou clase. Dac funciile distribuie sunt Gauss-iene de variane egale, se poate arta c:

axcP exp1 11 (11.49) unde 22 11ln cPcxf

cPcxfa (11.50)

Se poate observa c relaia (11.49) este chiar forma neliniaritii de ieire logistice, deci putem interpreta ieirea neuronului drept probabilitatea posterioar a eantionului de intrare. Avnd n vedere c putem gsi o relaie matematic liniar ntre funcia tangent hiperbolic i cea logistic putem nu numai echivala reelele neuronale care utilizeaz una dintre aceste funcii dar putem pstra i interpretarea de tip probabilitate a ieirii.

117

11.3.3. Algoritmul de adaptare al ponderilor Plasare funciei discriminant generat de neuronul McCulloch-Pitts n

spaiul de intrare al trsturilor este dat de: 1. raportul ponderilor acestea controleaz panta (orientarea)

suprafeei de decizie, n timp ce 2. bias-ul controleaz cu ct se va transla aceast suprafa de

decizie fa de origine, determinnd punctul de intersecie al acesteia cu ambele axe x2 i x1 sau numai cu una din ele.

Plasare funciei discriminant trebuie controlat astfel nct ieirea s aib valoare 1 pentru o clas i 1 (sau 0 funcie de tipul neliniaritii de ieire) pentru cea de a doua clas, deci poziia funciei discriminant trebuie modificat n spaiul de intrare pn n momentul n care vom obine numrul minim de erori.

n cazul bidimensional este foarte uor s plasm manual suprafaa de decizie pentru a obine separarea corect a celor dou clase. Dar ntr-un spaiu multidimensional nu mai avem posibilitatea de a vizualiza poziia claselor i deci avem nevoie de o procedur automat pentru poziionarea suprafeei de decizie. Pentru a ne atinge acest obiectiv trebuie s: calculm eroarea instantanee a clasificrii (notat cu i fiind egal cu diferena ntre valoarea dorit a ieirii, d, i ieirea real a neuronului y) i, n plus, avem nevoie de un algoritm care s minimizeze aceast eroare. Ex.3.

Exist mai multe moduri de calcul a erorii globale dar cea mai folosit este eroarea medie ptratic (MSE Mean Square Error). Eroarea medie ptratic este o funcie de cost dat de:

K

nnn

K

nn ydKK

J1

2

1

2

21

21 (11.51)

n relaia (11.51) n este un index pe ntreaga mulime a vectorilor de trsturi avem astfel o mulime de K vectori de trsturi n cadrul setului de antrenare al reelei.

Scopul clasificatorului este de a minimiza aceast funcie de cost prin modificarea ponderilor reelei. Cutarea vectorului optim de ponderi pentru a minimiza un anumit criteriu este deci n esen ideea de baz a algoritmului.

Din punct de vedere istoric, Rosenblatt a propus n anul 1958 urmtoarea procedur de minimizare a erorii de clasificare a neuronului McCulloch-Pitts (M-P):

118

se ia un exemplar (vector de trsturi) i se calculeaz ieirea, dac:

ieirea este corect se trece mai departe la urmtorul exemplar,

exemplarul este incorect clasificat se modific vectorul de ponderi i bias-ul,

se execut paii anteriori pe ntregul set de date de cte ori este necesar pn cnd ieirea este corect pentru fiecare element al setului de date.

Aceast procedur este algoritmul de antrenare al perceptronului M-P i poate fi pus sub urmtoarea relaie analitic:

kxkykdkwkw 1 (11.52) n relaia anterioar este pasul de adaptare, y este ieirea reelei n timp ce d este rspunsul dorit. Problem: Comparai relaia (11.52) cu relaia de modificare a ponderilor

dat de algoritmul LMS, relaia (11.18). Exista vreo diferen? Ex.4.

Din relaia (11.52) se observ c neuronul nva numai cnd ieirea greete, deci cnd vectorul de intrare este clasificat n mod greit. Deoarece rspunsul dorit poate fi doar -1 i +1 cantitatea cu care se modific ponderile este egal cu:

1i 1 dac 2

bkwkxsignkdkxkwi

ii (11.53)

1i 1 dac 2

bkwkxsignkdkxkwi

ii (11.54) n cazul n care eantioanele de intrare sunt liniar separabile, deci exist o

funcie discriminant liniar care va produce eroare de clasificare zero, soluia algoritmului de adaptare este un vector de ponderi w* i un prag b* care satisface relaia:

0**

bnxwsignnd

jji

(11.55)

pentru un index n ce parcurge ntregului set de date de intrare. Soluia pentru cazul bidimensional este o dreapt caracterizat de

ecuaia xT w* = 0 (vectorul optimal w* trebuie s fie ortogonal pe fiecare vector de date x). Algoritmului de adaptare dat de relaia (11.52) i ia un numr finii

119

de pai pentru a ajunge la soluia optim numai dac clasele sunt liniar separabile.

Exist dou probleme majore generate de acest algoritm: n momentul n care ultimul eantion va fi corect clasificat, funcia

discriminant nu va mai putea fi repoziionat sub nici o form. Astfel, acest algoritm de adaptare produce diferite suprafee de decizie la diferite iniializri i adaptri succesive ale neuronului. Aceste suprafee de decizie furnizeaz o eroare egal cu zero n setul de antrenare, dar eroarea obinut pe setul de test poate s fie diferit de zero. O poziionare mai corect a suprafeei determinant ar fi fost n zona punctelor de minim a interseciei funciilor de densitate de probabilitate ce caracterizeaz cele dou clase vezi clasificatorul Bayes-ian.

Algoritmul de adaptare converge numai dac clasele sunt liniar separabile, n caz contrar suprafaa de decizie va oscila n mod continuu. (Ex.4a.)

11.3.4. Interpretarea geometric a modelului neuronal M-P i a algoritmului de adaptare a ponderilor

Pentru o nelegere intuitiv att a semnificaiilor diferitelor elemente ale modelului neuronal McCulloch-Pitts, a interaciunii dintre acestea ct i a algoritmului de adaptare a ponderilor, n cadrul acestui subcapitol se va prezenta o interpretare geometric att a modelului neuronal McCulloch-Pitts dar i a algoritmului de adaptare a ponderilor acestui neuron.

n continare considerm ponderile {w1, w2} drept punctul final al unui vector w a crui capt de nceput este poziionat n origine. Observm de asemenea c locul geometric al coordonatelor {x1, x2} care satisfac relaia (11.38):

0),( 221121 bxwxwxxg (11.56) care este chiar suprafaa de decizie a neronului. Aceast suprafa de decizie o vom reprezenta i pe ea n mod vectorial prin intermediul unui vector care pleac din origine i sfrete ntr-un punct aparinnd acestui loc geometric. Acest vector l notm n continuare cu g . Pentru simplitate n continuare vom presupune c pragul b este egal cu zero i vom arta c, utiliznd aceast interpretare geometric (caracterizat de reprezentarea vectorial w i g ), vectorul ponderilor va fi perpendicular pe suprafaa de decizie.

120

Constrngerea anterioar, b = 0, nu influeneaz sub nici o form generalitatea acestei interpretri grafice deoarece tim dintr-un subcapitol anterior c prin intermediul pragului b se modific doar punctul de intersecie a suprafeei de decizie cu axa x2 nu i panta dreptei.

n acest caz vectorial, produsul din relaia (11.56), w1 x1 + w2 x2, poate fi interpretat ca un produs intern a doi vectori [w1, w2]T i [x1, x2]T. Pentru a satisface g(x1, x2) = 0, vectorii w

i g trebuie s fie perpendiculari deoarece produsul lor intern este zero. n concluzie suprafaa de decizie g(x1, x2) = 0 trebuie s fie perpendicular pe vectorul ponderilor w , vezi Figura 11.6. Cum ponderile neuronului sunt coeficienii funciei discriminant rezult c ponderile indic direcia normal a suprafeei de separaie n spaiul de intrare.

Figura 11.6. Interpretarea vectorial a poziiei vectorului de ponderi

n plus, ntotdeauna vectorul w

va fi situat n semiplanul n care rspunsul neuronului M-P va fi +1. Pentru a verifica acest lucru particularizm funcia discriminant, g(x1, x2), pentru punctul extrem al acestui vector {w1, w2}, obinnd:

0, 2221221121 wwwwwwwwg (11.57) Relaia (11.57) demonstreaz astfel afirmaia fcut la nceputul paragrafului anterior.

Problem: Pentru un neuron M-P caracterizat de urmtoarele valori ale parametrilor liberi w1 = 10, w2 = 5 i b = 0, demonstrai c n reprezentarea vectorial a acestui neuron, vectorul ponderilor este perpendicular pe suprafaa de decizie a neuronului.

Rezolvare: Parametrii ce caracterizeaz suprafaa de decizie sunt 2

2

1 wwm i intersecia cu axa x2 este chiar n originea

g(x1, x2)=0 {w1, w2}

x2

x1

{x1, x2}

121

sistemului de coordonate. Utiliznd aceste informaii trasm aceast suprafa de decizie ca n Figura 11.7.

Pentru a reprezenta vectorii w i g trebuie s determinm pentru fiecare vector n parte punctele extremitilor lor. Dac pentru vectorul w rezultatele Figura 11.7 sunt directe, vezi Figura 11.7, pentru vectorul g trebuie s determinm un punct de apartenen a locului geometric dat de suprafaa de decizie. Orice punct ce aparine suprafeei de decizie satisface relaia g(x1, x2) = 0. Dac, de exemplu, lum x1 = 5 rezult automat x2 = -10. Reprezentarea grafic a vectorului g este prezentat n Figura 11.7.

Pentru a demonstra c vectorii w i g sunt perpendiculari ne putem folosi de interpretarea produsului intern, n mod similar ca

n demonstraia fcut anterior n cadrul acestui subcapitol, sau putem calcula pantele dreptelor suport a celor doi vectori i verificm c ntre acestea exist relaia mw = -1 / mg n aceast condiie dreptele suport a vectorilor w i g sunt perpendiculare. Dac dreptele suport a vectorilor sunt perpendiculare rezult automat i c vectorii w i g sunt perpendiculari.

Dreapta suport a vectorului w trece prin punctele {0, 0} i {10, 5}; ecuaia acesteia este:

050

0100 21

xx (11.58) Dezvoltnd relaia (11.58) obinem n final:

2/12 xx (11.59) Constatnd c panta dreptei suport a vectorului w este mw =

n timp ce panta dreptei suport a vectorului g este mg = -2, tragem

x1

x2

Suprafaa de decizie de ecuaie g(x1, x2) = 0

Figura 11.7. Reprezentare grafic a rezultatelor obinute n cadrul

{10, 5}

{5, -10}

5

5

10

10

-5 -10

-5

-10

122

concluzia c cei doi vectori satisfac condiia anterioar. De aici rezult c vectorii w i g sunt ortogonali.

n continuare vom prezenta n mod grafic modalitatea de adaptare a ponderilor pentru modelul neuronal McCulloch-Pitts ce lucreaz cu un spaiu bidimensional al trsturilor.

n Figura 11.8 se prezint n mod grafic modalitatea de modificare a suprafeelor de decizie n situaia n care vectorii de trsturi E1 i E2 sunt incorect clasificai, iar ponderile sunt modificate datorit influenei acestor vectori de trsturi. Suprafaa iniial de decizie la momentul de timp n este S1.

Figura 11.8. Modalitatea de infuenare a suprafeei de decizie de ctre un elemnt clasificat greit: (a) aparinnd clasei asociat de clasificator cu

valoarea +1, respectiv, (b) aparinnd clasei asociat de clasificator cu valoarea -1

S presupunem c vectorul de trsturi E1 este utilizat n procesul de

S3

x1

x2

S1 (b)

x1

x2

S1

S2

(a)

123

adaptare a ponderilor. Deoarece vectorul de trsturi E1 este clasificat incorect, vezi poziia suprafeei de decizie S1 n Figura 11.8(a), i deoarece valoarea dorit pentru acest element este +1 ponderile se vor modifica cu o cantitate dat de relaia (11.53). Vectorial putem scrie:

nxnw E12 (11.60) n acest mod vectorul de pondere 1w

, definitoriu pentru suprafaa de

decizie S1, este modificat cu o cantitate, w , n direcia elementului 1E

devenind vectorul 2w

. Deoarece vectorul 2w

este ntotdeauna perpendicular

pe suprafaa de decizie, poziia noii suprafee de decizie obinut n urma procesului de nvare este cea reprezentat n Figura 11.8(a) prin dreapta S2. Se observ c n acest caz suprafaa de decizie a fost repoziionat de influena elementul E1 astfel nct acest element s fie corect clasificat.

Pentru situaia prezentat n Figura 11.8(b) abordarea este similar. De aceast dat elementul E2 aparine celei de a doua clase pe care clasificatorul trebuie n final s o asociaze cu valoarea -1 la ieirea sa. Datorit poziionrii suprafeei de decizie S1 acest element este clasificat n mod incorect fiind asociat cu o valoare +1 la ierea elementului neuronal de procesare McCulloch-Pitts. n aceast situaie cantitate cu care se modific vectorul de ponderi a neuronului este dat de relaia (11.54). Aceast relaie scris vectorial devine:

nxnw E22 (11.61) Observm c vectorul 1w este mpins n sens contrar direciei vectorului

2E

devenind 3w ( www 13 ). Noua suprafa de decizie S3 chiar dac nu

reuete s clasifice n mod corect elementul E2 este mai aproape de soluia corect dect suprafaa de decizie iniial, S1.

Observm c din punct de vedere grafic fiecare element din spaiul trsturilor incorect clasificat va mpinge sau trage suprafaa de decizie prin intermediul vectorului de ponderi, care este perpendicular pe acesta, conform relaiei (11.52).

11.3.5. Algoritmul delta de antrenare Algoritmul delta de antrenare a fost dezvoltat de McClelland i de

Rummelhart n anul 1986.

124

n cadrul algoritmul LMS aplicat neuronului de tip Adaline se adun la vectorul de ponderi o cantitate proporional cu produsul dintre eroare i intrarea reelei:

nk xkwkw 1 (11.62) Vom ncerca mai departe s refolosim ideile de baz conceptuale ale

algoritmului LMS pentru antrenarea unui sistem neliniar. S presupunem c avem o funcie y = f(x), ideea de baz este aceea de a

calcula y/x, deci de a calcula cum se reflect o schimbare de mic amplitudine n intrare, x, n valoarea lui y deci ct de sensibil este y la schimbrile lui x. Acest parametru poate fi numit sensibilitatea ieirii la o variaie a intrrii:

xf

fy

xy

(11.63)

n mod similar, dac x este nlocuit cu w ne vom da seama ct de sensibil este ieirea sistemului la o schimbare a lui w i vom modifica vectorul de ponderi proporional cu aceast sensibilitate. Singura problem este dat de faptul c trebuie s trecem printr-o neliniaritate dat de funcia f. Derivnd obinem:

iii

xgfgwg

ywy

(11.64) n practic avem o eroare la ieire i dorim s modificm toate ponderile

astfel nct d minimizm aceast eroare. Cel mai simplu mod de a face acest lucru este s distribuim modificrile proporional cu sensibilitatea erorii fa de fiecare pondere n parte. Dac vrem s minimizm eroarea trebuie s facem schimbrile cele mai importante n ponderile care afecteaz cel mai mult valoarea de ieire i prin aceasta eroarea.

Eroarea instantanee poate fi scris: 2

21 kyd nnk (11.65)

unde:

ng

i

niin xkwfky (11.66)

Eroarea medie ptratic este dat de:

125

K

nnn kydK

kw1

2

21 (11.67)

Folosindu-ne de relaiile (11.64), (11.65) i (11.66) i innd cont c gradientul erorii medii totale pe ntreg setul de date este aproximat prin gradientul unei msuri instantanee a erorii avem:

ninkninnn

inin

n

n

k

i

xgfxgfyd

kwgkwg

kykykw

(11.68)

n cazul aplicrii gradientului descendent pe suprafaa de eroare obinem: nnikii gfxkwkw 1 (11.69)

Relaia (11.69) poart numele de regula delta i este o extensie a algoritmului LMS pentru sistemele neliniare, cu neliniariti derivabile. Deoarece neliniaritile discutate pn acum, ntr-un subcapitol anterior, se apropie exponenial de 1 (0) i de 1, multiplicarea prin derivat reduce termenul care se adun la pondere prin simplul motiv c forma derivatei este de tip Gauss-ian n jurul valorii gn.

Derivatele funciei logistice i a celei de tip tangent hiperbolic sunt: pppistic yygf 1log (11.70) 2tanh 15.0 pp ygf (11.71)

Ex.5 Problem: Demonstrai valabilitatea relaiilor (11.70) i (11.71).

126

11.3.6. Implicaiile existenei neliniaritii de ieire n principal existena unei neliniaritii la ieirea unui neuron

determin schimbarea formei suprafeei de eroare. Forma parabolic a suprafeei de eroare existent n sistemele liniare, precum cea prezentat n Figura 11.2, nu se mai regsete n reelele neuronale neliniare. Se poate observa c suprafaa de eroare descrie cum costul reelei se schimb funcie de vectorul de ponderi. (Ex.6.) .

Performanele reelei depind de topologia acesteia reflectat prin eroarea obinut. n momentul n care un element de procesare neliniar este utilizat pentru rezolvarea unei probleme relaia dintre suprafaa de performan i vectorul de ponderi devine neliniar i nu mai exist nici o garanie a existenei unui singur minim. Suprafaa de eroare poate avea astfel cteva minime din care numai unul este minimul global, restul fiind minime locale.

Figura 11.9. Suprafaa de performan neconvex Ex.7.

Minimul care produce cea mai mic eroare este numit minimul global. Acest fapt afecteaz performanele obinute, deoarece modalitatea de cutare a minimului, n cadrul algoritmilor de tip gradient, este bazat numai pe o informaia local. Dac ne bazm numai pe informaia din imediata vecintate ne este imposibil de a deosebi un minim local de un minim global. n acest mod putem obine performane suboptimale dac oprim procesul de nvare n momentul atingerii unui minim local.

Existena minimelor locale, pe suprafaa de eroare, genereaz necesitatea existenei unui numr multiplu de antrenri fiecare antrenare fiind caracterizat de o nou generare aleatoare a vectorului de ponderi. Astfel, sperm c ne vom poziiona pe suprafaa de eroare n diferite zone i n urma procesului de antrenare algoritmul va determina convergena ponderilor ctre minimul global.

direcii ale gradientului

minim global

minim local

w

(w)

127

11.4. Perceptronul Perceptronul lui Rosenblatt este un sistem utilizat n recunoaterea de

paternuri descoperit la nceputul anilor 1950 i utilizat n acel moment n cadrul problemelor de recunoatere a diferitelor caractere (OCR - optical character recognition). Perceptronul este o reea neuronal format dintr-un singur strat de neuroni artificiali conectai complet prin intermediul ponderilor la un intrrile sistemului, Figura 11.10.

Unul din dezavantajele modelului neuronal de tip M-P este dat de capacitatea acestuia de a discrimina doar dou clase. Din acest motiv s-a impus o abordare mai general a problemelor de clasificare astfel nct un sistem s aib posibilitatea clasificrii unui numr mai mare de clase. Pentru a atinge acest scop topologia sistemului de clasificare a fost modificat n sensul includerii unui strat de M elemente de procesare M-P astfel nct fiecare dintre ele s fie capabile s creeze propria funcie discriminant n spaiul d-dimensional de intrare. Avantajul de a avea M neuroni este dat de abilitatea de a determina fiecare neuron s rspund numai de o anumit zon a spaiului. Fiecare neuron va decide dac vectorul de trsturi prezentat la intrare este sau nu n clasa caracterizat de funcia discriminant pe care acel neuron artificial o genereaz.

Figura 11.10. Topologia unei RNA de tip perceptronul cu d intrri i M ieiri

Relaia matematic care descrie sistemul neuronal prezentat n Figura

11.10 este urmtoarea:

d

ijiijjj bxwfgfy

1 (11.72)

unde j = 1, 2, , M. Una dintre realizrile remarcabile ale lui Rosenblatt, n domeniul reelelor

neuronale, a fost gsirea demonstraiei care ne asigur c un perceptron

128

antrenat cu ajutorul relaiei (11.52) poate recunoate ntr-un numr finit de pai cele M clase, cu condiia ca acestea s fie liniar separabile.

Perceptronul are de asemenea proprietatea de a generaliza (de a furniza rspunsul corect pentru vectori de trsturi care aparin claselor pentru care a sistemul neuronal a fost antrenat, dar aceti vectori nu au fost utilizai niciodat n setul de antrenare).

11.4.1. Suprafaa de decizie a perceptronului Un perceptron cu M ieiri poate divide spaiul de intrare n M regiuni

distincte. S presupunem c regiunile i i j au o grani comun. Suprafaa de decizie este o suprafa liniar dat de ecuaia gi(x) = gj(x), unde gi i gj sunt funciile discriminant a claselor i i j. n total exist M(M 1)/2 astfel de ecuaii4. Regiunile de decizie ale unui perceptron sunt ntotdeauna convexe. n momentul n care un neuron din strat rspunde cu o valoare maxim la un vector de trsturi de intrare nseamn c acel vector se afl n interiorul regiunii definite de neuron.

Figura 11.11. Posibile suprafeele de decizie ale unui perceptron

Ex.8.

11.4.2. Regula delta aplicat perceptronului

Din punctul de vedere a regulii de adaptare modificrile care apar la trecerea de la un singur neuron la o reea de tipul perceptron (o reea neuronal artificial cu un singur strat de neuroni) nu sunt foarte mari.

Pentru antrenarea modelului neuronal se utilizeaz un set de exemplare {xk, dk} (denumit set de antrenare), cu k = 1, 2, ... , K. Singura deosebire fa de modelul M-P este c de aceast dat doritul este un vector M dimensional, vezi Error! Reference source not found..

4 Combinaii de M funcii discriminant luate cte 2 ( !!!)

129

(11.73)

i n cazul regulii delta aplicat perceptronului, gradientul erorii totale (a erorii medii ptratice), , este aproximat cu gradientul erorii ptratice instantanee. n cazul perceptronului funcia de cost trebuie calculat dup o sum a erorii furnizat de fiecare ieire i este dat de:

M

je

jnjk

j

kydE1

2

21

(11.74)

cu:

d

i

njij

nTjj xkwxkwky

1 (11.75)

Adaptarea ponderilor se va face, similar ca la algoritmul LMS, prin intermediul relaiei:

kwEkwkwij

kijij

1 (11.76) n continuare putem rescrie relaia (11.68) sub forma:

njjjjpjj

nj

ijjijj

j

j

k

ji

k

xgf

xgfkyd

kwgkwg

kyky

Ekw

E

(11.77)

Ex.9.

11.4.3. Marginea de decizie a perceptronului Anterior, am vzut cum regula de adaptare a neuronului McCulloch-Pitts

este eficient dar nu i eficace deoarece imediat dup ce ultimul eantion a fost clasificat corect procesul de nvare se oprete, lsnd suprafaa de

130

decizie foarte aproape de acest eantion. Desigur obinem performane maxime n setul de antrenare dar nu i n setul de test al sistemului. Acesta este motivul pentru care dorim s nlocuim algoritmul de adaptare al neuronului McCulloch-Pitts astfel nct suprafaa de decizie s fie plasat n valea dintre distribuiile celor dou clase la distane egale de cele dou frontiere ale claselor. Pentru aceasta trebuie s introducem i s definim conceptul de margine de decizie. S presupunem c avem un set de date de intrare i de valori dorite ale ieirii S = {(x1, d1), (x2, d2), , (xN, dN)} cu d = {- 1, + 1} i avem o funcie discriminant definit de (w, b). n aceste condiii se definete marginea hiperplanului de separaie drept o cantitate proporional cu:

bwxSx

,min (11.78) unde este produsul intern ntre x i w.

Definim hiperplanul optim drept acea suprafa de decizie care maximizeaz marginea de decizie ntre cele dou clase, Figura 11.12. Dup cum se vede din toate hiperplanele posibile care separ setul de date, cel optimal este acela care trece la jumtatea distanei dintre eantioanele care sunt cele mai apropiate de frontierele celor dou clase.

Figura 11.12. Hiperplanul de separaie i marginea acestuia Problema pe care o avem acum este aceea de a gsi acest hiperplan optim.

Dup cum se vede n Figura 11.12 trebuie s gsim acele puncte (vectori de trsturi) care se regsesc pe frontier (numii i vectori suport), definind-o, iar ulterior s plasm funcia discriminant la mijlocul distanei dintre ele.

Se poarte demonstra uor, din simple considerente geometrice, c

Vectori suport

Hiperplan optim

Vector suport x1

x2

1 1

22

131

distana de la un vector de trsturi x (pentru cazul bidimensional cu care lucrm de la un punct din plan ctre o dreapt) ctre un hiperplan este dat de:

wxg

d (11.79)

11.4.4. Algoritmul Adatron n continuare se va prezenta un algoritm simplu, cunoscut sub numele de

Adatron care va gsi funcia discriminant care maximizeaz marginea de decizie. Acest algoritm este unul secvenial, care va gsi n mod garantat soluia optim cu o rat de convergen exponenial.

Pentru a explica acest algoritm de antrenare, trebuie s rescriem funciile intrare-ieire ale perceptronului n termenii unei reprezentri dependente de setul de date.

xgxf sgn (11.80) unde:

N

iii bxxbwxxg

0

,, (11.81) unde este produsul intern, N este numrul de eantioane. Coeficienii i sunt un set de multiplicatori ce cuantizeaz influena fiecrui vector de trsturi asupra ponderilor deoarece vectorul de ponderi se modific conform relaiei (11.52) (mai exact a relaiilor (11.53) sau (11.54)) . n Figura 11.13. Perceptronul reprezentat ca o structur dependent de setul de date este prezentat o astfel de topologie care creeaz o astfel de reprezentare dependent de setul de date.

n aceast structur prezentat algoritmul de adaptare a perceptronului va modifica ponderile i n locul ponderilor n situaia existenei unei erori. Algoritmul adaptiv devine:

iii xnn 1 (11.82) iii xnbnb 1 (11.83)

132

Figura 11.13. Perceptronul reprezentat ca o structur dependent de setul de date

Algoritmul Adatron aplicat unui neuron de tipul M-P este capabil s

disting numai ntre dou clase. Dac problema are mai mult de dou clase trebuie rezolvat secvenial ca o decizie de numai dou clase.

Figura 11.14. Comparaie ntre algoritmul Adatron i regula delta

Este foarte util s comparm algoritmul Adatron prezentat n acest

subcapitol cu regula delta prezentat anterior. n cazul regulii delta suprafaa de decizie este controlat de eantioanele care produc o valoare a ieirii care este diferit de valoarea dorit. Aceste eantioane tind s existe la frontiera dintre cele dou clase, deci eroarea medie ptratic este influenat

133

semnificativ de acestea. Dar, deoarece J conform relaiei Error! Reference source not found. este o funcie continu a erorii, toate eantioanele vor contribui ntr-un mod sau altul la J. n concluzie MSE (Mean Square Error eroarea medie ptratic) este o funcie dependent de ntreaga distribuie a setului de date iar localizarea suprafeei de decizie va fi afectat de forma clusterului de date i de numrul de elemente existent n acel cluster de date (neajunsuri: apar probleme n cazul maladiilor rare). Ex.10.

n cazul algoritmului Adatron se observ un comportament diferit. n timpul procesului de adaptare, cea mai mare parte din coeficienii i se duc ctre zero iar poziionarea suprafeei de decizie este determinat numai de un numr mic de eantioane situate n imediata vecintate a frontierei dintre cel dou clase. Aceste eantioane sunt numite vectori suport. Algoritmul de adaptare este astfel insensibil la forma general a clusterilor i se concentreaz numai pe o vecintate de eantioane din imediata frontier a celor dou clase, Figura 11.14.

Figura 11.15 (a) Tabelul de adevr a unei pori SAU-EXCLUSIV i (b) distribuia eantioanelor n spaiul trsturilor

11.4.5. Limitrile perceptronului La fel ca i modelul neuronal M-P, perceptronul poate rezolva numai

acele probleme care au clasele liniar separabile. Problema prototip ce caracterizeaz clasa problemelor de clasificare neliniar separabile i care nu poate fi rezolvat de un perceptron este dat de clasificarea setului de date rezultat de la ieirea, y, a unei pori sau-exclusiv, vezi Figura 11.15.

x1 x2 y P00 0 0 0 P01 0 1 1 P10 1 0 1 P11 1 1 0

P01 (y = 1) P11 (y = 0)

P00 (y = 0)

P10 (y = 1) x1

x2 S1 S2

S3

(a) (b)

134

Indiferent de poziionarea suprafeei discriminant, Figura 11.15(b), n cel mai fericit caz va rezulta o grupare n aceeai regiune a spaiului, deci n aceeai clas, a dou elemente aparinnd uneia dintre clase dar, din pcate, va exista i un element aparinnd celeilalte clase. Rezult astfel obinerea a cel puin unei erori de clasificare. n cea de a doua regiune spaial va exista doar un singur element. Acest element este corect clasificat. Deci, pentru aceast simpl problem vom clasifica n mod greit cel puin un element. De exemplu, suprafaa de decizie S1 grupeaz n mod corect elementele P11 i P00 dar n aceeai regiune a spaiului se regsete i elementul P10 care este clasificat incorect. Aceast problem este exemplul clasic n care vectorii de trsturi nu sunt liniar separabili i deci problema nu poate fi rezolvat de ctre o reea neuronal artificial de tip perceptron.

Ex.11.

135

11.5. Reeaua neuronal cu un singur strat ascuns 11.5.1. Introducere

Perceptronul multistrat (MLP Multi Layer Perceptron) lrgete noiunea de percepron n ideea de a generaliza structura acestuia, a perceptronului, prin introducerea straturilor ascunse. Aceste straturi neuronale ascunse reprezint de fapt straturi de neuroni care nu sunt legate n mod direct ctre exteriorul reelei neuronale artificiale (RNA). n cadrul acestui subcapitol vom analiza reeaua neuronal cu un singur strat ascuns.

n Figura 11.16 se prezint o reea de tip MLP cu un singur strat ascuns, cu d intrri, K elemente de procesare ascunse (PE processing elments, neuroni) i M ieiri (totpologia aceastei reele neuronale se noteaz prescurtat MLP (d-K-M)). n mod normal, elementele de procesare din reelele MLP au funcii de activare neliniare derivabile, deci, obligatoriu de tip sigmoidale pentru a asigura continuitatea funciei n orice punct al domeniului de definiie. Utilizarea funciilor de activare continui se impune deoarece aceste reele neuronale sunt caracterizate de algoritmi de adaptare ce impun derivarea funciilor de activare ale elementelor ce proceseaz informaia neuronii, poziionai pe diferitele straturi n cadrul RNA.

n continuare vom analiza puterea de procesare oferit de elementele neuronale neliniare aparinnd stratului ascuns al RNA. Aceast analiz se va face din punct de vedere al suprafeelor de decizie obinute, deci din punct de vedere a puterii de discriminare a acestor RNA. n cadrul acestui subcapitol vom aduga la percepronul din Figura 11.10 (Subcapitolul anterior 11.4) un nou strat de elemente de procesare, vezi Figura 11.16.

Figura 11.16. Un perceptron cu un strat ascuns (d-K-M)

Reeaua neuronal artificial cu un strat ascuns construiete mapri ale spaiului de intrare n valori de ieire care rezult dintr-o serie de compuneri de funcii neliniare, de forma:

136

MjcubwbxwffyK

ijjii

d

kkikijj ,1,

1 1

(11.84)

Maparea rezultant este una foarte flexibila i este cea care confer putere de discriminare RNA. Dificultatea generat de o astfel de mapare st n principal n dificultatea analizei matematice a structurii neuronale. Scopul pe care l urmrim n continuare este de a gsi tipul de funcie discriminant care poate fi creat cu reprezentarea descris de relaia (11.84) pentru a avea astfel o nelegere intuitiv a rolului diferiilor neuroni plasai pe diferite straturi n cadrul RNA.

11.5.2. Suprafeele de decizie Pentru a nelege conceptual puterea reelelor neuronale cu un singur strat

ascuns vom analiza o astfel de reea neuronal simplificat topologic. Reeaua pe care o vom analiza are un singur strat ascuns cu dou elemente de procesare, vezi Figura 11.17. n cadrul structurii din Figura 11.17 elementele de procesare au funcii de activare de tip semn (hard limited). Scopul final este acela de a gsi poteniale funcii discriminant generate de stratul ascuns al MLP-ului.

Conceptual, MLP-ul cu un singur strat ascuns este, de fapt, o nseriere de elemente de procesare. Vom ncerca, din aceasta perspectiv, s nelegem faptul ca cei doi neuroni din stratul ascuns creeaz, n spaiul de intrare x1, x2, doua funcii discriminant. Vom nota ieirea fiecrui element de procesare neuronal poziionat pe stratul ascuns cu x3 i x4. Fiecare dintre aceste ieiri vor fi, de exemplu, +1 deasupra suprafeei de decizie i -1 inferior acesteia. Panta suprafeelor discriminant este dat de raportul ponderilor w1/w2 i w3/w4.

Figura 11.17. Reea neuronal de tip perceptron cu un singur strat ascuns, MLP (2-2-1)

n spaiul x3, x4 ieirea ultimului neuron va genera, de asemenea, o funcie

discriminant liniara, ceea ce nseamn ca se va obine, de exemplu, un rspuns

x1

x2

x3

x4

w1

w2 w3

w4

w5

w6

y

b1

b2

b3

137

+1 a ieirii deasupra unei linii drepte cu panta data de w5/w6. Adevrata problem este generat de dorina gsirii rspunsul y n ntreg spaiul de ieire funcie de orice valoare a variabilelor de intrare x1, x2 a trsturilor x1, x2. Aceasta reprezint o problema care ine de compunerea funciilor, cunoscndu-se relaia parametric (neliniara) dintre x3 i (x1, x2), i ntre x4 i (x1, x2). Este foarte util i instructiv scrierea tuturor relaiilor intrare-ieire sub forma de mai jos:

y = f(w5x3 + w6x4 + b3) = f (w5 f1(w1x1 + w2x2 + b1) + + w6 f2(w3x1 + w4x2 + b2) + b3) = f(f1 + f2 + b3) (11.85)

Relaia (11.85) a fost scris innd cont i de presupunerea ca ponderile stratului de ieire sunt w5 = w6 = 1, aceast particularizare a fost aleas doar pentru simplificarea prezentrii. Fiecare expresie din interiorul parantezelor creeaz o funcie discriminant, care conduce la o funcie cu o valoare pozitiva pe o jumtate de plan (funcia de ieire a neuronilor cu ieirile x3 i x4 este o funcie de tip semn). Localizarea tranziiei n spaiul de intrare este controlata de funciile discriminant ale neuronilor din stratul ascuns, astfel ca expresia din paranteze reprezint suma a doua funcii semn, f1 i f2, cu un termen reprezentnd deplasarea (bias-ul) b3. n regiunea spaiului de intrare unde ambele funcii f1 i f2 sunt pozitive, valoarea lui y va fi cea mai mare. Ieirea y va avea o valoare intermediar n zonele din spaiu unde doar una dintre funciile f1 sau f2 este pozitiva (dar nu amndou) i, n final, exista o arie n spaiul de intrare unde y are valoarea minim, unde ambele funcii f1 i f2 iau valoarea minim posibil.

Figura 11.18. (a) Poziionarea suprafeei de decizie i partiionarea

spaiului dat de primul neuron, (b) Poziionarea suprafeei de decizie i partiionarea spaiului dat de cel de al doilea neuron, (c) modul de divizarea

al spaiului de intrare pentru b3 = 0, n cazul n care funcia de activare a neuronului de ieire este funcia unitate

Formele suprafeelor de decizie finale sunt controlate de plasarea funciilor

discriminant generate de neuronii poziionai pe stratul ascuns (care, la rndul

x1

x2

x1

x2

x1

x2Ieirea y Ieirea x3 Ieirea x4

valoare +1

valoare -1

valoare +1

valoare -1

x3, x4 = +1

x3, x4 = -1

x3, = -1 x4 = +1

x3, = +1 x4 = -1

y = 2

y = -2 y = 0

y = 0

(c) (b)(a)

138

lor, sunt controlate de valorile variabilelor w1, w2, w3, w4, b1 i b2 din ecuaia (11.85)). Trebuie observat, de asemenea, ca valoarea bias-ului b3 este adugata la rezultatul aferent stratului ascuns. Valoarea lui va dicta daca valoarile de vrf a lui y sunt pozitive (zonele spaiale pentru care y = 2) sau, daca vrful i ambele platouri (y = 0, conform Figura 11.18(c)) sunt pozitive, sau, dac toate sunt pozitive sau daca toate sunt negative. Oricum, rolul bias-ului pentru stratul de ieire este unul substanial diferit de ceea ce se nelege ca fiind un simplu control asupra ieirii y cum este rolul bias-ul la nivelul stratului ascuns. n cazul stratului de ieire Bias-ul relev detalii diferite despre compunerea funciilor, schimbnd efectiv asocierea tuturor valorilor partiiei create de stratul ascuns. Ponderile de ieire w5 si w6 asigura flexibilitatea (se pot da ponderi diferite ieirii fiecrui neuron din stratul ascuns) i, mai mult, modific modul n care se mixeaz ieirile neuronilor de pe stratul ascuns.

Figura 11.19. Obinirea diferitelor zone decizionale pentru diferite valori ale parametrului b3 pentru exemplul prezentat n Figura 11.18 innd cont i de funcia de activare a neuronului de ieire: (a) b3 = -1, (b) b3 = 1 i

(c) b3 = 3 Problem: Implementai n mediul de dezvoltare neuronal

NeuroSolutions o reea neuronal artificial similar cu cea din Figura 11.17 i determinai ponderile acesteia pentru a obine zone decizionale similare cu cele din Figura 11.19.

Combinarea tuturor valorilor parametrilor relaiei (11.85) poate genera suprafee de decizie complexe, genernd o mult mai mare flexibilitate a reelei neuronale cu un singur strat ascuns comparativ cu cea a perceptronului. Este foarte important de observat faptul c adugnd un nou strat la reeaua neuronal de tip perceptron se modific n mod calitativ forma funciei globale discriminant obinut. Regiunile de decizie nu mai sunt restricionate s fie convexe, ntruct reeaua are un mecanism mult mai puternic de compunere.

x1

Ieirea y y = 1

(a) x1

Ieirea y y = 1

(b) x1

Ieirea y

y = 1

(c)

x2 x2 x2

y = -1 y = -1

139

Ex.12. (i XOR) n cazul RNA cu un strat ascuns se pot reine urmtoarele caracteristici

mai importante:

numrul maxim de regiuni distincte ale spaiului de intrare este controlat de numrul de neuroni situai pe stratul ascuns (2K pentru un K mult mai mare dect d ). O afirmaie alternativa ar fi aceea ca fiecare neuron situat pe stratul ascuns creeaz o funcie discriminant liniara;

neuronii din stratul de ieire au capacitatea de a combina o parte din regiunile create de elementele de procesare neuronale situate pe stratul ascuns printr-un efect multiplicativ sau aditiv. Acest aspect creeaz regiuni de decizie care nu mai sunt convexe;

n al treilea rnd, exist mai multe combinaii de ponderi care conduc la obinerea aceeai divizri a spaiului de intrare.

n concluzie, clasificarea obinut folosind o reea de tipul MLP este una realizabil prin controlul adecvat exercitat asupra poziiei funciilor discriminant, corespunztor datelor de intrare i rspunsului dorit. Puterea unei reele de tipul MLP-ul este dat de modul mult mai flexibil n care se pot combina spaial suprafeele de decizie, generate de o anumit topologie a RNA. n plus, exist i algoritmi de nvare care permit sistemului s descopere n mod automat poziia funciilor discriminant necesare clasificrii corecte a datelor de antrenare.

Figura 11.20. (a) Reprezentarea grafic a porii, (b) tabelul de adevr i (c) distribuia caselor pentru o distribuie a elementelor n spaiul trsturilor similar cu acea furnizat de o poart sau exlusiv

Problem: Pentru o problem de clasificare caracterizat de o distribuie

x1 x2 Out

x1 x2 Out-1 -1 -1 - -1 1 1 - 1 -1 1 - 1 1 -1 - (a) (b)

x1

x2

(-1,-1) (1,-1)

(1,1) (-1,1)

(c)

140

a claselor similar cu cea a unei pori XOR (Figura 11.20), determinai: (a) Tipul neliniaritii ce trebuie utilizat pentru toi neuronii

reelei n vederea obinerii unei clasificri conforme cu tabelul de adevr prezentat n Figura 11.20(b).

(b) Topologia minimal a reelei neuronale artificiale capabil s realizeze o partiionare a spaiului de intrare astfel nct s fie respectat tabelul de funcionare din Figura 11.20(b). Justificai-v rspunsul!

(c) Ponderile i deplasarea (bias-ul) fiecrui neuron n parte astfel nct s se maximizeze marginea suprafeelor de decizie.

Rezolvare: (a) Pentru obinerea unui rspuns egal cu unitatea pentru anumite

elemente ale setului de antrenare i un rspuns egal cu -1 pentru restul vectorilor de trsturi se va folosi o neliniariate de tip signum asociat neuronului de ieire. Se poate folosi i o neliniaritate de tip tangent hiperbolic dar pentru ca regiuea de tranziie dintre valorile -1 i +1 a neliniartii s nu se fac simit, ponderile neuronului corespondent trebuie s fie de valori ct mai mari. Pentru a se folosi simultan i ntreaga gam dinamic a neuronilor, forat de setul de date de intrare (care ia numai valorile {-1, 1}) se va folosi acelai tip de liniaritate i pentru toi neuronii din stratul ascuns a reelei. Neliniaritatea de tip tangent hiperboloic este descris de ecuaia:

)tanh()( xxfactiv (11.86) n continuare pentru toate reprezentrile grafice ce vor fi

prezentate n continuare valoarea parametrului a fost aleas egal cu unitatea.

(b) Pentru rezolvarea acestei probleme de clasificare vom utiliza o reea neuronal cu un singur strat ascuns. Pe primul strat ascuns vor exista doi neuroni care vor partiiona spaul n conformitate cu Figura 11.21.

Primii doi neuroni de pe stratul ascuns vor realiza dou suprafee de decizii, notate cu S1 i S2 n figura de mai jos. Stratul de ieire va avea un singur neuron care va cupla zonele determinate de cele dou suprafee de decizii, S1 i S2, astfel nct pentru zona haurat sistemul neuronal va ntoarce valoarea 1, iar pentru restul spaiului de trsturi sistemul va genera valoarea -1.

141

(c) Pentru maximizarea marginii suprafeelor de decizie acestea vor fi plaste n conformitate cu poziia suprafeelor prezentate n Figura 11.21. Astfel, intersecia cu axa x2 a suprafeei S1 va fi n punctul -1, iar a suprafeei S2 n punctul 1, iar panta ambelor segmente va fi -1. n acest mod distanele de la vectorii suport la suprafeele de decizie vor fi egale i de valori maxime.

n plus, vom alege pentru fiecare zon a planului divizat de suprafeele de decizie (S1 sau S2) un anumit semn caracteristic pe care neuronul liniar (valoarea obinut nainte trecerii acesteia prin funcia de activare) l va asocia acestor zone. S1: Panta acestui segment este egal cu -1, deci:

12

11

S

S

wwm ,

12

111S

S

ww (11.87)

pentru realizarea egalitii de mai sus alegem w1S1 = - 10 (se putea alege orice alt valoare). Imediat rezult c w2S1 = - 10.

Figura 11.21. Spaiul trstrilor i plasarea suprafeelor de decizie a primului strat pentru problema XOR-ului

n plus, deoarece s-a ales ca intersecia cu axa x2 a

segmentului S1 s fie n punctul -1, avem relaia 12

11S

Swb ,

din aceast relaie rezult c bS1 = -10. Funcia discriminant a primului neuron este dat de relaia:

101010),( 2121 xxxxg (11.88) Ultima etap rmas n determinarea ponderilor primului

neuron de pe stratul ascuns este de a verifica semnul asociat zonelor obinute n urma folosirii funciei discriminant tocmai

x1

x2

(-1,-1) (1,-1)

(1,1) (-1,1)

S1 S2

+

+

-

-(0,-1)

(0,1)

2

00

142

determinate. Pentru acest test se alege punctul de origine a sistemului de coordonate:

1010010010)0,0( g (11.89) Rezultatul obinut demonstreaz o asociere greit a

semnului pentru cele dou zone ale spaiului de intrare obinute n urma utilizrii acestei funcii discriminant. Pentru rezolvarea acestei probleme se schimb semnul bias-ului pstrndu-se toate celelalte constrngeri (panta segmentului i intersecia cu axa x2). Rezultatul final este:

w1S1 = 10, w2S1 = 10 i bS1 = 10. S2: n vederea determinrii parametrilor pentru cel de al doilea neuron, de pe stratul ascuns, paii care trebuie urmai sunt similari. Astfel, n final se obin urmtoarele valori:

w1S2 = -10, w2S2 = -10 i bS2 = 10. O: Prin cuplarea direct a ieirilor neuronilor din stratul ascuns (sumarea direct a ieirilor) se obine o distribuie a valorilor de ieire funcie de o anumit zon a spaiului conform cu cea din Figura 11.21 valorile ncercuite din cele trei zone. Deoarece se dorete obinerea unei valori unitare n zona haurat i -1 n restul spaiului, dup trecerea ieirii ultimului neuron prin neliniritate, trebuie s avem valori pozitive n zona haurat i valori negative n restul spaiului. Dar, aceste valori ce se vor obine trebuie s fie ct mai mari posibile pentru saturarea neliniritii de ieire i obinerea unor valori ct mai apropiate de -1 i 1 a ieirii reelei neuronale artificiale. Din aceste motive se aleg pentru vectorii de pondere valorile: w1o = 10 i w2o = 10. Utiliznd aceste valori vom obine pentru zona haurat valoarea 20 i 0 n rest. Utiliznd un bias egal cu bo = -10 rezult c n zona haurat se va obine o valoare egal cu +10 iar n restul spaiului de trsturi reeaua neuronal artificial va genera o valoare egal cu -10. Prin trecerea acestor valori prin neliniaritatea de ieire se va obine o partajare corect a setului de date conform cerinelor impuse n tabelul din Figura 11.20(b). Partiionrile spaiului de trsturi obinute la ieirea reelei neuronale i la ieirile celor 2 neuroni de pe stratul ascuns prin utilizarea ponderilor determinate anterior sunt prezentate n Figura 11.22 n aceste figuri prin culoarea alb se

143

simbolizeaz o valoare egal cu unu, iar prin culoarea negru o valoare egal cu -1.

Figura 11.22. Topologia reelei neuronale utilizat n clasificare i suprafeele de decizie realizate

O reprezentare grafic tridimensional a suprafeei de decizie

globale a sistemului este prezentat n Figura 11.23.

Figura 11.23. Suprafaa de decizie a reelei neurale artificiale

w1S1

w2S1 w1S2

w2S2

w1o

w2o Out

(-1,1)

(-1,-1)

(1,1)

(1,-1)

(-1,1)

(-1,-1)

(1,1)

(1,-1)

(-1,1) (1,1)

(-1,-1) (1,-1)

-1.5 -1 -0.5 0 0.5 1 1.5 -1.5

-1

-0.5

0

0.5

1

1.5

-1

0

1

x1

x2

Out

x1

x2

144

11.5.3. Antrenarea reelelor neuronale cu un strat ascuns Att perceptronul ct i reeaua neuronal cu un singur strat ascuns sunt

antrenate cu algoritmi de adaptare a ponderilor care necesit existena unui dorit pe care reeaua trebuie s-l realizeze n urma procesului de adaptare.

Algoritmul de antrenare a reelelor neuronale multistrat este cunoscut sub numele de algoritmul de retropropagare a erorii (backpropagation) sau regula delta generalizat. Acest algoritm se bazeaz pe ideea de propagare invers a erorii ncepnd cu stratul de ieire i continund pn la stratul de intrare. Algoritmul are dou etape: De propagare nante a informaiei RNA primete vectorul de intrare i

propag aceast informaie, din strat n strat, pn se obine ieirea, i; De propagare invers a erorii funcie de doritul RNA este obinut

eroare de clasificare, care se propag invers (de la stratul de ieire ctre cel de intrare) ajustnd la fiecare propagare ponderile reelei.

Acest algoritm va fi prezentat n ntregime n cadrul urmtorului capitol pentru cazul unei RNA cu dou straturi ascunse. Deoarece RNA cu dou straturi ascunse este o generalizare a RNA cu un singur strat ascuns ecuaiile necesare n cadrul acestui subcapitol pot fi deduse din prezentarea acestora pentru o RNA cu dou straturi ascunse.

Ex.13. Ex.14. Ex.15.

11.5.4. Efectul numrului de neuroni de pe stratul ascuns Una din problemele centrale ce trebuie analizat n cadrul reelelor

neuronale artificiale este dat de selectarea corecta a numrului de neuroni din stratul ascuns. Exist dou cazuri extreme:

reeaua are prea muli neuroni poziionai pe stratul ascuns, comparativ cu gradul de complexitate al problemei pe care aceasta ncearc s o rezolve;

reeaua are prea puine elemente de procesare (neuroni) existente pe stratul ascuns.

nelegerea fiecrui caz n parte este important, deoarece alegerea corect a numrului de elemente de procesare este o sarcin dificil.

Dezavantajele utilizrii unui numr superior de neuroni fa de cel optim sunt urmtoarele:

creterea timpului de antrenare necesar fiecrei epoci n parte;

145

neuronii redundani au un efect negativ asupra performanelor n setul de test5 al reelei neuronale deoarece reeaua neuronal MLP-ul poate ncepe s memoreze setul de date de antrenare. De aici va rezulta o capacitate de generalizare redus a reelei neuronale. n procesul de adaptare se dorete ca structura adaptiv (MLP-ul) s descopere i s nvee mecanismul intern ce guverneaz setului de date i nu s memoreze corespondena dintre intrrile reelei i doritul acesteia;

crearea unor regiuni artificiale suplimentare n spaiul de intrare care nu conin eantioane aparinnd setului de antrenare i care nu afecteaz cu nimic performanele obinute n acest set de date, deoarece acolo nu sunt eantioane specifice, dar care pot afecta n mod negativ performanele care vor fi obinute n setul de test.

Ex.16.

n cealalt situaie aflat n studiu, cnd reeaua nu are ndeajuni neuroni pe stratul ascuns, apar probleme de o alt natur. O situaie similar a fost observat cnd am ncercat s rezolvm problema XOR-ului cu un perceptron (zero neuroni pe stratul ascuns). n aceast situaie, sistemul nu tie dac problema este rezolvabil sau nu i va ncerca s fac tot posibilul pentru a minimiza eroarea, ncercnd s clasifice cea mai mare parte din eantioane n mod corect.

Ex.17.

n general algoritmul de nvare ncearc s gseasc mai nti o plasare

corect a suprafeelor discriminant pentru a clasifica corect cea mai mare parte din eantioane, urmnd apoi un proces de modificare lent a funciilor discriminant pentru minimizarea funciei de cost. Dac sistemul nu va avea ndeajuns de multe grade de libertate eroarea se va stabiliza la o valoare mare, deoarece sistemul nu poate s rezolve problema.

Cte o dat, sistemul neuronal artificial poate oscila. Oscilaiile pot s apar cnd:

rata de nvare este prea mare, sau n situaia existenei unor schimbri brute a valorilor

vectorilor pondere ntre dou soluii suboptimale.

5 setul de date de test un set de date pe care reeaua neuronal nu l-a utilizat n procesul antrenrii i pe care se testeaz performanele ei

146

11.6. Reeaua neuronal cu dou straturi ascunse 11.6.1. Funciile discriminant

O reea neuronal cu dou straturi ascunse are trei nivele de compoziie: y = f( f( f( () ) ) ) (11.90)

Din nou dorim s gsim regiunile de decizie create de aceast reea neuronal artificial cu dou straturi ascunse. O modalitate de abordare este s gsim suprafeele de decizie create de reele neuronal cu un singur strat ascuns iar apoi s compunem ieirile lor. Desigur c acesta reea neuronal cu dou straturi ascunse este mai complex dar este foarte important s nelegem capacitile de care dispunem atunci cnd lucrm cu o astfel de structur neuronal.

Din subcapitolul precedent tim c o reea neuronal cu un singur strat ascuns poate s creeze regiuni locale n spaiul de intrare. Prin folosirea unui alt strat neuronal se vor combina aceste regiuni disjuncte din spaiul de intrare. Aceast proprietate a unei reele neuronale cu dou straturi ascunse este un rezultat foarte important, deoarece n teoria aproximrilor de funcii s-au demonstrat teoreme care arat c un combinator liniar de regiuni ale spaiului de intrare poate s aproximeze n mod rezonabil (cu o anumit eroare) orice tip de funcie. n concluzie putem afirma c o reea neuronal cu dou straturi ascunse este de asemenea un aproximator universal, deci poate s realizeze orice tip de mapare intrare-ieire.

Aceste teoreme sunt numai nite teoreme care demonstreaz existena reelei cu proprietatea menionat anterior, dar din pcate nu ne prezint nici o modalitate de alegere a numrului de neuroni sau strasuri ascunse pentru a rezolva o anumit problem. Cu toate acestea teorema anterioar este foarte important pentru c ne furnizeaz certitudinea c o reea neuronal de tip MLP cu dou straturi ascunse este un aproximator universal. Deci, cu certitudine o reea neuronal (cu unul sau cu dou straturi ascunse) ne va rezolva problema.

n principal trebuie s asociem numrul de neuroni din primul strat ascuns cu numrul total de funcii discriminant n spaiul de intrare. n general avem nevoie de maximum 2d (d dimensiunea spaiului de intrare) neuroni ascuni n primul strat i un neuron n cel de al doilea strat pentru a forma o regiune mrginit n spaiul de intrare.

Numrul de neuroni n cel de al doilea strat ascuns determin numrul de astfel de regiuni mrginite n spaiul de intrare care sunt necesare pentru aproximare.

147

Stratul de ieire combin aceste regiuni pentru a produce maparea intre-ieire dorit. Toat aceast prezentare relev faptul c o reea neuronal cu dou straturi ascunse poate aproxima virtual orice mapare intrare-ieire.

(a) (b) Figura 11.24. (a) Un posibil exemplu de mapare intrare ieire, (b) topologia reelei pentru a obine aceast mapare, MLP (2-13-4-1)

Ex.18.

Dac cumva avem informaii apriori despre distribuia datelor din spaiul de intrare putem s alegem topologia optim a reelei chiar de la nceput. De

exemplu, dac tim c n spaiul de intrare datele sunt repartizate conform distribuiei din Figura 11.24(a), atunci topologia reelei va fi cea din aceiai figur partea (b). Deci vom avea o reea neuronal de tip MLP (2-13-4-1).

Ex.19. Ex.20. Problem: Pentru o distribuie a trei clase conform cu Figura 11.26 ( reprezint elementele, vectorii de trsturi, aparinnd primei clase, reprezint elemente aparin celei de a doua clase, n timp ce reprezint elementele ultimei clase) se cere:

x1

x2

1

2

3

4

5

1 2 3 4 0

-1

-2

-3

-4

-5

-1 -2 -3 -4

Figura 11.26. Distribuia elementelor n spaiul de trsturi x

148

Figura 11.28. (a) Identificarea zonele obinute, (b) Topologia reelei neuronale

n4 (S4)

x1

x2

n1 (S1)

n2(S2)

n3 (S3)

n5

n6 (Z1)

n7 (Z2)

n8 (Z3)

Clasa

Clasa

Clasa n9

(a). Precizai tipul reelei neuronale i topologia (numrul de straturi ascunse i numrul de neuroni de pe fiecare strat) minimal pe care dumneavoastr ai alege-o pentru realizarea unei partiionri corecte a setului de date. Justificai-v rspunsul (de exemplu: de ce atia neuroni pe stratul i; de ce attea ieiri are reeaua; de ce ieirea neuronului n de pe stratul m se conecteaz numai cu primii k neuroni de pe urmtorul strat; am folosit o neliniaritate de tipul .... pentru c ...; neuronul j corespunde suprafeei de decizie S1; etc.). Rspundei la aceast ntrebare innd cont i de cerina de la subpunctul (b) al acestei problemei.

(b). Desenai poziia exact a suprafeelor de decizie astfel nct acestea s maximizeze marginea de decizie a reelei.

(c). Indicai pentru fiecare suprafa de decizie vectorii suport asociai (acele puncte care se gsesc la frontiera setului de date i fa de care se determin marginea de decizie).

(d). Determinai pentru fiecare suprafa de decizie marginea de decizie. (e). Determinai ponderile i bias-ul pentru fiecare neuron n parte ce aparine

acestei reele minimale ce genereaz suprafee de decizie ce maximizeaz marginile de decizie i care sunt capabil s clasifice n mod corect toate elementele distribuiilor din Figura 11.26.

(f). Implementai n NeuroSolutions soluia determinat analitic n cadrul punctului precedent i verificai corectitudinea ei.

Rezolvare:

(a) Pentru rezolvarea acestei probleme teoretic exist mai multe soluii. Una dintre aceste soluii este prezentat n Figura 11.27.

x1

x2

1

2

3

4

5

1 2 3 4 0

-1

-2

-3

-4

-5

-1 -2 -3 -4

Figura 11.27. Distribuia elementelor n spaiul de trsturi x

S1

S2 S3

S4

S1

S2 S3

S4

Z1 Z2

Z3

(a)

(b)

149

n4 (S4)

x1

x2

n1 (S1)

n2 (S2)

n3 (S3)

n5 (T1) n7

n6 (T2)

n8

Clasa

Clasa

Clasa n9

Prin atribuirea corespunztoare a ponderilor i a bias-ului fiecrui neuron din primul strat ascuns al reelei neuronale (neuronii n1, n2, n3 i n4 din Figura 11.28(b)) se obine o plasare a suprafeelor de decizie conform cu Figura 11.27. Aceste suprafee de decizie determin o partiionare a spaiului conform cu cea din Figura 11.28(a), obinndu-se astfel o delimitare a spaiului de intrare n diferite zone de interes.

Topologia reelei neuronale care plecnd de la aceast partiionare a spaiului este capabil s clasif

Capitol 11 - RNA

Documents

Transcript of Capitol 11 - RNA