RN - Arh&alg

8/21/2019 RN - Arh&alg

1/232

Colecia PRELUCRAREA SEMNALELOR

REELE NEURONALE

Arhitecturi i algoritmi

8/21/2019 RN - Arh&alg

2/232

Referent tiinific:Prof.dr.ing. tefan HOLBAN

Descrierea CIP a Bibliotecii Naionale

ISBN 973-9389-66-X

8/21/2019 RN - Arh&alg

3/232

Prof.dr.ing. Virgil Tiponu ef lucr.dr.ing. Ctlin-Daniel Cleanu

REELE NEURONALE

Arhitecturi i algoritmi

Colecia PRELUCRAREA SEMNALELOR

EDITURA POLITEHNICA

TIMIOARA 2002

8/21/2019 RN - Arh&alg

4/232

Copyright @ Editura Politehnica, 2002

Toate drepturile sunt rezervate editurii. Nici o parte din aceast lucrare nupoate fi reprodus, stocatsau transmisprin indiferent ce form, fracordulprealabil scris al Editurii Politehnica.

EDITURA POLITEHNICABv. Republicii nr.9

1900 Timioara, Romnia

Consilier editorial: Conf.dr.ing. Eugen CICAL

8/21/2019 RN - Arh&alg

5/232

Prefa

Reelele neuronale artificiale (RNA) sunt recunoscute ca modele dominante

(paradigme) ale Inteligenei Artificiale (IA). Cu ajutorul lor i gsesc rezolvarea o

varietate largde probleme din mediile tiinifice i inginereti.

Cartea se adreseaz studenilor de la facultile de Electronic i

Telecomunicaii, Automatic i Calculatoare, Informatic dar i tuturor acelora careurmresc rezolvarea unor probleme complexe din varii domenii prin intermediul

metodelor conexioniste. Trebuie subliniatn acest context intenia autorilor de a oferi

o perspectiv inginereasc asupra domeniului reelelor neuronale artificiale,

accentundu-se cu precdere aspectele aplicative. Din acest motiv latura matematic

este redus la mimimul necesar coerenei lucrrii, rezultnd astfel i o accesibilitate

mai mare a discursului.

Prezenta lucrare trateaz aspecte legate de arhitectura i funcionarea

neuronului artificial i a principalelor tipuri de reele neuronale:- RNA de tip perceptron;

- RNA bazate pe funcii radiale;

- RNA recurente;

- RNA cu auto-organizare.

Totodat se prezint i modaliti hibride de implementare a RNA n

conjuncie cu alte paradigme ale IA cum ar fi:

- Logica fuzzy;

- Algoritmii genetici;- nvarea prin ntrire.

n finalul lucrrii este abordatproblematica implementrii RNA iar n ultimul

capitol sunt prezentate cteva aplicaii ale reelelor neuronale. De menionat ilustrarea

anumitor aspecte reprezentative din cadrul acestei cri prin exemple dezvoltate cu

8/21/2019 RN - Arh&alg

6/232

ajutorul mediului MATLAB v.6, ultima versiune existent la data redactrii

prezentului material.

Pentru aprofundarea aspectelor practice privind implementarea RNA este

recomandat utilizarea, n paralel cu acest material, a crii Reele neuronale.

Aplicaii aprutn Ed. POLITEHNICA i elaboratde aceeai autori.

Lucrarea a fost realizat, pe baza unei documentri efectuate la University of

STRATHCLYDE, Glasgow, Marea Britanie, n cadrul programului TEMPUS AC-JEP

13438-98 iar autorii in s mulumeasc pe aceast cale coordonatorilor acestui

program. Totodatexprimm mulumiri recenzorului pentru sugestiile utile exprimatedup parcurgerea acestui material precum i cadrelor didactice de la University of

Strathclyde, Glasgow, pentru numeroasele discuii care au contribuit la finalizarea

acestei cri.

Contribuia autorilor la realizarea acestei cri este urmtoarea:

- Prof.dr.ing. V. Tiponu: Capitolele 1, 3, 8 i coordonarea ntregii lucrri;

- .l.dr.ing. C.D. Cleanu: Capitolele 2, 4, 5, 6, i 7.

Autorii

8/21/2019 RN - Arh&alg

7/232

Cuprins

CAP.1 Introducere..pag.11

1.1 Reele neuronale artificiale definiie, proprieti...pag.11

1.2 Neuronul biologic.pag.12

1.3 Neuronul artificial....pag.15

1.4 Arhitecturi ale RNA.pag.181.5 Tipuri i algoritmi de instruire.pag.21

CAP.2 Reele neuronale de tip perceptron.pag.29

2.1 Introducere...pag.29

2.2 RNA de tip perceptron cu un singur neuronpag.29

2.2.1 Perceptronul simplu.pag.30

2.2.2 RNA Adaline. Algoritmul LMS..pag.32

2.2.3 Deducerea regulilor de modificare a ponderilor pentru cazul

perceptronului simplupag.34

2.2.4 Consideraii asupra valorii ratei de nvare (instruire)pag.35

2.2.5 Capacitatea perceptronului simplu...pag.36

2.3 RNA de tip perceptron cu mai multe straturi...pag.37

2.3.1 Algoritmul de antrenament..pag.37

2.3.2 Algoritmi rapizi de antrenament pentru RNA cu propagare

nainte a semnalului..pag.45

2.3.2.1 Metoda lui Newton...pag.45

2.3.2.2 Metoda LevenbergMarquardt.pag.46

2.3.2.3 Metode de tip cvasiNewton....pag.47

2.3.2.4 Metode bazate pe gradientul conjugat..pag.48

CAP.3 Reele neuronale bazate pe funcii radiale..pag.51


8/21/2019 RN - Arh&alg

8/232

3.2 Problema interpolriipag.53 3.3 Strategii de nvare pentru RNA bazate pe funcii radiale..pag.55

CAP.4 Reele neuronale recurente..pag.59


4.2 RNA de tip Hopfield (RNA-H)pag.59

CAP.5 Reele neuronale cu autoorganizare...pag.63


5.2. Reele neuronale cu autoorganizare i algoritm de nvare de tip hebbianpag.63

5.2.1 Reele neuronale cu un singur neuron liniar.pag.65

5.2.2 Analiza componentelor principale. Reducerea dimensionalitii.pag.66

5.2.3 Analiza componentelor principale prin reele neuronale cu

autoorganizare..pag.69

5.2.3.1 Algoritmul hebbian generalizatpag.70

5.2.3.2 Algoritmul APEX.pag.72

5.2.3.3 Analiza neliniara componentelor principale..pag.74

5.3 Reele neuronale cu autoorganizare i nvare de tip competitivpag.76

5.3.1 Reele neuronale cu autoorganizare i nvare

competitivsimpl...pag.77

5.3.2 Reele neuronale cu autoorganizare tip hartde trsturi....pag.83

5.3.3 Algoritmi SOFM mbuntii..pag.87

5.3.4. Cuantizarea vectorial(VQ, Vector Quantization).

nvarea prin cuantizare vectorial(LVQ, Learning VQ)....pag.96

CAP.6 Sisteme hibride inteligente.pag.101

6.1 Introducere.pag.1016.2 Algoritmi genetici. Strategii de evoluie. Programare evolutivpag.104

6.2.1 Introducere.pag.104

6.2.2 Proiectarea unui algoritm evolutiv.pag.106

6.3 Sisteme hibride neuro-genetice..pag.112

6.4. Sisteme cu logicfuzzy.pag.115

8/21/2019 RN - Arh&alg

9/232

6.5 Sisteme hibride neuro-fuzzy...pag.120

6.6 nvarea prin ntrire.....pag.136

6.6.1. Preliminarii....pag.136

6.6.2. Compromisul dintre fazele de explorare i exploatare..pag.138

6.6.3. Modelul nvrii prin ntrire...pag.139

6.6.4. Modele pentru evaluarea comportamentului.pag.141

6.6.5. Algoritmi specifici nvrii prin ntrire..pag.142

6.6.5.1. Metode bazate pe valoarea aciunilorpag.142

6.6.5.2. Metode bazate pe programarea dinamic..pag.1446.6.5.3. Metode de tip Monte Carlo...pag.145

6.6.5.4. Diferena temporal...pag.147

6.6.6. Aplicaii ale reelelor neuronale artificale bazate pe

nvarea prin ntrire...pag.153

CAP.7 Implementarea reelelor neuronale..pag.157

7.1 Introducere.pag.157

7.2. Implementarea software (printr-un limbaj de programare)..pag.157

7.3. Implementarea hardware...pag.159

7.3.1. Implementarea analogic...pag.159

7.3.2 Implementarea digital...pag.167

7.3.2.1 Procesoare paralele de uz general..pag.167

7.3.2.2 Procesoare dedicate pentru calcul neuronal...pag.167

7.3.2.3 Circuite digitale VLSI dedicate RNApag.168

7.3.3 Implementri hibride..pag.171

7.3.4 Implementarea optic.pag.176

CAP.8 Aplicaii ale reelelor neuronale..pag.179

8.1 Introducere.....pag.179

8.2 Problema XOR...pag.180

8.3 Problema paritii...pag.181

8.4. Problema codrii...pag.181

8.5 Sinteza vorbirii...pag.182

8/21/2019 RN - Arh&alg

10/232

8.6 Recunoaterea automata vorbirii.pag.184

8.7 Detecia i recunoaterea facial....pag.186

8.7.1 Arhitectura i implementarea unui sistem de detecie i recunoatere

automata feei..pag.186

8.7.2 Rezultate experimentale.pag.190

8.7.2.1 Influena folosirii tehnicii de extragere a trsturilor

de tip operator de interes asupra procesului de recunoatere

facial.pag.192

8.7.2.2 Influena rezoluiei imaginii faciale i a dimensiunilor ferestreide extragere a trsturilor asupra performanelor procesului de

recunoatere facial....pag.194

8.7.2.3 Influena folosirii unor arhitecturi paralele i ierarhice de

RNA-MLP asupra procesului de recunoatere facial...pag.196

8.7.3 Comparaie cu alte sisteme de recunoatere facial...pag.196

8.7.4 Implementarea MATLAB a sistemului de detecie i recunoatere

facialbazat pe reele neuronalepag.199

ANEXA 1pag.203 ANEXA 2pag.209

ANEXA 3pag.213

ANEXA 4pag.217

Bibliografiepag.223

8/21/2019 RN - Arh&alg

11/232

CAPITOLUL 1Introducere

1.1Reele neuronale artificiale definiie, proprieti

Reelele neuronale artificiale (RNA), denumite uneori procesoare paralel

distribuite, neurocomputere sau modele conexioniste, reprezint o ncercare de asimula, cel puin parial , structura i funciile creierului specifice organismelor vii.

Ca o definiie general, se poate spune c RNA reprezint un sistem de

procesare al semnalelor, compus dintr-un numr mare de procesoare elementare

interconectate, denumite neuroni artificiali sau noduri, i care coopereaz pentru

rezolvarea unor sarcini specifice. Modalitatea de adaptare la condiiile specifice

mediului const n modificarea ponderilor asociate conexiunilor dintre neuroni i

eventual a structurii RNA.

Astfel de modele conexioniste ofer anumite avantaje, caracteristice

sistemelor neuronale reale (biologice) i care nu sunt ntlnite n cazul sistemelor de

calcul tradiionale, secveniale [1]:

O proprietate deosebit de importanta RNA este aceea de a nvai de a se

adapta;

Posibilitatea de a opera cu date imprecise;

Capacitatea de generalizare, n sensul n care RNA va opera corect i cu

date de intrare care nu au fost prezentate n timpul procesului de antrenament;

Datorit gradului ridicat de paralelism , funcionarea defectuoas sau chiar

pierderea unui numr de neuroni nu afecteaz semnificativ performana

sistemului global. RNA reprezintdeci sisteme tolerante la erori;

Capacitatea de a aproxima orice funcie continu neliniar cu gradul de

acuratee dorit. Astfel RNA pot fi folosite cu succes n modelarea sistemelor

neliniare;

8/21/2019 RN - Arh&alg

12/232

- 12 - CAP.1 Introducere

Datorit numrului mare de intrri i ieiri, RNA modeleaz cu uurin

sisteme multivariabil;

Implementrile hardware ale RNA, de exemplu prin intermediul circuitelor

integrate pe scar larg (VLSI), fac posibil utilizarea RNA pentru cazul

aplicaiilor n timp real.

1.2 Neuronul biologic

Creierul uman const dintr-o reea de 1010...1011 neuroni puternic

interconectai. n fig.1.2.1 este prezentat structura [2] unei celule nervoase. Se pot

distinge urmtoarele pri constituente [3]:

Soma sau corpul celulei reprezint partea central a celulei care realizeaz

majoritatea funciilor logice ale neuronului. Corpul celulei conine

mecanismul genetic i metabolic necesar meninerii activitii neuronului.

Axonul (ieirea celulei) reprezint o prelungire a corpului celulei

(citoplasm), unici n general nearborizat. Funcia axonilor este aceea de a

conduce influxul nervos de la corpul celular la dendritele sau corpul celular al

altui neuron sau la o celulefectoare.

Dendritele(intrrile neuronului) sunt prelungiri ale citoplasmei relativ scurte,

groase i bogat ramificate. Funcia lor este aceea de a recepiona excitaii i de

a le conduce pnla corpul neuronului . n funcie de tipul neuronului el poate

avea pnla 104dendrite.

8/21/2019 RN - Arh&alg

13/232

1.2 Neuronul biologic - 13 -

AXON

TEACDE MIELIN

RETICUL ENDOPLSMATIC

MITOCONDRIE

NUCLEU

SINAPSE

Fig.1.2.1 Structura celulei nervoase (neuron) ncorporeazmaterialul genetic i un aparat metaboliccomplex.

Contactul dintre neuroni se realizeazprin intermediul sinapselor. Sinapsele

dintre doi neuroni se realizeaz n trei feluri: ntre butonii terminali ai

axonului unui neuron i dendritele altui neuron (sinapse axo-dendritice); ntre

butonii terminali ai axonului unui neuron i corpul altui neuron (sinapse axo-

somatice); ntre butonii terminali ai axonului unui neuron poriunea incipient

a axonului altui neuron (sinapse axo-axonale). Din punct de vederefuncional, sinapsele sunt de dou feluri: excitatorii i inhibitorii. Stocarea

informaiei n neuroni se presupune c este efectuat prin intermediul

conexiunilor sinaptice, mai precis prin tiparele pe care le formeazacestea i

prin ponderea pe care o are fiecare legturn parte.

8/21/2019 RN - Arh&alg

14/232


Conform acestui model simplificat al neuronului, corpul celulei primete

semnale de la ali neuroni prin intermediul conexiunilor sinaptice ajustabile. Cnd un

neuron este excitat, produce impulsuri nervoase care sunt transmise, fr atenuare,

de-a lungul axonului, spre ali neuroni. Rata impulsurilor ieirii neuronului depinde

att de intensitatea semnalelor de intrare ct i de ponderile sinaptice aferente acestora.

Se poate spune cneuronul opereazntr-o formmixt, digital-analogic. Informaia

transmisntre neuroni, sub forma inpulsurilor nervoase (poteniale de aciune), poate

fi consideratsemnal digital. Densitatea impulsurilor este cea care codeazinformaiai poate fi privit ca un semnal analogic. n fig.1.2.2 se ofer o reprezentare

schematica neuronului biologic din perspectiva teoriei prelucrrii informaiei.

Conversie neliniarn poteniale de aciune

Ieirea neuronului(poteniale deaciune)

Axon

Sinapse(memorie i demodulare)

DendriteSoma

Prag

Intrri neuronale(poteniale de

aciune)

Fig.1.2.2 Modelul simplificat al neuronului biologic considerat din punctul de vedere al teoriei

informaiei

8/21/2019 RN - Arh&alg

15/232

1.3 Neuronul artificial - 15 -

1.3 Neuronul artificial

Neuronul artificial denumit uneori procesor elementar sau, mai simplu nod,

ncearc s imite structura i funcionarea neuronului biologic. Exist numeroase

modele prezentate n literatur[4], dar cel mai rspndit are la bazmodelul elaborat

de McCulloch-Pitts n 1943. Astfel se poate considera cneuronul artificial [5] este

format dintr-un numr de intrri, fiecare dintre acestea fiind caracterizatde propria

pondere sinaptic. De exemplu, semnalul xj prezent la intrarea sinapsei j este

conectat la neuronul k prin multiplicare cu ponderea wkj(fig.1.3.1).

x1

xj

xN k

uk ykwkj

wkN

wk1

Fig. 1.3.1 Modelul neuronului artificial

O alt component a modelului neuronului artificial prezentat n fig.1.3.1 o

reprezintsumatorul destinat nsumrii intrrilor ponderate.

Rezultatul obinut n urma nsumrii:

= =N

j

jkjk xwu1

(1.3.1)

este denumit intrare net.

Pentru limitarea amplitudinii semnalului de ieire al neuronului, acesta este

prevzut cu o funcie de activare )( :

)()( kkkkk buuy +== (1.3.2)

8/21/2019 RN - Arh&alg

16/232


n care k reprezintvaloarea pragului de activare(treshold) al neuronului. Uneori

intrarea neteste majoratprin termenul bkdenumit factor al deplasrii scrii (bias);

deplasarea scrii reprezintdeci negativul pragului de activare.

Valoarea:

kkk uv = (1.3.3)

poartdenumirea de potenial de activare.

n ceea ce privete tipul funciei de activare, aceasta este de regulo funcie

neliniar; n cele ce urmeazse va face o prezentare a celor mai rspndite tipuri de

funcii de activare (fig.1.3.2):

Funcia prag:

=altfel

dac vv

0

01)( (1.3.4)

Funcia prag simetricsau funcia signum:

=

altfel

dac vv

1-

01)( (1.3.5)

Funcia sigmoid:

.,1

1)( cta

ev

av =

+=

(1.3.6)

Funcia tangenthiperbolic:

v

v

e

ev

2

2

1

1)(

+

= (1.3.7)

Funciile sigmoid i tangent hiperbolic reprezint unele dintre funciile de

activare cel mai des folosite la implementarea RNA, unul dintre motive

reprezentndu-l calculul simplu al derivatelor acestora.

Funcia liniar:

vv =)( (1.3.8)

Funcia liniarcu saturaie:

8/21/2019 RN - Arh&alg

17/232

1.3 Neuronul artificial - 17 -

>

8/21/2019 RN - Arh&alg

18/232


Din punct de vedere al implementrii este practic imposibil i chiar ineficient

ca modelul artificial al neuronului s copieze exact comportamentul i

structura celui biologic.

RNA sunt proiectate pentru rezolvarea unor probleme specifice i deci

arhitectura i trsturile RNA depind de problema pe care trebuie so rezolve.

Un neuron real produce la ieire o secven de impulsuri i nu o anumit

valoare cum este cazul celui artificial. Reprezentarea ratei de activare printr-

un singur numr (yk) ignorinformaia care ar putea fi coninutde exemplu

n faza impulsurilor.

Unele celule nervoase biologice efectueaz o nsumare neliniar a intrrilor.

Pot exista chiar operaii logice (I, SAU, NU) efectuate la nivelul dendritelor.

Ieirile neuronilor nu se modific n mod sincron i nu toi au acelai tip de

ntrziere.

Cantitatea de substan transmitoare (mediator chimic) eliberat la nivelul

sinapsei poate svarieze ntr-un mod imprevizibil. Fenomenul este aproximat

grosier prin intermediul funciei de activare.

1.4 Arhitecturi ale RNA

Se pot distinge doumari categorii n modul de structurare al unei RNA:

RNA feedforward(cu propagare nainte).

Sunt caracterizate de prezena unui strat de neuroni de intrare, un numr de

straturi ascunse (posibil i fr) i un strat de neuroni de ieire.

n fig.1.4.1 este prezentat arhitectura unei RNA feedforward cu un singur

strat ascuns. Definitoriu pentru acest tip de RNA este faptul c un neuron primete

semnale doar de la neuroni aflai n stratul/straturi precedent/precedente. Se spune

8/21/2019 RN - Arh&alg

19/232

1.4 Arhitecturi ale RNA - 19 -

despre o RNA ceste total conectatdacfiecare nod din fiecare strat este conectat la

fiecare neuron din stratul precedent (fig.1.4.1).

Dac anumite conexiuni sinaptice lipsesc se spune c RNA este parial

conectat(fig.1.4.2). RNA total conectate au un caracter general, n sensul n care pot

fi folosite ntr-o gamlargde probleme, dar rezultatele nu sunt ntotdeauna cele mai

bune [7]. RNA parial conectate introduc anumite restrngeri, care reprezint tocmai

cunotine apriorice despre problema de rezolvat i care reduc gradul de generalitate al

unei RNA. Prin restrngerea cmpului de recepie al neuronilor se efectueaz oextragere a trsturilor locale iar n straturile ce urmeaz acestea sunt combinate

pentru a se forma trsturi de ordin superior. Astfel, RNA parial conectate pot da

rezultate mai bune dect RNA total conectate n rezolvarea anumitor probleme

specifice, cu condiia exploatrii cunotinelor apriorice despre problema dat.

Fig. 1.4.1 RNA feedforward total conectat

8/21/2019 RN - Arh&alg

20/232


Fig.1.4.2 RNA feedforward parial conectat

RNA recurente(feedback, cu propagare napoi).

RNA recurente se individualizeazprin existena unui semnal de reacie, din

partea neuronilor de ordin superior, pentru cei de ordin inferior sau chiar pentru

propriile lor intrri (fig.1.4.3).

Fig.1.4.3 RNA recurent

8/21/2019 RN - Arh&alg

21/232

1.5 Tipuri i algoritmi de instruire - 21 -

1.5 Tipuri i algoritmi de instruire

RNA achiziioneazcunotinele prin instruire (nvare). nvarea presupune

adaptarea parametrilor liberi ai RNA (ponderi, praguri, ratde nvare, uneori chiar

forma funciei de activare sau structura reelei) ca urmare a stimulilor mediului n care

se gsete reeaua.

Vectorii de instruire sunt prezentai RNA n mod secvenial iar ponderile

sinaptice, care memoreazpractic cunotinele reelei, sunt adaptate pentru a extrageinformaia pe care aceti vectori o conin.

Tipul de nvre este determinat de maniera n care sunt ajustai parametrii

liberi ai RNA.

Dei n literatura RNA [1], [5], [8] existo mare diversitate de opinii n ceea

ce privete modul de clasificare al algoritmilor i tipurilor de nvre, fig.1.5.1

ncearcssintetizeze principalele direcii.

TIPURI DE INSTRUIRE

SUPERVIZAT NESUPERVIZAT PRIN NTRIRE

(CU AUTOORGANIZARE)

HEBBIAN COMPETITIV

CORECIA ERORILOR BOLTZMAN (STOCHASTIC)

WIDROW-HOFF PROPAGAREA NAPOI A ERORII

(LMS sau REGULA DELTA)

Algoritmi

Fig.1.5.1 Tipuri i algoritmi de instruire

8/21/2019 RN - Arh&alg

22/232


nvarea de tip supervizat

Este caracterizat de prezena unui supervizor care cunoate cu exactitate

modul de asociere al intrrilor RNA cu ieirile acesteia, conform fig.1.5.2.

SUPERVIZOR

SISTEMSUPUS

NVRII

Rspunsactual

Vector deintrare

Semnal de eroare

Rspuns dorit

+

-

Fig.1.5.2 Arhitectura unui sistem cu nvare supervizat

Parametrii RNA sunt modificai sub influena combinata vectorilor de antrenament i

a semnalului de eroare (diferena dintre rspunsul dorit i cel actual). Scopul final al

algoritmului de antrenament este ca RNA s emuleze, optim n sens statistic,

supervizorul.

nvarea de tip nesupervizat (cu autoorganizare)

Este caracterizat de absena unui semnal sau supervizor care s aprecieze

corectitudinea asociaiilor intrare-ieire (fig.1.5.3). RNA va descoperii singur

legitile coninute n datele de intrare printr-o reprezentare intern adecvat a

trsturilor vectorului de intrare.

8/21/2019 RN - Arh&alg

23/232


SISTEMSUPUS

NVRII

Vector deintrare

Fig.1.5.3 Sistem cu nvare de tip nesupervizat

nvarea prin ntrire

Urmrete maximizarea unei mrimi scalare (indice de performan sau

semnal de ntrire) n urma unei aciuni efectuate de ctre sistemul supus nvrii.

Dacmodificrile aduse conduc spre o stare mai bundect cea precedent, tendina

sistemului de a produce acea aciune particulareste ntrit.

Algoritmi de nvare bazai pe corecia erorii

Fie x(n) vectorul de intrare aplicat unei RNA. Dac se noteaz ieirea

neuronului k prin yk(n), semnalul de eroare poate fi definit ca fiind diferena dintre

ieirea doritpentru neuronul k i ceea ce furnizeazn etapa actualde ctre acelai

neuron:

e n d n y nk k k( ) = ( ) - ( ) (1.5.1)

Scopul final al algoritmilor bazai pe corecia erorii este de a minimiza aa-numita

funcie de cost. Unul dintre criteriile frecvent utilizate n alegerea func iei de cost este

cel al erorii ptratice medii - care urmrete minimizarea valorii medii ptratice

pentru suma erorilor ptratice aferente stratului de ieire al RNA:

=

k

k neEJ )(2

1 2 (1.5.2)

n care E[.] semnificmedia n sens statistic.

8/21/2019 RN - Arh&alg

24/232


Una dintre metodele de minimizarea a funciei de cost J n raport cu parametrii

RNA este metoda gradientului descendent.

De cele mai multe ori proprietile statistice ale procesului nu sunt cunoscute.

n acest caz se ofer o soluie aproximativ pentru problema de optimizare, prin

utilizarea drept funcie de cost a valorii instantanee a sumei erorilor ptratice:

=k

k nen )(2

1)( 2 (1.5.3)

O metodn acest sens o oferWidrow i Hoff (regula delta):

)()())(()( nxnew

yne

wnw jk

jk

kk

jk

kj

=

=

= (1.5.4)

n care reprezintrata de nvre a RNA.

Graficul aplicaiei J n funcie de ponderile RNA poart denumirea de

suprafaa erorii.

Exemplul 1.1 Se urmrete reprezentarea suprafeei erorii pentru cazurile unui

element liniar (fig.1.5.3) respectiv pentru cazul unui element neliniar (1.5.4) folosind

mediul MATLAB 5.3. Codul surseste urmtorul:

%Exemplu de reprezentare a suprafetei erorii

%pentru cazurile unui neuron liniar respectiv neliniar

%Catalin-Daniel Caleanu, 2000

clear

%definire perechi de valori intrare(p, pattern)-iesire(t, target)p = [-6.0 -6.1 -4.1 -4.0 +4.0 +4.1 +6.0 +6.1];

t = [+0.0 +0.0 +.97 +.99 +.01 +.03 +1.0 +1.0];

%definire ponderi (w, weights), deplasari de scara (b, biases)

wv = -1:.1:1; bv = -2.5:.25:2.5;

8/21/2019 RN - Arh&alg

25/232


Fig.1.5.3 Suprafaa erorii pentru cazul unui neuron liniar

Fig. 1.5.4 Suprafaa erorii pentru cazul unui neuron neliniar

8/21/2019 RN - Arh&alg

26/232


%calculul si afisarea suprafetei erorii

es = errsurf(p,t,wv,bv,'purelin');

plotes(wv,bv,es,[60 30])

figure

es = errsurf(p,t,wv,bv,'logsig');

plotes(wv,bv,es,[60 30])

Se poate desprinde ideea conform creia minimizarea erorii unui neuron liniareste mai uoardect minimizarea unui neuron neliniar (sigmoidal). Doar pentru cazul

elementului liniar eroarea are un minim global; n rest suprafa a erorii poate avea

minime locale.

Algoritmi de nvare de tip Boltzmann

Sunt inspirai din teoria informaiei i din termodinamic, neuronii constituind

o structurrecurentcaracterizatde aa-numita funcie energie:

=i j

ijji sswE 2

1 (1.5.5)

unde si reprezint starea neuronului i, adic +1 (neuron activ) sau -1 (neuron

inactiv).

Maina Boltzmann opereaz prin alegerea aleatoare a unui neuron i

schimbarea strii acestuia. Astfel schimbarea ponderilor se va face innd cont de

corelaiile dintre starea neuronului i i cea a neuronului j.

Algoritmi de nvare de tip hebbian

Conform postulatului lui Hebb, modificarea ponderii sinaptice wkj este

dependentde activitatea pre- i postsinaptic:

8/21/2019 RN - Arh&alg

27/232


))(),(()( nxnyFnw jkkj = (1.5.6)

O formparticulara ec. (1.5.6) este:

)()()( nxnynw jkkj = (1.5.7)

cu o constantpozitivreprezentnd rata de nvare. Dezavantajul acestei reguli l

reprezint faptul c ea conduce la o cretere exponenial a wkj. Una din metodele

propuse ulterior presupune introducerea unui termen de uitare (forgetting factor)

[10]:)()()()()( nwnynxnynw kjkjkkj = (1.5.8)

Algoritmul de nvare de tip competitiv

Este caracterizat de competiia ntre neuronii de ieire ai RNA, ctigatorul

acesteia urmnd sfie activat. Spre deosebire de RNA care se bazeazpe algoritmi de

nvare de tip hebbian i la care existposibilitatea ca mai muli neuroni sfie activi

simultan, la RNA bazate pe algoritmi de nvare de tip competitiv doar un singur

neuron este activ la un moment dat.

Practic, fiecare neuron al unei astfel de RNA va deveni specializat, n urma

procesului de nvare, n recunoaterea unei anumite trsturiprezent n datele de

intrare. Acest lucru este posibil avnd n vedere modalitatea de adaptare a ponderilor:

=altfel

iacompetistigatcajneuronuldacwxw

jij

ji,0

t""),( (1.5.9)

Prin aceasta, ponderea wja neuronului j, ctigator al competiiei, se apropie i maimult de tiparul xprezentat la intrare.

8/21/2019 RN - Arh&alg

28/232


8/21/2019 RN - Arh&alg

29/232

CAPITOLUL 2Reele neuronale de tip perceptron

2.1 Introducere

Se urmrete n cadrul acestui capitol prezentarea unei clase deosebit de

importante de RNA de tip cu propagare nainte a semnalului (feedforward). Este vorbade RNA perceptron simplu respectiv o generalizare a acestuia, perceptronul multistrat

(RNA-MLP, Multilayer Perceptron). Printre primii autori care au fundamentat

principiile teoretice legate de perceptronul simplu/multistrat se regsesc Rosenblatt

[11], Widrow [12] i respectiv Rumelhart, Hinton,Williams [13]. Cei din urmautori

fundamenteaz i celebrul algoritm de antrenament pentru RNA-MLP i anume

algoritmul cu propagare napoi a erorii (BP, backpropagation). Toate aceste aspecte

sunt extensiv tratate de ctre S.Haykin n una dintre cele mai bune cri referitoare la

domeniul RNA [5].

Interesul deosebit fade aceste reele neuronale a fost generat, printre altele,

de capacitatea acestora de a generaliza adic de a opera cu date diferite de cele

prezentate n etapa de antrenament i de a nva plecnd de la o distribuie aleatoare a

ponderilor sinaptice ale reelei. n consecin acest tip de reele poate fi folosit cu

succes n diversele aplicaii ce conin clasificatori.

2.2 RNA de tip perceptron cu un singur neuron

Se prezintn continuare arhitectura i algoritmii de antrenament pentru cazul

RNA cu un singur neuron: perceptronul simplu i RNA ADALINE antrenat cu

algoritmul LMS. Perceptronul simplu are o aplicabilitate practic limitat datorit

valorii binare a ieirii sau datorit imposibilitii clasificrii tiparelor (vectorilor de

intrare) neliniari. El se constituie ns ca punct de plecare n studiul perceptronului

8/21/2019 RN - Arh&alg

30/232

- 30 - CAP.2 Reele neuronale de tip perceptron

multistrat.

2.2.1 Perceptronul simplu

Arhitectura unei astfel de RNA este prezentatn fig. 2.2.1.1. Se poate afirma

cperceptronul simplu reprezint o particularizare a modelului McCulloch-Pitts al

neuronului artificial pentru cazul n care funcia de activare este de tip treaptunitate

bipolar.

vx2

x1

xN

IEIRE

INTRRI

-1

w1

wN

y

e

+1

-1

d

(v)

-

Fig. 2.2.1.1 Arhitectura perceptronului simplu.

Scopul perceptronului simplu este de a clasifica n una din cele dou clase

disponibile (y = +1 sau y = -1) un set de stimuli exteriori.

Funcionarea sa pote fi descrisprin urmtoarele ecuaii:

=

=N

i

ii xwv1

(2.2.1.1)

+===

2

1

)(,1

)(,1)sgn()(

Cndac

Cndacvvy

x

x (2.2.1.2)

Regiunile de decizie vor fi separate de ctre un hiperplandefinit de relaia:

01

==

N

i

ii xw (2.2.1.3)

8/21/2019 RN - Arh&alg

31/232

2.2 RNA de tip perceptron cu un singur neuron - 31 -

Ca i particularizare pentru cazul N = 2 ecuaia (2.2.1.3) ia forma:

02211 =+ xwxw (2.2.1.4)

ceea ce reprezint ecuaia unei drepte n planul x2Ox1. n acest caz, tiparele vor fi

separate printr-o dreapt. Un exemplu de astfel de problem liniar separabil l

constituie funcia I logic iar ca i contraexemplu se poate considera funcia SAU-

EXCLUSIV (fig.2.2.1.2). Pentru cazul N = 3 ec.(2.2.1.3) descrie un plan iar pentru

N > 3 un hiperplan.

I SAU Exclusiv

x1 x2 y x1 x2 Y

0 0 0 0 0 0

0 1 0 0 1 1

1 0 0 1 0 1

1 1 1 1 1 0

Funcia I

x2

x1

Funcia SAU-EXCLUSIV

x2

x1

Fig.2.2.1.2 Tabela de adevr i ilustrarea separabilitii funciilor logice I i SAU-EXCLUSIV.

n concluzie, perceptronul simplu poate fi folosit cu succes doar n cazul

particular al clasificrii tiparelor liniar separabile, adica tiparelor care sunt situate,

ntr-un caz general, de-o parte i de alta al unui hiperplan. Avnd n vedere notaiile

urmtoare:

8/21/2019 RN - Arh&alg

32/232


T

N nxnxnxn )](),...,(),(,1[)( 21=x = vector de intrare;

T

N nwnwnwnn )](),...,(),(),([)( 21=w = vectorul ponderilor sinaptice;

(n)= prag;

y(n)= rspuns actual;

d(n)= rspuns dorit;

(n)= ratde nvare, de regul0 < < 1.

paii algoritmului (tip Rosenblatt) de antrenament aferent perceptronului simplu vor fi:a) Iniializarea: w(0) = 0;

b) Calcul rspuns actual: )]()(sgn[)( nnny T xw= , n care funcia sgn(.) reprezint

funcia signum.

c) Modificarea ponderilor sinaptice: )()])()([)()1( nnyndnn xww +=+

n care :

+=

2

1

)(,1

)(,1)(

Cndac

Cndacnd

x

x

d) Incrementarea lui ncu o unitate i salt la pct.b)

2.2.2 RNA Adaline. Algoritmul LMS

Algoritmul celor mai mici ptrate (LMS - Least Mean Square), cunoscut i

sub denumirea de algoritmul Widrow-Hoff sau regula delta, este destinat antrenrii

unei RNA formatdintr-unsingur neuron liniar. Ceea ce l difereniazde algoritmul

de antrenament al perceptronului simplu este modul de calcul al semnalului de

eroare, care n acest caz nu este cuantizat iar funcia de activare poate fi liniar.

Avnd n vedere aceste aspecte, algoritmul LMS poate fi formulat n modul

urmtor:

a) Etapa de iniializare: pentru wk(0) = 0, k = 1,2, ..., N

b) Etapa de filtrare:

8/21/2019 RN - Arh&alg

33/232


=

=N

j

jj nxnwny0

)()()(

)()()( nyndne =

Nknxnenwnw kkk ,...,2,1),()()()1( =+=+

Formularea algoritmului LMS s-a fcut din perspectiva unei filtrri spaiale.

El poate fi utilizat n aceeai msurn rezolvarea problemelor de filtrare temporal,

considernd cx(n) reprezinteantioane ale vectorului de intrare la momente de timp

diferite:

TNnxnxnxn )]1(),...,1(),([)( +=x (2.2.2.1)

RNA ADALINE (Adaptive Linear Element) folosete algoritmul de

antrenament LMS (Widrow-Hoff) n scopul clasificrii tiparelor. Structura ei este

prezentatn fig. 2.2.2.1

n timpul etapei de antrenament, tiparele sunt aplicate direct RNA, ea urmnd

sdescopere singurcaracteristicile acestora. Experiena acumulatde ctre RNA este

coninutn valorile w1, ..., wNi .

yx2

x1

xN-

e

-

d

w1

wN

v

Fig.2.2.2.1 Structura RNA ADALINE.

8/21/2019 RN - Arh&alg

34/232


2.2.3 Deducerea regulilor de modificare a ponderilor pentru cazul

perceptronului simplu

Algoritmul de modificare a ponderilor urmrete minimizarea erorii la nivelul

neuronului sau al stratului neuronal de ieire.

Se definete eroarea la nivelul neuronului de ieire k:

)()()( nyndne kkk = (2.2.3.1)

Pentru cuantificarea erorii la nivelul neuronului/neuronilor de ieire se

definete o funcie de cost, uneori denumiti criteriu de performan[14]. O posibil

formpentru aceasta este:

])(2

1[ 2=

k

k neEJ (2.2.3.2)

cu E[.] reprezentnd media n sens statistic.

Una dintre metodele folosite pentru obinerea minimului funciei J este bazat

pe gradientul acesteia. Ilustrarea metodei pailor descendeni se poate face prinurmtoarea figur:

Punct de minim

w0 wnwn+1

J

ponderi

Jn = )(w

JJ

=

w

Fig.2.2.3.1 Ilustrarea grafica metodei pailor descendeni

8/21/2019 RN - Arh&alg

35/232


Conform acestei metode incrementul de modificare a ponderilor este dat de

ecuaia:

ww

==

JJn )( (2.2.3.3)

Pentru cproprietile statistice nu sunt de regulcunoscute, se poate folosi n

loc de J, suma erorilor ptratice instantanee:

=k

kav nenE )(

2

1)( 2 (2.2.3.4)

De aici rezult:

=

=

k

kk

av nenenE

nww

w)(

)()(

)( (2.2.3.5)

dar: ))(()()()()( nvndnyndne kkkkk == (2.2.3.6)

n care reprezintfuncia de activare i vkpotenialul de activare. Rezultastfel:

=k

k nnvknen )())(()()( xw (2.2.3.7)

Pentru cazul prezentat anterior, k=1 i = sgn, se obine:

)())()(()()()( nnyndnnen xxw == (2.2.3.8)

2.2.4 Consideraii asupra valorii ratei de nvare (instruire)

n cazul algoritmilor de antrenament prezentai anterior rata de nvare

trebuie ssatisfaccondiia:

0 < < 1, =ct.pentru a asigura convergena algoritmului.

Daceste aleasla o valoare prea mic, rezultun proces lent de nvare,

vectorul pondere modificndu-se foarte puin de la o iteraie la alta. Daceste prea

mare, algoritmul poate snu sesizeze punctul de minim, ceea ce conduce la un proces

de nvare oscilant care s-ar putea snu conveargniciodat.

8/21/2019 RN - Arh&alg

36/232


Exist diverse procedee (fig.2.2.4.1) prin care rata de nvare poate fi

modificatde-alungul epocilor de antrenament, obinndu-se astfel o ratde nvare

variabil:

Metoda aproximrii stochastice: .,)( ctcn

cn ==

Metoda cautapoi converge: .,,1

)( 00 ctn

n =+

=

Nr. de epoci (iteraii) de antrenament

Algoritm standard

Cautapoi converge

Aproximareastochastic

(n)

0

Fig.2.2.4.1 Metode de modificare a ratei de nvare

2.2.5 Capacitatea perceptronului simplu

Se referla numrul de tipare maxim, pmax, care poate fi stocat ntr-o reea cu

N intrri. Pentru cazul unitilor care furnizeaz valori continue (liniare sau

neliniare) numrul maxim de tipare intrare-ieire este dat de condiia de independen

liniar:

pmaxN

Pentru cazul unitilor cu neliniaritate de tip prag:

pmax= 2N

8/21/2019 RN - Arh&alg

37/232

2.3 RNA de tip perceptron cu mai multe straturi - 37 -

2.3 RNA de tip perceptron cu mai multe straturi

Perceptronul multistrat (RNAMLP, Multilayer Perceptron) reprezint o

generalizare a perceptronului simplu prezentat n capitolul anterior. Este o RNA de tip

feedforward (cu propagare nainte a semnalului) compusdin (fig.2.3.1):

- un strat de intrare;

- unul sau mai multe straturi ascunse;

- strat de ieire.

y1

x2

x1

xNIN

TR

R

I

IEIR

I

y2

yMQ P

Strat deintrare

1

Stratascuns nr.1

Strat deieire

Stratascuns nr.2

Fig.2.3.1 Perceptron cu doustraturi.

2.3.1 Algoritmul de antrenament

Se deosebesc douetape n realizarea unei aplicaii cu RNA. Prima reprezint

etapa de antrenamentsau de nvare n care sunt aplicate perechi de tipare intrare

ieire corect asociate, iar RNA i modificparametrii liberi pentru a nva aceste

asociaii. A doua etappresupune utilizarea propriuzisa RNA; se pot aplica n acest

caz vectori de intrare diferii de cei din etapa de antrenament, urmnd ca RNA, pe

baza capacitii de generalizare, sfurnizeze un rspuns adecvat.

Pentru deducerea algoritmului de antrenament corespunztor RNAMLP se

definete eroarea la nivelul neuronului j din stratul de ieire, n a n- a iteraie:

8/21/2019 RN - Arh&alg

38/232


ej(n) = dj(n) yj(n)

n care djreprezintrspunsul dorit iar yjrspunsul actual al RNAMLP.

Eroarea instantanee la nivelul ntregului strat de ieire poate fi definit ca

suma erorilor ptratice ale neuronilor de ieire:

( ) ( )nenj

j= 221

Fie T numrul total de tipare de antrenament. n acest caz, eroarea pentru

ntreg setul de date de antrenament reprezintfuncia de cost ce va trebui minimizat:

( ) ( )=

=T

1nT1

avn n

Exist dou moduri n care se pot adapta ponderile RNAMLP n cursul

etapei de antrenament:

modul tipar cu tipar, (pattern by pattern) n care dup aplicarea fiecrei

perechi de tipare intrareieire ponderile sunt actualizate;

modul lot de tipare, (batch) n care ponderile sunt calculate o singurdat

pe baza tuturor perechilor de tipare intrareieire disponibile.Algoritmul de antrenament pentru RNAMLP va fi dedus pentru modul tipar

cu tipar.

Conform principiului gradientului descendent:

( ) ( )

( )nwn

nwji

ji

=

n care:

( )( )

( )( )

( )

( )

( )

( )

( )

( )nw

nv

nv

ny

ny

ne

ne

n

nw

n

ji

j

j

j

j

j

jji

=

Deoarece:

( ) ( ) ( )

( ) ( )ne

ne

nnen j

jj

j =

=

2

2

1

8/21/2019 RN - Arh&alg

39/232


( ) ( ) ( ) ( )

( )

( ) ( )( ) ( )

( ) ( )( )nv

nv

nynvny

ny

nenyndne

j

j

j

jj

j

j

jjj

=

=

=

= 1

( ) ( ) ( ) ( )

( ) ( )ny

nw

nvnynwnv i

j ji

j

ijij =

=

Deci:

( )( )

( ) ( )( ) ( )nynvnenw

nijj

ji

=

Se definete gradientul local ( )nj :

( ) ( ) ( )( ) ( )( )

( )

( )nv

ny

ny

nnvnen

j

j

j

jjj

=+=

( ) ( ) ( )nynnw ijji =

Formula de mai sus este valabil pentru cazul n care neuronul j aparinestratului de ieire. Pentru cazul n care neuronul j aparine unui strat ascuns, trebuie

redefinit gradientul local:

( ) ( )

( )

( )

( )( )( )

( )( )nvny

n

nv

ny

ny

nn jj

jj

j

j

j

=

=

n care:

( ) ( )=k

knen2

2

1

k fiind indicele corespunztor neuronilor straturilor de ieire

Atunci:

( )( )

( ) ( )

( )( )( )

( )( )

=

=

k k j

k

k

kk

j

kk

j ny

nv

nv

nee

ny

nene

ny

n

Deoarece:

8/21/2019 RN - Arh&alg

40/232


( ) ( ) ( ) ( ) ( )( ) ( )

( ) ( )( )

( ) ( ) ( )

( ) ( )nw

ny

nvnywnv

nvnv

nenvndnyndne

kj

j

k

j

jkjk

kk

k

kkkkkk

=

=

=

==

Rezult:

( )( )

( ) ( )( ) ( ) ( ) ( ) ==

k

kjkkjkk

k

k

j

nwnnwnvneny

n

n consecin, pentru cazul n care neuronul j aparine unui strat ascuns:

( ) ( )( ) ( ) ( )=k

kjjjj nwnnvn

i

( ) ( )( ) ( ) ( ) ( )nynwnnvnw ik

kjkjjji

=

Algoritmul dedus poartdenumirea de algoritm cu propagare napoi a erorii

(BP - Backpropagation Algorithm). Algoritmul BP standard este de tip gradient

descendent, ca i regula de nvare Widrow-Hoff, adic presupune modificarea

ponderilor n sensul negativ al funciei de cost. Denumirea este justificat de

modalitatea de adaptare a ponderilor, aceasta fcndu-se ncepnd de la stratul de

ieire spre stratul de intrare, prin calculul recursiv al gradientului local.

Observaii:

1. Proprietile funciei de activare (.).

Calcularea lui pentru fiecare neuron necesitdeterminarea derivatei funciei

de activare (.). Deci (.) trebuie s fi o funcie continu, derivabil i de regul

neliniar. O astfel de funcie este funcia sigmoid:

( ) ( )( )( )nvjjj je

nvny

+==

1

1

( )

( ) ( )( ) ( )[ ] ( )nvnvjj

j

j jj eenvnv

ny +==

21

8/21/2019 RN - Arh&alg

41/232


( ) ( )

( ) ( )( )

( )

( )

( )

)](1)[(1

1

12

nyny

ny

ny

ny

nvny

nye jj

j

j

j

jj

j

jnvj =

=

=

Dacneuronul j aparine stratului de ieire, fie yj(n) =oj(n). Atunci este:

( ) ( ) ( ) ( ) ( ) ( ) ( )]1[][ nononondnvnen jjjjjjjj ==

Dacneuronul j aparine unui strat ascuns:( ) ( )( ) ( ) ( ) ( ) ( )[ ] ( ) ( ) ==

k

kjkjj

k

kjkjjj nwnnynynwnnvn 1

2. BP cu moment.

Valoarea ratei de nvare trebuie s fie suficient de micpentru a asigura

convergena algoritmului dar i suficient de mare pentru a genera un proces de

nvare rapid.

O metod simpl pentru creterea ratei de nvare, cu evitarea instabilitii

procesului de antrenament reprezint introducerea unui termen denumit moment nlegea de variaie a wji(n):

( ) ( ) ( ) ( )1+= nwnynnw jiijji

Se poate scrie wji(n) ca o serie de timp:

( ) ( ) ( ) ( )

( ) = =

==

n

t

n

t ji

jn

ij

tn

jitw

ttytnw

0 0

1

Dacderivatele pariale au acelai semn algebric n iteraii consecutive wji(n)

crete n amplitudine, deci wji (n) se va modifica cu un increment din ce n ce mai

mare. Aceasta nseamncprin introducerea termenului moment viteza algoritmului

este acceleratpentru cazul unor suprafee ale peisajul energetic ale funciei de cost

descresctoare.

Dacderivatele pariale au semne diferite n iteraii consecutive wji(n) scade

n amplitudine, deci wji(n) va fi modificat n cantiti din ce n ce mai mici.

n consecin introducerea termenului moment are un efect de stabilizare a

8/21/2019 RN - Arh&alg

42/232


unui proces oscilatoriu de nvare.

Termenul moment poate fi privit i ca o inerie introdus n modificarea

ponderilor, prin acest fapt evitndu-se nepenirea RNA n minime locale ale

suprafeei erorii.

3. Criterii de stabilitate.

Fie wun vector pondere pentru care suprafaa erorii are un minim (local sau

global). O condiie necesarca w*sfie un punct de minim este ca vectorul gradient

g(w) al suprafeei erorii s fie egal cu zero n w= w*. n acest sens se pot formulacteva criterii de stop pentru algoritmul BP:

a) se consider c algoritmul BP a convers dac norma euclidian a vectorului

gradient e suficient de mic: g(wfinal) < ;

b) se considercalgoritmul BP a convers dacrata modificrii erorii ptratice este

suficient de mic(ex: 0.1 1% / epoc);

c) se considercalgoritmul BP a convers dacav(w) , cu un prag suficient de

mic al erorii.

Momentul n care algoritmul de antrenament se oprete influeneaz i

capacitatea de generalizare a RNA. Dac reeaua se supraantreneaz, eroarea final

obinut pentru datele de antrenament va fi deosebit de sczut (Eroarea ptratic

medie = 10-510-10) n schimb acest lucru va afecta n mod negativ capacitatea de

generalizare, n sensul n care RNA nu va rspunde corect pentru date de intrare

diferite de cele din etapa de antrenament.

4. Determinarea numrul de straturi ascunse i de neuroni/strat ascuns.

Numrul optim de straturi ascunse i de neuroni/strat ascuns este dificil de

precizat apriori.

n general, un singur strat ascuns e suficient pentru rezolvarea majoritii

problemelor. n mod excepional, se pot folosi dou, cel mult trei straturi ascunse.

De regul, numrul de neuroni afereni straturilor de intrare respectiv ieire

este dictat de natura aplicaiei. Neuronii structurilor ascunse au rolul foarte important

de a detecta trsturile, legitile, regularitile coninute n tiparele de antrenament.

8/21/2019 RN - Arh&alg

43/232


Un numr prea mare de neuroni ascuni/strat influeneazn mod negativ capacitatea

de generalizare a RNA. Totodatconduce la sporirea volumului de date care urmeaz

a fi procesat i deci la o duratsporitpentru etapa de antrenament. Un numr prea

mic de neuroni nu este suficient pentru formarea unei reprezentri interne a datelor

adecvati poate conduce la o eroare medie ptraticmare pe parcursul epocilor de

antrenament i implicit la o eroare mare corespunztoare nu numai datelor de test ci i

celor de antrenament.

n concluzie, numrul optim de neuroni ascuni se va determina experimental.

Pe baza formulei deduse pentru modalitatea de adaptare a ponderilor i pe

baza observaiilor 1. 4. se pot enuna paii algoritmului cu propagare napoi a erorii:

1. Iniializarea.

Se definesc numrul de straturi i neuroni/strat. Se iniializeaz ponderile

sinaptice i pragurile cu valori aleatoare mici, uniform distribuite. De exemplu

ponderile i pragurile se vor distribui uniform n intervalul

ii FF

4,2

,

4,2

n care Fi

(fan-in) reprezintnumrul de intrri pentru neuronul i.

2. Prezentarea tiparelor de antrenament.

Pentru fiecare pereche de tipare de antrenament [ ] }{ Nnndnx ,...2,1;)(),( =

se vor efectua paii 3. i 4. Prezentarea tuturor celor N tipare de antrenament este

denumitepocde antrenament.

3. Propagarea nainte.

ncepnd de la primul strat ascuns i sfrind cu stratul de ieire se calculeazpentru fiecare neuron j al stratului l potenialul intern de activare:

= )()()( )1()()( nynwnv liljilj

i mai apoi, prin aplicarea funciei de activare, se calculeaz ieirile acestora. De

exemplu pentru funcia de activare de tip sigmoidal:

8/21/2019 RN - Arh&alg

44/232


)(

)1(

)()(

1

1nv

l

l

j lje

y

+=

Dac i = 0, avem 1)()1(0 = ny l i )()()( 0 nw

l

j

l

j = . Dac neuronul j aparine

primului strat ascuns (l = 1) avem )()()0( nxny ii = iar dac neuronul j aparine

stratului de ieire (l = L) avem )()()( nony jL

j = .

n continuare, se calculeazeroarea pentru fiecare neuron al stratului de ieire,

ej(n), ca fiind diferena dintre ieirea doritdj(n) i ieire actualyj(n):

)()()( nyndne jjj =

4. Propagarea napoi.

Se calculeazgradientul local al RNA, strat cu strat, ncepnd cu cel de ieire:

( ) ( ) ( )( ) ( ) ( )( ) ( )[ ] ( ) ++=

==

k

l

kj

l

kj

l

j

l

j

jjjjjj

L

j

L

j

nwnnynyn

nononyndnvnen

)(1)(

1)()()()1()1()()(

)()(

Apoi sunt modificate ponderile sinaptice ale RNA n stratul l conformregulii delta generalizate (BP cu moment):

( ) ( ) ( ) ( )nynnwnwnwnw lil

j

l

ji

l

ji

l

ji

l

ji

1)()()()( )1()()()1( ++=+

n care reprezintrata de nvare i constanta moment.

5. Iteraia.

Se continuetapele 3. i 4. pentru toate perechile de vectori de antrenament.

Dupfiecare epocde antrenament se evalueazcriteriul de stop al algoritmului (rata

schimbrilor parametrilor liberi sub un anumit prag, eroarea ptraticmedie suficient

de mic, numr maxim de epoci atinse, etc).

Observaii:

1Ordinea prezentrii tiparelor, de la o epocla alta, se recomanda fi aleatoare.

2Att ct i se recomanda fi ajustate pe parcursul epocilor de antrenament (n

mod tipic, sczute).

8/21/2019 RN - Arh&alg

45/232


2.3.2 Algoritmi rapizi de antrenament pentru RNA cu propagare nainte a

semnalului

Algoritmul BP standard prezinto serie de dezavantaje. Printre acestea se pot

enumera convergena lent i dependena acesteia de parametrii liberi ai reelei

(ponderi, praguri, form funcie de activare, rat de nvare, etc.). Algoritmii

prezentai n cadrul acestui subcapitol (pentru o descriere exhaustiv a se consulta

[15]) ofero alternativla BP. Ei converg n mult mai puine epoci spre valori optime

ale ponderilor dect BP nsimplico complexitate ridicata calculelor. De subliniat

nsfaptul cn cazul unor reele de dimensiuni mari convergena ntr-un numr mai

mic de epoci nu nseamn implicit i un timp de antrenament mai scurt deoarece

calculele aferente unei epoci pot sdureze foare mult. Din acest motiv folosirea unuia

sau altuia dintre algoritmii de antrenament este determinatde problema concretce

se dorete a fi soluionat.

2.3.2.1 Metoda lui Newton

Funcia de cost (w) poate fi aproximatconform dezvoltrii n serie Taylor n

jurul punctului w0:

( ) ( ) ( ) ( ) ( )002

0000 )(2

1wwwwwww ++=

Tww

Matricea cu derivate pariale de ordinul doi,ji

ij

ww

=

2H se numete hessian.

Pentru ca wsfie un punct de minim se anuleazderivata relaiei precedente:

( ) ( ) ( ) 000 =+= wwHww

( )1

01

00

)(

=

=

H

ww

H

www

Relaia de mai sus reprezint metoda lui Newton, care folosit iterativ,

8/21/2019 RN - Arh&alg

46/232


estimarea lui wfiind un nou w0, conduce la gsirea minimului ntr-un numr extrem

de redus de epoci de antrenament.

Dezavantajul metodei const din complexitatea extrem de ridicat a

calculelorce trebuie efectuate la fiecare iteraie: calculul derivatelor pariale de ordin

nti i doi pentru precum i inversa hessianului (care poate sfie singular i deci H-1

nu exist!).

n consecinmetoda lui Newton i gsete aplicabilitate practic restrns,

dar poate servi ca punct de referinpentru abordri ulterioare.

2.3.2.2 Metoda LevenbergMarquardt

Elimin parial dezavantajele metodei lui Newton prin aproximarea

hessianului cu matricea ( ) ][ 2 Iw + , n care reprezint un factor de regul

pozitiv iar I matricea identic:

( )( ) 12

0

][ +

= Iw

ww

Observaie:

O matrice este:

a) simetric, dacA= AT;

b) pozitiv definit, dac nT Rx0,x0,Axx >

c) singular, dacnu A-1.

n acest condiii ( ) ][ 2 Iw + este simetric i nesingular chiar dac

hessianul e singular. Pe de altparte, poate fi fcut suficient de mic pentru a asigura

convergena rapida algoritmului.

Metoda LevenbergMarquardt reprezint una din cele mai rapide metode

folosite n practic, dar este imposibil de folosit n cazul n care vectorii de

antrenament au dimensiuni mari (sute de componente) din cauza cerinelor de

memorie i putere de calcul.

8/21/2019 RN - Arh&alg

47/232


2.3.2.3 Metode de tip cvasiNewton

Se circumscriu n cadrul metodelor de minimizare care folosesc doar

informaie provenitdin derivata de ordinul I, combinatcu aa numita cutare dupo

linie (line search):

dww 0 +=

n care reprezintpasul iar ddirecia n care se face cutarea.

Observaie: n cazul n care direcia de cutare se alege ca fiind negativul gradientului,

( )0wd = , atunci se obine din relaia de mai sus tocmai algoritmul pailor

descendeni (gradientului descendent) folosit n deducerea algoritmului BP standard:

)( 0wwww 0 ==

Ideea care stla baza metodelor de tip cvasiNewton este aceea de a aproxima

H-1 printr-o matrice Hk care s in cont doar de informaia obinut pe baza

derivatelor pariale de ordinul I. Una din cele mai sofisticate metode cvasiNewton

este algoritmul BFGS (BroydenFletcherGoldfarbShanno):

( ) ( ) ( )

( ) ( ) ( )( )kkk1kkk

kk1k

wHwwd

dww

==

+=+

+

Fie:

( )( ) ( )( )kkky ww = +1 .

Atunci:

kTk

T

kk

kTk

T

kk

kk

Tr

T

kk

k yd

dd

yd

dy

yd

yd

+

=+ IHIH )(1

i rata de nvare:

( ) ( ) ( )( )[ ]kkkk wHw

=0

minarg

8/21/2019 RN - Arh&alg

48/232


2.3.2.4 Metode bazate pe gradientul conjugat

Conform metodei gradientului (pailor) descendent vectorul direcie de-a

lungul cruia ajusteaz vectorul pondere, reprezint negativul vectorului gradient

( ).0wd = Paii succesivi ai acestui algoritm sunt n mod necesar perpendiculari,

deoarece:

( )( ) ( ) ( )10 0 +=+

= nnn ddw

adic noul vector gradient este perpendicular pe vechea direcie de cutare (vezi

fig.2.3.2.4.1). n consecin, se urmeazo traiectorie n zig - zag.

a) b)

Fig.2.3.2.4.1 Gsirea minimului unei suprafee ptratice (centrul elipsei) n cazul pailor descendeni a) i

n cazul gradientului conjugat b).

O soluie mai bun const n alegerea noii direcii ca un compromis ntre direcia

gradientului i vechea direcie de cutare:

( ) ( ) ( ) ( )wdd ++=+ nnn 11

Aceasta nseamn c noua direcie trebuie astfel aleas nct s nu modifice

componenta gradientului de-alungul direciei anterioare, care a fost tocmai anulat:

( ) ( )( ) 010 =++ nn dwd

adic:

( ) ( ) 01 =+ nn dHd

n acest caz se spune cvectorii d(n+1) i d(n) sunt conjugai, de unde i denumirea

acestor algoritmi de antrenament.

8/21/2019 RN - Arh&alg

49/232


Existmai multe modaliti de alegere a lui :

Polak-Ribiere:( ) ( ) ( )[ ]

( ) ( )nnnnn

nT

T

gg

ggg ++=

11)(

Fletcher-Reeves: ( ) ( ) ( )

( ) ( )nnnn

nT

T

gg

gg 11 ++=

n care cu g(n) s-a notat vectorul gradient ( )n i:

( ) ( ) ( )( ){ }nnn dw +=

minarg Din punct de vedere al rapiditii convergenei i al complexitii algoritmului,

metoda gradientului conjugat se situeaz ntre metoda gradientului descendent i cea

de tip cvasi-Newton.

8/21/2019 RN - Arh&alg

50/232


8/21/2019 RN - Arh&alg

51/232

CAPITOLUL 3Reele neuronale artificiale bazate pe funcii radiale

3.1 Introducere

n cadrul acestui capitol se prezinto abordare diferita modului de realizare

a unei RNA. Acest proces este vzut de aceastdatca o problema de aproximare a

unei curbe ntr-un spaiu multidimensional. Conform acestui punct de vedere,

nvarea este echivalent cu gsirea unei suprafee ntr-un spaiu multidimensional

care s se potriveasc cu cea descris de datele de intrare. Generalizarea reelelor

neuronale bazate pe funcii radiale (Radial Basis Function RBF) reprezint n

acest caz capacitatea de interpolare a RNA vizavi de datele de test.

Comparativ cu o RNA-MLP, RNA-RBF pot ssolicite mai muli neuroni dar

antrenarea acestora necesitmai puin timp dect n cazul perceptronului. Explicaia

acestui fapt este urmtoarea: ieirile neuronilor sigmoidali ai stratului ascuns sunt

semnificative pentru regiuni largi ale spaiului de intrare n timp ce neuronii bazai pe

funcii radiale rspund doar la regiuni relativ mici din spaiul de intrare. n consecin,

RNA-RBF se comportmai bine cnd sunt disponibili muli vectori de antrenament.

Modelul unui neuron RBF este prezentat n fig.3.1.1. n acest caz intrarea net

este consituitdin norma diferenei vectoriale ||t - x||. Un exemplu tipic pentru funcia

de activare este:2

)( xex = reprezentat n fig.3.1.2. Se constat c funcia radial

are un maxim dacintrarea e nul. Dacdistana dintre ti xdescrete, valoarea ieiriicrete. Adicneuronul radial se comportca un detector care produce 1 la ieire de

fiecare datcnd tiparul de intrare e identic cu vectorul pondere t.

O RNA-RBF prezintstructural trei straturi (fig.3.1.3):

- stratul de intraresau stratul senzorial;

8/21/2019 RN - Arh&alg

52/232

- 52 - CAP. 3 Reele neuronale artificiale bazate pe funcii radiale

||distan||

x1

xP

t1 tP

b

y

1

y = ( ||t - x||b )

Fig.3.1.1 Arhitectura unui neuron RBF.

x

2

)( xex =

Fig.3.1.2 Formtipicpentru funcia de activare radial

Fig.3.1.2 Arhitectura unei RNA-RBF

8/21/2019 RN - Arh&alg

53/232

3.1 Introducere - 53 -

- stratul ascuns, care furnizeaz funcii care constituie o baz pentru vectorii de

intrare; aceste funcii poartdenumirea de funcii radiale;

- stratul de ieire alctuit din neuroni cu funcie de activare liniar.

Transformarea spaiului de intrare n spaiul neuronilor ascuni este neliniar

pe cnd transformarea spaiului neuronilor ascuni n spaiul neuronilor de ieire este

liniar. Justificarea acestui aspect se bazeaz pe teorema lui Cover asupra

separabilitii tiparelor [16] care arat c o problem de clasificare a tiparelor

transformatneliniar ntr-un spaiu de dimensiune nalteste cu mult mai probabil de a

fi liniar separabildect ntr-un spaiu cu dimensiuni mai puine.

3.2 Problema interpolrii

Problema interpolrii poate fi formulatdupcum urmeaz:

Fiind date N puncte diferite {xi Rp| i=1,2,...,N} i un numr echivalent de

numere reale {diR1

| i=1,2,...,N} sse gseascfuncia F : Rp

R1

care satisfacecondiia de interpolare:

F(xi) = di, i=1,2,...,N (3.2.1)

Tehnica bazatpe funcii radiale const n alegerea funciei F cu urmtoarea

form:

( )=

=N

iiiwF

1

)( xxx (3.2.2)

unde {(||x- xi||) | i = 1,2,...,N} reprezinto mulime de N funcii arbitrare, de regul

neliniare, cunoscute sub denumirea de funcii radiale. Notaia ||.|| semnifico norm,

de regulcea euclidian. Punctele cunoscute xiRp, i = 1, 2,..., N, reprezintcentrele

funciilor radiale.

Combinnd (3.2.1) cu (3.2.2) obinem un set de ecuaii liniare, avnd drept

necunoscute coeficienii wi:

8/21/2019 RN - Arh&alg

54/232


=

NNNNNN

N

N

d

d

d

w

w

w

MM

L

MMMM

L

L

2

1

2

1

21

22221

11211

(3.2.3)

n care:

ji= (||xj- xi||), j,i = 1, 2 ,..., N (3.2.4)

Fie:

d= [d1, d2, ..., dN]T (3.2.5)

w= [w1, w2, ..., wN]T (3.2.6)

= {ji | j, i = 1, 2 ,..., N} (3.2.7)

cu definitca matrice de interpolare. Se poate scrie atunci:

w= x (3.2.8)

de unde:

w= -1d (3.2.9)

Rezultatele teoretice i experimentale aratcalegerea funciei neliniare(.) nu estecrucial pentru performanele ulterioare ale unui RNA RBF. Aceasta poate fi, de

exemplu:

( )0,0,

1)(

2/122>

+= rc

crr (3.2.10)

sau

0,0,2

exp)(2

2

>

= r

rr

(3.2.11)

8/21/2019 RN - Arh&alg

55/232

3.3 Strategii de nvare pentru RNA bazate pe funcii radiale - 55 -

3.3 Strategii de nvare pentru RNA bazate pe funcii radiale

Exista mai multe metode de antrenament ale RNA-RBF, deosebirea ntre ele

constnd n metoda de alegere a centrilor funciilor radiale.

Metoda bazatpe creterea reelei

Iniial stratul ascuns nu are nici un neuron. Dup fiecare epoc, vectorul de

intrare pentru care se obine cea mai mare eroare la nivelul stratului de ieire este

folosit pentru crearea unui nou neuron prin egalizarea ponderilor acestuia cu vectorul

de intrare. Se calculeaz apoi ponderile stratului liniar. Dac se ajunge la eroarea

(performana) dorit sau dac se atinge un numr maxim de neuroni pentru stratul

ascuns, procesul de antrenament va fi ncheiat.

Metoda centrilor fici, alei aleator

Reprezint una dintre cele mai simple abordri i presupune funcii radiale

fixe care definesc funciile de activare ale stratului ascuns. Locaiile centrilor funciilor

sunt alese aleator dintre vectorii de intrare.

Pentru funciile radiale se preferun Gaussian izotropic:

( ) Mid

MG ii ...,2,1,exp

2

2

2=

= txtx (3.3.1)

n care M reprezintnumrul centrilor iar d distana maximdintre acetia.n acest caz, deviaia standard pentru toate funciile va fi aceeai:

M

d

2= (3.3.2)

Pentru determinarea ponderilor stratului liniar de ieire se folosete metoda

pseudoinversei [17]:

8/21/2019 RN - Arh&alg

56/232


w= G+ d (3.3.3)

cu G+ fiind pseudoinversa matricii G:

G= {gji} (3.3.4)

cu

NjMid

Mg iji ...,2,1,...,2,1,exp

2

2 ==

= txj (3.3.5)

Conform teoremei decompoziiei valorilor singulare, pseudoinversa matricii G este

definitastfel:

G+ = V + UT (3.3.6)

n care + este ea nsi o matrice N x N constituitdin valorile singulare ale lui G:

=+ 0,...,0,

1,...,

1,

1

21 k

diag

(3.3.7)

Metoda selciei autoorganizate a centrilor

n cadrul acestei abordri este permisdeplasarea locaiei centrilor funciilor

radiale ntr-o manierautoorganizat, n timp ce ponderile stratului liniar de ieire sunt

calculate ntr-o maniersupervizat.

Componenta autoorganizant permite alocarea resurselor RNA astfel nct

centrii funciilor radiale vor fi plasai doar n regiuni semnificative ale spaiului de

intrare. Pentru selecia autoorganizat a centrilor se poate folosi metoda celor mai

apropiai k vecini iar pentru nvarea supervizatse poate folosi un algoritm bazat

pe corecia erorilor (de exemplu LMS).

Exemplul 3.1 RNA-RBF au fost folosite cu succes n deosebi la problemele de

aproximare/interpolare [18] i predicie [19] a funciilor. n continuare este

demonstrat capacitatea unei astfel de reele de a aproxima funcia f(x) =

sin(x)+cos(x):

8/21/2019 RN - Arh&alg

57/232

3.3 Strategii de nvare pentru RNA bazate pe funcii radiale - 57 -

%Exempl u de i mpl ement ar e a unei RNA- RBF%pent r u cazul i nt er pol ar i i f uncti i l or%Catal i n- Dani el Cal eanu, 2000

cl ear al leg = 0. 02; % er oar ea MSE dor i t asc = 1; % mar i mea campl ul ui r ecept i v al f uncti i l or r adi al e

P=0: pi / 4: 2*pi ; %def i ni r ea t i par ul ui de i nt r ar eT=si n( P) + cos( P) ; %def i ni r ea t i par ul ui de i esi r e

%( punct el e de i nt r epol ar e)

net =newr b( P, T, eg, sc) ; %cr ear ea RNA- RBFt est=0: pi / 32: 2*pi ; %def i ni r ea suport ul ui pent r u punct el e detesty=si n( t est ) + cos( t est ) ; %cal cul ul val or i l or f unct i ei or i gi nal ez=si m( net , t est ) ; %cal cul ul val or i l or obt i nut e pr i n i nt er pol ar e

%r epr ezent ar ea gr af i ca a r ezul t at el orpl ot ( test , z )hol d onpl ot ( tes t , y, ' r - - ' )pl ot ( P, T, ' +' )hol d of f

0 1 2 3 4 5 6 7-1.5

-1

-0.5

0

0.5

1

1.5funcie aproximat

funcie original

puncte deantrenament

Fig.3.3.1 RNA-RBF folositla aproximarea funciilor

8/21/2019 RN - Arh&alg

58/232


n concluzie se poate afirma cRNA-RBF reprezinto soluie alternativ n

special n problemele ce presupun interpolarea, aproximarea sau predicia funciilor.

De menionat nsi posibilitarea folosirii lor n probleme de clasificare.

8/21/2019 RN - Arh&alg

59/232

CAPITOLUL 4Reele neuronale artificiale recurente

4.1 Introducere

n acest capitol se prezinto altclasimportantde RNA i anume aceea a

RN cu structurrecurent. RNA recurente sunt caracterizate de:

- uniti de procesare neliniare;- simetria conexiunilor sinaptice (wji= wij);

- folosirea intensiva feedback-ului.

Din aceastcategorie fac parte RNA Boltzmann (RNA-B) i RNA Hopfield

(RNA-H), cea din urmfiind detaliat n cele ce urmeaz, dezvoltarea acestora fiind

inspiratdin fizica statistici termodinamic.

4.2 RNA de tip Hopfield (RNA-H)

Poate fi vzutca o memorie asociativsau ca o memorie adresabilprin

coninut, a crei funcie principal este regsirea tiparelor stocate n memorie, ca

rspuns la prezentarea unui tipar incomplet sau contaminat cu zgomot. Esena

memoriilor adresabile prin coninut constn transformarea tiparelor n stri stabile

sale sistemului dinamic (proces de codare) i invers (proces de decodare).

Fiecare neuron, de tip McCulloch-Pitts, al RNA-H (fig.4.2.1) este caracterizat

prin una din cele doust

ri posibile: activ (s

i= 1) , respectiv inactiv (s

i= -1).

Starea unei RNA-H alctuitdin N neuroni este definitde ctre vectorul:

s= [s1, s2, ..., sN]T (4.2.1)

Potenialul intern al unui neuron j este:

=

=N

i

jijij swv1

(4.2.2)

8/21/2019 RN - Arh&alg

60/232

- 60 - CAP.4 Reele neuronale artificiale recurente

n care jreprezintpragul neuronului.

Fig.4.2.1. Arhitectura unei RNA-H cu 3 neuroni.

Neuronul j i modificstarea conform regulii:

+=

0,10,1

j

j

jvdacvdacs (4.2.3)

sau echivalent sj= sgn[vj]. Dacvj = 0 atunci sjpoate lua o valoare arbitrar, +1 sau

1. De exemplu, se poate conveni ca starea neuronului srmnnemodificat.

n funcionarea RNA-H se pot distinge douetape:

a) Faza de memorare. S presupunem c se dorete stocarea a p vectori N

dimensionali {| = 1, 2, ..., p}. Atunci, conform postulatului lui Hebb:

i

p

jjiNw ,1

,

1

== (4.2.4)

De regulse considerwii = 0, i.

Acelai lucru poate fi scris n formmatricialastfel:

IW N

p

N

Tp

= =1

1

(4.2.5)

8/21/2019 RN - Arh&alg

61/232

4.2 RNA de tip Hopfield (RNA-H) - 61 -

n care Wreprezintmatricea ponderilor sinaptice ale reelei i are dimensiunea NxN

iar Ireprezintmatricea identic.

Se constatfaptul cponderile RNA se calculeazntr-o singurepoc, spre deosebire

de RNA-MLP sau RBF.

Din ecuaia de calcul pentru ponderile RNA se constaturmtoarele:

- ieirea fiecrui neuron se constituie n intrare pentru toi ceilali neuroni ai

reele;

- nu existautoexcitaie (self-feedback), adicwii = 0, I;

- matricea ponderilor RNA este simetricwij = wji (sau W= WT) adicinfluena

exercitat de neuronul i asupra neuronului j este egal cu influena

exercitatde neuronul j asupra neuronului i

b) Faza de utilizare (regsire). n aceast faz, un anumit tipar x este impus drept

vector de stareal RNA-H. De regulel reprezinto versiune incompletsau afectat

de zgomot al unui tipar memorat. Procesul de regsire se desfoarn mod dinamic:

fiecare neuron al reelei, n mod aleator ales, estimeazpropriul potenial de activare i

i stabilete starea final. Acest proces asincron (serial) de modificare a strilor se va

opri n momentul n care vectorul de stare nu se va mai modifica. Aceasta nseamnc

RNA-H a produs un vector de stare y invariant n timp, ale crui elemente satisfac

condiia de stabilitate:

NjywyN

i

iijij ...,,2,1),sgn(1

== =

(4.2.6)

sau n formmatricial:

)sgn( yWy = (4.2.7)

Vectorul de stare yeste denumit stare stabila spaiului fazelor sistemului.

RNA-H cu ponderi sinaptice simetrice li se poate asocia aa-numita funcie de

energie (fig.4.2.2):

= =

=N

i

N

j

jiji sswE1 12

1 (4.2.8)

8/21/2019 RN - Arh&alg

62/232

- 62 - CAP.4 Reele neuronale artificiale recurente

Fig.4.2.2 Funcia de energie (Lyapunov) pentru cazul W = [1 0;1 0] generatprin

intermediul mediului MATLAB.

Variaia energiei E ca urmare a variaiei strii neuronului j e dat de expresia:

=

=N

jii

ijij swsE

1

(4.2.9)

Astfel, n timpul fazei de regsire a unui tipar,Edescrete monoton. Schimbarea strii

RNA-H va continua pn cnd se va atinge un minim local al peisajului energetic.

Minimele peisajului energetic corespund unor atractori specifici spaiului strilor

(fazelor) care n mod normal reprezint puncte determinate n faza de memorare.

Regiunea nvecinatatractorilor poartdenumirea de bazin de atracie.

Observaie: Nu este obligatoriu ca starea finalscoincidcu unul din tiparele

memorate. Acest fapt poate fi pus i pe seama apariiei unor stri (atractori) fali

(spurious states).

Relativ la capacitatea de memorare a RNA-H se aratcnumrul maxim de

tipare de dimensiune N care pot fi regsite perfect este:

N

Np

ln4max (4.2.10)

8/21/2019 RN - Arh&alg

63/232

CAPITOLUL 5

Reele neuronale cu autoorganizare

5.1 Introducere

Aceast categorie a reelelor neuronale are drept caracteristic fundamental

folosirea algoritmilor de nvare nesupervizai (cu autoorganizare). Prin aceasta se

nelege faptul cnu existun semnal extern furnizat de ctre mediu sau de ctre un

instructor care sconfirme sau s infirme veridicitatea ieirilor RNA. Reeaua nsi

trebuie s descopere tipare, trsturi, regulariti i corelaii existente n datele de

intrare precum i modul de codare sau reprezentare intern al acestora, pentru a-l

furniza ieirilor.

Pentru aceasta, algoritmul este nsoit de un set de reguli de natur localcare permit calcularea unei funcii intrare-ieire cu proprietile specifice dorite. Din

acest punct de vedere, algoritmii de nvare nesupervizai se apropie ntr-o msur

mai mare dect cei supervizai, de modul de organizare a informaiei specific

creierului.

Subcapitolele urmtoare vor fi dedicate principalelor douclase de sisteme cu

autoorganizare: cele care au la baz nvarea de tip hebbian i cele cu nvare

competitiv.

5.2. Reele neuronale cu autoorganizare i algoritm de nvare

de tip hebbian

n acest subcapitol se vor prezenta aspecte legate de RNA bazate pe algoritmi

de nvare nesupervizai derivai din regula lui Hebb pentru modificarea ponderilor.

8/21/2019 RN - Arh&alg

64/232

- 64 - CAP.5 Reele neuronale cu autoorganizare

Ieirile reelelor vor avea valori continue, neexistnd competiie ntre neuroni, spre

deosebire de reelele neuronale prezentate n capitolul urmtor. De aceea, scopul

acestor reele nu va fi legat de clasificarea sau gruparea (clustering) tiparelor

prezentate intrrilor ci, mai degrab, de proiecie a datelor de intrare n spaiul definit

de componentele principale ale acestora.

5.2.1 Reele neuronale cu un singur neuron liniar

n [20] se arat c un singur neuron liniar, la care ponderile sinaptice se

adapteaz ntr-o manier hebbian, poate fi asimilat cu un filtru care genereaz

componenta principala distribuiei intrrilor.

Pentru a demonstra acest fapt, se pleac de la modelul unui neuron prezentat n

fig.5.2.1.

x0(n)

x1(n)

xp-1(n) wp-1(n)

w1(n)

w0(n)

y(n)

Fig.5.2.1.Modelul unui neuron liniar

Modelul este liniar n sensul n care ieirea poate fi scris ca o combinaieliniara intrrilor:

i

p

i

ixwy

=

=1

0

(5.2.1.1.)

n concordan cu postulatul lui Hebb, ponderile sinaptice vor fi modificate

dupformula:

8/21/2019 RN - Arh&alg

65/232

5.2. RNA cu autoorganizare i algoritm de nvare de tip hebbian - 65 -

1...,,1,0),()()()1( =+=+ pinxnynwnw iii (5.2.1.2.)

n care n reprezint timpul discret, iar rata de nvare. Se observ c aplicnd

formula (5.2.1.2.) se va obine o cretere nelimitata wi, ceea ce este neacceptabil

din punct de vedere fizic. Acest neajuns poate fi nsevitat prin introducerea saturaiei

sau a normalizrii n adaptarea ponderilor sinaptice.

Exist multe metode care impun constrngeri asupra creterii vectorului

pondere w:a) Dup fiecare epoc se recalculeaz ponderile w'i = wi alegnd astfel nct

|w'| = 1;

b) Linsher [21] propune un algoritm n care wwiw+;

c) Yuille [22] folosete o regulde forma :

)||( 2wwyxw iii = (5.2.1.3)

cu max|| =w n loc de | w | = 1.

n continuare se va folosi tehnica de normalizare descrisde Oja n [20]:

=

+

+=+

1

0

2)]()()([

)()()()1(

p

i

ii

iii

nxnynw

nxnynwnw

(5.2.1.4)

Presupunnd mic putem dezvolta 5.2.4.1. n serie de puteri dupi se va obine :

)()]()()()[()()1( 2 onwnynxnynwnw iiii ++=+ (5.2.1.5)

cu )( 2o fiind notai termenii n de ordin doi sau mai mare; pentru mic acetia

pot fi neglijai, obinndu-se :

)]()()()[()()1( nwnynxnynwnw iiii +=+ (5.2.1.6)

Analiznd ecuaia (5.2.1.6) putem identifica prezena a douforme de reacie

(feedback) intern:

- O reacie pozitivde autoamplificare rspunztoare de creterea ponderilor wi(n) n

conformitate cu intrareaxi(n);

8/21/2019 RN - Arh&alg

66/232


- O reacie negativcorespunztoare termenului y(n) prin care se obine un control al

creterii ponderilor, cu efect de stabilizare a w i(n). Produsul y(n)wi(n) poate fi vzut

ca o caracterizare a unui proces de uitare (forgetting term) cu att mai intens cu ct

rspunsul y(n) este mai puternic.

5.2.2 Analiza componentelor principale. Reducerea dimensionalitii

Analiza componentelor principale reprezint o tehnic ce permite detectarea

celor mai marcante tendine ale unui nor de date. Componentele principale ale norului

x sunt direciile din Rn de-a lungul crora alungirea norului este cea mai marcant.

Cunoaterea acestor direcii poate servi la selecia trsturilor dintr-un anumit set de

date. Proiectnd norul pe direciile date de componentele sale principale, realizm o

comprimare a informaiei cuprins n mulimea de instruire, adic o reducere a

dimensionalitii spaiului de intrare [8].

Fie x un vector p dimensional reprezentnd datele supuse analizei

componentelor principale (transformarea Karhunen-Love).

Presupunem cmedia vectorului xeste 0:

E[x] = 0 (5.2.2.1)

Dac x nu ar ndeplini condiia (5.2.2.1), pentru ca media vectorului s fie zero se

calculeazcentrul de greutate al norului de puncte (media):

=

=1

0

1 p

i

ixp

m (5.2.2.2)

i se scade aceastmrime din vectorul x.Fie uun vector unitate p-dimensional:

1)( 2/1 == uuu T (5.2.2.3)

Proiecia lui xpe use poate scrie :

xuuxa TT == (5.2.2.4)

iar

8/21/2019 RN - Arh&alg

67/232


0][][ == xEuaE T (5.2.2.5)

Variana lui a, sinonimcu valoarea mediei ptratice, este:

uRuuxxEuuxxuEaE TTTTT ==== ][)])([(][ 22 (5.2.2.6)

undeR este matricea de corelaie a vectorului x.

Putem vedea variana 2 a proieciei aca o funcie de vectorul unitate u:

Ruuu T== 2)( (5.2.2.7)

Se pune problema gsirii vectorului unitate u de-a lungul cruia )(u are

valori extreme (minime sau maxime locale).

Se considero perturbaie u , astfel nct:

)()( uuu =+ (5.2.2.8)

Din (5.2.2.7) avem:

=++=+ )()()( uuRuuuu T

uRuRuuRuu TTT )()(2 ++= (5.2.2.9)

Ignornd termenul de gradul 2, Ruu T)( , se obine:

RuuuRuuRuuuu TTT )(2)()(2)( +=+=+ (5.2.2.10)

Aceasta implic, pe baza 5.2.2.8:

( 0) =Ruu T (5.2.2.11)

Nu nsorice perturbaie u a lui ueste admisibil, ci doar acelea pentru care:

1=+ uu

sau echivalent:

1)()( =++ uuuu T

Avnd n vedere i 5.2.2.3 rezult:

0)( =uu T (5.2.2.12)

Aceasta nseamn c u trebuie s fie ortogonal pe u i deci doar o schimbare n

8/21/2019 RN - Arh&alg

68/232


direcia lui ueste permis.

Prin convenie elementele vectorului u sunt adimensionale. Combinnd

ecuaiile 5.2.2.11 i 5.2.2.12 i introducnd factorul de scalare cu aceeai dimensiune

ca i termenul 5.2.2.11 rezult:

0)()( = uuRuu TT (5.2.2.13)

sau echivalent :

uRuuRuu

T

== 0)()( (5.2.2.14)Ecuaia (5.2.2.14) este cunoscut sub denumirea de problema valorilor proprii. Ea

are soluii netriviale (u0) doar pentru nite valori speciale ale lui denumite valori

proprii ale matricii de corelaie R. Valorile corespuntoare lui u se numesc vectori

proprii [5].

Presupunem valorile proprii aranjate n ordine descresctoare:

110 ...... >>>>> pj

Se poate scrie atunci:

RU = U (5.2.2.15)

n care:

U = [u0,, uj,, up-1]

= diag[0,, j,, p-1]

Ecuaia 5.2.2.15 poate fi rescrisastfel :

=RUUT (5.2.2.16)

sau ntr-o formexplicit:

==

jkjkRuu

j

k

T

j,0

, (5.2.2.17)

i deci .1...,,1,0)( , == pju jj

Valoarea practic a metodei analizei componentelor principale este legat de

reducerea dimensionalitii datelor.

Vectorul xpoate fi reconstruit din proiecia sa dupcum urmeaz:

8/21/2019 RN - Arh&alg

69/232


=

==1

0

p

j

jjuaUax (5.2.2.18)

Vom putea reduce numrul trsturilor necesare pentru o reprezentare efectiv a

datelor renunnd la combinaiile liniare din ecuaia 5.2.2.18 care au varianredusi

meninndu-le pe acelea pentru care variana are valori mari:

=

8/21/2019 RN - Arh&alg

70/232


,)( 0qnw pentru n (5.2.3.3)

Mediind n sens statistic ])[( E relaia 5.2.3.2 obinem:

0000 )(0 qRqqRqT= (5.2.3.4)

n care R reprezintmatricea de corelaie a vectorului de intrarex(n):

)]()([ nxnxER T= (5.2.3.5)

Valoarea asimptoticmedie q0 a vectorului ponderilor satisface la echilibru relaia:

000 qRq = (5.2.3.6)

unde:

000 RqqT= (5.2.3.7)

Deducem cq0 este un vector propriu al matriciiR. Fie q0,q1,, qp-1vectorii proprii ai

matricii de corelaie R. Ecuaia (5.2.3.4) este satisfcut de oricare dintre aceti

vectori, dar doar q0corespunztor celei mai mari valori max0 = reprezinto soluie

stabil[5].

Putem concluziona deci cmodelul neuronului liniarla care ponderile sunt

modificate dup o lege de tip hebbian (5.2.1.5) sau echivalent (5.2.3.1) tinde s

extrag prima component principal din vectorul de intrare staionar,

corespunztor celei mai mari valori proprii pentru matricea de corelaie a vectorului de

intrare [20].

5.2.3.1 Algoritmul hebbian generalizat

n continuare se va prezenta succint algoritmul hebbian generalizat (GHA,

Generalized Hebbian Algorithm) propus de Sanger [24] n 1989 precum i o

generalizare a acestuia denumit algoritm hebbian generalizat pentru domeniul complex

(CGHA, Complex Domain Generalized Hebbian Algorithm ) prezentatde Y. Ma i

Y. Zhang [25] n 1997.

8/21/2019 RN - Arh&alg

71/232


Prin intermediul algoritmului GHA vectorii proprii ai matricii de corelaie a

datelor de intrare pot fi dedui iterativ cu ajutorul unei RN cu un singur strat liniar

(fig.5.2.3.1.1).

W1 W1 W1

-yMWM-y2W2-y1W1

X

Fig.5.2.3.1.1 Reeaua pentru implementarea GHA sau CGHA

Presupunem vectorul de intrare de forma :

X=[x1,x2,xN]T (5.2.3.1.1)

Primii M vectori proprii ai matricii de corelaie Rxx=E[XXT], ordonai n manier

descresctoare a valorilor proprii sunt furnizai de urmtorii vectori coloan:

T

NwwwW ]...[ 112111= (5.2.3.1.2)

T

NwwwW ]...[ 222212 = (5.2.3.1.3)

...............................

T

MNMMM wwwW ]...[ 21= (5.2.3.1.4)

Principala problem a algoritmului GHA este gsirea ponderilor Wj

(j=1,2,M). Pentru aceasta se iniializeazWjcu valori aleatoare dupcare ponderilevor fi modificate astfel:

+=+ )()[()()()1( nXnynnWnW jjj

( )

ji

iijj nWnynWny ])()()( (5.2.3.1.5)

n care n reprezintindexul iteraiilor i

8/21/2019 RN - Arh&alg

72/232


)()()( nxnWny Tjj = (5.2.3.1.6)

Sanger aratcWjconverge spre componenta de ordinulja vectorului propriu alRxx.

Ma i Zhang [25] observcalgoritmul este restrns doar la domeniul real i

propun algoritmul CGHA capabil s prelucreze date din domeniul complex (de

exemplu, datele obinute de la o matrice de senzori sunt transformate prin eantionare

n cuadratur n mrimi complexe). n acest caz modificarea ponderilor se va face

dupo regulasemntoare cu cea de la GHA:+=+ )()][([)()()1( nXnyconjnnWnW jjj

ji

iJjj nWnYnWny )]()()()( , j=1,2,M(5.2.3.1.7)

n care conj[yj(n)]este conjugata complexa lui

)()()( nXnWny Hjj = (5.2.3.1.8)

undeHreprezinthermitianul transpus.

5.2.3.2 Algoritmul APEX

APEX (Adaptive Principal Component Extraction) este un algoritm pentru

calculul recursiv al componentelor principale propus de ctre Kung i Diamantoros

[26]. El se bazeazpe observaia cprin utilizarea unei RNA care folosete, pe lng

conexiuni feedforward i conexiuni lateral, cu neuroni interacionnd ntr-o manier

anti-hebbian, ieirile neuronilor corespunztori stratului de ieire vor defini un sistem

de coordonate necorelat chiar dacsemnalele aplicate la intrare sunt puternic corelate.n fig.5.2.3.2.1 este prezentat modelul unei RNA care implementeazacest algoritm.

8/21/2019 RN - Arh&alg

73/232


x1

y0

xp-1

yj

y1x2

aj1

aj0

Fig. 5.2.3.2.1 RNA cu conexiuni laterale care implementeazalgoritmul APEX

Etapele algoritmului APEX sunt urmtoarele:

a) Iniializarea vectorului ponderilor sinaptice feedforward wji vectorului ponderilor

feedback ajcu valori aleatoare mici. Atribuirea unei valori pozitive ratei de nvare ;b) Fiej=0 i pentru n = 1,2,, se va calcula:

)]()()()([)()1(

)()()(

02000

00

nwnynxnynwnw

nxnwny T

+=+

=

n care cux(n) s-a notat vectorul de intrare.

Pentru valori mari ale lui navem:

00 )( qnw

unde q este vectorul propriu asociat celei mai mari valori proprii ale matricii de

corelaie a luix(n).

c) Fiej =1i pentru n=1,2,se calculeaz:

8/21/2019 RN - Arh&alg

74/232


)]()()()([)()1(

)]()()([)()1(

)()()()(

)](),...(),([)(

21

2

1

1101

nanynynynana

nwynxnynwnw

nynanxnwy

nynynyny

jjjjjj

jjjjj

j

T

j

T

jj

T

jj

+=+

+=+

+=

=

d) Se incrementeazj cu o unitate i se continu cu pasul c) pn la j = m-1, cu m

reprezentnd numrul componentelor principale dorite.

Pentru nsuficient de mare avem:

0)(

)(

na

qnw

j

jj

unde qj este vectorul propriu asociat cu

RN - Arh&alg

Documents

Transcript of RN - Arh&alg