RN - Arh&alg
-
Upload
juravle-humaniuc-petru-si-anamaria -
Category
Documents
-
view
230 -
download
0
Transcript of RN - Arh&alg
-
8/21/2019 RN - Arh&alg
1/232
Colecia PRELUCRAREA SEMNALELOR
REELE NEURONALE
Arhitecturi i algoritmi
-
8/21/2019 RN - Arh&alg
2/232
Referent tiinific:Prof.dr.ing. tefan HOLBAN
Descrierea CIP a Bibliotecii Naionale
ISBN 973-9389-66-X
-
8/21/2019 RN - Arh&alg
3/232
Prof.dr.ing. Virgil Tiponu ef lucr.dr.ing. Ctlin-Daniel Cleanu
REELE NEURONALE
Arhitecturi i algoritmi
Colecia PRELUCRAREA SEMNALELOR
EDITURA POLITEHNICA
TIMIOARA 2002
-
8/21/2019 RN - Arh&alg
4/232
Copyright @ Editura Politehnica, 2002
Toate drepturile sunt rezervate editurii. Nici o parte din aceast lucrare nupoate fi reprodus, stocatsau transmisprin indiferent ce form, fracordulprealabil scris al Editurii Politehnica.
EDITURA POLITEHNICABv. Republicii nr.9
1900 Timioara, Romnia
Consilier editorial: Conf.dr.ing. Eugen CICAL
-
8/21/2019 RN - Arh&alg
5/232
Prefa
Reelele neuronale artificiale (RNA) sunt recunoscute ca modele dominante
(paradigme) ale Inteligenei Artificiale (IA). Cu ajutorul lor i gsesc rezolvarea o
varietate largde probleme din mediile tiinifice i inginereti.
Cartea se adreseaz studenilor de la facultile de Electronic i
Telecomunicaii, Automatic i Calculatoare, Informatic dar i tuturor acelora careurmresc rezolvarea unor probleme complexe din varii domenii prin intermediul
metodelor conexioniste. Trebuie subliniatn acest context intenia autorilor de a oferi
o perspectiv inginereasc asupra domeniului reelelor neuronale artificiale,
accentundu-se cu precdere aspectele aplicative. Din acest motiv latura matematic
este redus la mimimul necesar coerenei lucrrii, rezultnd astfel i o accesibilitate
mai mare a discursului.
Prezenta lucrare trateaz aspecte legate de arhitectura i funcionarea
neuronului artificial i a principalelor tipuri de reele neuronale:- RNA de tip perceptron;
- RNA bazate pe funcii radiale;
- RNA recurente;
- RNA cu auto-organizare.
Totodat se prezint i modaliti hibride de implementare a RNA n
conjuncie cu alte paradigme ale IA cum ar fi:
- Logica fuzzy;
- Algoritmii genetici;- nvarea prin ntrire.
n finalul lucrrii este abordatproblematica implementrii RNA iar n ultimul
capitol sunt prezentate cteva aplicaii ale reelelor neuronale. De menionat ilustrarea
anumitor aspecte reprezentative din cadrul acestei cri prin exemple dezvoltate cu
-
8/21/2019 RN - Arh&alg
6/232
ajutorul mediului MATLAB v.6, ultima versiune existent la data redactrii
prezentului material.
Pentru aprofundarea aspectelor practice privind implementarea RNA este
recomandat utilizarea, n paralel cu acest material, a crii Reele neuronale.
Aplicaii aprutn Ed. POLITEHNICA i elaboratde aceeai autori.
Lucrarea a fost realizat, pe baza unei documentri efectuate la University of
STRATHCLYDE, Glasgow, Marea Britanie, n cadrul programului TEMPUS AC-JEP
13438-98 iar autorii in s mulumeasc pe aceast cale coordonatorilor acestui
program. Totodatexprimm mulumiri recenzorului pentru sugestiile utile exprimatedup parcurgerea acestui material precum i cadrelor didactice de la University of
Strathclyde, Glasgow, pentru numeroasele discuii care au contribuit la finalizarea
acestei cri.
Contribuia autorilor la realizarea acestei cri este urmtoarea:
- Prof.dr.ing. V. Tiponu: Capitolele 1, 3, 8 i coordonarea ntregii lucrri;
- .l.dr.ing. C.D. Cleanu: Capitolele 2, 4, 5, 6, i 7.
Autorii
-
8/21/2019 RN - Arh&alg
7/232
Cuprins
CAP.1 Introducere..pag.11
1.1 Reele neuronale artificiale definiie, proprieti...pag.11
1.2 Neuronul biologic.pag.12
1.3 Neuronul artificial....pag.15
1.4 Arhitecturi ale RNA.pag.181.5 Tipuri i algoritmi de instruire.pag.21
CAP.2 Reele neuronale de tip perceptron.pag.29
2.1 Introducere...pag.29
2.2 RNA de tip perceptron cu un singur neuronpag.29
2.2.1 Perceptronul simplu.pag.30
2.2.2 RNA Adaline. Algoritmul LMS..pag.32
2.2.3 Deducerea regulilor de modificare a ponderilor pentru cazul
perceptronului simplupag.34
2.2.4 Consideraii asupra valorii ratei de nvare (instruire)pag.35
2.2.5 Capacitatea perceptronului simplu...pag.36
2.3 RNA de tip perceptron cu mai multe straturi...pag.37
2.3.1 Algoritmul de antrenament..pag.37
2.3.2 Algoritmi rapizi de antrenament pentru RNA cu propagare
nainte a semnalului..pag.45
2.3.2.1 Metoda lui Newton...pag.45
2.3.2.2 Metoda LevenbergMarquardt.pag.46
2.3.2.3 Metode de tip cvasiNewton....pag.47
2.3.2.4 Metode bazate pe gradientul conjugat..pag.48
CAP.3 Reele neuronale bazate pe funcii radiale..pag.51
3.1 Introducere...pag.51
-
8/21/2019 RN - Arh&alg
8/232
3.2 Problema interpolriipag.53 3.3 Strategii de nvare pentru RNA bazate pe funcii radiale..pag.55
CAP.4 Reele neuronale recurente..pag.59
4.1 Introducere...pag.59
4.2 RNA de tip Hopfield (RNA-H)pag.59
CAP.5 Reele neuronale cu autoorganizare...pag.63
5.1 Introducere...pag.63
5.2. Reele neuronale cu autoorganizare i algoritm de nvare de tip hebbianpag.63
5.2.1 Reele neuronale cu un singur neuron liniar.pag.65
5.2.2 Analiza componentelor principale. Reducerea dimensionalitii.pag.66
5.2.3 Analiza componentelor principale prin reele neuronale cu
autoorganizare..pag.69
5.2.3.1 Algoritmul hebbian generalizatpag.70
5.2.3.2 Algoritmul APEX.pag.72
5.2.3.3 Analiza neliniara componentelor principale..pag.74
5.3 Reele neuronale cu autoorganizare i nvare de tip competitivpag.76
5.3.1 Reele neuronale cu autoorganizare i nvare
competitivsimpl...pag.77
5.3.2 Reele neuronale cu autoorganizare tip hartde trsturi....pag.83
5.3.3 Algoritmi SOFM mbuntii..pag.87
5.3.4. Cuantizarea vectorial(VQ, Vector Quantization).
nvarea prin cuantizare vectorial(LVQ, Learning VQ)....pag.96
CAP.6 Sisteme hibride inteligente.pag.101
6.1 Introducere.pag.1016.2 Algoritmi genetici. Strategii de evoluie. Programare evolutivpag.104
6.2.1 Introducere.pag.104
6.2.2 Proiectarea unui algoritm evolutiv.pag.106
6.3 Sisteme hibride neuro-genetice..pag.112
6.4. Sisteme cu logicfuzzy.pag.115
-
8/21/2019 RN - Arh&alg
9/232
6.5 Sisteme hibride neuro-fuzzy...pag.120
6.6 nvarea prin ntrire.....pag.136
6.6.1. Preliminarii....pag.136
6.6.2. Compromisul dintre fazele de explorare i exploatare..pag.138
6.6.3. Modelul nvrii prin ntrire...pag.139
6.6.4. Modele pentru evaluarea comportamentului.pag.141
6.6.5. Algoritmi specifici nvrii prin ntrire..pag.142
6.6.5.1. Metode bazate pe valoarea aciunilorpag.142
6.6.5.2. Metode bazate pe programarea dinamic..pag.1446.6.5.3. Metode de tip Monte Carlo...pag.145
6.6.5.4. Diferena temporal...pag.147
6.6.6. Aplicaii ale reelelor neuronale artificale bazate pe
nvarea prin ntrire...pag.153
CAP.7 Implementarea reelelor neuronale..pag.157
7.1 Introducere.pag.157
7.2. Implementarea software (printr-un limbaj de programare)..pag.157
7.3. Implementarea hardware...pag.159
7.3.1. Implementarea analogic...pag.159
7.3.2 Implementarea digital...pag.167
7.3.2.1 Procesoare paralele de uz general..pag.167
7.3.2.2 Procesoare dedicate pentru calcul neuronal...pag.167
7.3.2.3 Circuite digitale VLSI dedicate RNApag.168
7.3.3 Implementri hibride..pag.171
7.3.4 Implementarea optic.pag.176
CAP.8 Aplicaii ale reelelor neuronale..pag.179
8.1 Introducere.....pag.179
8.2 Problema XOR...pag.180
8.3 Problema paritii...pag.181
8.4. Problema codrii...pag.181
8.5 Sinteza vorbirii...pag.182
-
8/21/2019 RN - Arh&alg
10/232
8.6 Recunoaterea automata vorbirii.pag.184
8.7 Detecia i recunoaterea facial....pag.186
8.7.1 Arhitectura i implementarea unui sistem de detecie i recunoatere
automata feei..pag.186
8.7.2 Rezultate experimentale.pag.190
8.7.2.1 Influena folosirii tehnicii de extragere a trsturilor
de tip operator de interes asupra procesului de recunoatere
facial.pag.192
8.7.2.2 Influena rezoluiei imaginii faciale i a dimensiunilor ferestreide extragere a trsturilor asupra performanelor procesului de
recunoatere facial....pag.194
8.7.2.3 Influena folosirii unor arhitecturi paralele i ierarhice de
RNA-MLP asupra procesului de recunoatere facial...pag.196
8.7.3 Comparaie cu alte sisteme de recunoatere facial...pag.196
8.7.4 Implementarea MATLAB a sistemului de detecie i recunoatere
facialbazat pe reele neuronalepag.199
ANEXA 1pag.203 ANEXA 2pag.209
ANEXA 3pag.213
ANEXA 4pag.217
Bibliografiepag.223
-
8/21/2019 RN - Arh&alg
11/232
CAPITOLUL 1Introducere
1.1Reele neuronale artificiale definiie, proprieti
Reelele neuronale artificiale (RNA), denumite uneori procesoare paralel
distribuite, neurocomputere sau modele conexioniste, reprezint o ncercare de asimula, cel puin parial , structura i funciile creierului specifice organismelor vii.
Ca o definiie general, se poate spune c RNA reprezint un sistem de
procesare al semnalelor, compus dintr-un numr mare de procesoare elementare
interconectate, denumite neuroni artificiali sau noduri, i care coopereaz pentru
rezolvarea unor sarcini specifice. Modalitatea de adaptare la condiiile specifice
mediului const n modificarea ponderilor asociate conexiunilor dintre neuroni i
eventual a structurii RNA.
Astfel de modele conexioniste ofer anumite avantaje, caracteristice
sistemelor neuronale reale (biologice) i care nu sunt ntlnite n cazul sistemelor de
calcul tradiionale, secveniale [1]:
O proprietate deosebit de importanta RNA este aceea de a nvai de a se
adapta;
Posibilitatea de a opera cu date imprecise;
Capacitatea de generalizare, n sensul n care RNA va opera corect i cu
date de intrare care nu au fost prezentate n timpul procesului de antrenament;
Datorit gradului ridicat de paralelism , funcionarea defectuoas sau chiar
pierderea unui numr de neuroni nu afecteaz semnificativ performana
sistemului global. RNA reprezintdeci sisteme tolerante la erori;
Capacitatea de a aproxima orice funcie continu neliniar cu gradul de
acuratee dorit. Astfel RNA pot fi folosite cu succes n modelarea sistemelor
neliniare;
-
8/21/2019 RN - Arh&alg
12/232
- 12 - CAP.1 Introducere
Datorit numrului mare de intrri i ieiri, RNA modeleaz cu uurin
sisteme multivariabil;
Implementrile hardware ale RNA, de exemplu prin intermediul circuitelor
integrate pe scar larg (VLSI), fac posibil utilizarea RNA pentru cazul
aplicaiilor n timp real.
1.2 Neuronul biologic
Creierul uman const dintr-o reea de 1010...1011 neuroni puternic
interconectai. n fig.1.2.1 este prezentat structura [2] unei celule nervoase. Se pot
distinge urmtoarele pri constituente [3]:
Soma sau corpul celulei reprezint partea central a celulei care realizeaz
majoritatea funciilor logice ale neuronului. Corpul celulei conine
mecanismul genetic i metabolic necesar meninerii activitii neuronului.
Axonul (ieirea celulei) reprezint o prelungire a corpului celulei
(citoplasm), unici n general nearborizat. Funcia axonilor este aceea de a
conduce influxul nervos de la corpul celular la dendritele sau corpul celular al
altui neuron sau la o celulefectoare.
Dendritele(intrrile neuronului) sunt prelungiri ale citoplasmei relativ scurte,
groase i bogat ramificate. Funcia lor este aceea de a recepiona excitaii i de
a le conduce pnla corpul neuronului . n funcie de tipul neuronului el poate
avea pnla 104dendrite.
-
8/21/2019 RN - Arh&alg
13/232
1.2 Neuronul biologic - 13 -
AXON
TEACDE MIELIN
RETICUL ENDOPLSMATIC
MITOCONDRIE
NUCLEU
SINAPSE
Fig.1.2.1 Structura celulei nervoase (neuron) ncorporeazmaterialul genetic i un aparat metaboliccomplex.
Contactul dintre neuroni se realizeazprin intermediul sinapselor. Sinapsele
dintre doi neuroni se realizeaz n trei feluri: ntre butonii terminali ai
axonului unui neuron i dendritele altui neuron (sinapse axo-dendritice); ntre
butonii terminali ai axonului unui neuron i corpul altui neuron (sinapse axo-
somatice); ntre butonii terminali ai axonului unui neuron poriunea incipient
a axonului altui neuron (sinapse axo-axonale). Din punct de vederefuncional, sinapsele sunt de dou feluri: excitatorii i inhibitorii. Stocarea
informaiei n neuroni se presupune c este efectuat prin intermediul
conexiunilor sinaptice, mai precis prin tiparele pe care le formeazacestea i
prin ponderea pe care o are fiecare legturn parte.
-
8/21/2019 RN - Arh&alg
14/232
- 14 - CAP.1 Introducere
Conform acestui model simplificat al neuronului, corpul celulei primete
semnale de la ali neuroni prin intermediul conexiunilor sinaptice ajustabile. Cnd un
neuron este excitat, produce impulsuri nervoase care sunt transmise, fr atenuare,
de-a lungul axonului, spre ali neuroni. Rata impulsurilor ieirii neuronului depinde
att de intensitatea semnalelor de intrare ct i de ponderile sinaptice aferente acestora.
Se poate spune cneuronul opereazntr-o formmixt, digital-analogic. Informaia
transmisntre neuroni, sub forma inpulsurilor nervoase (poteniale de aciune), poate
fi consideratsemnal digital. Densitatea impulsurilor este cea care codeazinformaiai poate fi privit ca un semnal analogic. n fig.1.2.2 se ofer o reprezentare
schematica neuronului biologic din perspectiva teoriei prelucrrii informaiei.
Conversie neliniarn poteniale de aciune
Ieirea neuronului(poteniale deaciune)
Axon
Sinapse(memorie i demodulare)
DendriteSoma
Prag
Intrri neuronale(poteniale de
aciune)
Fig.1.2.2 Modelul simplificat al neuronului biologic considerat din punctul de vedere al teoriei
informaiei
-
8/21/2019 RN - Arh&alg
15/232
1.3 Neuronul artificial - 15 -
1.3 Neuronul artificial
Neuronul artificial denumit uneori procesor elementar sau, mai simplu nod,
ncearc s imite structura i funcionarea neuronului biologic. Exist numeroase
modele prezentate n literatur[4], dar cel mai rspndit are la bazmodelul elaborat
de McCulloch-Pitts n 1943. Astfel se poate considera cneuronul artificial [5] este
format dintr-un numr de intrri, fiecare dintre acestea fiind caracterizatde propria
pondere sinaptic. De exemplu, semnalul xj prezent la intrarea sinapsei j este
conectat la neuronul k prin multiplicare cu ponderea wkj(fig.1.3.1).
x1
xj
xN k
uk ykwkj
wkN
wk1
Fig. 1.3.1 Modelul neuronului artificial
O alt component a modelului neuronului artificial prezentat n fig.1.3.1 o
reprezintsumatorul destinat nsumrii intrrilor ponderate.
Rezultatul obinut n urma nsumrii:
= =N
j
jkjk xwu1
(1.3.1)
este denumit intrare net.
Pentru limitarea amplitudinii semnalului de ieire al neuronului, acesta este
prevzut cu o funcie de activare )( :
)()( kkkkk buuy +== (1.3.2)
-
8/21/2019 RN - Arh&alg
16/232
- 16 - CAP.1 Introducere
n care k reprezintvaloarea pragului de activare(treshold) al neuronului. Uneori
intrarea neteste majoratprin termenul bkdenumit factor al deplasrii scrii (bias);
deplasarea scrii reprezintdeci negativul pragului de activare.
Valoarea:
kkk uv = (1.3.3)
poartdenumirea de potenial de activare.
n ceea ce privete tipul funciei de activare, aceasta este de regulo funcie
neliniar; n cele ce urmeazse va face o prezentare a celor mai rspndite tipuri de
funcii de activare (fig.1.3.2):
Funcia prag:
=altfel
dac vv
0
01)( (1.3.4)
Funcia prag simetricsau funcia signum:
=
altfel
dac vv
1-
01)( (1.3.5)
Funcia sigmoid:
.,1
1)( cta
ev
av =
+=
(1.3.6)
Funcia tangenthiperbolic:
v
v
e
ev
2
2
1
1)(
+
= (1.3.7)
Funciile sigmoid i tangent hiperbolic reprezint unele dintre funciile de
activare cel mai des folosite la implementarea RNA, unul dintre motive
reprezentndu-l calculul simplu al derivatelor acestora.
Funcia liniar:
vv =)( (1.3.8)
Funcia liniarcu saturaie:
-
8/21/2019 RN - Arh&alg
17/232
1.3 Neuronul artificial - 17 -
>
-
8/21/2019 RN - Arh&alg
18/232
- 18 - CAP.1 Introducere
Din punct de vedere al implementrii este practic imposibil i chiar ineficient
ca modelul artificial al neuronului s copieze exact comportamentul i
structura celui biologic.
RNA sunt proiectate pentru rezolvarea unor probleme specifice i deci
arhitectura i trsturile RNA depind de problema pe care trebuie so rezolve.
Un neuron real produce la ieire o secven de impulsuri i nu o anumit
valoare cum este cazul celui artificial. Reprezentarea ratei de activare printr-
un singur numr (yk) ignorinformaia care ar putea fi coninutde exemplu
n faza impulsurilor.
Unele celule nervoase biologice efectueaz o nsumare neliniar a intrrilor.
Pot exista chiar operaii logice (I, SAU, NU) efectuate la nivelul dendritelor.
Ieirile neuronilor nu se modific n mod sincron i nu toi au acelai tip de
ntrziere.
Cantitatea de substan transmitoare (mediator chimic) eliberat la nivelul
sinapsei poate svarieze ntr-un mod imprevizibil. Fenomenul este aproximat
grosier prin intermediul funciei de activare.
1.4 Arhitecturi ale RNA
Se pot distinge doumari categorii n modul de structurare al unei RNA:
RNA feedforward(cu propagare nainte).
Sunt caracterizate de prezena unui strat de neuroni de intrare, un numr de
straturi ascunse (posibil i fr) i un strat de neuroni de ieire.
n fig.1.4.1 este prezentat arhitectura unei RNA feedforward cu un singur
strat ascuns. Definitoriu pentru acest tip de RNA este faptul c un neuron primete
semnale doar de la neuroni aflai n stratul/straturi precedent/precedente. Se spune
-
8/21/2019 RN - Arh&alg
19/232
1.4 Arhitecturi ale RNA - 19 -
despre o RNA ceste total conectatdacfiecare nod din fiecare strat este conectat la
fiecare neuron din stratul precedent (fig.1.4.1).
Dac anumite conexiuni sinaptice lipsesc se spune c RNA este parial
conectat(fig.1.4.2). RNA total conectate au un caracter general, n sensul n care pot
fi folosite ntr-o gamlargde probleme, dar rezultatele nu sunt ntotdeauna cele mai
bune [7]. RNA parial conectate introduc anumite restrngeri, care reprezint tocmai
cunotine apriorice despre problema de rezolvat i care reduc gradul de generalitate al
unei RNA. Prin restrngerea cmpului de recepie al neuronilor se efectueaz oextragere a trsturilor locale iar n straturile ce urmeaz acestea sunt combinate
pentru a se forma trsturi de ordin superior. Astfel, RNA parial conectate pot da
rezultate mai bune dect RNA total conectate n rezolvarea anumitor probleme
specifice, cu condiia exploatrii cunotinelor apriorice despre problema dat.
Fig. 1.4.1 RNA feedforward total conectat
-
8/21/2019 RN - Arh&alg
20/232
- 20 - CAP.1 Introducere
Fig.1.4.2 RNA feedforward parial conectat
RNA recurente(feedback, cu propagare napoi).
RNA recurente se individualizeazprin existena unui semnal de reacie, din
partea neuronilor de ordin superior, pentru cei de ordin inferior sau chiar pentru
propriile lor intrri (fig.1.4.3).
Fig.1.4.3 RNA recurent
-
8/21/2019 RN - Arh&alg
21/232
1.5 Tipuri i algoritmi de instruire - 21 -
1.5 Tipuri i algoritmi de instruire
RNA achiziioneazcunotinele prin instruire (nvare). nvarea presupune
adaptarea parametrilor liberi ai RNA (ponderi, praguri, ratde nvare, uneori chiar
forma funciei de activare sau structura reelei) ca urmare a stimulilor mediului n care
se gsete reeaua.
Vectorii de instruire sunt prezentai RNA n mod secvenial iar ponderile
sinaptice, care memoreazpractic cunotinele reelei, sunt adaptate pentru a extrageinformaia pe care aceti vectori o conin.
Tipul de nvre este determinat de maniera n care sunt ajustai parametrii
liberi ai RNA.
Dei n literatura RNA [1], [5], [8] existo mare diversitate de opinii n ceea
ce privete modul de clasificare al algoritmilor i tipurilor de nvre, fig.1.5.1
ncearcssintetizeze principalele direcii.
TIPURI DE INSTRUIRE
SUPERVIZAT NESUPERVIZAT PRIN NTRIRE
(CU AUTOORGANIZARE)
HEBBIAN COMPETITIV
CORECIA ERORILOR BOLTZMAN (STOCHASTIC)
WIDROW-HOFF PROPAGAREA NAPOI A ERORII
(LMS sau REGULA DELTA)
Algoritmi
Fig.1.5.1 Tipuri i algoritmi de instruire
-
8/21/2019 RN - Arh&alg
22/232
- 22 - CAP.1 Introducere
nvarea de tip supervizat
Este caracterizat de prezena unui supervizor care cunoate cu exactitate
modul de asociere al intrrilor RNA cu ieirile acesteia, conform fig.1.5.2.
SUPERVIZOR
SISTEMSUPUS
NVRII
Rspunsactual
Vector deintrare
Semnal de eroare
Rspuns dorit
+
-
Fig.1.5.2 Arhitectura unui sistem cu nvare supervizat
Parametrii RNA sunt modificai sub influena combinata vectorilor de antrenament i
a semnalului de eroare (diferena dintre rspunsul dorit i cel actual). Scopul final al
algoritmului de antrenament este ca RNA s emuleze, optim n sens statistic,
supervizorul.
nvarea de tip nesupervizat (cu autoorganizare)
Este caracterizat de absena unui semnal sau supervizor care s aprecieze
corectitudinea asociaiilor intrare-ieire (fig.1.5.3). RNA va descoperii singur
legitile coninute n datele de intrare printr-o reprezentare intern adecvat a
trsturilor vectorului de intrare.
-
8/21/2019 RN - Arh&alg
23/232
1.5 Tipuri i algoritmi de instruire - 23 -
SISTEMSUPUS
NVRII
Vector deintrare
Fig.1.5.3 Sistem cu nvare de tip nesupervizat
nvarea prin ntrire
Urmrete maximizarea unei mrimi scalare (indice de performan sau
semnal de ntrire) n urma unei aciuni efectuate de ctre sistemul supus nvrii.
Dacmodificrile aduse conduc spre o stare mai bundect cea precedent, tendina
sistemului de a produce acea aciune particulareste ntrit.
Algoritmi de nvare bazai pe corecia erorii
Fie x(n) vectorul de intrare aplicat unei RNA. Dac se noteaz ieirea
neuronului k prin yk(n), semnalul de eroare poate fi definit ca fiind diferena dintre
ieirea doritpentru neuronul k i ceea ce furnizeazn etapa actualde ctre acelai
neuron:
e n d n y nk k k( ) = ( ) - ( ) (1.5.1)
Scopul final al algoritmilor bazai pe corecia erorii este de a minimiza aa-numita
funcie de cost. Unul dintre criteriile frecvent utilizate n alegerea func iei de cost este
cel al erorii ptratice medii - care urmrete minimizarea valorii medii ptratice
pentru suma erorilor ptratice aferente stratului de ieire al RNA:
=
k
k neEJ )(2
1 2 (1.5.2)
n care E[.] semnificmedia n sens statistic.
-
8/21/2019 RN - Arh&alg
24/232
- 24 - CAP.1 Introducere
Una dintre metodele de minimizarea a funciei de cost J n raport cu parametrii
RNA este metoda gradientului descendent.
De cele mai multe ori proprietile statistice ale procesului nu sunt cunoscute.
n acest caz se ofer o soluie aproximativ pentru problema de optimizare, prin
utilizarea drept funcie de cost a valorii instantanee a sumei erorilor ptratice:
=k
k nen )(2
1)( 2 (1.5.3)
O metodn acest sens o oferWidrow i Hoff (regula delta):
)()())(()( nxnew
yne
wnw jk
jk
kk
jk
kj
=
=
= (1.5.4)
n care reprezintrata de nvre a RNA.
Graficul aplicaiei J n funcie de ponderile RNA poart denumirea de
suprafaa erorii.
Exemplul 1.1 Se urmrete reprezentarea suprafeei erorii pentru cazurile unui
element liniar (fig.1.5.3) respectiv pentru cazul unui element neliniar (1.5.4) folosind
mediul MATLAB 5.3. Codul surseste urmtorul:
%Exemplu de reprezentare a suprafetei erorii
%pentru cazurile unui neuron liniar respectiv neliniar
%Catalin-Daniel Caleanu, 2000
clear
%definire perechi de valori intrare(p, pattern)-iesire(t, target)p = [-6.0 -6.1 -4.1 -4.0 +4.0 +4.1 +6.0 +6.1];
t = [+0.0 +0.0 +.97 +.99 +.01 +.03 +1.0 +1.0];
%definire ponderi (w, weights), deplasari de scara (b, biases)
wv = -1:.1:1; bv = -2.5:.25:2.5;
-
8/21/2019 RN - Arh&alg
25/232
1.5 Tipuri i algoritmi de instruire - 25 -
Fig.1.5.3 Suprafaa erorii pentru cazul unui neuron liniar
Fig. 1.5.4 Suprafaa erorii pentru cazul unui neuron neliniar
-
8/21/2019 RN - Arh&alg
26/232
- 26 - CAP.1 Introducere
%calculul si afisarea suprafetei erorii
es = errsurf(p,t,wv,bv,'purelin');
plotes(wv,bv,es,[60 30])
figure
es = errsurf(p,t,wv,bv,'logsig');
plotes(wv,bv,es,[60 30])
Se poate desprinde ideea conform creia minimizarea erorii unui neuron liniareste mai uoardect minimizarea unui neuron neliniar (sigmoidal). Doar pentru cazul
elementului liniar eroarea are un minim global; n rest suprafa a erorii poate avea
minime locale.
Algoritmi de nvare de tip Boltzmann
Sunt inspirai din teoria informaiei i din termodinamic, neuronii constituind
o structurrecurentcaracterizatde aa-numita funcie energie:
=i j
ijji sswE 2
1 (1.5.5)
unde si reprezint starea neuronului i, adic +1 (neuron activ) sau -1 (neuron
inactiv).
Maina Boltzmann opereaz prin alegerea aleatoare a unui neuron i
schimbarea strii acestuia. Astfel schimbarea ponderilor se va face innd cont de
corelaiile dintre starea neuronului i i cea a neuronului j.
Algoritmi de nvare de tip hebbian
Conform postulatului lui Hebb, modificarea ponderii sinaptice wkj este
dependentde activitatea pre- i postsinaptic:
-
8/21/2019 RN - Arh&alg
27/232
1.5 Tipuri i algoritmi de instruire - 27 -
))(),(()( nxnyFnw jkkj = (1.5.6)
O formparticulara ec. (1.5.6) este:
)()()( nxnynw jkkj = (1.5.7)
cu o constantpozitivreprezentnd rata de nvare. Dezavantajul acestei reguli l
reprezint faptul c ea conduce la o cretere exponenial a wkj. Una din metodele
propuse ulterior presupune introducerea unui termen de uitare (forgetting factor)
[10]:)()()()()( nwnynxnynw kjkjkkj = (1.5.8)
Algoritmul de nvare de tip competitiv
Este caracterizat de competiia ntre neuronii de ieire ai RNA, ctigatorul
acesteia urmnd sfie activat. Spre deosebire de RNA care se bazeazpe algoritmi de
nvare de tip hebbian i la care existposibilitatea ca mai muli neuroni sfie activi
simultan, la RNA bazate pe algoritmi de nvare de tip competitiv doar un singur
neuron este activ la un moment dat.
Practic, fiecare neuron al unei astfel de RNA va deveni specializat, n urma
procesului de nvare, n recunoaterea unei anumite trsturiprezent n datele de
intrare. Acest lucru este posibil avnd n vedere modalitatea de adaptare a ponderilor:
=altfel
iacompetistigatcajneuronuldacwxw
jij
ji,0
t""),( (1.5.9)
Prin aceasta, ponderea wja neuronului j, ctigator al competiiei, se apropie i maimult de tiparul xprezentat la intrare.
-
8/21/2019 RN - Arh&alg
28/232
- 28 - CAP.1 Introducere
-
8/21/2019 RN - Arh&alg
29/232
CAPITOLUL 2Reele neuronale de tip perceptron
2.1 Introducere
Se urmrete n cadrul acestui capitol prezentarea unei clase deosebit de
importante de RNA de tip cu propagare nainte a semnalului (feedforward). Este vorbade RNA perceptron simplu respectiv o generalizare a acestuia, perceptronul multistrat
(RNA-MLP, Multilayer Perceptron). Printre primii autori care au fundamentat
principiile teoretice legate de perceptronul simplu/multistrat se regsesc Rosenblatt
[11], Widrow [12] i respectiv Rumelhart, Hinton,Williams [13]. Cei din urmautori
fundamenteaz i celebrul algoritm de antrenament pentru RNA-MLP i anume
algoritmul cu propagare napoi a erorii (BP, backpropagation). Toate aceste aspecte
sunt extensiv tratate de ctre S.Haykin n una dintre cele mai bune cri referitoare la
domeniul RNA [5].
Interesul deosebit fade aceste reele neuronale a fost generat, printre altele,
de capacitatea acestora de a generaliza adic de a opera cu date diferite de cele
prezentate n etapa de antrenament i de a nva plecnd de la o distribuie aleatoare a
ponderilor sinaptice ale reelei. n consecin acest tip de reele poate fi folosit cu
succes n diversele aplicaii ce conin clasificatori.
2.2 RNA de tip perceptron cu un singur neuron
Se prezintn continuare arhitectura i algoritmii de antrenament pentru cazul
RNA cu un singur neuron: perceptronul simplu i RNA ADALINE antrenat cu
algoritmul LMS. Perceptronul simplu are o aplicabilitate practic limitat datorit
valorii binare a ieirii sau datorit imposibilitii clasificrii tiparelor (vectorilor de
intrare) neliniari. El se constituie ns ca punct de plecare n studiul perceptronului
-
8/21/2019 RN - Arh&alg
30/232
- 30 - CAP.2 Reele neuronale de tip perceptron
multistrat.
2.2.1 Perceptronul simplu
Arhitectura unei astfel de RNA este prezentatn fig. 2.2.1.1. Se poate afirma
cperceptronul simplu reprezint o particularizare a modelului McCulloch-Pitts al
neuronului artificial pentru cazul n care funcia de activare este de tip treaptunitate
bipolar.
vx2
x1
xN
IEIRE
INTRRI
-1
w1
wN
y
e
+1
-1
d
(v)
-
Fig. 2.2.1.1 Arhitectura perceptronului simplu.
Scopul perceptronului simplu este de a clasifica n una din cele dou clase
disponibile (y = +1 sau y = -1) un set de stimuli exteriori.
Funcionarea sa pote fi descrisprin urmtoarele ecuaii:
=
=N
i
ii xwv1
(2.2.1.1)
+===
2
1
)(,1
)(,1)sgn()(
Cndac
Cndacvvy
x
x (2.2.1.2)
Regiunile de decizie vor fi separate de ctre un hiperplandefinit de relaia:
01
==
N
i
ii xw (2.2.1.3)
-
8/21/2019 RN - Arh&alg
31/232
2.2 RNA de tip perceptron cu un singur neuron - 31 -
Ca i particularizare pentru cazul N = 2 ecuaia (2.2.1.3) ia forma:
02211 =+ xwxw (2.2.1.4)
ceea ce reprezint ecuaia unei drepte n planul x2Ox1. n acest caz, tiparele vor fi
separate printr-o dreapt. Un exemplu de astfel de problem liniar separabil l
constituie funcia I logic iar ca i contraexemplu se poate considera funcia SAU-
EXCLUSIV (fig.2.2.1.2). Pentru cazul N = 3 ec.(2.2.1.3) descrie un plan iar pentru
N > 3 un hiperplan.
I SAU Exclusiv
x1 x2 y x1 x2 Y
0 0 0 0 0 0
0 1 0 0 1 1
1 0 0 1 0 1
1 1 1 1 1 0
Funcia I
x2
x1
Funcia SAU-EXCLUSIV
x2
x1
Fig.2.2.1.2 Tabela de adevr i ilustrarea separabilitii funciilor logice I i SAU-EXCLUSIV.
n concluzie, perceptronul simplu poate fi folosit cu succes doar n cazul
particular al clasificrii tiparelor liniar separabile, adica tiparelor care sunt situate,
ntr-un caz general, de-o parte i de alta al unui hiperplan. Avnd n vedere notaiile
urmtoare:
-
8/21/2019 RN - Arh&alg
32/232
- 32 - CAP.2 Reele neuronale de tip perceptron
T
N nxnxnxn )](),...,(),(,1[)( 21=x = vector de intrare;
T
N nwnwnwnn )](),...,(),(),([)( 21=w = vectorul ponderilor sinaptice;
(n)= prag;
y(n)= rspuns actual;
d(n)= rspuns dorit;
(n)= ratde nvare, de regul0 < < 1.
paii algoritmului (tip Rosenblatt) de antrenament aferent perceptronului simplu vor fi:a) Iniializarea: w(0) = 0;
b) Calcul rspuns actual: )]()(sgn[)( nnny T xw= , n care funcia sgn(.) reprezint
funcia signum.
c) Modificarea ponderilor sinaptice: )()])()([)()1( nnyndnn xww +=+
n care :
+=
2
1
)(,1
)(,1)(
Cndac
Cndacnd
x
x
d) Incrementarea lui ncu o unitate i salt la pct.b)
2.2.2 RNA Adaline. Algoritmul LMS
Algoritmul celor mai mici ptrate (LMS - Least Mean Square), cunoscut i
sub denumirea de algoritmul Widrow-Hoff sau regula delta, este destinat antrenrii
unei RNA formatdintr-unsingur neuron liniar. Ceea ce l difereniazde algoritmul
de antrenament al perceptronului simplu este modul de calcul al semnalului de
eroare, care n acest caz nu este cuantizat iar funcia de activare poate fi liniar.
Avnd n vedere aceste aspecte, algoritmul LMS poate fi formulat n modul
urmtor:
a) Etapa de iniializare: pentru wk(0) = 0, k = 1,2, ..., N
b) Etapa de filtrare:
-
8/21/2019 RN - Arh&alg
33/232
2.2 RNA de tip perceptron cu un singur neuron - 33 -
=
=N
j
jj nxnwny0
)()()(
)()()( nyndne =
Nknxnenwnw kkk ,...,2,1),()()()1( =+=+
Formularea algoritmului LMS s-a fcut din perspectiva unei filtrri spaiale.
El poate fi utilizat n aceeai msurn rezolvarea problemelor de filtrare temporal,
considernd cx(n) reprezinteantioane ale vectorului de intrare la momente de timp
diferite:
TNnxnxnxn )]1(),...,1(),([)( +=x (2.2.2.1)
RNA ADALINE (Adaptive Linear Element) folosete algoritmul de
antrenament LMS (Widrow-Hoff) n scopul clasificrii tiparelor. Structura ei este
prezentatn fig. 2.2.2.1
n timpul etapei de antrenament, tiparele sunt aplicate direct RNA, ea urmnd
sdescopere singurcaracteristicile acestora. Experiena acumulatde ctre RNA este
coninutn valorile w1, ..., wNi .
yx2
x1
xN-
e
-
d
w1
wN
v
Fig.2.2.2.1 Structura RNA ADALINE.
-
8/21/2019 RN - Arh&alg
34/232
- 34 - CAP.2 Reele neuronale de tip perceptron
2.2.3 Deducerea regulilor de modificare a ponderilor pentru cazul
perceptronului simplu
Algoritmul de modificare a ponderilor urmrete minimizarea erorii la nivelul
neuronului sau al stratului neuronal de ieire.
Se definete eroarea la nivelul neuronului de ieire k:
)()()( nyndne kkk = (2.2.3.1)
Pentru cuantificarea erorii la nivelul neuronului/neuronilor de ieire se
definete o funcie de cost, uneori denumiti criteriu de performan[14]. O posibil
formpentru aceasta este:
])(2
1[ 2=
k
k neEJ (2.2.3.2)
cu E[.] reprezentnd media n sens statistic.
Una dintre metodele folosite pentru obinerea minimului funciei J este bazat
pe gradientul acesteia. Ilustrarea metodei pailor descendeni se poate face prinurmtoarea figur:
Punct de minim
w0 wnwn+1
J
ponderi
Jn = )(w
JJ
=
w
Fig.2.2.3.1 Ilustrarea grafica metodei pailor descendeni
-
8/21/2019 RN - Arh&alg
35/232
2.2 RNA de tip perceptron cu un singur neuron - 35 -
Conform acestei metode incrementul de modificare a ponderilor este dat de
ecuaia:
ww
==
JJn )( (2.2.3.3)
Pentru cproprietile statistice nu sunt de regulcunoscute, se poate folosi n
loc de J, suma erorilor ptratice instantanee:
=k
kav nenE )(
2
1)( 2 (2.2.3.4)
De aici rezult:
=
=
k
kk
av nenenE
nww
w)(
)()(
)( (2.2.3.5)
dar: ))(()()()()( nvndnyndne kkkkk == (2.2.3.6)
n care reprezintfuncia de activare i vkpotenialul de activare. Rezultastfel:
=k
k nnvknen )())(()()( xw (2.2.3.7)
Pentru cazul prezentat anterior, k=1 i = sgn, se obine:
)())()(()()()( nnyndnnen xxw == (2.2.3.8)
2.2.4 Consideraii asupra valorii ratei de nvare (instruire)
n cazul algoritmilor de antrenament prezentai anterior rata de nvare
trebuie ssatisfaccondiia:
0 < < 1, =ct.pentru a asigura convergena algoritmului.
Daceste aleasla o valoare prea mic, rezultun proces lent de nvare,
vectorul pondere modificndu-se foarte puin de la o iteraie la alta. Daceste prea
mare, algoritmul poate snu sesizeze punctul de minim, ceea ce conduce la un proces
de nvare oscilant care s-ar putea snu conveargniciodat.
-
8/21/2019 RN - Arh&alg
36/232
- 36 - CAP.2 Reele neuronale de tip perceptron
Exist diverse procedee (fig.2.2.4.1) prin care rata de nvare poate fi
modificatde-alungul epocilor de antrenament, obinndu-se astfel o ratde nvare
variabil:
Metoda aproximrii stochastice: .,)( ctcn
cn ==
Metoda cautapoi converge: .,,1
)( 00 ctn
n =+
=
Nr. de epoci (iteraii) de antrenament
Algoritm standard
Cautapoi converge
Aproximareastochastic
(n)
0
Fig.2.2.4.1 Metode de modificare a ratei de nvare
2.2.5 Capacitatea perceptronului simplu
Se referla numrul de tipare maxim, pmax, care poate fi stocat ntr-o reea cu
N intrri. Pentru cazul unitilor care furnizeaz valori continue (liniare sau
neliniare) numrul maxim de tipare intrare-ieire este dat de condiia de independen
liniar:
pmaxN
Pentru cazul unitilor cu neliniaritate de tip prag:
pmax= 2N
-
8/21/2019 RN - Arh&alg
37/232
2.3 RNA de tip perceptron cu mai multe straturi - 37 -
2.3 RNA de tip perceptron cu mai multe straturi
Perceptronul multistrat (RNAMLP, Multilayer Perceptron) reprezint o
generalizare a perceptronului simplu prezentat n capitolul anterior. Este o RNA de tip
feedforward (cu propagare nainte a semnalului) compusdin (fig.2.3.1):
- un strat de intrare;
- unul sau mai multe straturi ascunse;
- strat de ieire.
y1
x2
x1
xNIN
TR
R
I
IEIR
I
y2
yMQ P
Strat deintrare
1
Stratascuns nr.1
Strat deieire
Stratascuns nr.2
Fig.2.3.1 Perceptron cu doustraturi.
2.3.1 Algoritmul de antrenament
Se deosebesc douetape n realizarea unei aplicaii cu RNA. Prima reprezint
etapa de antrenamentsau de nvare n care sunt aplicate perechi de tipare intrare
ieire corect asociate, iar RNA i modificparametrii liberi pentru a nva aceste
asociaii. A doua etappresupune utilizarea propriuzisa RNA; se pot aplica n acest
caz vectori de intrare diferii de cei din etapa de antrenament, urmnd ca RNA, pe
baza capacitii de generalizare, sfurnizeze un rspuns adecvat.
Pentru deducerea algoritmului de antrenament corespunztor RNAMLP se
definete eroarea la nivelul neuronului j din stratul de ieire, n a n- a iteraie:
-
8/21/2019 RN - Arh&alg
38/232
- 38 - CAP.2 Reele neuronale de tip perceptron
ej(n) = dj(n) yj(n)
n care djreprezintrspunsul dorit iar yjrspunsul actual al RNAMLP.
Eroarea instantanee la nivelul ntregului strat de ieire poate fi definit ca
suma erorilor ptratice ale neuronilor de ieire:
( ) ( )nenj
j= 221
Fie T numrul total de tipare de antrenament. n acest caz, eroarea pentru
ntreg setul de date de antrenament reprezintfuncia de cost ce va trebui minimizat:
( ) ( )=
=T
1nT1
avn n
Exist dou moduri n care se pot adapta ponderile RNAMLP n cursul
etapei de antrenament:
modul tipar cu tipar, (pattern by pattern) n care dup aplicarea fiecrei
perechi de tipare intrareieire ponderile sunt actualizate;
modul lot de tipare, (batch) n care ponderile sunt calculate o singurdat
pe baza tuturor perechilor de tipare intrareieire disponibile.Algoritmul de antrenament pentru RNAMLP va fi dedus pentru modul tipar
cu tipar.
Conform principiului gradientului descendent:
( ) ( )
( )nwn
nwji
ji
=
n care:
( )( )
( )( )
( )
( )
( )
( )
( )
( )nw
nv
nv
ny
ny
ne
ne
n
nw
n
ji
j
j
j
j
j
jji
=
Deoarece:
( ) ( ) ( )
( ) ( )ne
ne
nnen j
jj
j =
=
2
2
1
-
8/21/2019 RN - Arh&alg
39/232
2.3 RNA de tip perceptron cu mai multe straturi - 39 -
( ) ( ) ( ) ( )
( )
( ) ( )( ) ( )
( ) ( )( )nv
nv
nynvny
ny
nenyndne
j
j
j
jj
j
j
jjj
=
=
=
= 1
( ) ( ) ( ) ( )
( ) ( )ny
nw
nvnynwnv i
j ji
j
ijij =
=
Deci:
( )( )
( ) ( )( ) ( )nynvnenw
nijj
ji
=
Se definete gradientul local ( )nj :
( ) ( ) ( )( ) ( )( )
( )
( )nv
ny
ny
nnvnen
j
j
j
jjj
=+=
( ) ( ) ( )nynnw ijji =
Formula de mai sus este valabil pentru cazul n care neuronul j aparinestratului de ieire. Pentru cazul n care neuronul j aparine unui strat ascuns, trebuie
redefinit gradientul local:
( ) ( )
( )
( )
( )( )( )
( )( )nvny
n
nv
ny
ny
nn jj
jj
j
j
j
=
=
n care:
( ) ( )=k
knen2
2
1
k fiind indicele corespunztor neuronilor straturilor de ieire
Atunci:
( )( )
( ) ( )
( )( )( )
( )( )
=
=
k k j
k
k
kk
j
kk
j ny
nv
nv
nee
ny
nene
ny
n
Deoarece:
-
8/21/2019 RN - Arh&alg
40/232
- 40 - CAP.2 Reele neuronale de tip perceptron
( ) ( ) ( ) ( ) ( )( ) ( )
( ) ( )( )
( ) ( ) ( )
( ) ( )nw
ny
nvnywnv
nvnv
nenvndnyndne
kj
j
k
j
jkjk
kk
k
kkkkkk
=
=
=
==
Rezult:
( )( )
( ) ( )( ) ( ) ( ) ( ) ==
k
kjkkjkk
k
k
j
nwnnwnvneny
n
n consecin, pentru cazul n care neuronul j aparine unui strat ascuns:
( ) ( )( ) ( ) ( )=k
kjjjj nwnnvn
i
( ) ( )( ) ( ) ( ) ( )nynwnnvnw ik
kjkjjji
=
Algoritmul dedus poartdenumirea de algoritm cu propagare napoi a erorii
(BP - Backpropagation Algorithm). Algoritmul BP standard este de tip gradient
descendent, ca i regula de nvare Widrow-Hoff, adic presupune modificarea
ponderilor n sensul negativ al funciei de cost. Denumirea este justificat de
modalitatea de adaptare a ponderilor, aceasta fcndu-se ncepnd de la stratul de
ieire spre stratul de intrare, prin calculul recursiv al gradientului local.
Observaii:
1. Proprietile funciei de activare (.).
Calcularea lui pentru fiecare neuron necesitdeterminarea derivatei funciei
de activare (.). Deci (.) trebuie s fi o funcie continu, derivabil i de regul
neliniar. O astfel de funcie este funcia sigmoid:
( ) ( )( )( )nvjjj je
nvny
+==
1
1
( )
( ) ( )( ) ( )[ ] ( )nvnvjj
j
j jj eenvnv
ny +==
21
-
8/21/2019 RN - Arh&alg
41/232
2.3 RNA de tip perceptron cu mai multe straturi - 41 -
( ) ( )
( ) ( )( )
( )
( )
( )
)](1)[(1
1
12
nyny
ny
ny
ny
nvny
nye jj
j
j
j
jj
j
jnvj =
=
=
Dacneuronul j aparine stratului de ieire, fie yj(n) =oj(n). Atunci este:
( ) ( ) ( ) ( ) ( ) ( ) ( )]1[][ nononondnvnen jjjjjjjj ==
Dacneuronul j aparine unui strat ascuns:( ) ( )( ) ( ) ( ) ( ) ( )[ ] ( ) ( ) ==
k
kjkjj
k
kjkjjj nwnnynynwnnvn 1
2. BP cu moment.
Valoarea ratei de nvare trebuie s fie suficient de micpentru a asigura
convergena algoritmului dar i suficient de mare pentru a genera un proces de
nvare rapid.
O metod simpl pentru creterea ratei de nvare, cu evitarea instabilitii
procesului de antrenament reprezint introducerea unui termen denumit moment nlegea de variaie a wji(n):
( ) ( ) ( ) ( )1+= nwnynnw jiijji
Se poate scrie wji(n) ca o serie de timp:
( ) ( ) ( ) ( )
( ) = =
==
n
t
n
t ji
jn
ij
tn
jitw
ttytnw
0 0
1
Dacderivatele pariale au acelai semn algebric n iteraii consecutive wji(n)
crete n amplitudine, deci wji (n) se va modifica cu un increment din ce n ce mai
mare. Aceasta nseamncprin introducerea termenului moment viteza algoritmului
este acceleratpentru cazul unor suprafee ale peisajul energetic ale funciei de cost
descresctoare.
Dacderivatele pariale au semne diferite n iteraii consecutive wji(n) scade
n amplitudine, deci wji(n) va fi modificat n cantiti din ce n ce mai mici.
n consecin introducerea termenului moment are un efect de stabilizare a
-
8/21/2019 RN - Arh&alg
42/232
- 42 - CAP.2 Reele neuronale de tip perceptron
unui proces oscilatoriu de nvare.
Termenul moment poate fi privit i ca o inerie introdus n modificarea
ponderilor, prin acest fapt evitndu-se nepenirea RNA n minime locale ale
suprafeei erorii.
3. Criterii de stabilitate.
Fie wun vector pondere pentru care suprafaa erorii are un minim (local sau
global). O condiie necesarca w*sfie un punct de minim este ca vectorul gradient
g(w) al suprafeei erorii s fie egal cu zero n w= w*. n acest sens se pot formulacteva criterii de stop pentru algoritmul BP:
a) se consider c algoritmul BP a convers dac norma euclidian a vectorului
gradient e suficient de mic: g(wfinal) < ;
b) se considercalgoritmul BP a convers dacrata modificrii erorii ptratice este
suficient de mic(ex: 0.1 1% / epoc);
c) se considercalgoritmul BP a convers dacav(w) , cu un prag suficient de
mic al erorii.
Momentul n care algoritmul de antrenament se oprete influeneaz i
capacitatea de generalizare a RNA. Dac reeaua se supraantreneaz, eroarea final
obinut pentru datele de antrenament va fi deosebit de sczut (Eroarea ptratic
medie = 10-510-10) n schimb acest lucru va afecta n mod negativ capacitatea de
generalizare, n sensul n care RNA nu va rspunde corect pentru date de intrare
diferite de cele din etapa de antrenament.
4. Determinarea numrul de straturi ascunse i de neuroni/strat ascuns.
Numrul optim de straturi ascunse i de neuroni/strat ascuns este dificil de
precizat apriori.
n general, un singur strat ascuns e suficient pentru rezolvarea majoritii
problemelor. n mod excepional, se pot folosi dou, cel mult trei straturi ascunse.
De regul, numrul de neuroni afereni straturilor de intrare respectiv ieire
este dictat de natura aplicaiei. Neuronii structurilor ascunse au rolul foarte important
de a detecta trsturile, legitile, regularitile coninute n tiparele de antrenament.
-
8/21/2019 RN - Arh&alg
43/232
2.3 RNA de tip perceptron cu mai multe straturi - 43 -
Un numr prea mare de neuroni ascuni/strat influeneazn mod negativ capacitatea
de generalizare a RNA. Totodatconduce la sporirea volumului de date care urmeaz
a fi procesat i deci la o duratsporitpentru etapa de antrenament. Un numr prea
mic de neuroni nu este suficient pentru formarea unei reprezentri interne a datelor
adecvati poate conduce la o eroare medie ptraticmare pe parcursul epocilor de
antrenament i implicit la o eroare mare corespunztoare nu numai datelor de test ci i
celor de antrenament.
n concluzie, numrul optim de neuroni ascuni se va determina experimental.
Pe baza formulei deduse pentru modalitatea de adaptare a ponderilor i pe
baza observaiilor 1. 4. se pot enuna paii algoritmului cu propagare napoi a erorii:
1. Iniializarea.
Se definesc numrul de straturi i neuroni/strat. Se iniializeaz ponderile
sinaptice i pragurile cu valori aleatoare mici, uniform distribuite. De exemplu
ponderile i pragurile se vor distribui uniform n intervalul
ii FF
4,2
,
4,2
n care Fi
(fan-in) reprezintnumrul de intrri pentru neuronul i.
2. Prezentarea tiparelor de antrenament.
Pentru fiecare pereche de tipare de antrenament [ ] }{ Nnndnx ,...2,1;)(),( =
se vor efectua paii 3. i 4. Prezentarea tuturor celor N tipare de antrenament este
denumitepocde antrenament.
3. Propagarea nainte.
ncepnd de la primul strat ascuns i sfrind cu stratul de ieire se calculeazpentru fiecare neuron j al stratului l potenialul intern de activare:
= )()()( )1()()( nynwnv liljilj
i mai apoi, prin aplicarea funciei de activare, se calculeaz ieirile acestora. De
exemplu pentru funcia de activare de tip sigmoidal:
-
8/21/2019 RN - Arh&alg
44/232
- 44 - CAP.2 Reele neuronale de tip perceptron
)(
)1(
)()(
1
1nv
l
l
j lje
y
+=
Dac i = 0, avem 1)()1(0 = ny l i )()()( 0 nw
l
j
l
j = . Dac neuronul j aparine
primului strat ascuns (l = 1) avem )()()0( nxny ii = iar dac neuronul j aparine
stratului de ieire (l = L) avem )()()( nony jL
j = .
n continuare, se calculeazeroarea pentru fiecare neuron al stratului de ieire,
ej(n), ca fiind diferena dintre ieirea doritdj(n) i ieire actualyj(n):
)()()( nyndne jjj =
4. Propagarea napoi.
Se calculeazgradientul local al RNA, strat cu strat, ncepnd cu cel de ieire:
( ) ( ) ( )( ) ( ) ( )( ) ( )[ ] ( ) ++=
==
k
l
kj
l
kj
l
j
l
j
jjjjjj
L
j
L
j
nwnnynyn
nononyndnvnen
)(1)(
1)()()()1()1()()(
)()(
Apoi sunt modificate ponderile sinaptice ale RNA n stratul l conformregulii delta generalizate (BP cu moment):
( ) ( ) ( ) ( )nynnwnwnwnw lil
j
l
ji
l
ji
l
ji
l
ji
1)()()()( )1()()()1( ++=+
n care reprezintrata de nvare i constanta moment.
5. Iteraia.
Se continuetapele 3. i 4. pentru toate perechile de vectori de antrenament.
Dupfiecare epocde antrenament se evalueazcriteriul de stop al algoritmului (rata
schimbrilor parametrilor liberi sub un anumit prag, eroarea ptraticmedie suficient
de mic, numr maxim de epoci atinse, etc).
Observaii:
1Ordinea prezentrii tiparelor, de la o epocla alta, se recomanda fi aleatoare.
2Att ct i se recomanda fi ajustate pe parcursul epocilor de antrenament (n
mod tipic, sczute).
-
8/21/2019 RN - Arh&alg
45/232
2.3 RNA de tip perceptron cu mai multe straturi - 45 -
2.3.2 Algoritmi rapizi de antrenament pentru RNA cu propagare nainte a
semnalului
Algoritmul BP standard prezinto serie de dezavantaje. Printre acestea se pot
enumera convergena lent i dependena acesteia de parametrii liberi ai reelei
(ponderi, praguri, form funcie de activare, rat de nvare, etc.). Algoritmii
prezentai n cadrul acestui subcapitol (pentru o descriere exhaustiv a se consulta
[15]) ofero alternativla BP. Ei converg n mult mai puine epoci spre valori optime
ale ponderilor dect BP nsimplico complexitate ridicata calculelor. De subliniat
nsfaptul cn cazul unor reele de dimensiuni mari convergena ntr-un numr mai
mic de epoci nu nseamn implicit i un timp de antrenament mai scurt deoarece
calculele aferente unei epoci pot sdureze foare mult. Din acest motiv folosirea unuia
sau altuia dintre algoritmii de antrenament este determinatde problema concretce
se dorete a fi soluionat.
2.3.2.1 Metoda lui Newton
Funcia de cost (w) poate fi aproximatconform dezvoltrii n serie Taylor n
jurul punctului w0:
( ) ( ) ( ) ( ) ( )002
0000 )(2
1wwwwwww ++=
Tww
Matricea cu derivate pariale de ordinul doi,ji
ij
ww
=
2H se numete hessian.
Pentru ca wsfie un punct de minim se anuleazderivata relaiei precedente:
( ) ( ) ( ) 000 =+= wwHww
( )1
01
00
)(
=
=
H
ww
H
www
Relaia de mai sus reprezint metoda lui Newton, care folosit iterativ,
-
8/21/2019 RN - Arh&alg
46/232
- 46 - CAP.2 Reele neuronale de tip perceptron
estimarea lui wfiind un nou w0, conduce la gsirea minimului ntr-un numr extrem
de redus de epoci de antrenament.
Dezavantajul metodei const din complexitatea extrem de ridicat a
calculelorce trebuie efectuate la fiecare iteraie: calculul derivatelor pariale de ordin
nti i doi pentru precum i inversa hessianului (care poate sfie singular i deci H-1
nu exist!).
n consecinmetoda lui Newton i gsete aplicabilitate practic restrns,
dar poate servi ca punct de referinpentru abordri ulterioare.
2.3.2.2 Metoda LevenbergMarquardt
Elimin parial dezavantajele metodei lui Newton prin aproximarea
hessianului cu matricea ( ) ][ 2 Iw + , n care reprezint un factor de regul
pozitiv iar I matricea identic:
( )( ) 12
0
][ +
= Iw
ww
Observaie:
O matrice este:
a) simetric, dacA= AT;
b) pozitiv definit, dac nT Rx0,x0,Axx >
c) singular, dacnu A-1.
n acest condiii ( ) ][ 2 Iw + este simetric i nesingular chiar dac
hessianul e singular. Pe de altparte, poate fi fcut suficient de mic pentru a asigura
convergena rapida algoritmului.
Metoda LevenbergMarquardt reprezint una din cele mai rapide metode
folosite n practic, dar este imposibil de folosit n cazul n care vectorii de
antrenament au dimensiuni mari (sute de componente) din cauza cerinelor de
memorie i putere de calcul.
-
8/21/2019 RN - Arh&alg
47/232
2.3 RNA de tip perceptron cu mai multe straturi - 47 -
2.3.2.3 Metode de tip cvasiNewton
Se circumscriu n cadrul metodelor de minimizare care folosesc doar
informaie provenitdin derivata de ordinul I, combinatcu aa numita cutare dupo
linie (line search):
dww 0 +=
n care reprezintpasul iar ddirecia n care se face cutarea.
Observaie: n cazul n care direcia de cutare se alege ca fiind negativul gradientului,
( )0wd = , atunci se obine din relaia de mai sus tocmai algoritmul pailor
descendeni (gradientului descendent) folosit n deducerea algoritmului BP standard:
)( 0wwww 0 ==
Ideea care stla baza metodelor de tip cvasiNewton este aceea de a aproxima
H-1 printr-o matrice Hk care s in cont doar de informaia obinut pe baza
derivatelor pariale de ordinul I. Una din cele mai sofisticate metode cvasiNewton
este algoritmul BFGS (BroydenFletcherGoldfarbShanno):
( ) ( ) ( )
( ) ( ) ( )( )kkk1kkk
kk1k
wHwwd
dww
==
+=+
+
Fie:
( )( ) ( )( )kkky ww = +1 .
Atunci:
kTk
T
kk
kTk
T
kk
kk
Tr
T
kk
k yd
dd
yd
dy
yd
yd
+
=+ IHIH )(1
i rata de nvare:
( ) ( ) ( )( )[ ]kkkk wHw
=0
minarg
-
8/21/2019 RN - Arh&alg
48/232
- 48 - CAP.2 Reele neuronale de tip perceptron
2.3.2.4 Metode bazate pe gradientul conjugat
Conform metodei gradientului (pailor) descendent vectorul direcie de-a
lungul cruia ajusteaz vectorul pondere, reprezint negativul vectorului gradient
( ).0wd = Paii succesivi ai acestui algoritm sunt n mod necesar perpendiculari,
deoarece:
( )( ) ( ) ( )10 0 +=+
= nnn ddw
adic noul vector gradient este perpendicular pe vechea direcie de cutare (vezi
fig.2.3.2.4.1). n consecin, se urmeazo traiectorie n zig - zag.
a) b)
Fig.2.3.2.4.1 Gsirea minimului unei suprafee ptratice (centrul elipsei) n cazul pailor descendeni a) i
n cazul gradientului conjugat b).
O soluie mai bun const n alegerea noii direcii ca un compromis ntre direcia
gradientului i vechea direcie de cutare:
( ) ( ) ( ) ( )wdd ++=+ nnn 11
Aceasta nseamn c noua direcie trebuie astfel aleas nct s nu modifice
componenta gradientului de-alungul direciei anterioare, care a fost tocmai anulat:
( ) ( )( ) 010 =++ nn dwd
adic:
( ) ( ) 01 =+ nn dHd
n acest caz se spune cvectorii d(n+1) i d(n) sunt conjugai, de unde i denumirea
acestor algoritmi de antrenament.
-
8/21/2019 RN - Arh&alg
49/232
2.3 RNA de tip perceptron cu mai multe straturi - 49 -
Existmai multe modaliti de alegere a lui :
Polak-Ribiere:( ) ( ) ( )[ ]
( ) ( )nnnnn
nT
T
gg
ggg ++=
11)(
Fletcher-Reeves: ( ) ( ) ( )
( ) ( )nnnn
nT
T
gg
gg 11 ++=
n care cu g(n) s-a notat vectorul gradient ( )n i:
( ) ( ) ( )( ){ }nnn dw +=
minarg Din punct de vedere al rapiditii convergenei i al complexitii algoritmului,
metoda gradientului conjugat se situeaz ntre metoda gradientului descendent i cea
de tip cvasi-Newton.
-
8/21/2019 RN - Arh&alg
50/232
- 50 - CAP.2 Reele neuronale de tip perceptron
-
8/21/2019 RN - Arh&alg
51/232
CAPITOLUL 3Reele neuronale artificiale bazate pe funcii radiale
3.1 Introducere
n cadrul acestui capitol se prezinto abordare diferita modului de realizare
a unei RNA. Acest proces este vzut de aceastdatca o problema de aproximare a
unei curbe ntr-un spaiu multidimensional. Conform acestui punct de vedere,
nvarea este echivalent cu gsirea unei suprafee ntr-un spaiu multidimensional
care s se potriveasc cu cea descris de datele de intrare. Generalizarea reelelor
neuronale bazate pe funcii radiale (Radial Basis Function RBF) reprezint n
acest caz capacitatea de interpolare a RNA vizavi de datele de test.
Comparativ cu o RNA-MLP, RNA-RBF pot ssolicite mai muli neuroni dar
antrenarea acestora necesitmai puin timp dect n cazul perceptronului. Explicaia
acestui fapt este urmtoarea: ieirile neuronilor sigmoidali ai stratului ascuns sunt
semnificative pentru regiuni largi ale spaiului de intrare n timp ce neuronii bazai pe
funcii radiale rspund doar la regiuni relativ mici din spaiul de intrare. n consecin,
RNA-RBF se comportmai bine cnd sunt disponibili muli vectori de antrenament.
Modelul unui neuron RBF este prezentat n fig.3.1.1. n acest caz intrarea net
este consituitdin norma diferenei vectoriale ||t - x||. Un exemplu tipic pentru funcia
de activare este:2
)( xex = reprezentat n fig.3.1.2. Se constat c funcia radial
are un maxim dacintrarea e nul. Dacdistana dintre ti xdescrete, valoarea ieiriicrete. Adicneuronul radial se comportca un detector care produce 1 la ieire de
fiecare datcnd tiparul de intrare e identic cu vectorul pondere t.
O RNA-RBF prezintstructural trei straturi (fig.3.1.3):
- stratul de intraresau stratul senzorial;
-
8/21/2019 RN - Arh&alg
52/232
- 52 - CAP. 3 Reele neuronale artificiale bazate pe funcii radiale
||distan||
x1
xP
t1 tP
b
y
1
y = ( ||t - x||b )
Fig.3.1.1 Arhitectura unui neuron RBF.
x
2
)( xex =
Fig.3.1.2 Formtipicpentru funcia de activare radial
Fig.3.1.2 Arhitectura unei RNA-RBF
-
8/21/2019 RN - Arh&alg
53/232
3.1 Introducere - 53 -
- stratul ascuns, care furnizeaz funcii care constituie o baz pentru vectorii de
intrare; aceste funcii poartdenumirea de funcii radiale;
- stratul de ieire alctuit din neuroni cu funcie de activare liniar.
Transformarea spaiului de intrare n spaiul neuronilor ascuni este neliniar
pe cnd transformarea spaiului neuronilor ascuni n spaiul neuronilor de ieire este
liniar. Justificarea acestui aspect se bazeaz pe teorema lui Cover asupra
separabilitii tiparelor [16] care arat c o problem de clasificare a tiparelor
transformatneliniar ntr-un spaiu de dimensiune nalteste cu mult mai probabil de a
fi liniar separabildect ntr-un spaiu cu dimensiuni mai puine.
3.2 Problema interpolrii
Problema interpolrii poate fi formulatdupcum urmeaz:
Fiind date N puncte diferite {xi Rp| i=1,2,...,N} i un numr echivalent de
numere reale {diR1
| i=1,2,...,N} sse gseascfuncia F : Rp
R1
care satisfacecondiia de interpolare:
F(xi) = di, i=1,2,...,N (3.2.1)
Tehnica bazatpe funcii radiale const n alegerea funciei F cu urmtoarea
form:
( )=
=N
iiiwF
1
)( xxx (3.2.2)
unde {(||x- xi||) | i = 1,2,...,N} reprezinto mulime de N funcii arbitrare, de regul
neliniare, cunoscute sub denumirea de funcii radiale. Notaia ||.|| semnifico norm,
de regulcea euclidian. Punctele cunoscute xiRp, i = 1, 2,..., N, reprezintcentrele
funciilor radiale.
Combinnd (3.2.1) cu (3.2.2) obinem un set de ecuaii liniare, avnd drept
necunoscute coeficienii wi:
-
8/21/2019 RN - Arh&alg
54/232
- 54 - CAP. 3 Reele neuronale artificiale bazate pe funcii radiale
=
NNNNNN
N
N
d
d
d
w
w
w
MM
L
MMMM
L
L
2
1
2
1
21
22221
11211
(3.2.3)
n care:
ji= (||xj- xi||), j,i = 1, 2 ,..., N (3.2.4)
Fie:
d= [d1, d2, ..., dN]T (3.2.5)
w= [w1, w2, ..., wN]T (3.2.6)
= {ji | j, i = 1, 2 ,..., N} (3.2.7)
cu definitca matrice de interpolare. Se poate scrie atunci:
w= x (3.2.8)
de unde:
w= -1d (3.2.9)
Rezultatele teoretice i experimentale aratcalegerea funciei neliniare(.) nu estecrucial pentru performanele ulterioare ale unui RNA RBF. Aceasta poate fi, de
exemplu:
( )0,0,
1)(
2/122>
+= rc
crr (3.2.10)
sau
0,0,2
exp)(2
2
>
= r
rr
(3.2.11)
-
8/21/2019 RN - Arh&alg
55/232
3.3 Strategii de nvare pentru RNA bazate pe funcii radiale - 55 -
3.3 Strategii de nvare pentru RNA bazate pe funcii radiale
Exista mai multe metode de antrenament ale RNA-RBF, deosebirea ntre ele
constnd n metoda de alegere a centrilor funciilor radiale.
Metoda bazatpe creterea reelei
Iniial stratul ascuns nu are nici un neuron. Dup fiecare epoc, vectorul de
intrare pentru care se obine cea mai mare eroare la nivelul stratului de ieire este
folosit pentru crearea unui nou neuron prin egalizarea ponderilor acestuia cu vectorul
de intrare. Se calculeaz apoi ponderile stratului liniar. Dac se ajunge la eroarea
(performana) dorit sau dac se atinge un numr maxim de neuroni pentru stratul
ascuns, procesul de antrenament va fi ncheiat.
Metoda centrilor fici, alei aleator
Reprezint una dintre cele mai simple abordri i presupune funcii radiale
fixe care definesc funciile de activare ale stratului ascuns. Locaiile centrilor funciilor
sunt alese aleator dintre vectorii de intrare.
Pentru funciile radiale se preferun Gaussian izotropic:
( ) Mid
MG ii ...,2,1,exp
2
2
2=
= txtx (3.3.1)
n care M reprezintnumrul centrilor iar d distana maximdintre acetia.n acest caz, deviaia standard pentru toate funciile va fi aceeai:
M
d
2= (3.3.2)
Pentru determinarea ponderilor stratului liniar de ieire se folosete metoda
pseudoinversei [17]:
-
8/21/2019 RN - Arh&alg
56/232
- 56 - CAP. 3 Reele neuronale artificiale bazate pe funcii radiale
w= G+ d (3.3.3)
cu G+ fiind pseudoinversa matricii G:
G= {gji} (3.3.4)
cu
NjMid
Mg iji ...,2,1,...,2,1,exp
2
2 ==
= txj (3.3.5)
Conform teoremei decompoziiei valorilor singulare, pseudoinversa matricii G este
definitastfel:
G+ = V + UT (3.3.6)
n care + este ea nsi o matrice N x N constituitdin valorile singulare ale lui G:
=+ 0,...,0,
1,...,
1,
1
21 k
diag
(3.3.7)
Metoda selciei autoorganizate a centrilor
n cadrul acestei abordri este permisdeplasarea locaiei centrilor funciilor
radiale ntr-o manierautoorganizat, n timp ce ponderile stratului liniar de ieire sunt
calculate ntr-o maniersupervizat.
Componenta autoorganizant permite alocarea resurselor RNA astfel nct
centrii funciilor radiale vor fi plasai doar n regiuni semnificative ale spaiului de
intrare. Pentru selecia autoorganizat a centrilor se poate folosi metoda celor mai
apropiai k vecini iar pentru nvarea supervizatse poate folosi un algoritm bazat
pe corecia erorilor (de exemplu LMS).
Exemplul 3.1 RNA-RBF au fost folosite cu succes n deosebi la problemele de
aproximare/interpolare [18] i predicie [19] a funciilor. n continuare este
demonstrat capacitatea unei astfel de reele de a aproxima funcia f(x) =
sin(x)+cos(x):
-
8/21/2019 RN - Arh&alg
57/232
3.3 Strategii de nvare pentru RNA bazate pe funcii radiale - 57 -
%Exempl u de i mpl ement ar e a unei RNA- RBF%pent r u cazul i nt er pol ar i i f uncti i l or%Catal i n- Dani el Cal eanu, 2000
cl ear al leg = 0. 02; % er oar ea MSE dor i t asc = 1; % mar i mea campl ul ui r ecept i v al f uncti i l or r adi al e
P=0: pi / 4: 2*pi ; %def i ni r ea t i par ul ui de i nt r ar eT=si n( P) + cos( P) ; %def i ni r ea t i par ul ui de i esi r e
%( punct el e de i nt r epol ar e)
net =newr b( P, T, eg, sc) ; %cr ear ea RNA- RBFt est=0: pi / 32: 2*pi ; %def i ni r ea suport ul ui pent r u punct el e detesty=si n( t est ) + cos( t est ) ; %cal cul ul val or i l or f unct i ei or i gi nal ez=si m( net , t est ) ; %cal cul ul val or i l or obt i nut e pr i n i nt er pol ar e
%r epr ezent ar ea gr af i ca a r ezul t at el orpl ot ( test , z )hol d onpl ot ( tes t , y, ' r - - ' )pl ot ( P, T, ' +' )hol d of f
0 1 2 3 4 5 6 7-1.5
-1
-0.5
0
0.5
1
1.5funcie aproximat
funcie original
puncte deantrenament
Fig.3.3.1 RNA-RBF folositla aproximarea funciilor
-
8/21/2019 RN - Arh&alg
58/232
- 58 - CAP. 3 Reele neuronale artificiale bazate pe funcii radiale
n concluzie se poate afirma cRNA-RBF reprezinto soluie alternativ n
special n problemele ce presupun interpolarea, aproximarea sau predicia funciilor.
De menionat nsi posibilitarea folosirii lor n probleme de clasificare.
-
8/21/2019 RN - Arh&alg
59/232
CAPITOLUL 4Reele neuronale artificiale recurente
4.1 Introducere
n acest capitol se prezinto altclasimportantde RNA i anume aceea a
RN cu structurrecurent. RNA recurente sunt caracterizate de:
- uniti de procesare neliniare;- simetria conexiunilor sinaptice (wji= wij);
- folosirea intensiva feedback-ului.
Din aceastcategorie fac parte RNA Boltzmann (RNA-B) i RNA Hopfield
(RNA-H), cea din urmfiind detaliat n cele ce urmeaz, dezvoltarea acestora fiind
inspiratdin fizica statistici termodinamic.
4.2 RNA de tip Hopfield (RNA-H)
Poate fi vzutca o memorie asociativsau ca o memorie adresabilprin
coninut, a crei funcie principal este regsirea tiparelor stocate n memorie, ca
rspuns la prezentarea unui tipar incomplet sau contaminat cu zgomot. Esena
memoriilor adresabile prin coninut constn transformarea tiparelor n stri stabile
sale sistemului dinamic (proces de codare) i invers (proces de decodare).
Fiecare neuron, de tip McCulloch-Pitts, al RNA-H (fig.4.2.1) este caracterizat
prin una din cele doust
ri posibile: activ (s
i= 1) , respectiv inactiv (s
i= -1).
Starea unei RNA-H alctuitdin N neuroni este definitde ctre vectorul:
s= [s1, s2, ..., sN]T (4.2.1)
Potenialul intern al unui neuron j este:
=
=N
i
jijij swv1
(4.2.2)
-
8/21/2019 RN - Arh&alg
60/232
- 60 - CAP.4 Reele neuronale artificiale recurente
n care jreprezintpragul neuronului.
Fig.4.2.1. Arhitectura unei RNA-H cu 3 neuroni.
Neuronul j i modificstarea conform regulii:
+=
0,10,1
j
j
jvdacvdacs (4.2.3)
sau echivalent sj= sgn[vj]. Dacvj = 0 atunci sjpoate lua o valoare arbitrar, +1 sau
1. De exemplu, se poate conveni ca starea neuronului srmnnemodificat.
n funcionarea RNA-H se pot distinge douetape:
a) Faza de memorare. S presupunem c se dorete stocarea a p vectori N
dimensionali {| = 1, 2, ..., p}. Atunci, conform postulatului lui Hebb:
i
p
jjiNw ,1
,
1
== (4.2.4)
De regulse considerwii = 0, i.
Acelai lucru poate fi scris n formmatricialastfel:
IW N
p
N
Tp
= =1
1
(4.2.5)
-
8/21/2019 RN - Arh&alg
61/232
4.2 RNA de tip Hopfield (RNA-H) - 61 -
n care Wreprezintmatricea ponderilor sinaptice ale reelei i are dimensiunea NxN
iar Ireprezintmatricea identic.
Se constatfaptul cponderile RNA se calculeazntr-o singurepoc, spre deosebire
de RNA-MLP sau RBF.
Din ecuaia de calcul pentru ponderile RNA se constaturmtoarele:
- ieirea fiecrui neuron se constituie n intrare pentru toi ceilali neuroni ai
reele;
- nu existautoexcitaie (self-feedback), adicwii = 0, I;
- matricea ponderilor RNA este simetricwij = wji (sau W= WT) adicinfluena
exercitat de neuronul i asupra neuronului j este egal cu influena
exercitatde neuronul j asupra neuronului i
b) Faza de utilizare (regsire). n aceast faz, un anumit tipar x este impus drept
vector de stareal RNA-H. De regulel reprezinto versiune incompletsau afectat
de zgomot al unui tipar memorat. Procesul de regsire se desfoarn mod dinamic:
fiecare neuron al reelei, n mod aleator ales, estimeazpropriul potenial de activare i
i stabilete starea final. Acest proces asincron (serial) de modificare a strilor se va
opri n momentul n care vectorul de stare nu se va mai modifica. Aceasta nseamnc
RNA-H a produs un vector de stare y invariant n timp, ale crui elemente satisfac
condiia de stabilitate:
NjywyN
i
iijij ...,,2,1),sgn(1
== =
(4.2.6)
sau n formmatricial:
)sgn( yWy = (4.2.7)
Vectorul de stare yeste denumit stare stabila spaiului fazelor sistemului.
RNA-H cu ponderi sinaptice simetrice li se poate asocia aa-numita funcie de
energie (fig.4.2.2):
= =
=N
i
N
j
jiji sswE1 12
1 (4.2.8)
-
8/21/2019 RN - Arh&alg
62/232
- 62 - CAP.4 Reele neuronale artificiale recurente
Fig.4.2.2 Funcia de energie (Lyapunov) pentru cazul W = [1 0;1 0] generatprin
intermediul mediului MATLAB.
Variaia energiei E ca urmare a variaiei strii neuronului j e dat de expresia:
=
=N
jii
ijij swsE
1
(4.2.9)
Astfel, n timpul fazei de regsire a unui tipar,Edescrete monoton. Schimbarea strii
RNA-H va continua pn cnd se va atinge un minim local al peisajului energetic.
Minimele peisajului energetic corespund unor atractori specifici spaiului strilor
(fazelor) care n mod normal reprezint puncte determinate n faza de memorare.
Regiunea nvecinatatractorilor poartdenumirea de bazin de atracie.
Observaie: Nu este obligatoriu ca starea finalscoincidcu unul din tiparele
memorate. Acest fapt poate fi pus i pe seama apariiei unor stri (atractori) fali
(spurious states).
Relativ la capacitatea de memorare a RNA-H se aratcnumrul maxim de
tipare de dimensiune N care pot fi regsite perfect este:
N
Np
ln4max (4.2.10)
-
8/21/2019 RN - Arh&alg
63/232
CAPITOLUL 5
Reele neuronale cu autoorganizare
5.1 Introducere
Aceast categorie a reelelor neuronale are drept caracteristic fundamental
folosirea algoritmilor de nvare nesupervizai (cu autoorganizare). Prin aceasta se
nelege faptul cnu existun semnal extern furnizat de ctre mediu sau de ctre un
instructor care sconfirme sau s infirme veridicitatea ieirilor RNA. Reeaua nsi
trebuie s descopere tipare, trsturi, regulariti i corelaii existente n datele de
intrare precum i modul de codare sau reprezentare intern al acestora, pentru a-l
furniza ieirilor.
Pentru aceasta, algoritmul este nsoit de un set de reguli de natur localcare permit calcularea unei funcii intrare-ieire cu proprietile specifice dorite. Din
acest punct de vedere, algoritmii de nvare nesupervizai se apropie ntr-o msur
mai mare dect cei supervizai, de modul de organizare a informaiei specific
creierului.
Subcapitolele urmtoare vor fi dedicate principalelor douclase de sisteme cu
autoorganizare: cele care au la baz nvarea de tip hebbian i cele cu nvare
competitiv.
5.2. Reele neuronale cu autoorganizare i algoritm de nvare
de tip hebbian
n acest subcapitol se vor prezenta aspecte legate de RNA bazate pe algoritmi
de nvare nesupervizai derivai din regula lui Hebb pentru modificarea ponderilor.
-
8/21/2019 RN - Arh&alg
64/232
- 64 - CAP.5 Reele neuronale cu autoorganizare
Ieirile reelelor vor avea valori continue, neexistnd competiie ntre neuroni, spre
deosebire de reelele neuronale prezentate n capitolul urmtor. De aceea, scopul
acestor reele nu va fi legat de clasificarea sau gruparea (clustering) tiparelor
prezentate intrrilor ci, mai degrab, de proiecie a datelor de intrare n spaiul definit
de componentele principale ale acestora.
5.2.1 Reele neuronale cu un singur neuron liniar
n [20] se arat c un singur neuron liniar, la care ponderile sinaptice se
adapteaz ntr-o manier hebbian, poate fi asimilat cu un filtru care genereaz
componenta principala distribuiei intrrilor.
Pentru a demonstra acest fapt, se pleac de la modelul unui neuron prezentat n
fig.5.2.1.
x0(n)
x1(n)
xp-1(n) wp-1(n)
w1(n)
w0(n)
y(n)
Fig.5.2.1.Modelul unui neuron liniar
Modelul este liniar n sensul n care ieirea poate fi scris ca o combinaieliniara intrrilor:
i
p
i
ixwy
=
=1
0
(5.2.1.1.)
n concordan cu postulatul lui Hebb, ponderile sinaptice vor fi modificate
dupformula:
-
8/21/2019 RN - Arh&alg
65/232
5.2. RNA cu autoorganizare i algoritm de nvare de tip hebbian - 65 -
1...,,1,0),()()()1( =+=+ pinxnynwnw iii (5.2.1.2.)
n care n reprezint timpul discret, iar rata de nvare. Se observ c aplicnd
formula (5.2.1.2.) se va obine o cretere nelimitata wi, ceea ce este neacceptabil
din punct de vedere fizic. Acest neajuns poate fi nsevitat prin introducerea saturaiei
sau a normalizrii n adaptarea ponderilor sinaptice.
Exist multe metode care impun constrngeri asupra creterii vectorului
pondere w:a) Dup fiecare epoc se recalculeaz ponderile w'i = wi alegnd astfel nct
|w'| = 1;
b) Linsher [21] propune un algoritm n care wwiw+;
c) Yuille [22] folosete o regulde forma :
)||( 2wwyxw iii = (5.2.1.3)
cu max|| =w n loc de | w | = 1.
n continuare se va folosi tehnica de normalizare descrisde Oja n [20]:
=
+
+=+
1
0
2)]()()([
)()()()1(
p
i
ii
iii
nxnynw
nxnynwnw
(5.2.1.4)
Presupunnd mic putem dezvolta 5.2.4.1. n serie de puteri dupi se va obine :
)()]()()()[()()1( 2 onwnynxnynwnw iiii ++=+ (5.2.1.5)
cu )( 2o fiind notai termenii n de ordin doi sau mai mare; pentru mic acetia
pot fi neglijai, obinndu-se :
)]()()()[()()1( nwnynxnynwnw iiii +=+ (5.2.1.6)
Analiznd ecuaia (5.2.1.6) putem identifica prezena a douforme de reacie
(feedback) intern:
- O reacie pozitivde autoamplificare rspunztoare de creterea ponderilor wi(n) n
conformitate cu intrareaxi(n);
-
8/21/2019 RN - Arh&alg
66/232
- 66 - CAP.5 Reele neuronale cu autoorganizare
- O reacie negativcorespunztoare termenului y(n) prin care se obine un control al
creterii ponderilor, cu efect de stabilizare a w i(n). Produsul y(n)wi(n) poate fi vzut
ca o caracterizare a unui proces de uitare (forgetting term) cu att mai intens cu ct
rspunsul y(n) este mai puternic.
5.2.2 Analiza componentelor principale. Reducerea dimensionalitii
Analiza componentelor principale reprezint o tehnic ce permite detectarea
celor mai marcante tendine ale unui nor de date. Componentele principale ale norului
x sunt direciile din Rn de-a lungul crora alungirea norului este cea mai marcant.
Cunoaterea acestor direcii poate servi la selecia trsturilor dintr-un anumit set de
date. Proiectnd norul pe direciile date de componentele sale principale, realizm o
comprimare a informaiei cuprins n mulimea de instruire, adic o reducere a
dimensionalitii spaiului de intrare [8].
Fie x un vector p dimensional reprezentnd datele supuse analizei
componentelor principale (transformarea Karhunen-Love).
Presupunem cmedia vectorului xeste 0:
E[x] = 0 (5.2.2.1)
Dac x nu ar ndeplini condiia (5.2.2.1), pentru ca media vectorului s fie zero se
calculeazcentrul de greutate al norului de puncte (media):
=
=1
0
1 p
i
ixp
m (5.2.2.2)
i se scade aceastmrime din vectorul x.Fie uun vector unitate p-dimensional:
1)( 2/1 == uuu T (5.2.2.3)
Proiecia lui xpe use poate scrie :
xuuxa TT == (5.2.2.4)
iar
-
8/21/2019 RN - Arh&alg
67/232
5.2. RNA cu autoorganizare i algoritm de nvare de tip hebbian - 67 -
0][][ == xEuaE T (5.2.2.5)
Variana lui a, sinonimcu valoarea mediei ptratice, este:
uRuuxxEuuxxuEaE TTTTT ==== ][)])([(][ 22 (5.2.2.6)
undeR este matricea de corelaie a vectorului x.
Putem vedea variana 2 a proieciei aca o funcie de vectorul unitate u:
Ruuu T== 2)( (5.2.2.7)
Se pune problema gsirii vectorului unitate u de-a lungul cruia )(u are
valori extreme (minime sau maxime locale).
Se considero perturbaie u , astfel nct:
)()( uuu =+ (5.2.2.8)
Din (5.2.2.7) avem:
=++=+ )()()( uuRuuuu T
uRuRuuRuu TTT )()(2 ++= (5.2.2.9)
Ignornd termenul de gradul 2, Ruu T)( , se obine:
RuuuRuuRuuuu TTT )(2)()(2)( +=+=+ (5.2.2.10)
Aceasta implic, pe baza 5.2.2.8:
( 0) =Ruu T (5.2.2.11)
Nu nsorice perturbaie u a lui ueste admisibil, ci doar acelea pentru care:
1=+ uu
sau echivalent:
1)()( =++ uuuu T
Avnd n vedere i 5.2.2.3 rezult:
0)( =uu T (5.2.2.12)
Aceasta nseamn c u trebuie s fie ortogonal pe u i deci doar o schimbare n
-
8/21/2019 RN - Arh&alg
68/232
- 68 - CAP.5 Reele neuronale cu autoorganizare
direcia lui ueste permis.
Prin convenie elementele vectorului u sunt adimensionale. Combinnd
ecuaiile 5.2.2.11 i 5.2.2.12 i introducnd factorul de scalare cu aceeai dimensiune
ca i termenul 5.2.2.11 rezult:
0)()( = uuRuu TT (5.2.2.13)
sau echivalent :
uRuuRuu
T
== 0)()( (5.2.2.14)Ecuaia (5.2.2.14) este cunoscut sub denumirea de problema valorilor proprii. Ea
are soluii netriviale (u0) doar pentru nite valori speciale ale lui denumite valori
proprii ale matricii de corelaie R. Valorile corespuntoare lui u se numesc vectori
proprii [5].
Presupunem valorile proprii aranjate n ordine descresctoare:
110 ...... >>>>> pj
Se poate scrie atunci:
RU = U (5.2.2.15)
n care:
U = [u0,, uj,, up-1]
= diag[0,, j,, p-1]
Ecuaia 5.2.2.15 poate fi rescrisastfel :
=RUUT (5.2.2.16)
sau ntr-o formexplicit:
==
jkjkRuu
j
k
T
j,0
, (5.2.2.17)
i deci .1...,,1,0)( , == pju jj
Valoarea practic a metodei analizei componentelor principale este legat de
reducerea dimensionalitii datelor.
Vectorul xpoate fi reconstruit din proiecia sa dupcum urmeaz:
-
8/21/2019 RN - Arh&alg
69/232
5.2. RNA cu autoorganizare i algoritm de nvare de tip hebbian - 69 -
=
==1
0
p
j
jjuaUax (5.2.2.18)
Vom putea reduce numrul trsturilor necesare pentru o reprezentare efectiv a
datelor renunnd la combinaiile liniare din ecuaia 5.2.2.18 care au varianredusi
meninndu-le pe acelea pentru care variana are valori mari:
=
-
8/21/2019 RN - Arh&alg
70/232
- 70 - CAP.5 Reele neuronale cu autoorganizare
,)( 0qnw pentru n (5.2.3.3)
Mediind n sens statistic ])[( E relaia 5.2.3.2 obinem:
0000 )(0 qRqqRqT= (5.2.3.4)
n care R reprezintmatricea de corelaie a vectorului de intrarex(n):
)]()([ nxnxER T= (5.2.3.5)
Valoarea asimptoticmedie q0 a vectorului ponderilor satisface la echilibru relaia:
000 qRq = (5.2.3.6)
unde:
000 RqqT= (5.2.3.7)
Deducem cq0 este un vector propriu al matriciiR. Fie q0,q1,, qp-1vectorii proprii ai
matricii de corelaie R. Ecuaia (5.2.3.4) este satisfcut de oricare dintre aceti
vectori, dar doar q0corespunztor celei mai mari valori max0 = reprezinto soluie
stabil[5].
Putem concluziona deci cmodelul neuronului liniarla care ponderile sunt
modificate dup o lege de tip hebbian (5.2.1.5) sau echivalent (5.2.3.1) tinde s
extrag prima component principal din vectorul de intrare staionar,
corespunztor celei mai mari valori proprii pentru matricea de corelaie a vectorului de
intrare [20].
5.2.3.1 Algoritmul hebbian generalizat
n continuare se va prezenta succint algoritmul hebbian generalizat (GHA,
Generalized Hebbian Algorithm) propus de Sanger [24] n 1989 precum i o
generalizare a acestuia denumit algoritm hebbian generalizat pentru domeniul complex
(CGHA, Complex Domain Generalized Hebbian Algorithm ) prezentatde Y. Ma i
Y. Zhang [25] n 1997.
-
8/21/2019 RN - Arh&alg
71/232
5.2. RNA cu autoorganizare i algoritm de nvare de tip hebbian - 71 -
Prin intermediul algoritmului GHA vectorii proprii ai matricii de corelaie a
datelor de intrare pot fi dedui iterativ cu ajutorul unei RN cu un singur strat liniar
(fig.5.2.3.1.1).
W1 W1 W1
-yMWM-y2W2-y1W1
X
Fig.5.2.3.1.1 Reeaua pentru implementarea GHA sau CGHA
Presupunem vectorul de intrare de forma :
X=[x1,x2,xN]T (5.2.3.1.1)
Primii M vectori proprii ai matricii de corelaie Rxx=E[XXT], ordonai n manier
descresctoare a valorilor proprii sunt furnizai de urmtorii vectori coloan:
T
NwwwW ]...[ 112111= (5.2.3.1.2)
T
NwwwW ]...[ 222212 = (5.2.3.1.3)
...............................
T
MNMMM wwwW ]...[ 21= (5.2.3.1.4)
Principala problem a algoritmului GHA este gsirea ponderilor Wj
(j=1,2,M). Pentru aceasta se iniializeazWjcu valori aleatoare dupcare ponderilevor fi modificate astfel:
+=+ )()[()()()1( nXnynnWnW jjj
( )
ji
iijj nWnynWny ])()()( (5.2.3.1.5)
n care n reprezintindexul iteraiilor i
-
8/21/2019 RN - Arh&alg
72/232
- 72 - CAP.5 Reele neuronale cu autoorganizare
)()()( nxnWny Tjj = (5.2.3.1.6)
Sanger aratcWjconverge spre componenta de ordinulja vectorului propriu alRxx.
Ma i Zhang [25] observcalgoritmul este restrns doar la domeniul real i
propun algoritmul CGHA capabil s prelucreze date din domeniul complex (de
exemplu, datele obinute de la o matrice de senzori sunt transformate prin eantionare
n cuadratur n mrimi complexe). n acest caz modificarea ponderilor se va face
dupo regulasemntoare cu cea de la GHA:+=+ )()][([)()()1( nXnyconjnnWnW jjj
ji
iJjj nWnYnWny )]()()()( , j=1,2,M(5.2.3.1.7)
n care conj[yj(n)]este conjugata complexa lui
)()()( nXnWny Hjj = (5.2.3.1.8)
undeHreprezinthermitianul transpus.
5.2.3.2 Algoritmul APEX
APEX (Adaptive Principal Component Extraction) este un algoritm pentru
calculul recursiv al componentelor principale propus de ctre Kung i Diamantoros
[26]. El se bazeazpe observaia cprin utilizarea unei RNA care folosete, pe lng
conexiuni feedforward i conexiuni lateral, cu neuroni interacionnd ntr-o manier
anti-hebbian, ieirile neuronilor corespunztori stratului de ieire vor defini un sistem
de coordonate necorelat chiar dacsemnalele aplicate la intrare sunt puternic corelate.n fig.5.2.3.2.1 este prezentat modelul unei RNA care implementeazacest algoritm.
-
8/21/2019 RN - Arh&alg
73/232
5.2. RNA cu autoorganizare i algoritm de nvare de tip hebbian - 73 -
x1
y0
xp-1
yj
y1x2
aj1
aj0
Fig. 5.2.3.2.1 RNA cu conexiuni laterale care implementeazalgoritmul APEX
Etapele algoritmului APEX sunt urmtoarele:
a) Iniializarea vectorului ponderilor sinaptice feedforward wji vectorului ponderilor
feedback ajcu valori aleatoare mici. Atribuirea unei valori pozitive ratei de nvare ;b) Fiej=0 i pentru n = 1,2,, se va calcula:
)]()()()([)()1(
)()()(
02000
00
nwnynxnynwnw
nxnwny T
+=+
=
n care cux(n) s-a notat vectorul de intrare.
Pentru valori mari ale lui navem:
00 )( qnw
unde q este vectorul propriu asociat celei mai mari valori proprii ale matricii de
corelaie a luix(n).
c) Fiej =1i pentru n=1,2,se calculeaz:
-
8/21/2019 RN - Arh&alg
74/232
- 74 - CAP.5 Reele neuronale cu autoorganizare
)]()()()([)()1(
)]()()([)()1(
)()()()(
)](),...(),([)(
21
2
1
1101
nanynynynana
nwynxnynwnw
nynanxnwy
nynynyny
jjjjjj
jjjjj
j
T
j
T
jj
T
jj
+=+
+=+
+=
=
d) Se incrementeazj cu o unitate i se continu cu pasul c) pn la j = m-1, cu m
reprezentnd numrul componentelor principale dorite.
Pentru nsuficient de mare avem:
0)(
)(
na
qnw
j
jj
unde qj este vectorul propriu asociat cu