O soluţie bioinspirată pentru generarea unui comportament autonom local, reflex, de evitare a...

O soluie bioinspirat pentru generarea unui comportament autonom local, reflex, de evitare a obstacolelor

Dobrea Monica-Claudia, Dobrea Dan Marius

Abstract: Scopul principal al prezentei lucrri l constituie gsirea unei soluii online, simple pentru problema de evitare a obstacolelor ntlnit n cazul roboilor mobili. Soluia propus de noi este una ce permite robotului dezvoltarea unui comportament autonom, local, de evitare a obstacolelor de fiecare dat cnd comanda motorie de nivel nalt care-l conduce (de ex., comanda mergi nainte sau napoi) l pune pe acesta ntr-o situaie de coliziune iminent. Soluia propus de noi pentru un robot cu 36 de senzori infraroii, distribuii uniform n jurul acestuia, este una foarte simpl, bazat pe o reea neuronal artificial minimal antrenat cu un algoritm derivat din algoritmul clasic de propagare napoi a erorii (n engl. backpropagation, BP). Cu o ncrcare computaional mic, algoritmul de nvare on-line implementat de noi s-a dovedit a fi unul foarte eficient att n mediile aglomerate, statice ct i n cele dinamice. Rezultatele raportate aici au fost obinute n mediul de simulare MobotSim 1.0.03 un simulator 2D, configurabil, destinat roboilor mobili cu roi, cu acionare diferenial.

1. Introducere

n cazul roboilor mobili o abilitate fundamental a acestora const n capacitatea autonom local a acestora de a evita obstacole. Pn n prezent, numeroase metode [Tan, 2008], [Gutnisky, 2004] au fost propuse n vederea implementrii acestui tip de comportament. n timp ce parte dintre aceste metode au fost considerate n cadrul unui simplu comportament de deplasare la ntmplare, alte metode au fost discutate i implementate n cadrul unor comportamente mai complexe cum ar fi cele n care roboilor li se cere s ajung ntr-o locaie specificat, s-i planifice calea sau s urmeze fie pereii, fie o int mobil, fie o linie marcat pe podea etc. n cele ce urmeaz, problema evitrii locale a obstacolelor este una tratat ca parte integrant a unui proiect mai larg, al crui scop final este acela de a construi un scaun cu rotile, inteligent, controlat mental de persoane cu deficiene. Scaunul inteligent va asista utilizatorii n navigare; astfel, de fiecare dat i imediat dup ce utilizatorii vor da o comand (de exemplu, comanda mergi nainte), scaunul inteligent o va executa pe aceasta ns, va avea simultan grij s evite, n mod adecvat i autonom, obstacolele aflate n cale.

Spre deosebire de multe alte abordri existente, abordarea noastr ia n considerare nu strategii de planificare a evitrii obstacolelor ci nsi comportamentul reflex de aprare care, la oameni, este declanat atunci cnd o modificare neateptat i brusc apare n mediul imediat nconjurtor mai exact, n aa-numitul spaiu peripersonal (SPP) [Graziano, 2006]. Rolul cheie al acestui mecanism de adaptare rapid mecanism implementat la nivelul cel mai de jos al execuiei motorii const n plasarea, cu prioritate, a robotului n afara oricrui pericol de ciocnire cu obstacole dinamice i/sau statice. Conform unei arhitecturi reactive de tip de jos-n sus, decizia de la nivelul cel mai de jos al evitrii unui obstacol este luat, mai departe, n

considerare de ctre nivelurile superioare de control motor ce sunt, la rndul lor, dedicate unor scopuri din ce n ce mai abstracte. n cazul nostru, urmtorul scop ce trebuie urmrit n cadrul proiectului global este acela ca robotul s aib, pe lng capacitatea de a evita (n mod autonom), i capacitatea de a ocoli (n acelai timp) obstacolul ntlnit astfel nct s fie pstrat, n continuare, direcia iniial de mers. n lucrarea prezentat n cele ce urmeaz doar comportamentul autonom reflex, de evitare a obstacolului (dezvoltat la nivelul motor cel mai de jos), integrat cu comanda superioar (n particular, cea care dicteaz o anume direcie global de mers) va face obiectul studiului nostru, urmnd ca, pe viitor, s fie luat n studiu i problema ocolirii obstacolului (scop motor intermediar ce implic revenirea robotului pe direcia iniial de mers).

2. Cteva consideraii tehnice i biologice 2.1 Consideraii biologice

n vederea dezvoltrii unui comportament reflex (bio-inspirat) de evitare a obstacolelor au fost avute n vedere o serie de rezultate biologice i psihologice raportate n literatur. Dintre acestea, elementele cheie folosite n implementarea noastr sunt cele prezentate mai jos.

La om, majoritatea celulelor sistemului nervos central (SNC) sunt formate nainte de natere ns cea mai mare parte a conexiunilor dintre celulele nervoase se realizeaz dup natere, n timpul copilriei timpurii. Modul n care se realizeaz aceste conexiuni este unul dictat, n mod esenial, de: (a) interaciunea constant a copilului cu mediul su nconjurtor i, mai mult, (b) de cronologia experienelor acumulate de copil (astfel, de exemplu, o experien timpurie, de interaciune a copilului cu mediul su, este de ateptat s aib o influen mai mare n dezvoltarea sistemului nervos central al copilului, prin aceea c ea d natere unor conexiuni nervoase care vor dicta ulterior maniera n care copilul va realiza noi achiziii fie acestea sub forma unor informaii, abiliti noi etc.). Reflexele principalele rspunsuri motorii involuntare de aprare: (1) pot fi nnscute sau (2) pot fi comportamente nvate ce permit realizarea, ntr-un mod automat, a unor activiti mai complexe. Acestea din urm: (i) sunt fie nvate de fiecare individ, n mod independent, fie sunt predate de ctre tere persoane, (ii) vin din experien (fie ntr-o manier de tip ncercare i eroare, fie folosind memoria experienelor trecute i observarea terilor) i (iii) pot fi rafinate printr-o practic continu, n scopul unei mai bune adaptri la condiiile de mediu aflate ntr-o permanent schimbare. La aprarea corpului i meninerea unei margini de siguran a acestuia i aduc aportul dou arii corticale importante, avnd rspunsuri neuronale cu laten mic. Aceste arii corticale sunt: a) aria ventral intra-parietal (VIP) i b) aria frontal polisenzorial (PZ) [Graziano, 2006]. n ariile VIP i PZ (arii unde neuronii rspund la tipuri similare de stimuli senzoriali i a cror stimulare conduce la ieiri de tip defensiv1 similare [Graziano, 2002]): i) cei mai muli neuroni sunt bimodali i trimodali, rspunznd simultan la stimuli vizuali, tactili i auditivi, ii) independent de mrimea stimulilor, circa jumtate din celulele VIP

1 Micrile evocate sunt micri de evitare, retragere sau de protejare a prii corpului pe care se afl localizat cmpul tactil receptiv.

rspund cel mai bine la stimuli vizuali situai la mai puin de 30 cm de corp iar multe dintre aceste celule rspund doar la stimuli aflai la foarte puini centimetri de corp; n mod similar, n aria PZ circa 46% dintre neuroni prezint un rspuns puternic i susinut doar pentru acei stimuli vizuali situai la mai puin de 5 cm de corp n timp ce ali 40% dintre neuroni rspund la stimuli vizuali situai la mai puin de circa 20 cm de corp; iii) rspunsurile celulelor multimodale pun n eviden un gradient al ratei de descrcare ca o funcie de distana la stimulii localizai n spaiul peripersonal (de exemplu, rspunsurile descresc neliniar ca o funcie de distana la stimuli); iv) unii neuroni VIP multisenzoriali primesc i intrare vestibular i, din acest motiv, se consider c acetia ar fi implicai n detectarea direciei micrii autogenerate a subiectului; v) neuronii PZ proiecteaz direct la nivel spinal, fiind astfel implicai n ieirea motorie defensiv. Comenzile motorii ce coboar de la nivel cortical sunt direct responsabile de iniierea i generarea micrilor voluntare. Reflexele complexe (aa cum este, de exemplu, reflexul de evitare a obstacolelor, care cel mai frecvent sub-servete alte micri voluntare cu scop precis) apar prin proiecia intrrilor senzoriale la nivelul circuitelor neuronale spinale. Proiecia intrrilor senzoriale se realizeaz prin intermediul inter-neuronilor spinali iar circuitele spinale la nivelul crora se face proiecia sunt frecvent reprezentate de generatorii centrali de pattern2 (GCP). n aceast reea de conexiuni, rolul inter-neuronilor spinali este acela de a integra intrrile descendente, venite de la creier, cu intrrile senzoriale aferente i, n consecin, acela de a adapta reflexele i activitatea neuronilor motori spinali la diferitele cerine funcionale aprute. Teoria celor doi factori ai lui Mowrer privind evitarea postuleaz faptul c nvarea procesului de evitare implic dou etape:

(1) O prim etap, n care subiectul care nva experimenteaz condiionarea clasic/bazat pe sentimentul de fric generat. Mai exact, un stimul de avertizare, aa cum este o distan mic (sau un anumit prag) pn la cel mai apropiat obstacol, este asociat cu o situaie neplcut, aa cum este coliziunea; n acest mod, un stimul iniial neutru devine un stimul condiionat, SC, capabil s produc un puternic rspuns condiionat, de fric.

(2) O a doua etap, n care subiectul experimenteaz condiionarea operant. n aceast etap subiectul adopt o aciune de rspuns la stimulul condiionat aversiv i, astfel, elimin prin ntrire negativ (n engl., negative reinforcement) evenimentul aversiv. Aceast ultim etap corespunde nsui procesului de nvare a evitrii iar n aceast etap comportamentul de evitare nu este ntrit prin evitarea situaiei neplcute (ciocnirea de obstacol) ci, prin terminarea stimulului condiionat aversiv adic, a stimulului care a evocat sentimentul de fric . Cu alte cuvinte, stimulul aversiv este cel care ntrete acele rspunsuri care l elimin pe el nsui.

Teoria ecologic a lui Gibson privind percepia vizual [Shumway-Cook, 2007] reclam faptul c pentru a genera aciuni adecvate oamenii au nevoie de informaia perceptual (nu senzorial!) legat de factorii de mediu care sunt importani pentru task-ul motor de executat. n cazul nostru ne-am folosit de o

2 Acetia sunt implicai n generarea secvenelor motorii stereotype.

percepie a adncimii medii pn la obstacolele din jur, alturi de percepiile legate de direcia micrii i viteza de deplasare.

2.2 Consideraii tehnice i practice

n cele prezentate n continuare, implementarea propus pentru procesul de nvare a evitrii obstacolelor va trebui privit doar ca un model foarte reducionist al analogului su uman, fr a se pierde ns i din relevana sa. Dintre modelele bio-inspirate propuse n literatur ca soluii pentru nvarea evitrii obstacolelor, modelele de nvare cu ntrire (n engl. reinforcement learning, RL), precum i modelele de tip comportament operant (n engl. operant behavior, OB) par a fi cele mai promitoare. Aa cum am precizat anterior, n teoria celor doi factori ai lui Mowrer vorbim de nvare prin evadare (nvm s sfrim ceva aversiv) i nvare prin evitare (nvm s prevenim ceva aversiv). Ca i n nvarea prin evadare, cele dou tipuri de modele, RL i OB:

(1) nu necesit o cunoatere complet a mediului i/sau cunoaterea aciunii ce trebuie luat n fiecare context particular de mediu (oricum, nu putem vorbi de o soluie unic pentru aciunea ce poate fi abordat la un moment dat);

(2) aceste dou modele necesit, mai presus de toate, ct mai multe interaciuni posibile ale robotului cu mediul su nconjurtor; din acest punct de vedere, aceste modele se ncadreaz n clasa algoritmilor de nvare de tip on-line;

(3) interaciunea cu mediul (static i/sau dinamic) are la baz tehnica de nvare bazat pe ncercare i eroare;

(4) ambele modele furnizeaz robotului mobil autonom o evaluare permanent i corespunztoare a performanelor sale, evaluare ce se face n termeni de pedeaps i recompens.

Cu toate acestea, n timp ce rezultatele obinute cu fiecare dintre aceste dou modele par a fi foarte promitoare, fiecrui model, n parte, fie i lipsesc unele detalii importante, fie acesta se confrunt cu unele probleme practice, de implementare; iar toate acestea fac ca, n final, soluia obinut s fie una departe de a exprima un comportament asemntor celui ntlnit la subiecii umani. n particular, n cazul metodei RL i a celei mai larg utilizate implementri a ei (vorbim aici de algoritmul Q-learning3 [Watkins, 1992]) menionm cel puin urmtoarele dezavantaje:

(i) n primul rnd, aceast metod implic manipularea unui tabel foarte mare. Acest tabel este unul utilizat n actualizarea valorilor-Q. Astfel, spre exemplu, pentru un robot cu numai 8 senzori, cu 5 aciuni posibile de executat i cu un domeniu al valorilor de intrare de [0, 1022] pentru fiecare senzor n parte, avem nevoie de un tabel-Q cu nu mai puin de 1.1995 x 1024 x 5 intrri. Recent, o alternativ la tabelele de tip look-up (utilizate

3 n care se estimeaz pentru fiecare pereche posibil [stare, aciune] un semnal mediu de tip recompens numeric.

iniial pentru a stoca valorile-Q) o reprezint reelele neuronale artificiale (RNA). Acestea din urm sunt utilizate n principal datorit celor dou capaciti ale lor, respectiv: a) capacitatea de a oferi o reprezentare mai compact a valorilor-Q i b) capacitatea de a interpola valorile-Q pentru perechile stare-aciune care nu au fost vizitate niciodat. Totui, n cazul utilizrii diferitelor paradigme RNA noi probleme pot s apar [Tan, 2008], aa cum este, spre exemplu, cazul instabilitii raportate pentru arhitecturile de tip perceptron multistrat (MLP), antrenate cu algoritmul BP. Mai precis, este foarte dificil de a garanta faptul c nvarea noilor pattern-uri nu erodeaz cunotinele acumulate anterior.

(ii) Un al doilea dezavantaj important este dat de numrul foarte limitat al aciunilor posibil de executat de ctre robot numr ce este determinat, n principal, ca urmare a constrngerilor de calcul.

(iii) Un alt dezavantaj major l constituie numrul mare de parametri necunoscui att ai algoritmului Q-learning (de ex., rata de actualizare, parametrul de temperatur iniial, funcia de recompens etc.), ct i ai implementrii RNA; pentru mai multe dezavantaje vezi i [Gutnisky, 2004].

Spre deosebire de metodele RL, unde ntr-o prim faz de explorare (faz de nvare), n mod independent de starea curent, robotul exploreaz mediul prin selectarea unor aciuni non-greedy4 (folosind, n acest sens, distribuia de probabilitate Boltzmann), n condiionarea operant [Gutnisky, 2004] stimulii primii de robot sunt utilizai nemijlocit pentru a nva ce aciuni s realizeze mai mult (este vorba de aciunile ce au primit recompens) i ce aciuni s realizeze mai puin (respectiv, aciunile care au fost penalizate). n consecin, n timp ce ambele tipuri de metode sunt considerate metode de tip on-line, operarea n timp real rmne o caracteristic doar pentru metodele de tip OB. n plus, n [Gutnisky, 2004] gsim raportat faptul c nici una dintre metodele menionate aici nu conduce la performane maxime; o explicaie posibil pentru aceasta ar putea fi faptul c n faza de antrenare termenul de recompens sau pedeaps este unul utilizat n detrimentul semnalului de intrare senzorial care este unul mult mai adecvat dat fiind marele su potenial informativ.

3. Procesul de nvare (bio-inspirat) a evitrii reflexe a obstacolelor n cele ce urmeaz o nou metod bio-inspirat, de nvare a evitrii reflexe a obstacolelor va fi prezentat, alturi de implementarea ei practic pe o platform robotic. Platforma robotic cu roi i cu acionare diferenial este una dotat cu 36 de senzori infraroii, IR, distribuii n mod echidistant n jurul ei (vezi Figura 1.a). Un controller bazat pe o reea minimal de tip MLP i antrenat cu un nou algoritm bio-inspirat (BBP) derivat din algoritmul BP va constitui, n cele ce urmeaz, elementul cheie folosit n vederea ntrunirii criteriului de nvare on-line i n timp real, ntlnit dealtfel la subiecii umani.

4 Strategia (metoda) greedy presupune efectuarea unei alegeri. Dintre toi paii urmtori posibili de ales, se alege acel pas care asigur un maximum de ctig, de unde i numele metodei: greedy = lacom.

1

2

Figura 1: a) Dispunerea senzorilor IR, b) arhitectura reelei de tip MLP.

Arhitectura minimal a reelei de tip MLP, Figura 1.b, a constat n 36 de intrri (corespunztor celor 36 de valori, si, citite de la senzorii IR) i n 2 ieiri (y1, y2, ce furnizeaz comenzile pentru cele dou motoare ce acioneaz roile difreniale ale robotului). Raza scurt de aciune a senzorilor IR, de doar 30 cm, i-a fcut pe acetia s fie foarte adecvai n cadrul mecanismelor de adaptare rapid la mediu. ntr-o prim etap (de preprocesare), valorile senzorilor au fost liniarizate iar, mai apoi, ele au fost normalizate n intervalul [0, 0.9], cu 0 desemnnd lipsa oricrui obstacol n vecintatea imediat a robotului i 0.9 denotnd coliziune. n cadrul topologiei reelei MLP, funciile de transfer adoptate pentru cele dou elemente de procesare de ieire au fost de tip tanh; acest din urm tip de funcii prezint, suplimentar, avantajul c limiteaz valorile de ieire n intervalul [-1,+1]. Comenzile globale de deplasare a robotului codate, dup cum urmeaz: nainte (1,1), napoi (-1,-1), la stnga (0,0.5), la dreapta (0.5, 0) i stop (0,0) au fost luate n considerare, la nivelul reelei MLP, prin intermediul bias-urilor (b1, b2) ale neuronilor de ieire. Direciile de deplasare nainte i napoi ale roilor robotului au fost i ele codate prin valori pozitive i, respectiv, negative n timp ce virajele la dreapta i, respectiv, la stnga, au fost obinute prin comenzi difereniale adecvate transmise la nivelul celor dou motoare. Informaia de vitez, yj, a fost una furnizat ca o valoare proporional n intervalul 0 (stop) i 1/-1 (vitez maxim nainte/napoi). La calculul activrii neuronilor de ieire ai reelei s-a adugat, de asemenea, un termen reprezentnd un mic zgomot, , cu rol n a preveni robotul de a se bloca n anumite condiii particulare de mediu. n lumina celor prezentate mai sus, o analogie grosier a sistemului nostru robotic cu sistemul neuro-motor uman poate arta astfel: stratul de intrare al reelei neuronale este omologul ariei frontale polisenzoriale PZ, neuronii de ieire sunt inter-neuronii care integreaz informaia senzorial primar (ce a trecut prin aria PZ) cu comanda cortical iar sistemul de acionare a roilor (controller-ul implementat cu o reea MLP) ar corespunde generatorilor centrali de pattern-uri.

n forma sa standard (1), algoritmul BP impune existena unui profesor care tie sau care poate calcula ieirea dorit pentru fiecare intrare (condiie de mediu) dat. Totui, acesta nu este i cazul nostru ntruct noi nu putem defini valorile dorite pentru comenzile y1, y2, acestea din urm depinznd de factori multipli care, adesea, sunt i imprevizibili.

y1 y2

a) b)

2

1

2

22

21

)1)((),1()(:

jjj

jjjjjijjij

ij

ydE

yydbysydwEwBP

(1)

n relaia (1) wij sunt ponderile reelei neuronale artificiale, E reprezint eroarea iar este rata de nvare (valoarea ei a fost aleas fix, i anume 0.7). Pentru a putea face, totui, uz de algoritmul BP (algoritm ce descrie cel mai bine modul n care copiii nva exersnd, ntr-o manier de tip ncercare i eroare) am inut cont i exploatat, n mod corespunztor, trei dintre teoriile psihologice, i anume: i) teoria ecologic a percepiei vizuale, ii) teoria motivaiei interne [Oudeyer, 2007] i iii) teoria evitrii a lui Mowrer (teoria celor doi factori). n cele din urm am ajuns la o nou paradigm, i anume, am substituit paradigma centrat pe professor (algoritmul BP) cu o nou paradigm, centrat pe elev. Relaia de calcul aferent noului algoritm, BBP (algoritm pe care noi l-am numit, oarecum impropriu, algoritmul BP-bioinspirat) este cea prezentat n relaia (2).

2.36,191.18,1,tanh:

jptisijptibswyForward jjii

ijj

jjjjjj

i ijj

djj

jjj

jjijij

ysignAsignysignEsignCrit

jptijptin

sAAAAE

CritETbysTwBBP

j

()

2.36,19,1.18,1,,

0),1(: 2

(2)

n noua relaie de actualizare a valorilor ponderilor (2), variaia ponderilor wij difer fa de variaia ponderilor din relaia (1) doar prin termenul compozit Tj pentru care termenul echivalent n relaia (1) este (dj - yj). n relaia (1) acest termen din urm este o msur a ct de mult din valoarea erorii se datoreaz ieirii j a RNA. Spre deosebire de algoritmul BP standard (1), n care acest termen al erorii are o form analitic clar ce depinde de valoarea dorit, dj, i de ieirea actual, yj, a RNA, n algoritmul BBP modul de calcul al termenului su echivalent, Tj, este unul ce ine cont:

pe de o parte, de maniera particular n care creierul elevului percepe stimulii din mediul imediat nconjurtor (n particular, vorbim aici de termenul Ej) i,

pe de alt parte, de modul n care elevul manipuleaz, la nivel cortical, aceste percepii (reflectat, la nivel de relaie, prin termenul Critj).

Aceti ultimi termeni nou introdui vor fi explicai mai trziu n cadrul acestei lucrri. n mod natural i firesc creierul uman folosete diferena dintre modul n care lumea este perceput i modul n care ea este de ateptat s fie perceput (corespunztor scopurilor noastre) ca o informaie de eroare funcie de care ncearc, apoi, s corecteze actul motor (micarea).

Pentru a genera aciuni adecvate oamenii utilizeaz informaia perceptual (nu pe cea senzorial) legat de factorii de mediu care prezint importan pentru task-ul motor ce trebuie fcut. n cazul nostru, percepia stimulului aversiv, Aj obinut ca percepia adncimii medii5 pn la obstacolele aflate n partea contralateral dreapt/stng a robotului a fost cea utilizat n faza de nvare (2). Pentru fiecare neuron de ieire al RNA s-a calculat o valoare diferit Aj corespunztoare, scopul fiind acela de a facilita nvarea reflexului de evitare a obstacolului pe ambele pri (n acest mod se asigur evitarea obstacolului pe partea cea mai potrivit). n relaia (2), parametrul (nj)j=1,2 reprezint numrul senzorilor de valoare non-nul dispui pe partea contralateral a robotului. Valoarea acestui parametru variaz de la un moment de timp la altul, funcie de condiiile de mediu (respectiv, prezena sau absena obstacolelor n spaiul peripersonal al robotului). n cadrul algoritmului de nvare BBP, stimulul condiionat aversiv dat de percepia Aj, crete cu ct adncimea medie pn la obstacolele aflate n spaiul peripersonal (SPP) drept/stng scade i, respectiv, dispare (devine zero) atunci cnd valorile citite de la nivelul tuturor senzorilor robotului devin nule. Acest din urm caz corespunde percepiei dorite a mediului, Ajd = 0; n aceast situaie ideal robotul este situat la cel puin 30 cm distan de orice obstacol nconjurtor. n mod corespunztor, eroarea apreciat de elev (robot), Ej, devine, n final (conform relaiei (2)), egal cu percepia Aj care nu reprezint altceva dect nsi stimulul aversiv care trebuie eliminat. Aceast eroarea calculat de ctre robot (i care ia valori n intervalul [0, 0.9]) este una conform cu paradigma fundamental care definete eroarea BP6. n continuare, corespunztor aceleiai etape a condiionrii operante, elevul (robotul) va ntri doar acele aciuni care elimin stimulii aversivi. n acest sens, robotul evalueaz la fiecare pas consecinele aciunilor sale ca rspuns la stimulii din mediu i, apoi, genereaz intern o recompens scalar, sign(Aj[n] Aj[n-1]); aceasta din urm trebuie neleas ca o msur a progresului nregistrat n procesul de nvare. Aceast msur calitativ, mpreun cu percepia direciei de micare a roilor, formeaz aa-numitul termen pe care noi l-am denumit critic, Crit. Termenul Crit este cel care controleaz maniera n care reeaua neuronal artificial i actualizeaz parametrii. Mai exact, actualizarea ponderilor reelei MLP n sensul meninerii sensului de mers de la pasul anterior7 este ncurajat ori de cte ori robotul se mic astfel nct s elimine/diminueze stimulii aversivi, Aj[n] Aj[n-1], i aceast actualizare a ponderilor se face n sensul schimbrii sensului de mers de la pasul anterior n caz contrar. La oameni am vzut c, ntr-o prim faz (numit i de condiionare clasic), comportamentul de evitare este unul bazat, n principal, pe sentimentul de fric generat de consecinele evenimentului aversiv (n cazul nostru, coliziunea). n momentul, ns, n care comportamentul de evitare ncepe s fie unul realizat, n mod repetat, cu succes, sentimentul de fric ncepe s dispar (subiectul uman ncepe s aib controlul asupra situaiei) iar procesul de nvare a comportamentului de evitare nceteaz.

5 A se vedea semnificaia dat valorilor citite de la senzori. 6 Atunci cnd sistemul adaptiv reuete s rezolve cu succes problema, eroarea calculat devine zero; n caz contrar, eroarea msoar distana dintre rezultatele dorite i ieirile curente ale sistemului adaptiv. 7 Vorbim aici de sensul de rotire (nainte sau napoi) a fiecrei roi n parte.

n cazul nostru, pentru a putea surprinde n cadrul soluiei propuse de noi i acest comportament ntlnit la oameni, o modelare a sentimentului de fric menionat mai sus apare, practic, ca o condiie necesar. n lipsa, ns, a unei astfel de modelri (reamintim c algoritmul BBP implementeaz condiionarea operant, nu i etapa premergtoare, cea a condiionrii clasice), soluia adoptat i rezultat din practic a constat n impunerea ca dup primii 300 de pai de antrenare (n care regula de actualizare BBP s-a aplicat la fiecare pas), actualizarea ponderilor reelei MLP s aib loc n continuare doar atunci cnd cel puin o intrare a RNA avea o valoare mai mare de 0.8. Aceast din urm situaie s-ar putea traduce prin aceea c robotul ajunge s se confrunte cu o situaie nemaintlnit pn atunci (o situaie nou8), pe care nu o poate rezolva i pentru care este necesar o nou nvare. n mediul de simulare, implementarea soluiei s-a fcut innd cont i de caracteristicile i limitrile tehnice ale robotului fizic pe care se urmrete implementarea, ntr-o etap urmtoare, a soluiei simulate. Din aceste considerente, viteza maxim de deplasare a robotului a fost setat la 0.3 m/s iar timpul scurs ntre fiecare aciune (micare) a robotului i urmtoarea citire a valorilor senzorilor a fost aleas de 400 ms. Valorile iniiale ale ponderilor reelei nu au fost generate n mod aleator ci, dimpotriv, ele au fost setate la zero pentru a simula procesul de conectare neural progresiv ce are loc n sistemul nervos al copiilor ncepnd de la natere i innd pe tot parcursul procesului de dezvoltare a controlului neural.

4. Rezultate i discuii Testarea algoritmului de nvare a evitrii obstacolelor propus mai sus s-a fcut n mediul de simulare MobotSim 1.0.03, cu medii att statice ct i dinamice (de exemplu, cu doi i, respectiv, cinci roboi mobili diferii). Un exemplu de comportament de evitare a obstacolelor nvat cu noul algoritm este i cel prezentat n Figura 2.a (comportament obinut dup primii 2527 de pai de antrenare) sau n Figura 2.b (comportament obinut dup primii 70517 de pai de antrenare). n urma analizei modului n care robotul a nvat comportamentul de evitare putem trage urmtoarele concluzii. La fel ca i la oameni:

(1) Metoda propus a permis implementarea online i n timp real a procesului de nvare. Aceasta trebuie privit i ca o consecin a faptului c algoritmul este unul foarte simplu, ce nu implic costuri computaionale foarte mari.

(2) nvarea are loc relativ repede (dup doar una sau dou coliziuni) i ea este foarte durabil, fr s presupun alte coliziuni ulterioare.

(3) Pentru procesul de nvare foarte importante sunt primele interaciuni ale robotului cu mediul su nconjurtor, aceste interaciuni fiind cele care contureaz, n linii mari, comportamentul de evitare de mai trziu.

(4) O consecin major a soluiei propuse pentru algoritmul de evitare a obstacolelor const n construirea unei zone de siguran n jurul robotului. Acest fapt vine s confirme ipoteza c spaiul personal al omului este rezultatul unui mecanism defensiv al crui rol este acela de monitorizare a obiectelor aflate n jurul corpului, obiecte care pot aduce

8 Nici o situaie dintre cele ntlnite de robot pn atunci nu seamn (n anumite limite) cu cea prezent.

atingere integritii acestuia. (5) Robotul reacioneaz prompt indiferent de direcia din care vine stimulul

mobil (n cazul nostru, stimulul l reprezint un alt robot aflat n micare). (6) Maniera n care este generat micarea9 mpreun cu modul n care sunt

calculate cele dou ieiri ale RNA10 (reprezentnd comenzile pentru motoare) ofer suportul real pentru obinerea unei varieti foarte mari de micri. Aa se explic marea flexibilitate a micrii robotului obinut utiliznd algoritmul nou propus.

(7) Preluarea controlului n mod automat, fie de ctre comanda cortical, fie de ctre comportamentul autonom local, s-a fcut n mod corespunztor, ori de cte ori contextul de mediu a cerut-o.

Figura 2: Comportamentul de evitare a obstacolelor nvat de robot: a) dup primii

2527 pai de antrenare i b) dup primii 70517 pai de antrenare ai algoritmului BBP.

9 i anume, prin intermediul celor dou roi acionate diferenial. 10 Avem n vedere aici valorile obinute valori care baleiaz, practic, intervalul [-1,+1].

a)

b)

5. Concluzii n aceast lucrare s-a prezentat, pe scurt, un nou concept pentru controlul robotic de tip comportament reactiv bio-inspirat. Plauzabilitatea biologic a modelului, alturi de simplicitatea ridicat a tehnicii i a paradigmei de nvare, au fcut sistemul robotic astfel obinut s fie unul foarte eficient: i) acesta nva repede i de o manier consistent; ii) comportamentul autonom este obinut online, n timp real i n medii dinamice i nestructurate; iii) comanda cortical i comportamentul local autonom reuesc cu success s preia, n mod automat i exclusiv (unul l exclude pe cellalt) controlul sistemului, ori de cte ori contextul de mediu o cere.

Referine 1 [Tan, 2008] Tan A. H., Lu N. i D. Xiao: Integrating temporal difference methods

and self-organizing neural networks for reinforcement learning with delayed evaluative feedback, n IEEE Transactions on Neural Networks, 19: 230-244, 2008

2 [Gutnisky, 2004] Gutnisky D. A. i Zanutto B. S.: Learning obstacle avoidance with an operant behavior model, n Artificial Life, 10: 65-81, 2004

3 [Graziano, 2006] Graziano M. S. i Cooke D. F.: Parieto-frontal interactions, personal space, and defensive behavior, n Neuropsychologia, 44: 845859, 2006

4 [Graziano, 2002] Graziano M. S., Taylor C. S. i Moore T.: Complex movements evoked by microstimulation of precentral cortex, n Neuron, 34: 841851, 2002

5 [Shumway-Cook, 2007] Shumway-Cook A. i Woollacott M. H.: Motor control: translating research into practice, 3rd ed., Lippincott Williams & Wilkins, U.S.A., pp. 16, 2007

6 [Watkins, 1992] Watkins C. i Dayan P.: Q-Learning, n Machine Learning, 8: 279-292, 1992

7 [Oudeyer, 2007] Oudeyer P.-Y. i Kaplan F.: What is intrinsic motivation? A typology of computational approaches, n Frontiers in Neurorobotics, 1(6): 1-14, 2007

O soluţie bioinspirată pentru generarea unui comportament autonom local, reflex, de evitare a...

Documents

Transcript of O soluţie bioinspirată pentru generarea unui comportament autonom local, reflex, de evitare a...