Metode adaptive de prelucrare a semnalelor Campeanu Gal

Colec ia "PRELUCRAREA SEMNALELOR" ________________________________________________________________

METODE ADAPTIVE DE PRELUCRARE A SEMNALELOR

Cartea face o expunere exaustiv a principiilor i metodelor utilizate în prelucrarea adaptiv a semnalelor, un subiect de larg aplicabilitate în multe domenii de vârf ale tehnicii actuale. Rod al unei experien e îndelungate, fapt eviden iat de vasta bibliografie utilizat , ea con ine numeroase aplica ii i probleme care completeaz în mod fericit materialul teoretic de înalt inut . Lucrarea se constituie într-un util instrument de lucru dedicat tuturor celor interesa i de prelucrarea digital a semnalelor, în special de telecomunica ii. Ea este adresat în primul rând studen ilor electroni ti masteranzi care studiaz disciplina Traitement adaptatif du signal, dar poate fi util doctoranzilor i cercet torilor care se specializeaz în domeniul prelucr rii adaptive a semnalelor. Referent tiin ific: Prof.dr.ing. Ioan NAFORNI

Descrierea CIP a Bibliotecii Na ionale a României CÂMPEANU, ANDREI

Metode adaptive de prelucrare a semnalelor/ prof.dr.ing. Andrei Câmpeanu, asist.ing. János Gál - Timi oara: Editura Politehnica, 2009

Bibliogr. ISBN 978-973-625-605-9

I. Gál János 621.391.8

Prof.dr.ing. Andrei CÂMPEANU Asist ing János GÁL

METODE ADAPTIVE DE PRELUCRARE A SEMNALELOR

Colec ia “PRELUCRAREA SEMNALELOR”

EDITURA POLITEHNICA TIMI OARA - 2009

Copyright © Editura Politehnica, 2009 Toate drepturile sunt rezervate editurii. Nici o parte din aceast lucrare nu poate fi reprodus , stocat sau transmis prin indiferent ce form , f r acordul prealabil scris al Editurii Politehnica. EDITURA POLITEHNICA Bd. Republicii nr. 9 300159 Timi oara, România Tel. 0256/403.823 Fax 0256/403.823 E-mail: [email protected] Consilier editorial: Prof.dr.ing. Sabin IONEL Redactor: Claudia MIHALI Bun de imprimat: 14.09.2009 Coli de tipar: 25,25 C.Z.U. 621.391.8 ISBN 978-973-625-605-9 Tiparul executat sub comanda nr. 103 la Tipografia Universit ii "Politehnica" din Timi oara

PREFAŢĂ

Metodele adaptive reprezintă în momentul de faţă una din temele majore de studiu ale disciplinei care se ocupă cu prelucrarea semnalelor. Începând cu anii 60, aceste metode au cunoscut un avânt remarcabil, datorat dezvoltării tehnicilor de calcul numeric şi creşterii constante a capacităţii calculatoarelor, permiţând implementarea în timp real a unor algoritmi din ce în ce mai sofisticaţi şi mai puternici. Domeniile care au beneficiat de impactul dezvoltării tehnicilor de prelucrare adaptivă a semnalelor includ în primul rând telecomunicaţiile, dar şi aplicaţii radar sau sonar, aplicaţii în multimedia, analiza datelor seismice şi teledetecţie, etc. În aceste aplicaţii, metodele adaptive realizează operaţii precum identificarea şi modelarea parametrilor unor sisteme, filtrarea şi predicţia unor semnale sau suprimarea interferenţelor şi zgomotelor din componenţa semnalelor recepţionate. Obiectivele pe care cartea îşi propune să le trateze sunt următoarele:

Să expună principiile de bază şi metodele generale de filtrare adaptivă sub forma unor idei simple şi clare.

Să dea un acces rapid şi direct la algoritmii adaptivi cei mai utilizaţi, facilitând înţelegerea şi stăpânirea lor în vederea alegerii celei mai convenabile soluţii pentru o aplicaţie dată.

Să ofere instrumentele matematice şi rezultatele necesare studiului convergenţei algoritmilor de filtrare adaptivă.

Scopul principal al acestei cărţi este să ajute atât studenţii cât şi inginerii din producţie să înţeleagă principiile matematice fundamentale care stau la baza metodelor de filtrare adaptivă, să aprecieze limitările lor inerente şi să furnizeze detalii suficiente pentru implementarea lor practică. Limbajul matematic utilizat este accesibil studen-ţilor din ciclul doi de studii şi inginerilor de profil electric ce au cunoştiinţe standard în domeniul algebrei lineare, al calculului probabilităţilor şi al prelucrării semnalelor.

În studiul filtrelor adaptive, simulările pe calculator constituie un complement important în raport cu analizele şi deducţiile teoretice. Pentru realizarea acestora, se utilizează, pe tot parcursul lucrării, programul MATLAB. Din carte fac parte integrantă de asemenea, exerciţii şi probleme pe care le propunem la sfârşitul fiecărui capitol.

Lucrarea se deschide în Capitolul 1 cu o privire generală asupra structurii şi principalelor categorii de aplicaţii ale filtrelor adaptive. Sunt trecute în revistă în acest capitol mai multe exemple de aplicaţii ca modelarea de sistem, egalizarea de canal, suprimarea ecourilor şi reţelele de antene.

VI PREFAŢĂ

Capitolele 2 şi 3 fac într-o primă instanţă rememorarea pentru cititor a unor elemente de bază din domeniile analizei semnalelor deterministe şi aleatoare şi ale algebrei lineare.

În Capitolul 4 este introdusă o clasă importantă de sisteme lineare optimale cunoscute sub numele de filtre Wiener-Hopf. Filtrele Wiener-Hopf sunt fundamentale pentru definirea şi implementarea filtrelor adaptive.

Capitolul 5 utilizează teoria filtrării Wiener-Hopf la rezolvarea problemei predicţiei lineare. În cazul filtrelor de predicţie, răspunsul optimal este determinat exclusiv pe baza seriei temporale de intrare, fapt care constituie baza algoritmului de calcul recursiv Levinson-Durbin.

Tehnicile de filtrare adaptivă pot fi considerate în primul rând modalităţi de a realiza filtrarea lineară optimală prin tehnici de calcul recursiv şi în absenţa unor informaţii detailate cu privire la statistica procesului aleator filtrat. Din acest punct de vedere, metodele de gradient prezentate în Capitolul 6 se constituie ca un suport teoretic necesar atât înţelegerii cât şi analizei familiei de algoritmi LMS, cei mai utilizaţi algoritmi adaptivi. Capitolul 7 este dedicat unui studiu exhaustiv al algoritmului LMS, metoda adaptivă cea mai utilizată în practică. Analiza performanţelor algoritmului este făcută atât din punct de vedere teoretic cât şi prin simulări numerice. Algoritmii derivaţi din algoritmul LMS reprezintă subiectul Capitolului 8 al lucrării. Variantele algoritmului LMS urmăresc să îmbunătăţească performanţele algoritmului standard atât din punctul de vedere al creşterii performanţelor cât şi al reducerii volumului de calcul.

Metoda celor mai mici pătrate (Least Squares) constituie subiectul Capitolului 9. Aceasta poate fi văzută ca o alternativă la teoria filtrării optimale. În principiu, filtrele Wiener-Hopf utilizează modele statistice ale semnalelor prelucrate, pe când abordarea pe care o realizează metoda celor mai mici pătrate este deterministă. Capitolul 10 este dedicat studiului algoritmului RLS (Recursive Least-Squares). Algoritmul reprezintă cea mai bună aplicaţie a metodei celor mai mici pătrate în domeniul prelucrării adaptive a semnalelor.

Capitolul 11 dedicat filtrului Kalman completează studiul filtrelor lineare optimale cu o abordare diferită de cea utilizată de Wiener. Caracteristica ce distinge filtrele Kalman de alte filtre optimale este că formularea lor matematică este realizată pe baza conceptului de spaţiu al stărilor.

Ultimul capitol al lucrării tratează o clasă importantă de algoritmi adaptivi, care sunt recurenţi atât după ordinul filtrului cât şi în timp: algoritmii RLS rapizi.

Ţinem să ne exprimăm recunoştiinţa tuturor colegilor din Departamentul de Comu-nicaţii al Universităţii „Politehnica” Timişoara care ne-au sprijinit şi încurajat pe toată perioada conceperii şi realizării acestei cărţi, îndeosebi Profesorului Ioan Naforniţă. Finanţarea cărţii a fost asigurată de grantul CNCSIS tip TD-24 nr. 189/01.10.2007.

Andrei Câmpeanu János Gál

Cuprins

Prefaţă ................................................................................................................................ V

1 Introducere ............................................................................................................. 1 1.1 Filtre lineare .................................................................................................................. 1 1.2 Structura filtrelor adaptive ........................................................................................... 2 1.3 Algoritmii adaptivi ........................................................................................................ 5 1.4 Aplicaţiile filtrelor adaptive .......................................................................................... 5

1.4.1 Modelarea .............................................................................................................. 6 1.4.2 Modelarea inversă .................................................................................................. 7 1.4.3 Predicţia lineară ..................................................................................................... 9 1.4.4 Anularea interferenţelor ...................................................................................... 14

1.5 Filtrarea spaţială ......................................................................................................... 18

2 Semnale şi sisteme în timp discret ........................................................................ 21 2.1 Transformarea Z ......................................................................................................... 21 2.2 Proprietăţile transformării Z ....................................................................................... 22 2.3 Sisteme lineare invariante în timp (SLIT)..................................................................... 23 2.4 Cauzalitate şi stabilitate ............................................................................................. 25 2.5 Sisteme de fază minimă .............................................................................................. 26 2.6 Transformarea Fourier în timp discret ........................................................................ 27 2.7 Transformarea Fourier discretă .................................................................................. 27 2.8 Implementarea convoluţiei cu ajutorul transformării DFT ......................................... 28

2.8.1 Metoda Overlap-Add (Suprapune şi însumează) .................................................. 29 2.8.2 Metoda Overlap-Save (Suprapune şi salvează) .................................................... 31

2.9 Transformarea cosinus discretă (Discrete Cosine Transform - DCT) ........................... 32 Probleme ................................................................................................................................. 34

3 Procese aleatoare în timp discret .......................................................................... 37 3.1 Caracterizarea statistică a proceselor aleatoare în timp discret ................................ 37

3.1.1 Descrierea prin funcţii de probabilitate ............................................................... 38 3.1.2 Descrierea prin medii statistice de ordinul unu sau doi ....................................... 39 3.1.3 Categorii de procese aleatoare ............................................................................ 40 3.1.4 Procese aleatoare staţionare ............................................................................... 41

3.2 Caracterizarea temporală a proceselor aleatoare în timp discret .............................. 43 3.2.1 Medii temporale ................................................................................................... 44 3.2.2 Procese aleatoare ergodice .................................................................................. 44

3.3 Descrierea în domeniul frecvenţă a proceselor staţionare ......................................... 45 3.3.1 Densitatea spectrală de putere – definiţie şi proprietăţi ..................................... 45 3.3.2 Zgomotul alb ........................................................................................................ 48

3.4 Trecerea semnalelor aleatoare prin sisteme lineare invariante în timp ..................... 48

VIII CUPRINS

3.4.1 Analiza în domeniul timp ...................................................................................... 48 3.4.2 Analiza în domeniul frecvenţă .............................................................................. 50

3.5 Matricea de corelaţie .................................................................................................. 50 3.5.1 Definirea matricii de corelaţie .............................................................................. 51 3.5.2 Proprietăţile matricii de corelaţie ........................................................................ 51 3.5.3 Matricea de corelaţie a unei sinusoide complexe înecate în zgomot aditiv ........ 53

3.6 Vectori şi valori proprii ale matricii de corelaţie ......................................................... 55 3.6.1 Problema valorilor proprii .................................................................................... 55 3.6.2 Proprietăţile valorilor şi vectorilor proprii ............................................................ 57

3.7 Filtre adaptate şi filtre proprii ..................................................................................... 65 3.7.1 Filtrul adaptat ....................................................................................................... 67 3.7.2 Filtrul propriu ....................................................................................................... 67

3.8 Transformări care utilizează descompunerea triunghiulară ....................................... 68 3.8.1 Descompunerea LDU ............................................................................................ 69 3.8.2 Descompunerea UDL ............................................................................................ 70

3.9 Modelarea lineară a semnalelor stochastice .............................................................. 70 3.9.1 Modelul stochastic cu medie alunecătoare (MA) ................................................ 71 3.9.2 Modelul stochastic autoregresiv (AR) .................................................................. 72 3.9.3 Modelul stochastic ARMA .................................................................................... 75

Probleme ................................................................................................................................. 76

4 Filtre lineare optimale ........................................................................................... 81 4.1 Filtrarea optimală lineară: punerea problemei........................................................... 81 4.2 Principiul ortogonalităţii ............................................................................................. 84

4.2.1 Formularea principiului ........................................................................................ 84 4.2.2 Corolarul principiului ortogonalităţii .................................................................... 86 4.2.3 Interpretarea geometrică a principiului ortogonalităţii ....................................... 86

4.3 Ecuaţiile Wiener-Hopf ................................................................................................. 87 4.3.1 Calculul coeficienţilor filtrului Wiener în cazul general ........................................ 87 4.3.2 Soluţia matricială a ecuaţiilor Wiener-Hopf pentru filtre FIR de lungime finită ... 88

4.4 Suprafaţa de eroare .................................................................................................... 91 4.4.1 Calculul funcţiei de cost ....................................................................................... 91 4.4.2 Forma canonică a suprafeţei de eroare ............................................................... 94

4.5 Rezolvarea ecuaţiilor normale prin descompunere triunghiulară .............................. 96 4.6 Reprezentarea prin transformare a filtrului optimal .................................................. 99 4.7 Caracterizarea în frecvenţă a filtrului optimal .......................................................... 102 4.8 Egalizarea de canal ................................................................................................... 103 4.9 Filtrul de varianţă minimă cu constrângeri lineare ................................................... 106 Probleme ............................................................................................................................... 111

5 Predicţia lineară .................................................................................................. 115 5.1 Predicţia lineară înainte (directă) ............................................................................. 115

5.1.1 Filtrul de predicţie înainte .................................................................................. 115 5.1.2 Filtrul erorii de predicţie înainte ........................................................................ 117 5.1.3 Relaţia dintre predicţia lineară şi modelarea autoregresivă .............................. 118 5.1.4 Ecuaţiile Wiener-Hopf extinse pentru predicţia înainte ..................................... 119

5.2 Predicţia lineară înapoi (inversă) .............................................................................. 121

CUPRINS IX

5.2.1 Filtrul de predicţie înapoi ................................................................................... 121 5.2.2 Relaţia dintre filtrele de predicţie înainte şi înapoi ............................................ 123 5.2.3 Filtrul erorii de predicţie înapoi .......................................................................... 124 5.2.4 Ecuaţiile Wiener-Hopf extinse pentru predicţia înapoi ...................................... 125

5.3 Predicţia lineară generalizată ................................................................................... 126 5.4 Algoritmul Levinson-Durbin ...................................................................................... 128

5.4.1 Formularea algoritmului ..................................................................................... 129 5.4.2 Interpretări ale parametrilor m şi 1m ........................................................... 132 5.4.3 Implementarea algoritmului .............................................................................. 133

5.5 Algoritmul Schür ....................................................................................................... 136 5.6 Proprietăţile filtrelor erorii de predicţie .................................................................... 140 5.7 Structuri lattice pentru filtrele de eroare de predicţie .............................................. 142

5.7.1 Ortogonalitatea erorilor de predicţie ................................................................. 142 5.7.2 Recursii după ordin pentru erorile de predicţie ................................................. 145

5.8 Recursia lui Burg ....................................................................................................... 148 Probleme ............................................................................................................................... 150

6 Metode de gradient ............................................................................................ 153 6.1 Metoda SD ................................................................................................................ 154

6.1.1 Introducere ......................................................................................................... 154 6.1.2 Descrierea metodei SD ....................................................................................... 155

6.2 Soluţia directă a ecuaţiei de recursie SD ................................................................... 158 6.2.1 Calculul soluţiei .................................................................................................. 158 6.2.2 Soluţia metodei SD ............................................................................................. 160

6.3 Convergenţa metodei SD .......................................................................................... 161 6.3.1 Stabilirea condiţiilor de convergenţă ................................................................. 161 6.3.2 Dinamica procesului de convergenţă ................................................................. 162 6.3.3 Comportarea tranzitorie a erorii pătratice medii ............................................... 163 6.3.4 Viteza de convergenţă ........................................................................................ 164

6.4 Metoda Newton ........................................................................................................ 169 6.4.1 Formularea algoritmului ..................................................................................... 169 6.4.2 O interpretare alternativă a metodei Newton ................................................... 172

Probleme ............................................................................................................................... 173

7 Algoritmul gradientului stochastic (LMS) ............................................................ 177 7.1 Deducerea algoritmului LMS .................................................................................... 177 7.2 Analiza performanţelor algoritmului LMS ................................................................ 180

7.2.1 Convergenţa în medie a vectorului coeficienţilor .............................................. 180 7.2.2 Ipoteze în studiul comportării erorii pătratice medii a algoritmului LMS .......... 184 7.2.3 Curba de învăţare a algoritmului LMS ................................................................ 185 7.2.4 Evoluţia matricii de corelaţie a erorii coeficienţilor ........................................... 187 7.2.5 Eroarea pătratică medie în exces şi dezadaptarea ............................................. 190 7.2.6 Stabilitatea algoritmului LMS ............................................................................. 192 7.2.7 Reguli practice de implementare a algoritmului LMS ........................................ 193

7.3 Simulări pe calculator ............................................................................................... 194 7.3.1 Predicţia lineară ................................................................................................. 195

X CUPRINS

7.3.2 Modelarea de sistem .......................................................................................... 198 7.3.3 Egalizarea adaptivă ............................................................................................. 200

7.4 Algoritmi LMS pentru aplicaţii de control activ ........................................................ 204 7.4.1 Algoritmul LMS cu filtrarea referinţei ................................................................ 205 7.4.2 Algoritmul LMS cu filtrarea erorii ....................................................................... 207

7.5 Algoritmul LMS cu constrângeri liniare ..................................................................... 211 7.6 Efectele cuantizării asupra implementării digitale a algoritmului LMS .................... 216 Probleme ............................................................................................................................... 218

8 Algoritmi derivaţi din algoritmul LMS ................................................................. 223 8.1 Algoritmi LMS cu semn ............................................................................................. 224

8.1.1 Algoritmul LMS cu semnul erorii ........................................................................ 224 8.1.2 Algoritmul LMS cu semnul datelor ..................................................................... 226 8.1.3 Algoritmul LMS semn-semn ............................................................................... 226

8.2 Algoritmul LMS normalizat ....................................................................................... 227 8.2.1 Deducerea algoritmului ...................................................................................... 227 8.2.2 Stabilitatea algoritmului NLMS ........................................................................... 230

8.3 Algoritmul LMS-Newton ........................................................................................... 232 8.4 Algoritmi LMS cu transformare de domeniu ............................................................. 235

8.4.1 Principiul filtrării adaptive TDAF ......................................................................... 235 8.4.2 Transformări ortogonale .................................................................................... 237 8.4.3 Formularea algoritmului ..................................................................................... 241 8.4.4 Transformarea Karhunen-Loève şi algoritmul LMS-Newton .............................. 243

8.5 Algoritmul de proiecţie afină .................................................................................... 244 8.5.1 Formularea algoritmului APA ............................................................................. 245 8.5.2 Abordare alternativă a algoritmului APA ........................................................... 248 8.5.3 Interpretarea proiecţiei afine ............................................................................. 249

8.6 Algoritmi LMS pentru structuri lattice ...................................................................... 251 8.6.1 Algoritmul LMS-GAL pentru filtre ale erorii de predicţie lattice ........................ 251 8.6.2 Algoritmul LMS-GAL de filtrare adaptivă ............................................................ 254

Probleme ............................................................................................................................... 258

9 Metoda celor mai mici pătrate ............................................................................ 261 9.1 Formularea problemei celor mai mici pătrate .......................................................... 261

9.1.1 Ecuaţia matricială a erorii ................................................................................... 261 9.1.2 Deducerea algebrică a ecuaţiilor normale în metoda LS .................................... 265 9.1.3 Interpretarea geometrică a estimării prin metoda celor mai mici pătrate ........ 266 9.1.4 Proprietăţi ale soluţiei problemei celor mai mici pătrate .................................. 268 9.1.5 Ecuaţiile LS normale ponderate ......................................................................... 269 9.1.6 Proprietăţile statistice ale estimatorilor LS ........................................................ 270

9.2 Filtre FIR realizate prin metoda celor mai mici pătrate ............................................ 272 9.3 Tehnici de ortogonalizare utilizate în calculul estimării LS ....................................... 275

9.3.1 Factorizarea QR .................................................................................................. 275 9.3.2 Transformarea (reflexia) Householder ............................................................... 278 9.3.3 Transformarea (rotaţia) Givens .......................................................................... 280 9.3.4 Ortogonalizarea Gram-Schmidt .......................................................................... 283

9.4 Rezolvarea problemei LS prin descompunerea în valori singulare ............................ 285

CUPRINS XI

9.4.1 Teorema descompunerii în valori singulare ....................................................... 285 9.4.2 Proprietăţi şi interpretări ale descompunerii în valori singulare ....................... 286 9.4.3 Soluţia de normă minimă a problemei LS .......................................................... 288

Probleme ............................................................................................................................... 291

10 Soluţii recursive ale problemei LS ........................................................................ 295 10.1 Filtre LS adaptive ...................................................................................................... 295

10.1.1 Ecuaţiile de recursie ale matricii de corelaţie şi vectorului de intercorelaţie .... 296 10.1.2 Algoritmul adaptiv LS apriori .............................................................................. 297 10.1.3 Algoritmul adaptiv LS aposteriori ....................................................................... 298

10.2 Algoritmul RLS standard ........................................................................................... 301 10.2.1 Deducerea algoritmului ...................................................................................... 301 10.2.2 Ecuaţia de recursie a minimului funcţiei de cost ................................................ 302 10.2.3 Particularităţi ale algoritmului RLS standard ...................................................... 304

10.3 Analiza convergenţei şi performanţelor algoritmului RLS ........................................ 305 10.3.1 Analiza algoritmului cu memorie infinită ........................................................... 305 10.3.2 Analiza algoritmului cu memorie finită .............................................................. 306 10.3.3 Simularea pe calculator ...................................................................................... 308

10.4 Algoritmi RLS cu factorizare QR ................................................................................ 310 10.4.1 Calcule LS prin descompunere Cholesky sau QR ................................................ 310 10.4.2 Leme de factorizare matricială ........................................................................... 314 10.4.3 Algoritmul QR-RLS .............................................................................................. 315 10.4.4 Algoritmul QR-RLS extins .................................................................................... 317 10.4.5 Algoritmul QR-RLS invers.................................................................................... 318 10.4.6 Implementarea algoritmului QR-RLS prin utilizarea rotaţiilor Givens ................ 319 10.4.7 Implementarea algoritmului QR-RLS invers prin utilizarea rotaţiilor Givens ..... 323

10.5 Clasificarea algoritmilor RLS ..................................................................................... 327 Probleme ............................................................................................................................... 329

11 Filtrul Kalman ...................................................................................................... 331 11.1 Ecuaţii de stare pentru sisteme lineare în timp discret ............................................. 331

11.2 Procesul de inovaţii ............................................................................................ 333 11.2.1 Definirea procesului de inovaţii ......................................................................... 333 11.2.2 Matricea de corelaţie a procesului de inovaţii ................................................... 334

11.3 Estimarea predicţiei de stare în filtrarea Kalman ..................................................... 336 11.3.1 Calculul recursiv al estimării de stare ................................................................. 336 11.3.2 Matricea de câştig Kalman ................................................................................. 337 11.3.3 Ecuaţia Ricatti ..................................................................................................... 339

11.4 Estimarea de stare prin filtrare ................................................................................. 341 11.4.1 Eroarea de estimare filtrată şi factorul de conversie ......................................... 342 11.4.2 Matricea de corelaţie a erorii de filtrare a stării ................................................ 342

11.5 Algoritmul de filtrare Kalman ................................................................................... 344 11.5.1 Condiţii iniţiale ................................................................................................... 344 11.5.2 Formularea algoritmului Kalman standard ........................................................ 345

11.6 Variante de filtre Kalman .......................................................................................... 348 11.6.1 Modelul sistemului dinamic neforţat ................................................................. 349 11.6.2 Algoritmul de filtrare de covarianţă (Kalman) .................................................... 350

XII CUPRINS

11.6.3 Algoritmul de filtrare informaţională ................................................................. 350 11.6.4 Algoritmi de filtrare Kalman cu descompunere matricială ................................ 352

11.7 Filtrul Kalman extins (EKF) ........................................................................................ 354 11.8 Filtrul Kalman şi algoritmul RLS ................................................................................ 358

11.8.1 O comparare a metodelor aleatoare şi deterministe ......................................... 360 11.8.2 Comparaţie între filtrul Kalman de covarianţă şi algoritmul RLS ....................... 361

Probleme ............................................................................................................................... 363

12 Algoritmi RLS rapizi ............................................................................................. 365 12.1 Predicţie liniară în context LS .................................................................................... 365

12.1.1 Recursia după ordinul filtrului ............................................................................ 365 12.1.2 Ecuaţiile erorii de predicţie LS ............................................................................ 367 12.1.3 Ecuaţiile de recursie ale predicţiei RLS ............................................................... 369

12.2 Filtre FIR rapide fără recursie de ordin...................................................................... 370 12.2.1 Inversarea matricilor hermitice partiţionate ...................................................... 371 12.2.2 Algoritmul Kalman rapid..................................................................................... 373 12.2.3 Algoritmul FAEST ................................................................................................ 376 12.2.4 Algoritmul FTF .................................................................................................... 377 12.2.5 Iniţializarea şi stabilitatea algoritmilor rapizi fără recursie de ordin .................. 379

12.3 Algoritmi LS rapizi pentru structuri lattice ................................................................ 379 12.3.1 Recursii după ordin în predictoare LS................................................................. 379 12.3.2 Algoritmi rapizi de predicţie lattice .................................................................... 382

12.4 Algoritmi LS rapizi pentru structuri lattice-scară ...................................................... 384 12.4.1 Filtre FIR cu recursie după ordin ........................................................................ 384 12.4.2 Structura de filtrare lattice-scară ....................................................................... 386 12.4.3 Algoritmi RLS lattice-scară .................................................................................. 387 12.4.4 Algoritmi RLS lattice-scară cu reacţie pe eroare ................................................ 389 12.4.5 Algoritmi RLS lattice-scară cu rotaţii Givens ....................................................... 390

Probleme ............................................................................................................................... 397

Bibliografie ......................................................................................................................... 399

Index ............................................................................................................ 403

1 Introducere istemele care prelucrează semnalele prin metode adaptive poartă numele generic de „filtre adaptive”. Este normal să începem discuţia noastră despre filtrele adaptive, printr-o încercare de a explica sensul celor două cuvinte. „Adaptiv” este acel sistem care încearcă să-şi ajusteze el însuşi parametrii, astfel încât să

răspundă unor fenomene care se produc în vecinătate. În ceea ce priveşte cel de-al doilea termen, sistemele care realizează şi suferă efectul procesului de „adaptare”, sunt denumite prin termenul foarte familiar oricărui inginer de „filtre”. În funcţie de timpul necesar atingerii ţintei finale a procesului de adaptare, denumit timp de convergenţă şi de complexitatea resurselor utilizate pentru realizarea adaptării, putem avea o varietate de algoritmi şi structuri de filtre. Din acest punct de vedere, tema acestei cărţi este studiul unor algoritmi adaptivi şi implementarea acestora în structuri de filtrare adecva-te din punctul de vedere a convergenţei şi performanţelor.

1.1 Filtre lineare În contextul studiului semnalelor şi sistemelor, filtrele sunt utilizate pentru a selecta din semnalul de intrare, componentele de frecvenţă care aparţin unei anumite benzi de frecvenţă, rejectând în acelaşi timp restul componentelor care nu aparţin acestei benzi. Într-o generalizare, utilizăm termenul filtru pentru a ne referi la un sistem care modelează componentele spectrale ale semnalului de intrare pentru a genera un semnal de ieşire cu caracteristici convenabile.

Filtrele (sau, în general, sistemele) pot fi atât lineare cât şi nelineare. În această lucrare ne vom ocupa numai cu filtrele lineare, accentul fiind pus în totalitate pe semnale şi sisteme în timp discret. Prin urmare, toate semnalele vor fi reprezentate prin secvenţe, ca de exemplu u n . Sistemele lineare se caracterizează prin respectarea de către acestea a principiului superpoziţiei. Aceasta înseamnă că dacă răspunsurile unui sistem linear în timp discret la secvenţele de intrare 1u n şi 2u n sunt 1y n respectiv 2y n , atunci răspunsul aceluiaşi sistem la secvenţa de intrare

Capitolul

1 S

1 Introducere

istemele care prelucrează semnalele prin metode adaptive poartă numele generic

de „filtre adaptive”. Este normal să începem discuţia noastră despre filtrele

adaptive, printr-o încercare de a explica sensul celor două cuvinte. „Adaptiv”

este acel sistem care încearcă să-şi ajusteze el însuşi parametrii, astfel încât să

răspundă unor fenomene care se produc în vecinătate. În ceea ce priveşte cel de-al

doilea termen, sistemele care realizează şi suferă efectul procesului de „adaptare”, sunt

denumite prin termenul foarte familiar oricărui inginer de „filtre”. În funcţie de timpul

necesar atingerii ţintei finale a procesului de adaptare, denumit timp de convergenţă şi

de complexitatea resurselor utilizate pentru realizarea adaptării, putem avea o varietate

de algoritmi şi structuri de filtre. Din acest punct de vedere, tema acestei cărţi este

studiul unor algoritmi adaptivi şi implementarea acestora în structuri de filtrare adecva-

te din punctul de vedere a convergenţei şi performanţelor.

1.1 Filtre lineare

În contextul studiului semnalelor şi sistemelor, filtrele sunt utilizate pentru a selecta din

semnalul de intrare, componentele de frecvenţă care aparţin unei anumite benzi de

frecvenţă, rejectând în acelaşi timp restul componentelor care nu aparţin acestei benzi.

Într-o generalizare, utilizăm termenul filtru pentru a ne referi la un sistem care

modelează componentele spectrale ale semnalului de intrare pentru a genera un semnal

de ieşire cu caracteristici convenabile.

Filtrele (sau, în general, sistemele) pot fi atât lineare cât şi nelineare. În această

lucrare ne vom ocupa numai cu filtrele lineare, accentul fiind pus în totalitate pe

semnale şi sisteme în timp discret. Prin urmare, toate semnalele vor fi reprezentate prin

secvenţe, ca de exemplu u n . Sistemele lineare se caracterizează prin respectarea de

către acestea a principiului superpoziţiei. Aceasta înseamnă că dacă răspunsurile unui

sistem linear în timp discret la secvenţele de intrare 1u n şi 2u n sunt 1y n

respectiv 2y n , atunci răspunsul aceluiaşi sistem la secvenţa de intrare

Capitolul

1

S

2 INTRODUCERE - 1

1 2u n au n bu n , unde a şi b sunt două constante arbitrare, va fi

1 2y n ay n by n . Această proprietate determină o serie de rezultate interesante

în teoria sistemelor lineare. În particular, un sistem linear este caracterizat complet de

răspunsul lui la impuls unitar sau de transformata Fourier a acestui răspuns, care este

denumită funcţie de transfer.

Figura 1.1 prezintă o structură generală de filtrare care evidenţiază scopul pentru

care sunt utilizate filtrele în această carte. În particular, filtrul din figură acţionează

asupra anumitor semnale de intrare în asemenea mod încât ieşirea să reprezinte o bună

estimare a semnalului dorit. Procesul prin care parametrii filtrului sunt modificaţi astfel

încât să se obţină o cât mai bună armonizare a semnalului de ieşire cu semnalul dorit,

se face prin optimizarea unei aşa-numite funcţii de performanţă. În cazul în care se

recurge la o abordare statistică, cea mai utilizată funcţie de performanţă este valoarea

medie pătratică a semnalului de eroare reprezentat de diferenţa dintre semnalul dorit şi

ieşirea filtrului. Dacă semnalul de ieşire şi semnalul dorit sunt staţionare, minimizarea

erorii medii pătratice conduce la bine-cunoscutul filtru Wiener-Hopf, care, din acest

motiv, se spune că este optimal în sensul erorii medii pătratice. În abordarea

deterministă, funcţia de performanţă este suma ponderată a pătratelor semnalului de

eroare. Minimizarea acestei funcţii conduce la un filtru care este optim pentru setul de

date de intrare considerat. Totuşi, în anumite condiţii şi ipoteze statistice, soluţia

deterministă se apropie de soluţia statistică, adică se ajunge la filtrul Wiener pentru

lungimi de date importante.

1.2 Structura filtrelor adaptive

În mod obişnuit, filtrele adaptive sunt implementate prin structura transversală de filtru

FIR (filtru cu răspuns finit la impuls ~ Finite Impulse Response) reprezentată în Figura

1.2. În acest caz, filtrul adaptiv are o singură intrare u n şi o ieşire y n . Secvenţa

d n este semnalul dorit. Semnalul de ieşire y n este dat de combinaţia lineară a

eşantioanelor întârziate ale secvenţei de intrare u n , aşa cum rezultă din ecuaţia

1

*

0

M

i

i

y n w n u n i

(1.1)

Figura 1.1 În cazul filtrării adaptive, rolul filtrului este de a modifica semnalul de

intrare în sensul realizării identităţii semnalului de ieşire cu semnalul dorit.

1.2 Structura filtrelor adaptive 3

unde *

iw n sunt ponderile filtrului (coeficienţii) iar M este lungimea filtrului. Refe-

rindu-ne la eşantioanele semnalului de intrare u n i , pentru 0,1, 1i M , acestea

poartă numele de intrările filtrului. Ponderile filtrului *

iw n pot varia în timp, fiind

controlate prin algoritmul adaptiv.

În unele aplicaţii, de exemplu în cazul antenelor adaptive care utilizează

formatoare de fascicule (beamforming), intrările celulelor filtrului nu sunt ca în cazul

anterior, eşantioane întârziate ale unui singur semnal de intrare. În aceste situaţii,

structura filtrului adaptiv ia forma din Figura 1.3. Vom numi această structură

combinator linear, întrucât ieşirea sa este o combinaţie lineară de semnale diferite

recepţionate pe intrările celulelor sale:

1

*

0

M

i i

i

y n w n u n

(1.2)

Putem remarca faptul că structura de combinator linear este mai generală decât cea

de filtru transversal. Filtrul transversal poate fi considerat ca un caz particular al

combinatorului întrucât se alege iu n u n i .

Structurile din Figura 1.2 şi Figura 1.3 sunt filtre nerecursive, adică calculul ieşirii

Figura 1.2 Filtru FIR (transversal) adaptiv.

Figura 1.3 Combinator linear adaptiv.

4 INTRODUCERE - 1

filtrului nu presupune nicio reacţie. Spre deosebire de filtrele nerecursive ce au

răspunsul la impulsul aplicat la intrare finit (FIR), un filtru cu răspuns infinit la impuls

(IIR ~ Infinite Impulse Response), vezi Figura 1.4, este caracterizat de ecuaţiile

recursive:

1 1

0 1

M N

i i

i i

y n b n u n i a y n i

(1.3)

unde ib n şi ia n sunt coeficienţii nerecursivi respectiv recursivi ai filtrului.

Filtrele IIR au foarte multe aplicaţii, dar după cum va deveni mai clar în capitolele

următoare, din cauza dificultăţilor care apar în adaptarea filtrelor nerecursive, utilizarea

lor în domeniul filtrelor adaptive este destul de restrânsă. În particular, filtrele IIR pot

deveni uşor instabile pentru că polii acestora pot fi deplasaţi de către procesul de adap-

tare în exteriorul cercului de rază unitară (adică 1,z în planul z ). În plus, funcţia de

performanţă (adică dependenţa erorii medii pătratice de coeficienţii filtrului) a filtrului

nerecursiv are, de obicei, mai multe minime locale. Drept urmare filtrul poate converge

către unul dintre aceste minime ale funcţiei de performanţă, care nu este şi minimul

global al funcţiei. În opoziţie cu filtrele IIR, funcţia de eroare medie pătratică a unui

filtru FIR sau a unui combinator linear este pătratică, are un singur punct de minim

care poate fi determinat uşor prin diverşi algoritmi adaptivi. Acestea sunt motivele

pentru care, în capitolele ce urmează ne vom limita în totalitate la filtrele nerecursive.

Există câteva aplicaţii practice în care secvenţa de intrare a filtrului şi semnalul

dorit au valori complexe. Un exemplu bun pentru această situaţie este dat de

transmisunile de date digitale unde, în mod frecvent, se utilizează modulaţia de fază

digitală (PSK ~ Phase Shift Keying) sau modulaţia de amplitudine în cuadratură (QAM

~ Quadrature Amplitude Modulation). În aceste aplicaţii, semnalul din banda de bază

este alcătuit din două componente separate care sunt partea reală şi partea imaginară a

unui semnal de valoare complexă. Mai mult, în cazul implementării în domeniul

frecvenţă a filtrelor adaptive, apar semnale complexe, chiar dacă semnalele originale

sunt de valoare reală. Acesta este motivul pentru care vom studia în continuare, ori de

câte ori este posibil, cazul filtrelor adaptive în forma valorilor complexe. Este evident

Figura 1.4 Structura unui filtru cu răspuns infinit la impuls (IIR).

1.4 Aplicaţiile filtrelor adaptive 5

că situaţia mai simplă a filtrelor de valori reale reprezintă un caz particular şi

rezultatele obţinute pentru un filtru complex pot fi simplificate la cazul particular

extrem de uşor.

1.3 Algoritmii adaptivi

După cum s-a discutat deja în paragraful 1.1, algoritmii adaptivi s-au dezvoltat pe baza

a două abordări distincte, şi anume abordarea statistică şi abordarea deterministă.

Ambele abordări prezintă multe variaţii în implementările lor, ceea ce a condus la o

varietate bogată de algoritmi, fiecare dintre aceştia oferind anumite avantaje distincte.

În general, un algoritm adaptiv urmăreşte ca semnalul de ieşire al filtrului transver-

sal y n să realizeze o „bună” estimare a semnalului dorit d n (vezi Figura 1.2).

Drept măsură a „adaptării” ieşirii y n la răspunsul dorit se generează o secvenţă de

eroare e n , utilizată de algoritmul adaptiv la modificarea coeficienţilor filtrului

*

iw n la fiecare moment de timp n.

1

*

0

M

i

i

e n d n w n u n i

(1.4)

Literatura de specialitate prezintă mai mulţi asemenea algoritmi adaptivi.

Utilizarea unui algoritm într-o aplicaţie dată ţine seama de următorii factori (Haykin

1996):

viteza de convergentă (număr de iteraţii necesare pentru a ajunge la o soluţie

apropiată de cea optimă).

capacitatea de urmărire a variaţiilor proprietăţilor statistice ale semnalelor.

robusteţea algoritmului (capacitatea acestuia de a opera chiar şi în cazul

datelor ce ridică probleme de calcul numeric).

complexitatea algoritmului (numărul de operaţii aritmetice şi capacitatea de

memorie necesară).

structura algoritmului (implementare hardware).

robusteţea numerică a algoritmului în raport cu precizia numerică de repre-

zentare a coeficienţilor.

1.4 Aplicaţiile filtrelor adaptive

Prin însăşi natura lor, filtrele adaptive sunt sisteme autoajustabile care se adaptează la

diverse condiţii şi situaţii. Drept urmare, filtrele adaptive îşi găsesc aplicaţii în domenii

diverse precum controlul sistemelor, comunicaţii, prelucrarea semnalelor radar şi

sonar, suprimarea interferenţelor, inginerie biomedicală, etc. Trăsătura comună a

acestor aplicaţii prin care ele pot fi încadrate în categoria filtrelor adaptive este că în

toate se desfăşoară un proces de filtrare a unui semnal de intrare astfel încât ieşirea să

6 INTRODUCERE - 1

reprezinte cea mai bună estimare a unui semnal dorit. Parametrii filtrului sunt

actualizaţi în urma efectuării unui set de măsurători asupra semnalelor existente, rezul-

tatele măsurătorilor fiind aplicat algoritmului de filtrare adaptivă. Acesta acţionează

asupra parametrilor filtrului astfel încât diferenţa dintre ieşirea filtrului şi răspunsul

dorit să fie minimizată sau în sens statistic sau în sens determinist. În acest context,

putem identifica patru clase de bază de aplicaţii ale filtrării adaptive, şi anume

modelarea, modelarea inversă, predicţia lineară şi anularea interferenţelor. În

încheierea capitolului, vom face o trecere în revistă a acestor aplicaţii (Ciochină şi

Negrescu 1999, Farhang-Boroujeny 1998).

1.4.1 Modelarea

Figura 1.5 descrie problema modelării în contextul filtrării adaptive. Scopul este de a

estima parametrii modelului W z a unui sistem necunoscut G z . Pe baza unei

cunoaşteri apriori a sistemului G z , se alege pentru început o funcţie de transfer

W z cu un anumit număr de parametri ajustabili. Parametrii lui W z sunt apoi aleşi

astfel încât diferenţa dintre ieşirea sistemului d n şi ieşirea filtrului adaptiv y n să

fie minimizată.

Figura 1.5 Modelarea adaptivă a sistemului G z .

Figura 1.6 Schema bloc a regulatorului cu auto-adaptare.


O aplicaţie directă a modelării este identificarea sistemelor. În multe sisteme

moderne de control, sistemul controlat este identificat on-line iar rezultatul identificării

este folosit într-un regulator auto-adaptiv, configuraţie descrisă în Figura 1.6 .

Caracteristicile neideale ale canalelor de comunicaţii provoacă anumite distorsiuni

asupra semnalelor recepţionate. Pentru a anula aceste distorsiuni se utilizează de obicei

egalizoare de canal. Această tehnică este echivalentă cu implementarea inversului

funcţiei de transfer a canalului, care va fi discutată în secţiunea următoare. Totuşi,

modelarea directă a canalului a fost găsită ca fiind utilă în unele implementări de

receptoare de date.

1.4.2 Modelarea inversă

În acest gen de aplicaţii, (vezi Figura 1.7) rolul filtrului adaptiv este de a furniza

modelul invers al unui sistem necunoscut. Ideal, în cazul în care eroarea este nulă

funcţia de transfer a filtrului adaptiv aproximează inversul funcţiei de transfer a

sistemului necunoscut, funcţia de transfer globală reducându-se la o întârziere.

Răspunsul dorit pentru filtrul adaptiv este, astfel, o versiune întârziată a semnalului de

la intrarea sistemului necunoscut.

Modelarea inversă, cunoscută şi ca deconvoluţie, are aplicaţii multiple. Aplicaţia

cea mai utilizată a modelării inverse este în domeniul comunicaţiilor, unde se foloseşte

un model invers (denumit egalizor) pentru a atenua distorsiunile de canal. Conceptul

de modelare inversă se aplică în controlul adaptiv al sistemelor, atunci când

dispozitivul de control se conectează în cascadă cu sistemul controlat astfel încât

răspunsul global să fie cel dorit (Widrow şi Stearns 1985). Şi procesul de predicţie,

care va fi discutat mai departe, poate fi văzut ca o schemă de modelare inversă. În

continuare, ne concentrăm asupra aplicării modelării inverse în egalizarea de canal.

Egalizarea de canal

Figura 1.8 prezintă schema bloc a unui sistem de transmisiuni în banda de bază echipat

cu un egalizor de canal. În figură, blocul Canal reprezintă combinaţia răspunsului în

frecvenţă al filtrului de transmisie, al canalului real şi al filtrului de la intrarea recepto-

rului. Secvenţa de zgomot aditiv v n se datorează zgomotului termic al circuitelor

electronice şi posibilelor interferenţe de pe canalele învecinate. Simbolurile transmise

Figura 1.7 În cazul modelării inverse, ieşirea sistemului necunos-

cut se conectează la intrarea filtrului adaptiv.

8 INTRODUCERE - 1

s n apar sub forma de impulsuri modulate în amplitudine/fază, fiind distorsionate de

canal. Distorsiunea cea mai semnificativă este efectul de împrăştiere a impulsurilor

(pulse-spreading effect), ce este determinat de răspunsul la impuls al canalului care nu

este ideal, fiind diferit de zero pentru mai multe eşantioane. Consecinţa acestei

distorsiuni este apariţia interferenţei între simboluri învecinate, ceea ce îngreunează

utilizarea în procesul de detecţie al unui detector simplu cu prag. Fenomenul de

interferenţă al simbolurilor de date învecinate se numeşte interferenţă intersimbol (ISI

~ InterSymbol Interference). Prezenţa în semnalul recepţionat a zgomotului aditiv

v n agravează şi mai mult fenomenul. Rolul egalizorului, văzut ca filtru, este să

elimine atât distorsiunile introduse de canal (rejecţia ISI) cât şi să minimizeze în

măsura posibilului efectul zgomotului aditiv la intrarea detectorului cu prag. Dacă

zgomotul ar putea fi ignorat, atunci sarcina egalizorului ar fi evidentă. Pentru

canalul H z , un egalizor cu funcţia de transfer 1W z H z ar fi perfect, pentru că

funcţia de transfer globală ar fi 1H z W z , ceea ce ar face ca secvenţa transmisă

s n să apară nedistorsionată la intrarea detectorului. Din păcate, acesta este un caz

ideal, care nu poate fi realizat într-o aplicaţie practică.

Trebuie observat că inversa funcţiei de transfer a canalului, 1 H z , poate fi

necauzală dacă H z are zerouri situate în exteriorul cercului de rază unitate, ceea ce

face ca soluţia să fie nerealizabilă în practică. Problema necauzalităţii poate fi evitată

dacă se utilizează condiţia H z W z z , fiind o întârziere convenabilă, număr

întreg de eşantioane. Alegerea acestei soluţii este echivalent cu a spune că la intrarea

detectorului se aplică o replică întârziată a simbolurilor transmise.

O altă remarcă este dată de observaţia că utilizarea egalizorului

W z z H z poate duce la o amplificare semnificativă a zgomotului aditiv s n

în acele benzi de frecvenţă în care magnitudinea lui H z este mică (cu alte cuvinte

1 H z este mare). Drept urmare, în alegerea egalizorului W z se va încerca

realizarea unui echilibru între interferenţa reziduală ISI şi amplificarea zgomotului la

ieşirea egalizorului. Vom vedea mai târziu că filtrul Wiener poate reprezenta soluţia

acestei probleme.

Figura 1.8 Un sistem de transmisie a datelor în banda de bază cu egalizare de canal.


Figura 1.9 prezintă detaliile unui sistem de transmisiuni în banda de bază înzestrat

cu un egalizor adaptiv. Acesta este, de obicei, implementat sub forma unui filtru

transversal. Iniţial, egalizorul se găseşte în modul de învăţare (antrenare), utilizând

drept semnal dorit d n o replică întârziată a simbolurilor de date transmise, generată la

recepţie. Evident, secvenţa de antrenare este emisă şi de sursa de date, fiind utilizată

pentru adaptarea iniţială a ponderilor filtrului egalizor. Drept urmare, ieşirea

egalizorului va fi ideal identică cu simbolurile de date transmise. Simbolurile secvenţei

de învăţare sunt, de obicei, specificate prin standarde iar modemurile de date,

indiferent de producător, le respectă.

La sfârşitul modului de antrenare, coeficienţii egalizorului au valori apropiate de

valorile optimale. Simbolurile detectate sunt în acest moment similare cu simbolurile

transmise, probabilitatea acestui lucru fiind apropiată de unitate. În continuare prin

urmare, simbolurile detectate pot fi considerate că reprezintă semnalul dorit pentru

adaptarea în continuare a egalizorului astfel încât posibilele variaţii ale canalului să

poată fi urmărite. Acest mod de funcţionare a egalizorului este denumit mod orientat

pe decizie (decision oriented mode). Egalizorul poate funcţiona în modul orientat pe

decizie un timp îndelungat, de fapt, câtă vreme variaţiile de canal sunt suficient de

lente încât algoritmul adaptiv să poată să urmărească satisfăcător variaţiile canalului.

1.4.3 Predicţia lineară

În acest caz, filtrul adaptiv se foloseşte pentru a furniza cea mai bună predicţie

(estimare) a valorii actuale u n a semnalului de intrare pe baza valorilor anterioare:

1 , 2 , ,u n u n u n M . În configuraţia de predicţie din Figura 1.10, operaţia pe

ieşirea 1 realizează un filtru al erorii de predicţie, iar dacă se operează ieşirea 2,

structura este un predictor.

Printre multiplele utilizări ale predicţiei vom spune în primul rând că este o tehnică

de estimare spectrală folosită la modelarea proceselor aleatoare corelate în scopul

determinării unei reprezentări parametrice a acestor procese. În contextul predicţiei

Figura 1.9 Sistem de transmisie a datelor în banda de bază echipat cu un egalizor adaptiv de

canal.

10 INTRODUCERE - 1

lineare, se utilizează modelul din Figura 1.11. În acest model, se presupune că procesul

aleator u n este generat prin excitarea filtrului G z cu semnalul de intrare x n .

Întrucât funcţia de transfer G z are numai poli (este de tip all-pole), modelul este

autoregresiv (AR). Tipul semnalului de excitaţie x n depinde de aplicaţie şi poate

varia în funcţie de natura procesului modelat. Acesta este, de obicei, un zgomot alb.

Alte modele utilizate pentru reprezentarea parametrică sunt modelele cu medie

alunecătoare (MA) în care G z este un filtru transversal având numai zerouri (tip

all-zero) şi modelele autoregresive cu medie alunecătoare (ARMA) unde G z are

atât poli cât şi zerouri. Totuşi, modele AR sunt cele mai utilizate.

Vom da în continuare motivul utilizării extensive a modelelor AR. Dacă presupu-

nem că eşantioanele unui semnal aleator u n sunt corelate între ele, aceste corelaţii

pot fi folosite pentru a face o predicţie asupra eşantionului curent u n al procesului

aleator utilizând eşantioanele sale trecute: 1 , 2 ,u n u n ,u n M ca în Figura

1.12. Intuitiv, o astfel de predicţie se îmbunătăţeşte pe măsură ce lungimea predic-

torului M creşte. Totuşi, îmbunătăţirea poate deveni neglijabilă în momentul în care

M depăşeşte o anumită valoare, care depinde de lungimea corelaţiei în procesul dat. În

acel moment, eroarea de predicţie e n devine aproximativ zgomot alb. Să observăm

că funcţia de transfer dintre procesul de intrare u n şi eroarea de predicţie e n este:

1

1M

i

i

i

H z a z

(1.5)

unde ia sunt coeficienţii predictorului. Acum, dacă un proces de zgomot alb x n ce

are statistici similare cu e n este aplicat filtrului cu funcţia de transfer G z , unde:

1

1

1M

i

i

i

G z a z

(1.6)

Figura 1.11 Modelarea autoregresivă a unui proces aleator.

Figura 1.10 Filtrul adaptiv estimează valoarea curentă a semnalului

pe baza eşantioanelor "trecute" ale semnalului de intrare.


ca în Figura 1.11, atunci semnalul de ieşire u n va fi cu siguranţă un proces având

aceleaşi statistici cu u n .

Pe baza celor discutate mai sus, suntem acum pregătiţi să prezentăm aplicaţii ale

predicţiei adaptive.

Analiza spectrală autoregresivă

Unele aplicaţii necesită estimarea spectrului de putere al unui proces aleator. În mod

obişnuit, o astfel de estimare se face prin calculul transformatei Fourier (transformarea

Fourier discretă – TFD - pentru procesele în timp discret) urmată, în scopul

îmbunătăţirii estimării, de o operaţie de mediere. O asemenea procedură de calcul se

încadrează în categoria tehnicilor de estimare spectrală neparametrice. Atunci când

numărul de eşantioane ale semnalului de analizat este redus, estimarea furnizată de

tehnicile neparametrice îşi pierde credibilitatea. În aceste cazuri estimarea spectrală

parametrică oferă rezultate mai sigure.

După cum s-a menţionat anterior, estimarea spectrală parametrică poate fi făcută

utilizând unul din modelele AR, MA sau ARMA prezentate anterior (Kay 1988). Vom

prezenta procedura de calcul pentru cazul în care se alege modelul AR. Astfel, se

începe prin alegerea unui ordin M adecvat pentru model. Secvenţa observată, u n ,

este aplicată unei structuri de predicţie similară celei din Figura 1.12, a cărei coefi-

cienţi, ia sunt optimizaţi prin minimizarea erorii de predicţie e n . Odată procesul de

convergenţă al coeficienţilor predictorului terminat, o estimare a densităţii spectrale de

putere a lui u n se obţine în conformitate cu ecuaţia de mai jos

2

1

1

1xx o M j i

ii

Na e

(1.7)

unde oN este o estimare a puterii erorii de predicţie e n . Justificarea procedurii de

estimare rezultă din modelul din Figura 1.11 şi din faptul că după convergenţa

predictorului, e n este aproximativ un zgomot alb. Vom reveni pe parcursul lucrării la

această aplicaţie, prezentând implementarea ei prin algoritmul LMS.

Figura 1.12 Predicţia lineară

1

Mi

i

i

a z

u n

u n e n

12 INTRODUCERE - 1

Codarea vorbirii

Printre numeroasele tehnici de prelucrare a semnalului aplicate semnalului vocal,

predicţia lineară s-a dovedit cea mai promiţătoare, dând numeroşi algoritmi utili. De

fapt, mare parte din teoria predicţiei s-a dezvoltat în contextul prelucrării vorbirii.

Există două tehnici principale de codare a vorbirii care utilizează predicţia lineară

(Jayant şi Noll 1984). Scopul ambelor metode este reducerea numărului de biţi utilizaţi

la codare, determinând astfel economii în dimensiunea fişierelor memorate sau în

banda de semnal transmisă. Prima metodă care se încadrează în clasa codarea sursei,

urmăreşte producerea de voce digitală cu rate de biţi cuprinse între 2 şi 10 kb/s. Vocea

sintetizată nu este, totuşi, de calitate înaltă, pentru că „sună” sintetic şi pierde din

naturaleţe, făcând dificilă recunoaşterea vorbitorului. Cea de a doua tehnică, pe care o

încadrăm în clasa codarea semnalului, dă rezultate mult mai bune cu costul unei rate

de bit mai mari (tipic, 32 kb/s).

Principala cauză a utilizării pe scară largă a predicţiei lineare la codarea vorbirii

este că semnalele vocale pot fi precis modelate ca în Figura 1.13. Aici, filtrul all-pole

constituie modelul tractului vocal al vorbitorului. Excitarea pentru acest model, x n ,

este sau zgomot alb în cazul sunetelor „surde” (consoane fricative ca s,f, etc) sau un

tren de impulsuri în cazul sunetelor „sonore” (vocale ca i). Durata trenului de impul-

suri, denumită durata tonului (în engleză, pitch period) precum şi puterea zgomotului

alb, denumită nivel de excitare, sunt parametrii modelului vorbirii care trebuie identifi-

caţi în procesul de codare.

Codarea predictivă lineară (LPC ~ Linear Predictive Coding). Vorbirea reprezintă un

proces profund nestaţionar. Forma tractului vocal este supusă la variaţii importante

pentru a genera diferitele sunete ce alcătuiesc fiecare cuvânt. Având în vedere acestea,

în LPC în scopul codării vorbirii, aceasta este partiţionată în segmente de 10 pâna la 30

ms lungime. Aceste segmente sunt suficient de scurte pentru ca forma tractului vocal să

rămână aproape staţionară pe durata lor, astfel ca parametrii modelului de producere a

vorbirii din Figura 1.13 să poată fi presupuşi fixaţi. În continuare, pentru obţinerea

parametrilor fiecărui segment, sunt urmaţi paşii de mai jos:

1. Se obţin, pentru segmentul dat, coeficienţii predictorului ia pe structura de filtru

Figura 1.13 Modelul de generare al vorbirii.


adaptiv din Figura 1.12, în urma minimizării erorii de predicţie e n în sensul

celor mai mici pătrate.

2. Se măsoară energia erorii de predicţie e n . Aceasta stabileşte nivelul de excitare

ce este necesar la sinteza segmentului.

3. Se clasifică segmentul: „sonor” sau „surd”.

4. În cazul în care segmentul este „sonor”, se măsoară durata tonului pentru

segmentul considerat.

Pentru fiecare segment prelucrat sunt apoi memoraţi sau transmişi următorii parametri

ai vorbirii codate: (i) coeficienţii predictorului, (ii) energia semnalului de excitaţie, (iii)

clasificarea „sonor”/„surd” şi (iv) durata tonului, în cazul unui segment „sonor”. Pentru

refacerea semnalul vocal, aceşti parametri sunt utilizaţi pentru sinteză într-un model

similar cu cel din Figura 1.13.

Codarea semnalului. Cea mai directă cale de codare a semnalului este tehnica

modulaţiei impulsurilor în cod (PCM ~ Pulse Code Modulation), în care eşantioanele

de semnal vocal sunt convertite numeric direct într-un număr prescris de biţi in scopul

generării biţilor de informaţie asociaţi cu vorbirea codată. Cuantizarea directă a eşan-

tioanelor vocale necesită un număr relativ mare de biţi (de obicei 8 biţi pe eşantion)

pentru ca vorbirea originală să poată fi reconstruită la o calitate acceptabilă.

O modificare a modulaţiei PCM standard, cunoscută drept modulaţia impulsurilor

în cod diferenţială (DPCM ~ Differential PCM) foloseşte predictorul linear din Figura

1.12 şi utilizează biţii asociaţi cu eşantioanele cuantizate ale predicţiei de eroare e n

drept codare a vorbirii. Explicaţia este aici faptul că eroarea de predicţie e n are o

varianţă mult mai redusă decât intrarea filtrului u n . Astfel, pentru un nivel de cuanti-

zare dat, e n poate fi reprezentat printr-un număr de biţi mai mic în comparaţie cu

reprezentarea semnalului original u n . Drept urmare, rata de bit a modulaţiei DPCM

va fi mai mică în raport cu cea a modulaţiei PCM standard.

Filtrul de predicţie utilizat în DPCM poate fi fix sau poate fi făcut adaptiv. Un

sistem DPCM cu predictor adaptiv se numeşte de DPCM adaptiv (ADPCM ~ Adaptive

DPCM). În cazul semnalelor vocale, utilizarea modulaţiei ADPCM dă performanţe

mai bune decât modulaţia DPCM neadaptivă. De fapt, ADPCM a fost standardizată, iar

în practică se utilizează curent. (vezi Recomandarea ITU G.726).

Figura 1.14 prezintă schema bloc simplificată a unui sistem ADPCM, aşa cum este

propusă de Recomandarea ITU G.726. În acest caz, predictorul este un filtru recursiv

cu 6 zerouri şi 2 poli. Coeficienţii acestui filtru sunt ajustaţi adaptiv astfel încât eroarea

de cuantizare e n să fie minimizată în sensul mediei pătratice. Intrarea predictorului,

u n , este identică cu semnalul de intrare original cu excepţia erorii de cuantizare din

e n . Pentru a înţelege funcţionarea comună a codorului şi decodorului din Figura

1.14, vom remarca că la intrările predictoarelor din codor şi decodor se aplică acelaşi

14 INTRODUCERE - 1

semnal e n . Prin urmare, dacă stabilitatea buclei alcătuite din predictor şi algoritmul

de adaptare ar putea fi garantată, atunci valoarea de regim permanent a vorbirii

reconstruite la decodor, adică 'u n , va fi egală cu acea de la codor, u n , pentru că

efectul condiţiilor iniţiale ale buclelor codorului şi decodorului care nu sunt egale va

dispărea după o fază tranzitorie.

1.4.4 Anularea interferenţelor

Anularea interferenţelor se referă la situaţiile în care se cere să se elimine un

semnal/zgomot perturbator dintr-un semnal dat care este alcătuit atât dintr-o parte utilă

cât şi din perturbaţie. Principiul suprimării interferenţelor este de a se realiza o estimare

a semnalului perturbator, care apoi să fie extrasă din semnalul corupt de perturbaţie.

Fezabilitatea acestei idei se bazează pe disponibilitatea unei surse de referinţă cu care

semnalul perturbator să fie corelat.

Figura 1.15 descrie, în cea mai simplă formă, conceptul de anulare a interferen-

ţelor. Sistemul de anulare a interferenţelor are două intrări: intrarea primară şi intrarea

de referinţă. La intrarea primară se aplică semnalul corupt, adică semnalul dorit plus

interferenţa. Semnalul de pe intrarea de referinţă, pe de altă parte, provine numai de la

sursa care generează interferenţa. Filtrul adaptiv se ajusteasă astfel încât la ieşirea sa să

apară o replică a interferenţei prezente în semnalul primar. Prin extragerea acestei

Figura 1.15 Anularea interferenţelor.

Figura 1.14 Codor-decodor ADPCM


replici din semnalul primar rezultă o ieşire curăţată de interferenţe, ceea ce explică

numele de anulare a interferenţelor dat acestui tip de aplicaţie (Farhang-Boroujeny

1998).

Configuraţia de anulare a interferenţei din Figura 1.15 este diferită de cazurile

anterioare de aplicaţii ale filtrării adaptive, în sensul că eroarea reziduală (care în cele-

lalte cazuri era eliminată) este aici semnalul curăţat de perturbaţii. Semnalul dorit din

cazurile anterioare este înlocuit aici de o versiune zgomotoasă (coruptă) a semnalului

dorit. Mai mult, utilizarea termenului “referinţă” pentru a desemna intrarea filtrului

adaptiv este legată direct de rolul acestei intrări în aplicaţie.

Anularea ecoului pe liniile telefonice

Un ecou este versiunea întârziată şi distorsionată a unui semnal original care se întoar-

ce spre sursa sa. În unele aplicaţii (radar, sonar sau ultrasunete), ecoul reprezintă

semnalul util; însă, în comunicaţii, ecoul este un semnal nedorit care trebuie eliminat.

Există două tipuri de ecou în sistemele de comunicaţii: (i) ecouri electrice sau de linie,

care sunt generate electric datorită neadaptării de impedanţă de-a lungul mediului de

transmisie, şi (ii) ecouri acustice, care se datorează reflexiei undelor acustice şi cuplajul

acustic dintre microfon şi difuzor.

În continuare vom discuta despre eliminarea ecourilor electrice în comunicaţiile de

date, urmând ca despre anularea ecourilor acustice în aplicaţiile de tip teleconferinţă să

discutăm în paragraful următor.

Ecouri electrice pot fi observate pe legăturile telefonice de mare distanţă. Figura

1.16 face o reprezentare simplificată a unui asemenea circuit. Conexiunea utilizatorului

la centrala telefonică constă dintr-un circuit cu două fire bidirecţional, în timp ce legă-

tura dintre centralele telefonice se face pe patru fire, ceea ce include toate tipurile de

conexiuni, inclusiv legătura prin satelit. Trecerea de la circuitele pe două fire la circui-

tele pe patru fire se realizează prin circuite speciale denumite hibrizi sau transforma-

toare diferenţiale (în engleză, hybrids). Un hibrid ideal permite (i) trecerea semnalului

de intrare către ieşirea pe două fire fără vreo atenuare pe portul de ieşire şi (ii) trecerea

semnalului de la circuitul pe două fire către portul său de ieşire fără reflexie. În

practică, datorită neadaptărilor de impedanţă, hibrizii nu funcţionează perfect. Drept

urmare, o parte din energia de intrare în circuit se întoarce către sursă ca un ecou (vezi

Figura 1.16). Ecoul, care, de obicei, este mai mic cu 11 dB în raport cu semnalul

Figura 1.16 Generarea ecoului în reţelele de comunicaţii de lungă

distanţă.

16 INTRODUCERE - 1

original, face dificilă purtarea unei conversaţii, dacă întârzierea dus-întors depăşeşte 40

ms. În cazul legăturilor prin satelit, datorită plasării sateliţilor la altitudini mari, aceste

întârzieri ating 500-600 ms.

Suprimarea ecoului s-ar putea efectua pe baza estimării transmisiei semnalului de

la punctul C la punctul D (vezi Figura 1.17). Dacă funcţia de transfer a ecoului este

cunoscută, ar putea fi realizat un filtru care să producă o copie (sau replică a semna-

lului ecou pornind de la semnalul din punctul C. Scăderea replicii ecoului din semnalul

din punctul D îl va elimina fără să distorsioneze semnalul din B care poate fi prezent în

punctul D. Rezultă configuraţia de anulare adaptivă a ecoului prezentată în Figura 1.17.

În practică, caracteristicile canalului nu sunt în general cunoscute. Pentru legăturile

telefonice pe fir, canalele diferă de la convorbire la convorbire, iar caracteristicile cana-

lelor radio sau de microunde se modifică semnificativ în timp. Prin urmare, nu se poate

realiza un circuit fix de anulare a ecoului cu performanţe satisfăcătoare pentru orice

conexiune posibilă. Există două căi posibile de rezolvare a problemei:

1. Realizarea unui circuit de anulare a ecoului fix „de compromis” bazat pe o „medie”

a căii de ecou, presupunând că există suficiente informaţii despre conexiunile pe

care le poate vedea acesta.

2. Realizarea unui circuit de anulare a ecoului adaptiv care poate „învăţa” caracteristi-

cile căii de ecou atunci când este pornit, iar după aceea, poate urmări variaţiile

acestora, fără vreo intervenţie suplimentară din exterior. Pentru că un filtru adaptiv

se adaptează mai bine la caracteristicile variabile ale căi de ecou, rezultatele sunt

mai bune decât cele obţinute cu un circuit fix de anulare a ecoului reglat pe bază de

compromis.

Vom sublinia că principala sarcină a circuitului de anulare este de a estima semna-

lul de ecou cu suficientă precizie; estimarea funcţiei de transfer a ecoului este doar

calea prin care se realizează acest scop. Performanţa circuitului se măsoară prin atenua-

rea în decibeli a ecoului, parametru care este cunoscut sub numele de creşterea atenuă-

rii de ecou. Filtrul adaptiv realizează acest scop prin modificarea răspunsului său, utili-

zând semnalul rezidual de ecou, aşa cum am arătat mai sus.

Circuitele de anulare a ecoului sunt utilizate pe scară largă în telecomunicaţiile

vocale, iar organizaţia de standardizare internaţională CCITT a emis setul de

Figura 1.17 Principiul anulării adaptive a ecoului.


recomandări CCITT G. 165 care subliniază caracteristicile fundamentale ale acestor

dispozitive.

Anularea ecoului acustic

Figura 1.18 prezintă un sistem audio tipic de teleconferinţă care ajută două grupuri de

persoane, localizate în două locuri diferite, să comunice efectiv. Din nefericire, perfor-

manţa acestui sistem este degradată de următoarele efecte:

1. Reverberaţiile camerei datorate faptului că microfonul culege nu numai sunetele

vorbitorului dar şi reflexiile pe pereţii şi obiectele din cameră.

2. Ecourile create de cuplajul acustic dintre microfonul şi difuzorul plasate în aceiaşi

încăpere. Sunetele din camera B nu sunt ascultate numai de vorbitorul din camera

A, dar sunt de asemenea, preluate de microfonul din camera A şi, dacă nu există un

mecanism de eliminare, returnate ca ecou vorbitorului din camera B.

Sunt utilizate filtre transversale de lungime suficientă pentru a modela acustica

celor două încăperi (vezi Figura 1.19). Acestea furnizează o replică a ecoului la

difuzor, care este, în continuare scăzută din semnalul microfonului înainte de

transmisia acestuia.

Evident că problema anulării acustice a ecoului, poate fi privită ca o problemă de

modelare de sistem. Principala provocare aici este împrăştierea căilor de ecou pe o

durată relativ importantă. Pentru camerele obişnuite, întârzierea ecourilor este în gama

100-250 ms. La o frecvenţă de eşantionare de 8 kHz, aceasta înseamnă că filtrul

adaptiv de anulare ar trebui să aibă 800-2000 de celule. Prin urmare, adevărata

problemă a anulării ecoului, nu numai în cazul acustic, este cea a implementării unor

Figura 1.18 Sistem tipic de teleconferinţă fără controlul ecoului acustic.

Figura 1.19 Principiul anulării acustice a ecoului prin utilizarea filtrării adaptive.

18 INTRODUCERE - 1

filtre adaptive foarte lungi. Pe parcursul lucrării, vom vedea cum pot fi depăşite aceste

dificultăţi.

1.5 Filtrarea spaţială

În aplicaţiile prezentate anterior, filtrele sau predictoarele combină eşantioane ale

semnalului de intrare, culese la momente de timp diferite, în scopul generării unui

semnal de ieşire. Aceste fac, evident, filtrare temporală. Un beamformer care prelu-

crează prin combinare semnalele furnizate de o reţea de antene egal distanţate (vezi

paragraful 1.2), este diferit de acestea în sensul că intrările sunt eşantioane ale semna-

lelor recepţionate în diferite puncte din spaţiu. Acesta este motivul pentru care acţiunea

acestuia o numim filtrare spaţială. Beamformer-ul şi-a găsit aplicaţii în comunicaţii,

radar şi sonar (Johnson şi Dudgeon 1993) dar şi în ingineria medicală (Soumekh 1994).

În filtrarea spaţială, un număr de senzori independenţi sunt plasaţi egal distanţaţi pe

o linie în scopul de a recepţiona semnalele provenind de la surse diverse (vezi Figura

1.20). În radiolocaţie şi comunicaţii, semnalele sunt unde electromagnetice iar senzorii

sunt elemente de antenă. Prin urmare termenul de reţea de antene se referă la aceste

situaţii. În aplicaţiile de tip sonar, senzorii sunt hidrofoane, care răspund la unde

acustice.

Reţeaua de senzori eşantionează spaţial undele incidente astfel încât în cazul unor

senzori egal distanţaţi, avem o eşantionare la incremente spaţiale egale. Prin contrast,

un filtru FIR utilizează drept intrare, un semnal eşantionat uniform în timp. Să consi-

derăm o undă plană incidentă pe o reţea de antene ca în Figura 1.21. Semnalul spaţial

soseşte la fiecare senzor cu o întârziere determinată de unghiul de sosire . În cazul

unui semnal de bandă îngustă, această întârziere corespunde unei defazări egale de la

senzor la senzor ceea ce corespunde frecvenţei spaţiale u de-a lungul reţelei:

sind

u

(1.8)

unde este lungimea de undă a semnalului şi d este distanţa uniformă dintre senzori.

Această frecvenţă spaţială este analoagă frecvenţei temporale întâlnită în cazul semna-

lelor în timp discret. În funcţionarea filtrului spaţial, semnalele senzorilor sunt multipli-

cate cu ponderile corespunzătoare exact în maniera în care un filtru FIR produce

semnalul de ieşire ca o sumă ponderată a eşantioanelor de timp ale intrării. Exact aşa

cum un filtru selectiv în frecvenţă FIR extrage din semnalul de intrare, banda de

Figura 1.20 Exemplu de filtrare spaţială şi caracteristica de directivitate realizată.

1.5 Filtrarea spaţială 19

frecvenţă de interes, un beamformer caută să amplifice semnalele cu o anumită

frecvenţă spaţială (adică, semnalele ce sosesc sub un anumit unghi). Astfel, este bene-

fic să privim un filtru spaţial ca un filtru selectiv de frecvenţă spaţială.

De multe ori o reţea de antene are de a face cu semnale nedorite ce sosesc din dife-

rite direcţii, ceea ce poate preveni extragerea cu succes a semnalului de interes pentru

care reţeaua este proiectată. În acest caz, reţeaua trebuie să-şi ajusteze răspunsul la

datele recepţionate pentru a rejecta semnalele nedorite. Rezultă o reţea adaptivă de

antene având ponderile determinate automat pe baza semnalelor recepţionate fără inter-

venţia utilizatorului. Ca şi în cazul filtrelor adaptive selective în frecvenţă, dacă pot fi

modelate statistic condiţiile de funcţionare a reţelei adaptive atunci poate fi găsit un

beamformer optimal care să minimizeze sau să maximizeze un anumit criteriu de

performanţă.

Vom prezenta în continuare o aplicaţie a filtrării spaţiale adaptive în domeniul

suprimării adaptive a lobilor laterali din radiaţia unei antene de radiolocaţie

(Manolakis, ş.a. 2005) (vezi Figura 1.22). Pe direcţia ţintei este îndreptată o antenă

neadaptivă cu câştig mare şi fix, sau chiar un beamformer neadaptiv. În caz de interfe-

renţă, aceasta trebuie eliminată, sau cel puţin redusă într-un anumit fel. Sistemul de

radiolocaţie înlătură interferenţa de pe canalul principal prin metode adaptive spaţiale.

Una dintre aceste metode constă în suprimarea adaptivă a lobilor laterali ai antenei de

radiolocaţie ilustrată în Figura 1.23.

Vom remarca că semnalul de interes este recepţionat dintr-o direcţie particulară pe

care presupunem că antena are prin canalul să principal o amplificare mare. Pe de altă

parte, interferenţele sunt recepţionate de pe o altă direcţie, dar pentru că sunt de putere

mai mare decât semnalele utile, le „maschează” pe acestea. Suprimarea lobilor laterali

utilizează unul sau mai multe dintre canalele secundare ale antenei radar pentru a anula

interferenţa de pe canalul principal, astfel încât semnalele utile să poată fi recepţionate

în condiţii bune. Aceste canale auxiliare au, tipic, un câştig mai redus pe direcţia pe

care este îndreptat canalul principal al antenei, astfel încât ele conţin numai interfe-

Figura 1.21 Undă incidentă pe o reţea de

antene distanţate uniform cu d.

20 INTRODUCERE - 1

renţe. Astfel de canale auxiliare sunt realizate cu senzori omnidirecţionali. Este evident

că această aplicaţie face parte din categoria aplicaţiilor prezentate în paragraful 1.4.4

care se referă la anularea interferenţelor.

Suprimarea lobilor laterali utilizează canalele auxiliare ale antenei radar pentru a

forma o estimare a interferenţei de pe canalul principal. Estimarea este calculată prin

ponderarea canalelor auxiliare pe baza calculării intercorelaţiei dintre canalele auxiliare

şi canalul principal. Estimarea interferenţei este extrasă din semnalul de pe canalul

principal. Rezultă un răspuns global al antenei ce are pe de-o parte un nul îndreptat pe

direcţia sursei de perturbaţii, iar pe de alta, câştig maxim pe direcţia de interes. Evident

că dacă există suficientă informaţie apriori, problema ar putea fi rezolvată prin utili-

zarea unui circuit fix de anulare. Totuşi, lipsa informaţiilor apriori şi caracteristicile

variabile ale mediului fac din sistemul adaptiv singura soluţie viabilă.

Figura 1.22 Exemplu de beamformer adaptiv utilizat de un

radar de supraveghere aeriană pentru atenuarea

interferenţelor.

Figura 1.23 Sistem de anulare a lobilor laterali ai antenei radar cu

un canal directiv principal şi canale auxiliare.

2 Semnale şi sisteme în

timp discret

relucrarea adaptivă a semnalelor se face atât cu circuite sau sisteme analogice

(Carusone şi Johns 2000) cât şi digital. De fapt, imensa majoritate a filtrelor adaptive

sunt implementate digital, datorită beneficilor evidente pe care le oferă această

abordare: flexibilitate şi precizie în calcule (Haykin 1996). Acesta este motivul, pentru care

în această lucrare, ne vom limita la a aborda doar problemele semnalelor şi sistemelor în

timp discret.

Vom folosi prezentul capitol pentru a reaminti cititorilor noştri unele din principiile şi

proprietăţile fundamentale ale secvenţelor de numere variabile care reprezintă funcţii de

timp eşantionate uniform. În primul rând, vom avea în vedere modalităţile utilizate pentru

trecerea de la reprezentarea semnalului în domeniul timp discret în domeniul frecvenţă, ceea

ce oferă utilizatorului o altă imagine asupra secvenţei transformate. Sunt utilizate în cazul

nostru atât transformata Z (de variabilă complexă) cât şi transformata Fourier în timp discret

(DFT), ce poate fi considerată un caz particular al celei dintâi şi care este o funcţie de

variabilă reală (frecvenţa) (Naforniţă, ş.a. 1995, Oppenheim, ş.a. 1998).

După scurta trecere în revistă a proprietăţilor secvenţelor discrete şi a transformatelor

lor, vom aborda şi câteva subiecte mai evoluate din aceiaşi arie de interes, utile în abordarea

unor tehnici de filtrare adaptivă particulare (implementarea convoluţiilor prin transformarea

DFT şi transformarea cosinus discretă).

2.1 Transformarea Z

Considerăm seria temporală alcătuită din eşantioanele , 1 , 2 ,u n u n u n , unde n

reprezintă timpul discret. Vom utiliza în continuare notaţia simplă u n pentru a desemna

această secvenţă. Transformata Z a secvenţei u n se defineşte prin:

n

n

U z Z u n u n z

(2.1)

Capitolul

2

P

22 SEMNALE ŞI SISTEME ÎN TIMP DISCRET - 2

unde z este o variabilă complexă. Secvenţa u n şi transformarea sa Z constituie o pereche

de transformate Z, ceea ce, simbolic, se scrie astfel:

u n U z (2.2)

Pentru ca transformata Z să fie definită, seria de puteri (2.1) trebuie să fie absolut

sumabilă, ceea ce face ca U z să fie uniform convergentă. Regiunea de convergenţă (RC)

este setul de valori ale lui z pentru care transformata Z, U z , este uniform convergentă.

În regiunea de convergenţă circulară a lui U z : 1 2R z R , considerăm un contur

închis C ce înconjoară originea, pe care se calculează formula de inversare a transformatei

Z:

1

2

n dzu n U z z

j z

C

(2.3)

unde conturul de integrare este parcurs în sens invers acelor ceasornicului.

2.2 Proprietăţile transformării Z

Reamintim în continuare proprietăţi importante ale transformării Z, care sunt utilizate

frecvent în restul lucrării:

1. Este o transformare lineară. Fie ,a b şi 1 2,u n u n - două secvenţe ce au transfor-

matele Z, 1U z respectiv 2U z . Atunci:

1 2 1 2au n bu n aU z bU z (2.4)

RC în care relaţia (2.4) este valabilă este dată de intersecţia RC a lui 1U z cu RC a lui

2U z .

2. Proprietatea deplasării în timp. Dacă transformarea Z a secvenţei u n este U z ,

atunci perechea Z a secvenţei deplasate în timp 0u n n , este dată prin relaţia

0

0

nu n n z U z

(2.5)

unde 0n . Transformarea obţinută prin relaţia (2.5) păstrează aceiaşi RC cu U z ,

cu excepţia adăugării sau eliminării punctelor 0z sau z . În cazul special 0 1n

se observă că transformarea Z a lui u n se multiplică cu 1z , ceea ce justifică numele

de element de întârziere unitară pe care îl poartă termenul 1z .

3. Teorema convoluţiei. Notăm prin 1U z şi 2U z transformatele Z ale secvenţelor

1u n respectiv 2u n . Potrivit teoremei convoluţiei

2.3 Sisteme lineare invariante în timp (SLIT) 23

1 2 1 2 1 2

i

u n u n u i u n i U z U z

(2.6)

unde RC include intersecţia RC a celor două secvenţe. Prin urmare, convoluţia a două

secvenţe din domeniul temporal se transformă în domeniul frecvenţă în produsul

transformatelor lor Z.

2.3 Sisteme lineare invariante în timp

(SLIT)

Vom trece în revistă, în continuare, principiile de bază ale SLIT, subliniind aspectele ce

prezintă importanţă pentru lucrarea de faţă. În conformitate cu scopurile pe care le urmărim,

un sistem se defineşte ca un dispozitiv fizic sau algoritm care transformă un semnal,

denumit semnal de intrare sau excitaţie, într-un alt semnal denumit semnal de ieşire sau

răspuns.

Un sistem linear invariant în timp (SLIT) este caracterizat prin proprietăţile de lineari-

tate şi invarianţă în timp:

1. Linearitatea: Fie 1v n şi 2v n , două excitaţii diferite aplicate la intrarea sistemului.

Notăm prin 1u n şi 2u n răspunsurile sistemului la aceste excitaţii. Atunci răspunsul

sistemului la excitaţia 1 2av n bv n este secvenţa 1 2 , ,au n bu n a b .

2. Invarianţa în timp: Dacă u n este răspunsul unui sistem invariant în timp la excitaţia

v n , atunci răspunsul filtrului la excitaţia 0v n n este 0u n n , unde 0n este o

întârziere arbitrară.

Pentru caracterizarea SLIT se foloseşte răspunsul la impuls definit drept răspunsul

sistemului la un impuls unitar aplicat la momentul 0 la intrare, notat prin h n . În aceste

condiţii, răspunsul SLIT la o excitaţie oarecare v n se defineşte prin suma de convoluţie:

i

u n h i v n i h n v n

(2.7)

Aplicarea teoremei convoluţiei ecuaţiei (2.7) conduce la:

U z H z V z (2.8)

În ultima ecuaţie, U z şi V z reprezintă transformatele Z ale semnalelor de la ieşirea şi

intrarea sistemului. H z , transformata Z a lui h n , este denumită funcţie de transfer a

sistemului. Aceasta constituie o bază de descriere a SLIT şi se defineşte prin

U zH z

V z (2.9)


Astfel, funcţia de transfer H z este egală cu raportul dintre transformata Z a semnalului de

ieşire şi transformata Z a semnalului de intrare.

O importantă subclasă a SLIT este constituită din sistemele descrise prin ecuaţii cu

diferenţe finite. În general, un asemenea sistem satisface o ecuaţie cu diferenţe de ordinul N:

0 0

N N

j j

j j

a u n j b v n j

(2.10)

unde ja şi jb sunt coeficienţi constanţi. Aplicând transformata Z ecuaţiei (2.10), funcţia de

transfer se exprimă ca o funcţie raţională:

1

0 0 1

10

0 1

1

1

N Nj

j kj k

N Nj

j k

j k

a z c zU z a

H zV z b

b z d z

(2.11)

Ultima expresie evidenţiază următoarele:

a. fiecare factor 11 kc z dă un zero în kz c ,

b. fiecare factor 11 kd z dă un pol în kz d şi un zero în 0z ,

c. cu excepţia factorului de scară 0 0a b , H z este complet definită de polii şi

zerourile sale.

Reprezentarea SLIT prin relaţia (2.11), ne permite să diferenţiem două tipuri distincte

de SLIT:

Sisteme FIR (Finite Impulse Response – cu răspuns finit la impuls): 0,kd k . Sunt

sisteme numai cu zerouri pentru că polii lui H z se găsesc toţi în 0z . În mod corespun-

zător, h n are durată finită. Sunt sisteme cu răspuns de durată finită la impuls unitar, ceea

ce este precizat în denumire.

Sisteme IIR (Infinite Impulse Response – cu răspuns infinit la impuls): H z are cel

puţin un pol nenul, ce nu este anulat de un zero. În consecinţă, h n are durată infinită: filtru

cu răspuns infinit la impuls. Dacă toţi coeficienţii kc sunt nuli, avem de a face cu un filtru ce

are numai poli (all-pole filter), pentru că toate zerourile sale sunt în 0z .

Figura 2.1 prezintă un exemplu de filtru FIR iar Figura 2.2 descrie structura unui filtru

particular IIR, filtrul all-pole. Săgeţile etichetate cu 1z reprezintă elemente de întârziere

unitară, iar săgeţile ce sunt desemnate prin 1 2, , , Ma a a sunt coeficienţii filtrelor. De

remarcat că structura filtrului FIR din Figura 2.1 nu include bucle de reacţie inversă spre

deosebire de filtrul IIR din Figura 2.2 care este alcătuit numai din astfel de bucle. În ambele

cazuri, blocurile funcţionale din componenţa celor două filtre sunt elemente de întârziere,

multiplicatoare şi sumatoare.

2.4 Cauzalitate şi stabilitate 25

2.4 Cauzalitate şi stabilitate

Un SLIT este cauzal dacă excitaţia precede întotdeauna răspunsul. Cu alte cuvinte:

0 pentru 0h n n (2.12)

Un sistem ce operează în timp real trebuie să fie cauzal. Totuşi cauzalitatea nu este

necesară pentru realizabilitate fizică, pentru că în foarte multe aplicaţii semnalul de prelucrat

este memorat. În aceste cazuri sistemul poate fi noncauzal şi totuşi fizic realizabil.

Un SLIT este stabil dacă răspunsul este limitat în amplitudine pentru toate excitaţiile de

intrare limitate (stabilitate IMEM – intrări mărginite, ieşiri mărginite). Condiţia necesară şi

suficientă pentru stabilitate IMEM se deduce simplu din (2.7):

k

h n

(2.13)

Cu alte cuvinte: Răspunsul la impuls al filtrului trebuie să fie absolut sumabil.

Cauzalitatea şi stabilitatea nu sunt în mod necesar cerinţe compatibile. Pentru ca un

SLIT definit prin (2.10) să fie atât stabil cât şi cauzal, RC a funcţiei de transfer H z

trebuie să satisfacă două cerinţe (Naforniţă, ş.a. 1995):

1. Să fie plasată în exteriorul celui mai mare pol al lui H z .

2. Să includă cercul de rază unitate.

Figura 2.1 Filtru cu răspuns finit la impuls (FIR).

Figura 2.2 Filtru IIR all-pole.


Cerinţele pot fi satisfăcute numai şi numai dacă toţi polii lui H z se găsesc în interiorul

cercului de rază unitate (vezi Figura 2.3). Nu există în schimb restricţii relativ la poziţia

zerourilor.

2.5 Sisteme de fază minimă

Cercul de rază unitate joacă un rol critic nu numai în legătură cu stabilitatea unui filtru

cauzal ci şi în ceea ce priveşte evaluarea răspunsului în frecvenţă. Înlocuind jz e în

expresia funcţiei de transfer H z se obţine răspunsul în frecvenţă al filtrului:

arg jj H ej jH H e H e e

(2.14)

Recunoaştem în ultima expresie cele două funcţii reale utilizate pentru caracterizarea

comportării în frecvenţă a SLIT: amplificarea, jH e şi răspunsul de fază sau defa-

zarea, arg jH e .

SLIT de fază minimă sunt o clasă specială de filtre ale căror amplificări şi funcţii de fază

sunt legate unic între ele, astfel încât dacă este dată una dintre funcţii, cealaltă poate fi

stabilită în mod unic. Un filtru de fază minimă îşi ia numele de la faptul că pentru o funcţie

de amplificare dată, răspunsul de fază este minim posibil pentru toate valorile z de pe cercul

unitate.

Pentru ca un SLIT să fie de fază minimă se impun restricţii asupra poziţiei zerourilor

funcţiei de transfer a filtrului H z şi anume:

1. zerourile lui H z pot fi plasate în interiorul şi pe circumferinţa cercului

unitate;

2. zerourile de pe cercul unitate trebuie să fie simple.

Figura 2.3 Definirea regiunii de conver-

genţă a unui SLIT stabil şi

cauzal.

2.7 Transformarea Fourier discretă 27

Un SLIT de fază minimă cu funcţie de transfer H z admite un sistem invers având

funcţia de transfer 1 H z şi care este stabil şi cauzal cu condiţia ca H z să nu aibă

zerouri pe cercul unitate. Conectate în cascadă, perechea de filtre H z şi 1 H z are

funcţia de transfer egală cu unitatea.

2.6 Transformarea Fourier în timp discret

Un semnal în timp discret u n se încadrează în categoria semnalelor de modul sumabil

dacă satisface condiţia

k

u n

(2.15)

În cazul semnalelor ce îndeplinesc condiţia (2.15), se observă imediat că RC a transformatei

lor Z include circumferinţa cercului de rază unitate, întrucât în punctele de pe acest cerc

caracterizate prin 1z unde ,jz e , suma de definiţie din (2.1) şi integrala din

(2.3) sunt convergente.

Reluând calculul relaţiilor ce definesc transformarea Z pe conturul jz e , se obţine:

j

j j n

z en

U z U e U u n e

(2.16)

şi 1

2

j n j nu n U e e d

(2.17)

Sunt ecuaţiile ce definesc transformarea Fourier în timp discret directă respectiv,

transformarea Fourier în timp discret inversă. Ca şi în cazul transformării Z, secvenţa u n

şi transformarea ei U constituie perechea de transformări Fourier în timp discret:

u n U (2.18)

Cu precizarea că transformarea Fourier în timp discret a unei secvenţe există numai

dacă secvenţa îndeplineşte condiţia (2.15), aceasta poate fi obţinută direct din transformarea

Z a secvenţei prin schimbarea de variabilă jz e . Cu această precizare, toate relaţiile

scrise anterior pentru transformate Z îşi găsesc un echivalent direct în transformarea Fourier

în timp discret.

2.7 Transformarea Fourier discretă

Pentru o secvenţă în timp discret de durată finită se poate utiliza în scopul descrierii sale în

domeniul frecvenţă transformarea Fourier discretă (Discrete Fourier Transform – DFT).

Ca şi secvenţa temporală, DFT este la rândul său alcătuit dintr-o secvenţă de eşantioane,

uniform distanţate în frecvenţă. Transformarea Fourier discretă s-a impus în prelucrarea

digitală a semnalelor ca un instrument puternic şi indispensabil pentru că există o serie de


algoritmi eficienţi de calcul al acesteia, cunoscuţi sub numele generic de transformarea

Fourier rapidă (Fast Fourier Transform – FFT).

Fie o secvenţă de durată finită u n , alcătuită din N eşantioane. Atunci transformata

DFT a lui u n se defineşte prin

21

0

, 0,1, , 1knN j

N

n

U k u n e k N

(2.19)

Transformarea Fourier discretă inversă (IDFT) a lui U k este dată de:

21

0

1, 0,1, 1

knN jN

k

u n U k e n NN

(2.20)

De remarcat că atât secvenţa originală u n cât şi transformata ei Fourier U k au aceiaşi

lungime, N . Prin urmare, vom spune despre transformarea Fourier discretă că este „DFT în

N puncte.”

Transformarea Fourier discretă poate fi descrisă prin intermediul transformării Z; ea

poate fi obţinută evaluând transformarea Z a aceleiaşi secvenţe în N puncte uniform

distanţate de pe cercul de rază unitate din planul z : 2 k

jN

kz e

, 0,1, , 1k N .

Deşi secvenţa u n şi transformata ei DFT U k sunt definite ca secvenţe „de lungime

finită”, în realitate ambele reprezintă câte o singură perioadă din nişte secvenţe periodice.

Această dublă periodicitate nu este decât o consecinţă a eşantionării atât în timp cât şi în

frecvenţă a unui semnal în timp continuu.

2.8 Implementarea convoluţiei cu ajutorul

transformării DFT

Natura „dublu periodică” a transformării Fourier discrete, îi conferă acesteia unele proprie-

tăţi ce o deosebesc de transformarea Fourier. În particular, convoluţia lineară a două secven-

ţe, să spunem h n şi v n , presupune să înmulţim una dintre ele cu versiunea inversată în

timp şi deplasată a celeilalte secvenţe, iar apoi să însumăm produsele h i v n i pentru

toate valorile lui i ca în ecuaţia (2.7). Prin contrast, în cazul transformării DFT se realizează

o convoluţie circulară, în care cea de a doua secvenţă este inversată în timp şi deplasată

circular în raport cu prima secvenţă. Cu alte cuvinte, în convoluţia circulară, ambele

secvenţe au lungimea N (sau mai mică) iar secvenţele sunt deplasate modulo N . Numai

dacă convoluţia este definită ca mai sus, convoluţia a două secvenţe în domeniul timp se

transformă în produsul transformatelor lor Fourier discrete în domeniul frecvenţă.

Reformulând altfel această proprietate spunem că dacă multiplicăm transformatele DFT a

două secvenţe finite iar apoi calculăm transformarea Fourier discretă inversă a produsului,

2.8 Implementarea convoluţiei cu ajutorul transformării DFT 29

rezultatul astfel obţinut este echivalent cu convoluţia circulară a celor două secvenţe

originale.

Având în vedere diferenţa marcantă dintre convoluţia circulară şi convoluţia lineară, se

pune problema modului în care poate fi utilizată transformarea DFT pentru a se calcula

convoluţia lineară. Pentru a ilustra modul în care poate fi aceasta realizată, vom considera

două secvenţe discrete v n şi h n de lungimi L , respectiv P . Convoluţia lineară a aces-

tor două secvenţe este o secvenţă finită de durată 1L P . Observând faptul că prin

convoluţia a două secvenţe periodice se obţine o altă secvenţă periodică de aceiaşi perioadă,

putem proceda după cum urmează:

Se adaugă un număr corespunzător de eşantioane nule la v n şi h n astfel încât

fiecare dintre cele două secvenţe să devină secvenţe de N puncte, unde

1N L P ; acest proces poartă numele de zero padding.

Se calculează transformatele Fourier discrete în N puncte a versiunilor adăugite

ale secvenţelor v n şi h n , se multiplică apoi transformările DFT şi în final se

calculează transformarea DFT inversă a produsului.

Se foloseşte o perioadă a convoluţiei circulare astfel calculate drept convoluţie

lineară a secvenţelor originale v n şi h n .

Procedura descrisă înainte, funcţionează perfect în cazul secvenţelor de durată finită.

Dar cum pot fi rezolvate aplicaţiile de filtrare lineară care presupun, din raţiuni practice, că

semnalul de intrare este de durată infinită? În situaţii de acest fel, se poate recurge la două

procedee larg utilizate, ce sunt descrise mai departe.

2.8.1 Metoda Overlap-Add (Suprapune şi însumează)

Cea mai bună cale de a explica metoda Overlap-Add este de a recurge la un exemplu. Să

considerăm secvenţele v n şi h n din Figura 2.4; vom presupune că secvenţa v n este de

lungime „infinită” iar secvenţa h n are o lungime oarecare P finită. Se începe prin a

secţiona secvenţa v n în blocuri adiacente dar care nu se suprapun ca în Figura 2.5, fiecare

bloc fiind de lungime Q N P , unde N are o lungime prestabilită. Semnalul poate fi

reprezentat în acest caz prin suma unor secvenţe deplasate de lungime finită:

0

r

r

v n v n

(2.21)

unde

, 0,1, , 1

0, în restr

v n rQ n Qv n

(2.22)

În continuare, fiecărei secţiuni i se adaugă câte 1P eşantioane nule în scopul

completării unei perioade a secvenţei periodice de lungime N , cum prezintă Figura 2.5.

Prima secţiune astfel obţinută poate fi descrisă prin


0

, 0,1, ,

0, 1, , 1

v n n N Pv n

n N P N

(2.23)

Convoluţia circulară a lui 0v n cu h n dă secvenţa de ieşire 0u n prezentată în primul

Figura 2.5 (a) Descompunerea semnalului din Figura 2.4 în secţiuni adiacente de

lungime Q care nu se suprapun. (b) Rezultatul convoluţiei fiecărei

secţiuni cu h n .

Figura 2.4 Răspunsul la impuls de durată finită h n (a) şi semnalul de

durată nedefinită v n ce urmează a fi filtrat de h n (b).

2.8 Implementarea convoluţiei cu ajutorul transformării DFT 31

grafic din Figura 2.5.

A doua secţiune a semnalului 1v n împreună cu toate celelalte secţiuni ale secvenţei

v n sunt tratate în mod similar. Secvenţele de ieşire 1u n şi 2u n care rezultă în urma

aplicării la intrare a semnalelor 1v n şi respectiv 2v n sunt de asemenea ilustrate în

Figura 2.5. În final, secvenţele de ieşire 0 1, ,u n u n 2 ,u n sunt combinate pentru a

furniza secvenţa de ieşire globală u n . De remarcat că 1 2, ,u n u n sunt deplasate cu

valorile corespunzătoare, şi anume cu ,2 ,N N , înainte să fie adunate la 0u n . Procedeul

de convoluţie secţionată descris aici se numeşte metoda overlap-add din două motive: mai

întâi, secvenţele de ieşire tind să se suprapună una peste cealaltă iar apoi acestea sunt

adunate împreună în scopul furnizării rezultatului corect.

2.8.2 Metoda Overlap-Save (Suprapune şi salvează)

Această metodă diferă de metoda overlap-add prin aceea că se suprapun mai degrabă

secvenţele de intrare decât cele de ieşire. În mod specific, se secţionează secvenţa „infinit”

lungă de intrare în blocuri de N puncte care se suprapun pe lungimea a 1P eşantioane,

unde P este lungimea secvenţei „scurte” h n aşa cum ilustrează Figura 2.6. Convoluţia

Figura 2.6 (a) Descompunerea semnalului v n din Figura 2.4 în secţiuni de lungime

N care se suprapun. (b) Rezultatul convoluţiei fiecărei secţiuni cu h n ;

sunt indicate porţiunile din fiecare secţiune filtrată care sunt eliminate

pentru realizarea convoluţiei lineare.


circulară în N puncte ale lui h n şi rv n este calculată pentru 0,1,r Secvenţele de

ieşire 0u n , 1u n şi 2u n rezultate pentru secvenţele de intrare 0v n , 1v n şi 2v n sunt

de asemenea prezentate în Figura 2.6. Primele 1P eşantioane ale fiecărei secvenţe de

ieşire ,ru n 0,1,r se ignoră, pentru că ele sunt datorate efectului de înfăşurare la

capăt (wraparound) a convoluţiei circulare. În final, eşantioanele rămase ale secvenţelor

0u n , 1u n şi 2u n sunt însumate după ce au fost în prealabil deplasate cu valori

corespunzătoare. Se obţine astfel secvenţa corectă de ieşire u n . În acest fel, este evident

motivul pentru care procedeul de secţionare descris aici poartă numele de metoda

overlap-save.

În concluzie, pentru a calcula convoluţia lineară a unei secvenţe scurte h n cu o a doua

secvenţă mult mai lungă v n utilizăm una dintre cele două metode prezentate anterior. Mai

întâi, se secţionează secvenţa mai lungă în blocuri mici, apoi se calculează indirect, cu

ajutorul transformatei Fourier discrete (DFT), convoluţia circulară dintre fiecare dintre

aceste blocuri cu secvenţa scurtă h n , pentru ca în final rezultatele individuale să fie

asamblate într-o manieră corespunzătoare. Utilizarea într-o largă măsură a metodelor

overlap-add şi overlap-save se datorează existenţei unor algoritmi eficienţi de calcul a

transformatei DFT (de exemplu algoritmii FFT). Calculul indirect al convoluţiei prin

metodele overlap-add şi overlap-save cu utilizarea algoritmilor FFT poartă numele de

convoluţie rapidă, pentru că timpii de calcul sunt mai reduşi decât atunci când se efectuează

calculul direct al convoluţiei.

2.9 Transformarea cosinus discretă

(Discrete Cosine Transform - DCT)

Este o transformare utilizată în unele aplicaţii de prelucrare digitală a semnalelor. DCT se

foloseşte, îndeosebi în compresia datelor pentru că realizează o puternică „compactare a

energiei”, ceea ce face ca cea mai mare parte a informaţiei semnalului transformat să se

concentreze în componentele de joasă frecvenţă ale transformării (Strang 1999). Prin

aceasta, DCT se apropie de transformarea Karhunen-Loève (ce va fi introdusă în Capitolul

3), care este optimală din punctul de vedere a „albirii” datelor în cazul în care semnalul

prelucrat derivă dintr-un proces Markov. Transformarea DCT a unei secvenţe discrete de

N puncte u n se defineşte prin (Rao şi Yip 1990):

1

0

2 1cos , 0,1, , 1

2

N

m

n

n mU m k u n m N

N

(2.24)

iar transformarea inversă cosinus discretă (transformarea IDCT) a lui U m se defineşte

astfel:

2.9 Transformarea cosinus discretă (Discrete Cosine Transform - DCT) 33

1

0

2 12cos , 0,1, , 1

2

N

m

m

n mu n k U m n N

N N

(2.25)

Constanta mk din definiţiile (2.24) şi (2.25) se defineşte ea însăşi prin

1 2, 0

1, 1,2, , 1m

mk

m N

(2.26)

După cum se poate aştepta există o legătură între transformarea DCT şi transformarea

Fourier discretă. Pentru a stabili această legătură, începem prin a construi u n , o secvenţă

de 2N puncte, ce reprezintă extensia pară a secvenţei iniţiale u n :

, 0,1, , 1

2 1 , , 1, ,2 1

u n n Nu n

u N n n N N N

(2.27)

În acest fel, u n este o extensie pară a lui u n . Transformarea DFT a secvenţei u n este

dată de:

2 2 22 1 1 2 1

2 2 2

0 0

j mn j mn j mnN N N

N N N

n n n N

U m u n e u n e u n e

(2.28)

Înlocuind ecuaţia (2.27) în (2.28), se obţine

2 21 2 1

2 2

0

2 121

2 2

0

2 1j mn j mnN N

N N

n n N

j m nj mnN

N N

n

U m u n e u N n e

u n e e

(2.29)

Introducem apoi în ecuaţia (2.29) defazajul 2m N şi factorul de ponderare 2mk , pentru

a scrie

2 1 2 11

2 2 2

0

1

0

1 1

2 2

2 1cos

2

j n m j n mjm N

N N Nm m

n

N

m

n

k e U m k u n e e

n mk u n

N

(2.30)

Recunoaştem în membrul drept al ecuaţiei (2.30), definiţia transformatei DCT a

secvenţei iniţiale u n . Rezultă prin urmare, că transformarea cosinus discretă U m a

secvenţei u n şi transformata Fourier discretă U m a secvenţei extinse u n sunt legate

prin relaţia:

21

, 0,1, , 12

jm

NmU m k e U m m N

(2.31)


Această relaţie arată că, în timp ce transformarea DFT este periodică de perioadă N ,

perioada transformării DCT este de valoare 2N .

Probleme

P 2.1 Să se determine transformata Z a semnalelor:

( ) , ( ) 0.5 1 ,

( ) 0.5 , ( ) 0.5 .

a b

nn

c d

a x n n b x n n n

c x n n d x n

,

Să se precizeze în fiecare caz RC şi să se reprezinte constelaţia de poli şi zerouri. În

expresiile de mai sus, n este impulsul unitar iar n impulsul treaptă unitate.

P 2.2 Să se determine pentru toate RC posibile, semnalele în timp discret care corespund

următoarelor transformate Z:

1 2

21 1

1( ) 2 1 1 ,

1 11 1

4 2

aa X z z z b X z

z z

P 2.3 Se consideră sistemul în timp discret a cărui răspuns la semnalul x n este dat de

relaţia:

0

0

n n

k n n

y n x k

unde 0n este un număr natural.

(a) Este acest sistem liniar? Dar invariant în timp? Dar cauzal?

(b) Se consideră că semnalul x n este mărginit superior: ,x n B n .

Demonstraţi că şi y n este mărginit superior de constanta C . Exprimaţi C în

funcţie de B şi de 0n .

P 2.4 Pentru secvenţele discrete 1,2,3,4,3,2,1x n şi 1,0, 1h n să se calcu-

leze convoluţia y n x n y n

(a) prin utilizarea definiţiei (2.7),

(b) prin utilizarea teoremei convoluţiei,

(c) prin utilizarea programului MATLAB.

P 2.5 Se consideră sistemul liniar şi invariant şi cauzal în timp discret descris prin

ecuaţia cu diferenţe finite:

1

12

y n y n x n

(a) Să se determine răspunsul în frecvenţă, jH e al sistemului.

SEMNALE ŞI SISTEME ÎN TIMP DISCRET Probleme 35

(b) Să se reprezinte grafic pe intervalul amplificarea jH e şi faza

arg jH e funcţiei de sistem.

(c) Care este răspunsul sistemului la următoarele semnale de intrare:

1 1

, 12 2

n

i iii x n n ii x n n n

P 2.6 Consideraţi funcţia de sistem

1 2

1 2

1 6

1 11

4 8

z zH z

z z

(a) Arătaţi că sistemul H z nu este un sistem de fază minimă.

(b) Construiţi un sistem de fază minimă minH z astfel încât:

min

j jH e H e

P 2.7 Fie 0,9n

x n n .

(a) Determinaţi analitic expresia lui x n x n şi reprezentaţi primele 101

eşantioane.

(b) Trunchiaţi x n la primele 51 de eşantioane. Calculaţi şi reprezentaţi convoluţia

x n x n utilizând funcţia MATLAB conv.

(c) Presupuneţi că x n este răspunsul la impuls al unui sistem SLIT. Determinaţi

pentru funcţia MATLAB filter coeficienţii vectorilor a şi b. Utilizând funcţia

filter, calculaţi şi reprezentaţi primele 101 eşantioane ale convoluţiei

x n x n .

(d) Comentaţi graficele obţinute. Care din procedurile MATLAB utilizate este cel mai

bine adaptată la calculul convoluţiei unor secvenţe de lungime infinită şi de ce?

P 2.8 Fie x n o secvenţă sinusoidală de frecvenţă 0 şi de lungime finită N:

0cos , 0 1

0, în rest

A n n Nx n

În acest fel, x n poate fi privit ca o sinusoidă de lungime infinită multiplicată

printr-o fereastră dreptunghiulară de lungime N.

(a) Dacă transformarea Fourier în timp discret a lui x n se exprimă prin părţile ei

reale şi imaginare astfel:


jX e X jX R I

determinaţi expresiile analitice ale lui X R şi X I

.Exprimaţi cos prin

intermediul exponenţialelor complexe şi utilizaţi proprietatea de modulaţie pentru

a da rezultatul.

(b) Alegeţi 32N şi 0 4 şi reprezentaţi X R

şi X I pentru

, .

(c) Calculaţi DFT în 32 de puncte a semnalului x n şi reprezentaţi separat

eşantioanele sale reale şi imaginare. Suprapuneţi graficul de la punctul (b) peste

graficul DFT. Comentaţi rezultatele.

(d) Repetaţi ultimele două puncte pentru 32N şi 0 1,1 4 . De ce graficele sunt

atât de diferite în raport cu cele obţinute iniţial?

P 2.9 Fie cos 4x n n . Vom presupune că sunt disponibile pentru procesare

numai 16 de eşantioane din semnal.

(a) Calculaţi transformarea Fourier discretă (DFT) pentru aceste 16 eşantioane şi

reprezentaţi amplitudinile lor.

(b) Calculaţi DFT în 32 de puncte a secvenţei obţinută prin adăugarea la cele 16

eşantioane de mai sus a altor 16 eşantioane nule (zero-padding).

(c) Repetaţi punctul (b) pentru DFT în 64 de puncte, adică pentru un zero-padding de

48 de puncte.

(d) Explicaţi efectul şi prin urmare scopul operaţiei DFT asupra spectrului DFT al

unei secvenţe de lungime finită.

3 Procese aleatoare în

timp discret

ermenul de semnal aleator sau semnal stochastic descrie evoluţia în timp a unui

fenomen statistic în conformitate cu legi probabilistice. Semnalul aleator este o

funcţie de timp definită pe un anumit interval de observaţie. Natura statistică a

fenomenului face ca înainte de a porni experimentul să nu se poată defini exact modul în

care acesta va evolua în timp.

Vom efectua studiul semnalelor aleatoare, pornind de la teoria variabilelor aleatoare şi a

vectorilor aleatori pe care le presupunem cunoscute (Papoulis 1991, Spătaru 1968), acestea

nefăcând obiectul lucrării de faţă. Un cadru matematic natural pentru descrierea acestor

semnale aleatoare este furnizat de teoria proceselor aleatoare în timp discret.

3.1 Caracterizarea statistică a proceselor

aleatoare în timp discret

Pentru a da o definiţie formală, vom considera un experiment ce are un număr finit sau

infinit de realizări dintr-un spaţiu eşantion 1 2, , S , fiecare dintre acestea produ-

cându-se cu o probabilitate P , 1,2,k k . Fiecărui element k din S i se atribuie

după o anumită regulă o secvenţă deterministă , ,kx n n . Spaţiul eşantion

S , probabilităţile P k şi secvenţele , kx n constituie un proces aleator în timp discret

sau o secvenţă aleatoare. Formal, , ,x n n este o secvenţă stochastică dacă

pentru o valoare fixată 0n a lui n , 0 ,x n este o variabilă aleatoare.

Setul tuturor secvenţelor posibile ,x n este denumit un ansamblu, iar fiecare

secvenţă individuală , kx n este numită realizare sau secvenţă eşantion a ansamblului.

Capitolul

3

T

38 PROCESE ALEATOARE ÎN TIMP DISCRET - 3

În funcţie de caracterul lui n şi al lui , există patru posibile interpretări ale lui

,x n , după cum relevă Figura 3.1 (Manolakis, ş.a. 2005):

,x n este o variabilă aleatoare dacă n este fixat iar este variabil.

,x n este o realizare dacă este fixat iar n este variabil.

,x n este un număr dacă atât n cât şi sunt fixate.

,x n este un proces stochastic dacă atât n cât şi sunt variabile.

3.1.1 Descrierea prin funcţii de probabilitate

Figura 3.1 evidenţiază că pentru 0n n , 0 ,x n este o variabilă aleatoare care este

descrisă printr-o funcţie de probabilitate de ordinul întâi, de exemplu funcţia de distribuţie

0;xF x n . În mod similar, pentru a descrie perechea de variabile aleatoare 1,x n şi

2 ,x n , se utilizează funcţia de distribuţie de ordinul doi 1 2 1 2, ; ,xF x x n n . Un proces

stochastic conţine infinit mai multe astfel de variabile aleatoare. Drept urmare, el poate fi

descris complet în sens statistic, dacă funcţia de distribuţie de ordinul k

1 1 1 1, , ; , , , ,x k k k kF x x n n P x n x x n x (3.1)

poate fi cunoscută pentru fiecare valoare 1k şi pentru toate momentele 1 2, ,n n , kn .

Densitatea de probabilitate de ordinul k este definită acum astfel:

1 1

1 1

1

, , ; , ,, , ; , , , 1

k

x k k

x k k

k

F x x n nf x x n n k

x x

(3.2)

Figura 3.1 Descrierea grafică a unui proces aleator.

3.1 Caracterizarea statistică a proceselor aleatoare în timp discret 39

În mod evident, descrierea probabilistică necesită foarte multă informaţie care, în

practică, este dificil de obţinut. Totuşi, multe proprietăţi ale proceselor stochastice pot fi

descrise prin momente de ordinul unu şi doi asociate densităţilor de probabilitate de acelaşi

ordin.

Pentru simplificare, în restul lucrării vom folosi notaţia compactă x n pentru a repre-

zenta atât un proces aleator ,x n cât şi o unică realizare x n , ce face parte din ansam-

blu. De asemenea, vom presupune, în lipsa unei specificaţii explicite, că procesele

stochastice sunt de valori complexe.

3.1.2 Descrierea prin medii statistice de ordinul unu

sau doi

În practică, nu se pot determina funcţiile de densitate, de probabilitate mutuală pentru un set

de observaţii (realizări ale unui proces aleator). În consecinţă, ne mulţumim cu

caracterizarea parţială a procesului prin determinarea momentelor sale de ordinul unu şi doi.

Pentru seria temporală cu valori complexe , 1 , ,u n u n u n M se defineşte

funcţia valoare medie a procesului prin:

n E u n (3.3)

unde E reprezintă operatorul de mediere statistică:

xE x xf x dx

(3.4)

Funcţia de autocorelaţie a procesului se defineşte prin:

1 2 1 2, ,r n n E u n u n

(3.5)

unde defineşte operaţia de conjugare complexă. Funcţia furnizează o măsură a depen-

denţei dintre valorile procesului la două momente diferite de timp. În acest sens, ea oferă

informaţii despre variaţia în timp a procesului stochastic.

De observat că pentru 1 2n n n , ,r n n reprezintă valoarea medie pătratică a lui

u n :

2

,r n n E u n

(3.6)

Funcţia de autocovarianţă este:

1 2 1 1 2 2 1 2 1 2, ,c n n E u n n u n n r n n n n

(3.7)

Dacă în (3.7) se consideră 1 2n n n , se obţine varianţa (sau momentul centrat de ordinul

doi) 2 n , un parametru deosebit de important în caracterizarea proceselor stochastice:


2 2 22 n E u n n E u n n

(3.8)

Cele trei funcţii introduse realizează o caracterizare parţială a procesului, dacă se cunosc

valorile lor pentru diverse valori ale lui n1 şi n2. Sunt două avantaje ce se obţin prin utilizarea

acestei descrieri parţiale:

1. Poate fi stabilită prin măsurări practice,

2. Este bine adaptată la efectuarea de operaţiuni liniare asupra proceselor stochastice.

Relaţia statistică dintre două procese aleatoare u n şi v n , distribuite mutual (adică

definite pe acelaşi spaţiu eşantion S ) poate fi descrisă prin funcţiile de intercorelaţie (pe

scurt corelaţie) şi intercovarianţă (covarianţă) definite astfel:

1 2 1 2

* *

1 2 1 1 2 2 1 2 1 2

, ,

, ,

uv

uv uv

r n n E u n u n

c n n E u n n u n n r n n n n

(3.9)

3.1.3 Categorii de procese aleatoare

Vom descrie, pe baza proprietăţilor statistice, în continuare câteva categorii deosebite de

procese stochastice. Spunem că un proces aleator este:

Proces independent dacă:

1 1 1 1, , ; , , ; ; , , 1, ,u k k u u k k if u u n n f u n f u n k n i k (3.10)

adică, u n este o secvenţă de variabile aleatoare independente. Dacă toate varia-

bilele independente au aceiaşi densitate de probabilitate f u , oricare ar fi k ,

atunci u n reprezintă o secvenţă aleatoare IID (Independent and Identically

Distributed – distribuită independent şi identic).

Proces necorelat dacă x n este o secvenţă de variabile aleatoare necorelate:

2

2 1 1 2

1 2 1 1 2

1 2

,,

0,

n n nc n n n n n

n n

(3.11)

Alternativ, funcţia de autocorelaţie a unui proces necorelat este

22

1 1 1 2

1 2

1 2 1 2

,,

* ,

n n n nr n n

n n n n

(3.12)

Proces ortogonal sau secvenţă de variabile aleatoare ortogonale

222

1 1 1 2

1 2 1 1 2

1 2

,,

0,

n n n nr n n E u n n n

n n

(3.13)

3.1 Caracterizarea statistică a proceselor aleatoare în timp discret 41

Aceste definiţii se pot extinde la cazul a două procese aleatoare mutual. Spunem că

procesele aleatoare u n şi v n sunt

Independente statistic dacă pentru toate valorile lui 1n şi

2n

1 2 1 2, ; , ; ;uv u vf u v n n f u n f v n (3.14)

Necorelate dacă pentru orice 1n şi

2n

1 2 1 2 1 2; 0 sau ;uv uv u vc n n r n n n n (3.15)

Ortogonale dacă oricare ar fi 1n şi

2n

1 2; 0uvr n n (3.16)

3.1.4 Procese aleatoare staţionare

Un proces aleator este numit staţionar dacă statisticile determinate pentru u n sunt egale

cu statisticile lui u n k , oricare ar fi k. Mai exact, definiţia este:

Definiţie: Un proces stochastic u n este denumit staţionar de ordinul N dacă

1 1 1 1, , ; , , , , ; , , ,u N N u N Nf u u n n f u u n k n k (3.17)

pentru orice valoare a lui k . Dacă u n este staţionar, oricare ar fi ordinul

1,2,N , atunci se spune că procesul este staţionar în sens strict.

De remarcat că staţionaritatea în sens strict este o condiţie prea restrictivă pentru cele

mai multe aplicaţii practice. O formă mai relaxată de staţionaritate, suficientă în problemele

practice are loc atunci când procesul aleator este staţionar de ordinul 2, caz care mai este

numit staţionaritate în sens larg.

Definiţie: Un proces aleator u n este denumit staţionar în sens larg dacă media

sa statistică este o constantă independentă de n , adică

E u n (3.18)

Varianţa sa este, de asemenea, o constantă independentă de n , adică

2 22 2n E u n n E u n

(3.19)

Funcţia de autocorelaţie depinde numai de distanţa 1 2l n n , numită întârziere,

adică

* *

1 2 1 2,r n n r n n r l E u n l u n E u n u n l (3.20)

Din ecuaţiile (3.18), (3.19) şi (3.20) rezultă că funcţia de autocovarianţă a unui semnal

staţionar în sens larg depinde de asemenea numai de 1 2l n n , cu alte cuvinte:

2

c l r l (3.21)


Exemplul 3.1: Fie w n o secvenţă gaussiană, de medie nulă şi necorelată de

varianţă 2 1n .

a. Caracterizaţi secvenţa aleatoare w n .

b. Se defineşte 1 ,u n w n w n n . Determinaţi media şi

autocorelaţia lui u n . Caracterizaţi de asemenea secvenţa u n .

Soluţie: Vom observa pentru început că varianţa lui w n este o constantă.

În cazul variabilelor aleatoare gaussiene, necorelarea implică independenţa

ceea ce face ca w n să fie o secvenţă aleatoare independentă. Pentru că atât

media cât şi varianţa ei sunt constante, secvenţa este, cel puţin, staţionară de

ordinul unu. Mai mult, din (3.12) şi (3.13) avem

2

1 2 1 2 1 2,wr n n n n n n

Prin urmare, w n este, de asemenea, un proces aleator în sens larg.

Media statistică a lui u n este zero oricare ar fi n pentru că w n este un

proces de medie zero. Calculăm autocorelaţia:

1 2 1 2 1 1 2 2

1 2 1 2 1 2 1 2

2 2 2 2

1 2 1 2 1 2 1 2

1 2 1 2 1 2

, 1 1

, , 1 1, 1, 1

1 1 1 1

2 1 1

u

w w w w

r n n E u n u n E w n w n w n w n

r n n r n n r n n r n n

n n n n n n n n

n n n n n n

Evident că 1 2,ur n n este funcţie de 1 2n n l . Prin urmare

2 1 1ur l l l l

Prin urmare u n este o secvenţă staţionară în sens larg. Totuşi, aceasta nu

este o secvenţă aleatoare independentă pentru că atât u n cât şi 1u n depind

de w n .

Vom sublinia că, deşi orice semnal staţionar în sens strict este staţionar în sens larg,

inversa nu este întotdeauna adevărată, cu excepţia cazului în care semnalul este gaussian.

Totuşi în practică, se întâlnesc rar cazuri în care un semnal staţionar în sens larg să nu fie

staţionar în sens strict (Manolakis, ş.a. 2005).

Secvenţa de autocorelaţie a unui proces staţionar are o serie de proprietăţi importante,

utile în dezvoltarea studiului nostru:

Proprietatea 1: Puterea medie a procesului aleator staţionar în sens larg u n

satisface relaţiile:

3.2 Caracterizarea temporală a proceselor aleatoare în timp discret 43

220 0,

0 ,

r

r r n n

(3.22)

Prima parte rezultă din ecuaţia (3.21), cea de a doua parte poate fi demonstrată utilizând

inegalitatea 2

0E u n l u n

.

Proprietatea implică faptul că funcţia de corelaţie îşi atinge valoarea maximă la întârzie-

re nulă şi că această valoare este pozitivă. Mărimea 2

reprezintă puterea medie de curent

continuu (cc) iar 2 este puterea medie de curent alternativ (ca) a secvenţei aleatoare.

Mărimea 0r este, prin urmare, puterea medie totală a lui u n .

Proprietatea 2: Secvenţa de autocorelaţie r n este o funcţie simetric conjugată,

adică:

*r n r n (3.23)

Demonstraţia proprietăţii se face pe baza definiţiilor staţionarităţii în sens larg şi a

ecuaţiei (3.20).

Două semnale aleatoare u n şi v n se numesc staţionare mutual în sens larg dacă

fiecare este staţionar în sens larg iar funcţia lor de intercorelaţie (corelaţie) depinde numai de

1 2l n n

* *;uv uv uv u vr l E u n v n l c l r l (3.24)

Consecinţa staţionarităţii în sens larg este că secvenţele de corelaţie sau covarianţă

bidimensionale devin secvenţe unidimensionale. Este un rezultat foarte important care

permite realizarea descrierii spectrale a proceselor aleatoare staţionare.

3.2 Caracterizarea temporală a proceselor

aleatoare în timp discret

Un proces aleator constă dintr-un ansamblu de realizări şi o lege de probabilitate. Dacă

aceste informaţii sunt disponibile, proprietăţile statistice ale procesului pot fi stabilite în mod

direct. Totuşi în realitate, avem acces la un număr limitat de realizări ale procesului (de

obicei, numai una). Este foarte important în aceste condiţii să putem stabili caracteristicile

statistice ale procesului dintr-o singură realizare, lucru ce devine posibil pentru clasa de

procese aleatoare numite ergodice. Aşadar, ergodicitatea, care se bazează pe descrierea în

domeniul timp a procesului aleator, permite ca toate informaţiile statistice referitoare la

proces să poată fi obţinute dintr-o singură realizare a acestuia.


3.2.1 Medii temporale

În practică, mediile statistice definite prin operatorul E , ce presupun operaţiuni statistice

pe un ansamblu de realizări, nu se fac frecvent, pentru că nu se poate dispune de un număr

suficient de realizări pentru ca estimarea realizată să fie precisă. Apare prin urmare nevoia

unui alt tip de mediere, bazată pe o singură realizare a procesului aleator. Evident, aceasta se

poate realiza numai prin mediere în timp.

Media temporală a unei mărimi, legate de un semnal aleator în timp discret se defineşte

astfel:

1

lim2 1

N

Nn NN

(3.25)

De remarcat că, datorită dependenţei de o singură realizare, orice medie temporală este ea

însăşi o variabilă aleatoare.

Corespunzător fiecare medii pe ansamblu discutate anterior, putem defini o medie

temporală corespunzătoare:

2

2

*

*

*

*

Valoare medie = ,

Valoare medie pătratică = ,

Varianţă = ,

Autocorelaţie = ,

Autocovarianţă = ,

Intercorelaţie = ,

Intercovarianţă =

u n

u n

u n u n

u n u n l

u n u n u n l u n l

u n v n l

u n u n v n l v n l

(3.26)

3.2.2 Procese aleatoare ergodice

Un semnal stochastic u n este denumit ergodic dacă mediile statistice pe ansamblul

realizărilor sunt egale cu mediile de timp corespunzătoare. Există diverse grade de

ergodicitate (Papoulis 1991). Prezentăm în continuare două dintre acestea: ergodicitate în

medie şi ergodicitate în corelaţie.

Definiţie: Un proces aleator u n este ergodic în medie dacă:

u n E u n (3.27)

Definiţie: Un proces aleator u n este ergodic în corelaţie dacă:

* *u n u n l E u n u n l (3.28)

3.3 Descrierea în domeniul frecvenţă a proceselor staţionare 45

Trebuie remarcat aici că, întrucât u n este o constantă iar *u n u n l este

funcţie de l , dacă u n este ergodic atât în medie cât şi în corelaţie, atunci procesul este

şi staţionar în sens larg. Astfel, numai semnalele staţionare pot fi ergodice. Pe de altă parte,

staţionaritatea în sens larg nu implică ergodicitate de orice fel. Din fericire, în practică

aproape toate procesele staţionare sunt şi ergodice, ceea ce este foarte util pentru estimarea

proprietăţilor lor statistice. În continuare, vom înţelege prin ergodicitate atât ergodicitatea în

medie cât şi în corelaţie.

Definiţie: Două semnale aleatoare sunt denumite mutual ergodice dacă ele sunt

individual ergodice şi, în plus:

* *u n v n l E u n v n l (3.29)

În practică, este evident imposibil să utilizăm formula de mediere temporală (3.25),

pentru că pentru medie sunt disponibile doar secvenţe de lungime finită. Operatorul de

medie temporală utilizat în practică în locul lui (3.25) este:

1

2 1

N

Nn NN

(3.30)

În final, să concluzionăm că dacă staţionaritatea presupune invarianţa în timp a statisti-

cilor semnalului aleator, atunci ergodicitatea înseamnă că orice statistică poate fi calculată

atât prin mediere peste toate realizările ansamblului la un moment de timp fixat cât şi prin

mediere în timp pe o singură realizare din ansamblu.

3.3 Descrierea în domeniul frecvenţă a

proceselor staţionare

3.3.1 Densitatea spectrală de putere – definiţie şi

proprietăţi

Fie seria temporală u n infinit lungă care reprezintă o singură realizare a unui proces

aleator discret staţionar în sens larg, de medie nulă. Delimităm o porţiune de N eşantioane

din respectiva serie:

, 0, 1, , 1

0, 0, 0N

u n n Nu n

n n

(3.31)

şi calculăm transformata Fourier în timp discret a acesteia cu relaţia

1

0

Nj n

N N

n

U u n e

(3.32)

În general NU este o funcţie complexă, având pătratul modulului stabilit prin ecuaţia de

mai jos


1 1

2 * *

0 0

N Nj n k

N N N N N

n k

U U U u n u k e

(3.33)

Trecerea de la o realizare la descrierea întregului proces aleator, implică efectuarea

medierii statistice în ambii membri ai relaţiei (3.33), cu schimbarea între ei a operatorilor de

mediere şi sumare în membrul drept al ecuaţiei:

1 1

2 *

0 0

N Nj n k

N N N

n k

E U E u n u k e

(3.34)

Se poate recunoaşte în media din membrul drept al lui (3.34) pe Nr n k , funcţia de auto-

corelaţie a lui Nu n , care, potrivit definiţiei (3.31), poate fi exprimată prin autocorelaţia lui

u n :

*

, 0 , 1

0, altfelN

E u n u k r n k n k Nr n k

(3.35)

Prin urmare, ecuaţia (3.34) capătă forma

1 1

2

0 0

N Nj n k

N

n k

E U r n k e

(3.36)

şi, înlocuind l n k se scrie:

1

2

1

11

Nj l

N

l N

lE U r l e

N N

(3.37)

Pe măsură ce N tinde la infinit, valoarea parantezei rotunde din membrul drept al ecuaţiei

(3.37) tinde către unu, astfel încât se poate scrie:

21

limj l

N

ln

E U r l eN

(3.38)

Ecuaţia (3.38) ne permite să definim mărimea

21

limN

n

S E UN

(3.39)

Dacă limita din ecuaţia (3.39) există, o interpretare a mărimii S d îi atribuie aces-

teia semnificaţia de valoare medie a contribuţiei la puterea totală a semnalului aleator staţio-

nar în sens larg a componentelor de frecvenţă cuprinse între frecvenţele şi ;

media este realizată pe toate realizările posibile ale procesului (Haykin 1996). Drept urmare,

S este, pe scurt, densitatea spectrală de putere a procesului aleator, ceea ce ne permite

să rescriem acum ecuaţia (3.38), astfel:

3.3 Descrierea în domeniul frecvenţă a proceselor staţionare 47

,j l

l

S r l e

(3.40)

În concluzie, ecuaţia (3.40) stabileşte că:

Proprietatea 1: Funcţia de autocorelaţie şi densitatea spectrală de putere a unui

proces aleator staţionar în sens larg formează o pereche de transformate Fourier.

Prin urmare, legătura dintre funcţia de autocorelaţie r l şi densitatea spectrală de pute-

re S a unui proces aleator staţionar în sens larg este stabilită de relaţiile (3.40) şi (3.41):

1

, 0, 1, 2,2

j lr l S e d l

(3.41)

Această pereche de ecuaţii fundamentale poartă numele de Teorema Wiener-Hincin.

Proprietatea 2: Densitatea spectrală de putere S este o funcţie de frecvenţă

cu valori reale, periodică de perioadă 2 pentru orice proces aleator cu valori

complexe u n . Dacă u n este un proces cu valori reale, atunci S este de

asemenea, o funcţie pară de .

Pentru a demonstra prima parte a proprietăţii, rescriem ecuaţia (3.41):

1

1

0 j k j k

k k

S r r k e r k e

Înlocuind pe k cu k în al treilea termen din partea dreaptă a ecuaţiei, şi observând că

*r k r k , se obţine

*

1 1

0 0 2 Rej k j k j k

k k

S r r k e r k e r r k e

(3.42)

unde Re este operatorul parte reală. Ecuaţia (3.42) arată că densitatea spectrală de putere

S este o funcţie cu valori reale de .

Proprietatea 3: Densitatea spectrală de putere a unui proces aleator staţionar în

timp discret este o funcţie nenegativă:

0, ,S (3.43)

Proprietatea rezultă direct din formula fundamentală (3.39).

Proprietatea 4: Valoarea medie pătratică a unui proces aleator staţionar în timp

discret este egală, cu excepţia factorului de scală 1 2 , cu aria de sub curba

S pentru .

Proprietatea rezultă direct din ecuaţia (3.41) evaluată pentru 0l :

1

02

r S d

(3.44)


Densitatea spectrală mutuală de putere sau interspectrul a două procese stochastice

staţionare mutual u n şi v n face o reprezentare în domeniul frecvenţă a relaţiilor lor

statistice şi este definită ca transformare Fourier a funcţiei lor de intercorelaţie

j k

uv uv

k

S r k e

(3.45)

Funcţia de intercorelaţie uvr n poate fi obţinută prin transformarea Fourier inversă a

interspectrului:

1

2

j n

uv uvr n S e d

(3.46)

3.3.2 Zgomotul alb

O secvenţă aleatoare staţionară în sens larg w n este denumită proces de zgomot alb de

medie w şi varianţă 2

w dacă şi numai dacă wE w n şi

2

w wr l E w n w n l l (3.47)

ceea ce implică ca 2 ,w wS (3.48)

Termenul de zgomot alb este utilizat pentru a sublinia că toate frecvenţele au contribuţii

egale la puterea semnalului, ca şi în cazul luminii albe, care se obţine prin combinarea tutu-

ror culorilor posibile cu aceiaşi pondere. Dacă, în plus, funcţia de densitate de probabilitate a

lui w n este gaussiană, atunci procesul este denumit proces de zgomot alb gaussian.

Este evident că zgomotul alb este cel mai simplu proces aleator, pentru că nu are niciun

fel de structură statistică. Totuşi, după cum se va vedea în continuare, el poate fi utilizat ca

bloc de bază în construcţia de procese aleatoare ce au structuri de corelaţie mult mai

complicate.

3.4 Trecerea semnalelor aleatoare prin

sisteme lineare invariante în timp

Vom considera un sistem în timp discret care este linear, invariant în timp şi stabil.

Răspunsul la impuls unitar al sistemului este h n , şi acesta are drept transformată Fourier

funcţia cu valori complexe H , funcţia de transfer a sistemului.

3.4.1 Analiza în domeniul timp

Pentru a calcula acţiunea sistemului asupra semnalului aleator u n aplicat la intrarea lui,

vom nota procesul aleator de la ieşirea acestuia prin y n (vezi Figura 3.2(a)). Vom utiliza

3.4 Trecerea semnalelor aleatoare prin sisteme lineare invariante în timp 49

acest paragraf pentru a stabili relaţiile intrare-ieşire pe care le stabileşte sistemul precum şi

proprietăţile statistice ale procesului aleator de la ieşirea acestuia.

Semnalul de la ieşirea sistemului reprezintă rezultatul convoluţiei dintre semnalul de

intrare şi funcţia pondere a sistemului, h n :

k

y n h h k u n kn u n

(3.49)

Dacă u n este staţionar, media sa statistică u este independentă de timp. Pentru a

determina valoarea medie a procesului de la ieşire, vom aplica operatorul de mediere ambi-

lor termeni ai ecuaţiei (3.49):

0 0j

y u u

k k

h k E u n k h k e H

(3.50)

u şi 0H fiind constante, y este de asemenea o constantă.

Notaţiile utilizate pentru funcţia de autocorelaţie sunt ur l în cazul secvenţei de intrare,

respectiv yr l pentru secvenţa de ieşire:

* *,

u yr l E u n u n l r l E y n y n l (3.51)

Pentru a calcula corelaţia dintre semnalul de intrare şi cel de ieşire (intercorelaţia

intrare-ieşire), conjugăm complex ecuaţia (3.49), o multiplicăm cu u n l şi calculăm

media statistică pentru ambii membri ai relaţiei obţinute

* * *

k

E u n l y l h k E u n l u n k

sau * *

uy u u

k m

r l h k r l k h m r l m

Prin urmare, *

uy ur l h l r l (3.52)

Similar, yu ur l h l r l (3.53)

Calculăm în continuare funcţia de autocorelaţie a semnalului de ieşire. Înmulţim în acest

scop ambii termeni ai lui (3.49) cu y n l şi continuăm, mediind statistic

Figura 3.2 (a) Transmisia unui semnal aleator printr-un sistem linear. (b) Sistem echivalent

ce are la intrare secvenţa de autocorelaţie a intrării de la punctul (a).


k

E y n y n l h k E u n k y n l

sau y uy uy

k

r l h k r l k h l r l

(3.54)

Din (3.52) şi (3.54) se obţine

y ur l h l h l r l (3.55)

sau y h ur l r l r l (3.56)

unde h

n

r l h l h l h n h n l

(3.57)

este funcţia de autocorelaţie a răspunsului la impuls şi este denumită secvenţa de corelaţie a

sistemului.

Având în vedere că y este constant iar yr l depinde numai de întârzierea l, răspunsul

sistemului la un semnal de intrare staţionar este de asemenea un proces staţionar (vezi

Figura 3.2(a)). Concluzia care poate fi desprinsă după o examinare atentă a relaţiei (3.57)

este că atunci când un semnal u n este filtrat de un sistem linear invariabil în timp cu

răspunsul la impuls h n , autocorelaţia sa este „filtrată” de un sistem cu răspunsul la

impuls egal cu autocorelaţia lui h n , după cum arată Figura 3.2(b).

3.4.2 Analiza în domeniul frecvenţă

În vederea calculului spectrului semnalului de ieşire al sistemului din Figura 3.2(b), aplicăm

transformata Fourier relaţiei (3.55) şi avem în vedere că *h l H F . Se obţine

astfel:

2

y uS H S (3.58)

Densitatea spectrală mutuală a proceselor staţionare de la intrarea şi ieşirea sistemului se

calculează pornind de la ecuaţiile (3.52) şi (3.53)

**

,uy u yu u

S H S S H S (3.59)

În concluzie, prin referire la ecuaţia (3.58), cunoscând densităţile spectrale de putere

la intrare şi ieşire, putem determina modulul răspunsului în frecvenţă al sistemului nu şi faza

acestei funcţii. Doar densităţile mutuale de putere sau interspectrul (vezi ecuaţia (3.59))

furnizează informaţii despre faza funcţiei.

3.5 Matricea de corelaţie

În prelucrarea adaptivă a semnalelor dar şi în analiza semnalelor se obişnuieşte să se

reprezinte semnalele aleatoare sub forma unor vectori de date (Ciochină şi Negrescu 1999).

3.5 Matricea de corelaţie 51

În aceste condiţii, valorile funcţiei de autocorelaţie a semnalului sunt reprezentate sub forma

unei matrici pătrate, matricea de corelaţie a procesului (Bellanger 1989, Haykin 1996).

3.5.1 Definirea matricii de corelaţie

Fie vectorul de observaţie de dimensiuni 1M nu format din elemente ale seriei

temporale , 1 , , 1u n u n u n M . Scriem:

1 1T

n u n u n u n M u (3.60)

unde indicele T este pentru operaţia de transpunere, iar u n este un proces aleator staţio-

nar în sens larg.

Se defineşte matricea de corelaţie a procesului în timp discret aleator reprezentat prin

acest vector, media statistică:

HE n n R u u (3.61)

unde indicele H indică operaţia de transpunere hermitică (conjugare + transpunere).

Înlocuirea lui (3.60) în (3.61) şi utilizarea condiţiilor de staţionaritate în sens larg condu-

ce la matricea R de dimensiune M M :

0 1 1

1 0 2

1 2 0

r r r M

r r r M

r M r M r

R (3.62)

unde r k E u n u n k (3.63)

este funcţia de autocorelaţie a vectorului nu . Elementul 0r de pe diagonala principală

este întotdeauna real. În schimb pentru serii nu complexe, restul elementelor lui R au

valori complexe.

3.5.2 Proprietăţile matricii de corelaţie

Matricea de corelaţie R are un rol major în analiza statistică şi definirea filtrelor adap-

tive. Din acest motiv vom examina în continuare unele proprietăţi importante ale acesteia.

Proprietatea 1: Matricea de corelaţie a unui proces în timp discret aleator

staţionar este hermitică. (Se spune că o matrice complexă este hermitică dacă ea

este egală cu conjugata sa transpusă). În particular:

HR R (3.64)

Proprietatea derivă din observaţia

r k E u n u n k E u n u n k r k

(3.65)


Deci, în cazul unui proces aleator în sens larg sunt necesare doar M valori ale lui r k ,

0,1, , 1k M pentru a defini complet pe R , care poate fi acum scris sub forma

0 1 1

1 0 2

1 2 0

r r r M

r r r M

r M r M r

R (3.66)

În cazul special al vectorului de date nu real, r k este real pentru k , iar R este o

matrice simetrică.

Proprietatea 2: Matricea de corelaţie a unui proces aleator în timp discret

staţionar are proprietatea Toeplitz, adică toate elementele de pe diagonala prin-

cipală şi de pe orice altă diagonală paralelă cu cea principală sunt egale între ele.

Este important de observat că proprietatea Toeplitz a matricii de corelaţie R este o

consecinţă directă a presupunerii că procesul stochastic în timp discret reprezentat de

vectorul de observaţie nu este staţionar în sens larg.

Proprietatea 3: Matricea R este pozitiv semidefinită. Această proprietate

înseamnă că pentru orice vector complex nenul x de dimensiune 1M ,

1 1

0M M

i j

i j

r i j x x

H

x R x (3.67)

Într-adevăr,

2

0E n n E n n E n H H H H H H

x R x x u u x x u u x x u

Consecinţa acestei proprietăţi în cazul inegalităţii stricte implică faptul că determinantul lui

R împreună cu toţi minorii săi principali sunt mai mari decât 0, ceea ce atrage consecinţa că

matricea de corelaţie a unui proces staţionar este nesingulară, adică este inversabilă.

Proprietatea 4: Dacă ordinea elementelor vectorului de observaţie nu este

inversată, efectul este echivalent cu transpunerea matricii de corelaţie a

procesului.

Notăm prin nB

u , vectorul 1M obţinut prin inversarea ordinii elementelor vecto-

rului de date:

1 2TBT

n u n M u n M u n u (3.68)

unde indicele B reprezintă rearanjarea, prin inversarea ordinii, a elementelor unui vector.

Matricea de corelaţie a acestui vector este:

3.5 Matricea de corelaţie 53

0 1 1

1 0 2

1 2 0

B BH

r r r M

r r r ME n n

r M r M r

u u (3.69)

Prin urmare, comparând matricea de corelaţie extinsă din (3.69) cu cea din ecuaţia (3.66), se

observă că

B BH TE n n u u R (3.70)

Proprietatea 5: Matricele de corelaţie M

R şi 1M

R ale unui proces aleator în timp

discret staţionar corespunzătoare la M respectiv 1M observaţii asupra proce-

sului sunt legate prin următoarele relaţii:

1 1

0

sau echivalent

0

H B

M

M M

BT

M

r

r

r R r

R R

r R r

(3.71)

unde 0r este autocorelaţia procesului pentru întârziere 0 şi:

1 2

1 1

H

BT

r r r M

r M r M r

r

r (3.72)

Pentru a demonstra prima parte a ecuaţiei (3.71), se exprimă 1M R prin utilizarea

partiţiei de mai jos:

1

0 1 2

1 0 1 1

2 1 0 2

1 2 0

M

r r r r M

r r r r M

r r r r M

r M r M r M r

R (3.73)

Identic se demonstrează şi partea a doua a ecuaţiei (3.71).

3.5.3 Matricea de corelaţie a unei sinusoide complexe

înecate în zgomot aditiv

Sinusoida înecată în zgomot reprezintă o serie temporală ce prezintă un interes deosebit în

multe aplicaţii importante de prelucrare a semnalelor. De exemplu, ea poate reprezenta

semnalul compus de la intrarea unui receptor, sinusoida complexă constituind semnalul util

iar zgomotul fiind datorat fenomenelor termice de la intrarea receptorului.


Vom nota prin şi amplitudinea, respectiv pulsaţia sinusoidei complexe. În ceea ce

priveşte zgomotul, el este presupus de medie nulă, n , fiind eşantionul de la momentul

n . Seria temporală ce constă din sinusoida complexă plus zgomot se scrie astfel:

exp , 0,1, , 1u n j n n n N (3.74)

Cele două componente ale procesului sunt independente una de alta iar media lui u n este

evident egală cu exp j n .

Pentru a calcula funcţia de autocorelaţie a procesului u n este nevoie, fără îndoială, să

fie cunoscută funcţia de autocorelaţie a zgomotului. Vom presupune că acesta este zgomot

alb introdus în paragraful 3.3.2, fiind caracterizat de următoarea funcţie de autocorelaţie

2 , 0

0, 0

kE n n k

k

(3.75)

Sursele ce generează sinusoida complexă şi zgomotul sunt independente şi, prin urmare

necorelate, astfel încât funcţia de autocorelaţie a procesului u n este egală cu suma

funcţiilor de autocorelaţie a celor două componente. În consecinţă, utilizăm ecuaţiile (3.74)

şi (3.75) pentru a stabili funcţia de autocorelaţie pentru o întârziere de valoare k :

2 2

2

, 0

exp , 0

kr k E u n u n k

j k k

(3.76)

De remarcat că pentru o deplasare 0k , funcţia de autocorelaţie r k este, cu excepţia

amplitudinii, aceiaşi sinusoidă cu cea din procesul u n .

Pentru M observaţii, , 1 , , 1u n u n u n M făcute asupra procesului aleator,

matricea de corelaţie se calculează, utilizând rezultatul din (3.76) în definiţia (3.62):

2

1 1 exp exp 1

exp 1 1 exp 2

exp 1 exp 2 1 1

j j M

j j M

j M j M

R (3.77)

unde este raportul semnal-zgomot definit prin

2

2

v

(3.78)

Un caz particular al situaţiei descrise anterior este cel în care din componenţa procesului

aleator (3.74) dispare zgomotul. Prin urmare, . De asemenea, pentru comoditate,

3M . Particularizând în (3.77), matricea de corelaţie a acestei serii temporale este:

3.6 Vectori şi valori proprii ale matricii de corelaţie 55

2

1 exp exp 2

exp 1 exp

exp 2 exp 1

j j

j j

j j

R (3.79)

Este simplu de observat din (3.79) că atât determinantul lui R cât şi determinanţii tuturor

minorilor principali ai acestuia sunt nuli. Prin urmare, această matrice de corelaţie este

singulară.

O generalizare a rezultatului de mai sus se referă la un proces u n ce constă din

M eşantioane obţinute prin însumarea a K sinusoide ( K M ) şi care nu conţine zgomot

aditiv. Matricea de corelaţie a unui asemenea proces este, de asemenea, singulară.

3.6 Vectori şi valori proprii ale matricii de

corelaţie

Matricea de corelaţie a unui proces aleator în timp discret staţionar este hermitică, fapt ce

permite descompunerea convenabilă a acesteia în funcţie de valorile şi vectorii săi proprii.

Această formă de reprezentare este utilă în prelucrarea digitală a semnalelor.

3.6.1 Problema valorilor proprii

Vectorul propriu de dimensiune 1M al matricii de corelaţie R notat prin q satisface

condiţia:

Rq q (3.80)

unde este o constantă particulară. Conform condiţiei, vectorul q este transformat în

vectorul q de către matricea hermitică R . Mărimea fiind o constantă, vectorul q are

semnificaţia specială că rămâne invariant în direcţie (în spaţiul M dimensional) în urma

transformării liniare R . Vectorii proprii ai unei matricii R de dimensiune M M sunt în

număr de M şi se pot obţine prin rezolvarea ecuaţiei (3.80), rescrisă sub forma:

R I q 0 (3.81)

unde I este matricea identitate de dimensiune M M iar 0 este vectorul de dimensiune

1M nul. Matricea R I trebuie să fie singulară, pentru că există soluţii nenule pentru

q dacă şi numai dacă:

det 0 R I (3.82)

Dezvoltarea determinantului (3.82) conduce evident la un polinom în de gradul M cu

M rădăcini pentru . În consecinţă, (3.81) are M soluţii pentru vectorul q .

Ecuaţia (3.82) se numeşte ecuaţia caracteristică a matricii R . Rădăcinile 1 2, , , M

ale ecuaţiei sunt denumite valori proprii ale matricii R . Acestea pot fi sau nu distincte.


Atunci când ecuaţia caracteristică (3.82) are rădăcini multiple, se spune că matricea R are

valori proprii degenerate.

Să notăm prin i , o valoare proprie a lui R . De asemenea, fie

iq un vector nenul,

astfel că:

i i iRq q (3.83)

Vectorul iq se numeşte vector propriu asociat lui

i . Un vector propriu poate cores-

punde unei singure valori proprii. Totuşi, o valoare proprie poate avea mai mulţi vectori

proprii, întrucât dacă iq este un vector propriu asociat valorii proprii

i atunci şi a iq are

aceiaşi proprietate, a 0 . Putem spune, în consecinţă, că, dacă R are M valori proprii

distincte i , acestora le corespund M vectori proprii distincţi până la un factor de scară.

Dacă, în schimb, m este o valoare proprie degenerată a lui R repetată de p ori, atunci

rangul matricii mR I se reduce astfel încât soluţia ecuaţiei (3.80), mq poate fi orice

vector dintr-un subspaţiu p-dimensional al spaţiului vectorial cu M dimensiuni.

Exemplul 3.2: Zgomot alb

Matricea de corelaţie de dimensiune M M a unui proces de zgomot alb este

diagonală (vezi (3.47) şi (3.62)):

2 2 2diag , , , R

unde 2 este varianţa procesului. Matricea R are o singură valoare proprie dege-

nerată de multiplicitate M egală cu 2 . Orice vector de dimensiune 1M poate

reprezenta un vector propriu asociat.

Exemplul 3.3: Sinusoidă complexă

Fie matricea de corelaţie de dimensiune M M a unei serii de timp a cărei

elemente sunt eşantioanele unei sinusoide complexe de fază aleatoare şi putere

unitară:

1

2

1 2

1

1

1

j Mj

j Mj

j M j M

e e

e e

e e

R

unde este frecvenţa sinusoidei complexe. Vectorul de dimensiune 1M

1

1j Mje e

q

este un vector propriu al matricii R , iar valoarea proprie corespunzătoare este M

(adică dimensiunea matricii R ). Cu alte cuvinte, o sinusoidă complexă este un

vector propriu al propriei sale matrici de corelaţie, cu excepţia operaţiei triviale

de conjugare complexă.


Trebuie remarcat că matricea R are rangul 1, ceea ce înseamnă că orice coloană

a lui R poate fi exprimată ca o combinaţie lineară a celorlalte coloane. Drept

urmare, celelalte valori proprii sunt 0 cu ordinul de multiplicitate 1M , şi acestei

valori proprii îi corespund 1M vectori proprii.

3.6.2 Proprietăţile valorilor şi vectorilor proprii

La originea acestor proprietăţi stă caracterul hermitic al matricii de corelaţie a unui proces

aleator staţionar. Pe de altă parte, aceste proprietăţi au aplicaţii importante în ceea ce priveşte

analiza şi sinteza unor algoritmi eficienţi de filtrare adaptivă.

Proprietatea 1: Dacă 1 2, , , M sunt valorile proprii ale matricii de corelaţie

R , atunci matricea kR are valorile proprii k k k

1 2 M, , , , k .

Demonstraţia se face prin multiplicarea repetată a ecuaţiei (3.80) cu matricea R :

k kR q q (3.84)

În consecinţă:

1. dacă este o valoare proprie a lui R , atunci k este o valoare proprie a lui k

R ;

2. fiecare vector propriu al lui R este vector propriu al lui kR .

Proprietatea 2: Dacă valorile proprii ale lui R sunt distincte: 1 2, , , M ,

atunci vectorii proprii corespunzători 1 2, , , Mq q q sunt liniar independenţi.

Se utilizează Proprietatea 1 în demonstrarea acestei proprietăţi. Dacă există M scalari

i nu toţi nuli, astfel încât

1

M

i i

i

q 0 , (3.85)

atunci se spune că vectorii iq sunt linear dependenţi. Vom presupune că relaţia (3.85) este

satisfăcută fără ca toţi scalarii i să fie nuli iar valorile proprii

i sunt toate distincte. În

continuare, multiplicăm repetat pe (3.85) cu ,kR 0,1, , 1k M şi folosim Proprieta-

tea 1 pentru a scrie

1 1

, 0,1, 1M M

k k

i i i i

i i

k M

R q q 0

Expresia poate fi rescrisă în format matricial pentru 1,2, ,i M

2 1

1 1 1

2 1

2 2 2

1 1 2 2

2 1

1

1

1

M

M

M M

M

M M M

q q q 0 (3.86)


Cum toate valorile i sunt distincte, matricea pătrată din (3.86) este nesingulară, fiind o

matrice Vandermonde. Prin urmare, postmultiplicând ambii termeni ai ecuaţiei (3.86) cu

inversa matricii Vandermonde, se obţine:

1 1 2 2 M M q q q 0 (3.87)

Întrucât vectorii proprii iq nu sunt nuli, singurul mod în care relaţia (3.87) poate fi înde-

plinită este ca toţi coeficienţii i să fie nuli. Consecinţa este că (3.85) nu este îndeplinită,

oricare ar fi setul de scalari nenuli i , ceea ce implică faptul că vectorii

iq sunt linear

independenţi.

Conform acestei proprietăţi , vectorii proprii lineari independenţi 1 2, , ,q q

Mq pot

servi drept bază pentru reprezentarea unui vector arbitrar w de aceleaşi dimensiuni ca şi

vectorii proprii. În particular, w se exprimă printr-o combinaţie lineară de vectori proprii

astfel:

1

M

i i

i

w q (3.88)

unde 1 2, , , M sunt constante.

Proprietatea 3: Toate valorile proprii 1 2, , , M ale matricei de corelaţie R

de dimensiune M M sunt reale şi nenegative.

Se scrie relaţia de definiţie a valorii proprii i :

, 1, 2, , i i i i M Rq q (3.89)

Premultiplicând ambii termeni ai ecuaţiei cu H

iq , transpusa hermitică a vectorului propriu

iq , se obţine:

, 1,2, ,H H

i i i i i i M q Rq q q (3.90)

De aici:

, 1,2,....,H

i ii H

i i

i M q Rq

q q (3.91)

În ultima relaţie, H

i iq q reprezintă pătratul lungimii euclidiene a vectorului propriu iq ,

prin urmare 0H

i i q q . La numărătorul expresiei se recunoaşte forma hermitică H

i iq Rq ,

care pentru o matrice de corelaţie este, conform Proprietăţii 3 a acestora, întotdeauna reală

şi nenegativă: 0 H

i i q Rq . Rezultă deci că 0; 1,2,....,i i M .

Proprietatea 4: Oricare doi vectori proprii distincţi ,i jq q ce corespund valorilor

proprii ,i j i j sunt ortogonali:

0,H

i j i j q q (3.92)


Se scriu ecuaţiile de definire ale vectorilor proprii ,i jq q :

,i i i j j j Rq q Rq = q (3.93)

Premultiplicăm cei doi membrii ai primei ecuaţii din (3.93) cu H

jq :

H H

j i i j iq Rq q q (3.94)

Pe de altă parte, calculăm transpusa hermitică a celei de a doua ecuaţii din (3.93) şi

avem în vedere că matricea de corelaţie R este hermitică, H R R :

H H

j j jq R q (3.95)

Postmultiplicăm în continuare ecuaţia (3.95) cu vectorul iq :

H H

j i j j iq Rq q q , (3.96)

şi scădem ecuaţia (3.96) din (3.94):

0H

i j j i q q (3.97)

Întrucât valorile proprii ale matricii R se presupun a fi distincte i j , rezultă că

ecuaţia (3.97) este îndeplinită dacă şi numai dacă:

0,H

j i i j q q (3.98)

Proprietatea 5: Transformarea unitară de similaritate

Fie vectorii proprii 1 2, ,...., Mq q q care corespund valorilor proprii distincte 1 2, ,

, M ale matricii de corelaţie R de dimensiune M M . Din vectorii proprii se

constituie matricea de dimensiune M M :

1 2 MQ q q q (3.99)

unde

1,

0,

H

i j

i j

i j

q q . (3.100)

Se defineşte matricea diagonală de dimensiune M M :

1 2 diag ( , , , )M Λ (3.101)

În aceste condiţii, matricea originală R se poate diagonaliza astfel:

H Q RQ Λ (3.102)

Condiţia ca 1H

i i q q pentru 1,2, ,i M cere ca fiecare vector propriu să fie

normalizat la lungimea 1. Lungimea la pătrat sau norma la pătrat a vectorului iq este

definită ca produsul scalar H

i iq q . Condiţia de ortogonalitate: 0H

i j q q pentru i j rezultă

din Proprietatea 4. Când sunt satisfăcute ambele condiţii (vezi ecuaţia (3.100)), se spune că


vectorii proprii 1 2, ,...., Mq q q formează un set ortonormat. Prin definiţie, vectorii proprii

1 2, ,...., Mq q q satisfac ecuaţiile (vezi (3.83))

, 1,2, ,i i i i M Rq q (3.103)

Matricea Q de dimensiune M M are drept coloane setul ortonormat de vectori

proprii 1 2, ,...., Mq q q , cu alte cuvinte:

1 2 MQ q q q (3.99)

Matricea diagonală Λ de dimensiune M M are valorile proprii 1 2, , , M drept ele-

mente ale diagonalei sale principale:

1 2 diag ( , , , )M Λ (3.101)

Drept urmare, se pot scrie cele M ecuaţii (3.103) ca o singură ecuaţie matricială:

RQ = QΛ (3.104)

Dată fiind natura ortonormată a vectorilor proprii, aşa cum sunt definiţi prin ecuaţia

(3.100), se scrie:

HQ Q = I

ceea ce este echivalent cu:

1 H Q Q (3.105)

O matrice ce se bucură de această proprietate este denumită matrice unitară.

Premultiplicând ambii membrii ai ecuaţiei (3.104) cu HQ şi ţinând cont de (3.105), se

obţine transformarea unitară de similaritate:

HQ RQ = Λ (3.106)

Dacă postmultiplicăm ambele părţi ale ecuaţiei (3.104) cu matricea inversă 1Q şi se

utilizează apoi proprietatea (3.105), rezultă:

H

1

MH

i i i

i

R = QΛQ q q (3.107)

unde M este dimensiunea matricii R .

Proprietatea 6: Fie 1 2, , , M valori proprii ale matricei de corelaţie R de

dimensiune M M . Suma acestor valori proprii este egală cu urma matricii R .

Urma (trasa) unei matricii pătrate se defineşte ca suma elementelor diagonale ale

matricii. Dacă se extrage urma pentru ambii membrii ai ecuaţiei (3.106), se poate scrie:

tr trH Q RQ Λ (3.108)

Matricea diagonală Λ are drept elemente diagonale valorile proprii ale lui R :

1

trM

i

i

Λ (3.109)


Utilizând o regulă din algebra matricială, se poate scrie:

Htr trH Q RQ RQQ

Însă H QQ I , şi prin urmare:

tr trH Q RQ R ,

consecinţa fiind că ecuaţia (3.108) poate fi scrisă ca:

1

trM

i

i

R (3.110)

Proprietatea 7: Raportul valorilor proprii maxime şi minime ale matricii de

corelaţie a unui proces aleator în timp discret este limitat superior de raportul

valorilor maxime şi minime ale densităţii spectrale de putere a procesului.

Vom nota prin i şi

iq , 1, 2, ,i M , valorile proprii, respectiv vectorii proprii

asociaţi matricii de corelaţie R de dimensiuni M M a unui proces aleator în timp discret

u n . Din ecuaţia (3.91) avem

, 1,2,....,H

i ii H

i i

i M q Rq

q q

Forma hermitică de la numărătorul expresiei de mai sus poate fi dezvoltată astfel:

*

1 1

M MH

i i ik il

k l

q r l k q

q Rq (3.111)

unde *

ikq este elementul k al vectorului linie H

iq , r l k este elementul kl al matricii R ,

iar ilq este elementul l al vectorului coloană

iq . Folosim teorema Wiener-Hincin din (3.41)

pentru a scrie

1

2

j l kr l k S e d

(3.112)

unde S este densitatea spectrală de putere a procesului u n . Cu înlocuirea din (3.112),

rescriem ecuaţia (3.111) astfel

*

1 1

*

1 1

1

2

1

2

M Mj l kH

i i ik il

k l

M Mj k j l

ik il

k l

q q S e d

d S q e q e

q Rq

(3.113)

Vom nota transformata Fourier a secvenţei * * * *

1 2 1, , , ,i i i iMq q q q prin

*

1

Mj k

i ik

k

Q q e

(3.114)

În consecinţă, înlocuind ecuaţia (3.114) în (3.113), obţinem


21

2

H

i i iQ S d

q Rq (3.115)

Similar, se poate arăta că

21

2

H

i i iQ d

q q (3.116)

Rezultatul ultimelor relaţii este că valoarea proprie i a matricii de corelaţie R poate fi

exprimată, pe baza relaţiei (3.91), prin intermediul densităţii spectrale de putere asociate

astfel

2

2

i

i

i

Q S d

Q d

(3.117)

Vom nota prin minS respectiv

maxS valorile minime şi maxime absolute ale densităţii

spectrale de putere S . Rezultă că

2 2

mini iQ S d S Q d

(3.118)

şi

2 2

maxi iQ S d S Q d

(3.119)

Se deduce, prin urmare, că valorile proprii i sunt mărginite de către valorile maxime şi

minime ale densităţii spectrale de putere asociate astfel:

min max , 1, 2, ,iS S i M (3.120)

Facem acum o digresiune necesară pentru a introduce mărimea denumită numărul de

condiţionare A a unei matrici A . Mărimea descrie calitatea unei matrici din punctul de

vedere a operaţiei de inversare. Cu cât numărul de condiţionare a unei matrici este mai mare,

cu atât sunt mai mari erorile care apar la inversarea ei, fapt ce ar putea provoca probleme la

rezolvarea sistemelor de ecuaţii, operaţie care implică calculul lui 1R . Se spune în acest

caz că matricea considerată este rău condiţionată . Pentru o matrice de corelaţie R ,

numărul de condiţionare este dat de raportul valorilor proprii asociate extreme max şi

min ,

fiind denumit din acest motiv şi grad de împrăştiere a valorilor proprii:

max

min

R (3.121)

Revenind la relaţia (3.120), ea implică o limitare a valorilor R , aşa cum evidenţiază

relaţia de mai jos

max max

min min

S

S

R (3.122)


Să mai remarcăm că pe măsură ce dimensiunea M a matricii de corelaţie tinde către infinit,

valoarea maximă max se apropie de

maxS , iar valoarea minimă min de

minS .

Proprietatea 8: Fie matricea de corelaţie R de dimensiune M M ce are valori-

le proprii 1 2 M unde

1 şi M sunt cea mai mică respectiv cea mai

mare valoare proprie a lui R şi un vector oarecare x din spaţiul subîntins de

vectorii proprii 1 2, , , Mq q q . Se defineşte coeficientul Rayleigh al vectorului x

prin:

H

HR

x Rxx

x x (3.123)

În aceste condiţii:

1 MR R R q x q (3.124)

unde conform ecuaţiei (3.91) 1 1R q şi M MR q .

Proprietatea 9: Transformarea Karhunen-Loève

Fie vectorul nu de dimensiune 1M , reprezentând o secvenţă de date extrasă

dintr-un proces staţionar în sens larg de medie zero şi matrice de corelaţie R . Fie

1 2, , , Mq q q vectorii proprii asociaţi cu cele M valori proprii ale matricii R .

Vectorul nu poate fi exprimat printr-o combinaţie lineară a acestor vectori

proprii astfel:

1

M

i i

i

n u n

u q (3.125)

Coeficienţii dezvoltării (3.125) sunt variabile aleatoare necorelate de medie zero

definite prin produsul scalar

, 1, ,H

i iu n n i M q u (3.126)

Reprezentarea vectorului aleator nu descris prin ecuaţiile (3.125) şi (3.126) este

versiunea în timp discret a transformării Karhunen-Loève (TKL). În particular, ecuaţia

(3.126) reprezintă partea de „analiză” a transformării pentru că defineşte pe iu n în funcţie

de vectorul de intrare nu . Pe de altă parte, ecuaţia (3.125) face „sinteza” semnalului

original nu pe baza componentelor iu n .

Formăm vectorul nu ale cărui componente sunt , 1, ,iu n i M , transformatele

TKL ale secvenţei nu :

1 2

T

Mn u n u n u n u (3.127)

În aceste condiţii, ecuaţiile de „analiză” (3.126) se rescriu, având în vedere ecuaţia (3.99),

într-o formă compactă:


Hn n u Q u (3.128)

Vom stabili în continuare proprietăţile vectorului nu . Pentru început, matricea de

corelaţie a vectorului:

H H H HE n n E n n u u Q u u Q Q RQ (3.129)

Înlocuim pe R din (3.107) şi presupunem că vectorii proprii 1 2, , , Mq q q sunt normali-

zaţi astfel încât H Q Q . Se obţine

HE n n u u (3.130)

Matricea este diagonală, ceea ce demonstrează că elementele lui nu sunt necore-

late unul cu celălalt. Acestea sunt variabile aleatoare ale căror proprietăţi rezultă din (3.128)

şi (3.130), confirmând afirmaţiile din enunţ:

*,

0, 1, şi0,

i

i i j

i jE u n i M E u n u n

i j

, (3.131)

Şi ecuaţia de „sinteză” (3.125) poate fi rescrisă în format matricial:

n nu Qu (3.132)

Pentru a da o interpretare fizică transformării Karhunen-Loève, putem vedea vectorii

proprii 1 2, , , Mq q q drept axe de coordonate ale unui spaţiu M-dimensional, reprezentând

astfel vectorul aleator nu prin proiecţiile sale pe aceste axe 1 2, , , Mu n u n u n .

Exemplul 3.4: Un proces aleator staţionar în sens larg de medie nulă este

caracterizat prin valorile funcţiei de autocorelaţie: 0 1, 1 , 1,r r

. Secvenţa 1 0n u este extrasă din proces. Se cer să se determine:

a. expresia matricii de corelaţie R ;

b. expresiile valorilor proprii i , ale vectorilor proprii , 1, 2i i q şi ale

gradului de împrăştiere a valorilor proprii R ;

c. transformarea Karhunen-Loève (TKL) a vectorului nu .

Soluţie: Matricea de corelaţie a procesului aleator este

1

1

R

Valorile proprii ale lui R reprezintă soluţiile ecuaţiei caracteristice

1

det 01

R I

Soluţiile sunt: 1 21 , 1 .

3.7 Filtre adaptate şi filtre proprii 65

Gradul de împrăştiere a valorilor proprii ale matricii R este dat de

max

min

1

1

R

Valoarea minimă a lui R se obţine atunci când 0 . Acest caz

corespunde la 1 R , şi conform Proprietăţii 7, max minS S , adică procesul

aleator are spectrul de frecvenţă constant. Rezultatul este previzibil, având în

vedere faptul că procesul este zgomot alb.

Vectorii proprii 1q şi

2q sunt soluţii ale ecuaţiilor

1

2

1 0, 1, 2

1 0

ii

i

qi

q

adică 11 12 21 22,q q q q

Valorile normalizate ale vectorilor proprii sunt

1 2

1 1 1 11 1 1, ,

1 1 1 12 2 2

q q Q

Se observă proprietatea interesantă a vectorilor proprii ai matricii de core-

laţie de dimensiune 2 2 de a fi independenţi de parametrul . Drept urmare,

transformarea TKL efectuată de matricea Q , are drept consecinţă rotirea cu 45° a

axelor de reprezentare

1

2

1 1 1 11 1

1 1 0 12 2

Hu n

n nu n

u Q u .

3.7 Filtre adaptate şi filtre proprii

O problemă fundamentală în teoria comunicării este cea a determinării filtrului cu răspuns

finit la impuls (FIR) optim, criteriul de optimizare fiind maximizarea raportului semnal

zgomot la ieşire. Asemenea filtre sunt utilizate la detecţia semnalelor înecate în zgomot în

multe aplicaţii dintre care se pot aminti comunicaţiile digitale şi radiolocaţia. Pentru început,

vom discuta despre filtrarea optimală a unui semnal determinist de formă cunoscută înecat

în zgomot, pentru ca în continuare să extindem rezultatele la cazul unui semnal aleator

înecat în zgomot.

Fie un filtru linear FIR al cărui răspuns la impuls este reprezentat de vectorul

1 2

T

Mw w ww (Figura 3.3). La intrarea filtrului se aplică secvenţa x n ce

constă dintr-o componentă de semnal util s n plus o componentă de zgomot aditiv v n .

Considerând vectorii ce desemnează eşantioanele acestora pentru ultimele M momente de

timp, vom scrie


n n n x s v (3.133)

Vom studia două cazuri distincte. Pe de o parte, semnalul util s n poate fi un semnal

determinist de forma 0s n s unde 0s este forma complet cunoscută a lui s n iar

este o variabilă aleatoare de putere (varianţă) P . Argumentul arg reprezintă faza iniţia-

lă iar modulul amplitudinea semnalului ns . În al doilea rând, el poate fi un proces

stochastic, staţionar în sens larg cu medie nulă şi matrice de corelaţie R . Zgomotul v n

are medie nulă, este alb cu densitatea spectrală de putere constantă determinată de varianţă 2 . Se presupune că semnalul s n şi zgomotul v n sunt necorelate, adică:

* 0, ,E s n v m n m (3.134)

Expresia semnalului de ieşire al filtrului y n este

*

1

1M

H H H

i

i

y n w x n i n n n

w x w s w v (3.135)

unde vectorul de intrare este 1 1T

n x n x n x n M x . Puterea semna-

lului de ieşire este calculată în conformitate cu definiţia din relaţia (3.22):

2 H H H

y xP E y n E n n w x x w w R w (3.136)

Vom considera în continuare separat efectul semnalului util şi al zgomotului la ieşirea

filtrului. Notăm prin oN puterea medie a componentei de zgomot din semnalul de ieşire

y n . Având în vedere că matricea de corelaţie a zgomotului alb este 2

M I , relaţia (3.136)

devine:

2 H

oN w w (3.137)

Calculul raportului semnal zgomot la ieşirea filtrului RSZo şi optimizarea acestuia

constituie obiectivul pe care îl urmărim în continuare. După cum se va arăta, filtrul care

maximizează RSZodepinde de natura semnalului util de la intrare, s n .

Figura 3.3 Configuraţie de filtrare lineară utilizată la determina-

rea filtrului optimal.

3.7 Filtre adaptate şi filtre proprii 67

3.7.1 Filtrul adaptat

În cazul în care semnalul de intrare este determinist, 0n s s , puterea la ieşire datorată

semnalului util se calculează cu

2 22

0 0 0

H H H

sP E P

w s w s w s (3.138)

iar raportul semnal zgomot la ieşire are valoarea

2

0

2RSZ

H

s

Hoo

P P

N

w s

w w (3.139)

Maximizarea expresiei (3.139) este simplă, dacă se recurge la inegalitatea

Cauchy-Schwartz. Aplicată numărătorului ultimei expresii, această inegalitate conduce la

1 2 1 2

0 0 0

H H Hw s w w s s (3.140)

astfel încât se poate afirma că maximul raportului RSZo

0 02,maxRSZ H

o

P

s s (3.141)

este atins atunci când coeficienţii filtrului optim sunt stabiliţi de relaţia

0 0w s (3.142)

În concluzie, în cazul filtrării optimale a unui semnal de formă cunoscută, coeficienţii

filtrului optimal reprezintă o replică la scară a formei cunoscute a semnalului util s n .

Proprietatea (3.142) a filtrului optimal face ca acesta să poarte în acest caz numele de

filtru adaptat. Este un dispozitiv utilizat pe larg în aplicaţii de telecomunicaţii şi radiolocaţie.

De observat că, dacă un vector 0w maximizează raportul RSZo din (3.139), atunci orica-

re ar fi constanta cu care se multiplică acesta, această proprietate se păstrează. Prin urma-

re, alegerea constantei rămâne arbitrară. Aici, constanta a fost aleasă astfel, încât să avem

0 0 1H w s .

3.7.2 Filtrul propriu

O soluţie diferită faţă de cea realizată în cazul filtrării optimale a unui semnal de formă

cunoscută se obţine pentru situaţia în care semnalul s n este aleator, staţionar în sens larg şi

având matricea de corelaţie R cunoscută. În acest caz, după cum se arată în continuare,

soluţia optimală pentru coeficienţii filtrului este vectorul propriu maxq al matricii R ce

corespunde valorii proprii maxime max a aceleiaşi matrici. Aceasta este explicaţia numelui

de filtru propriu acordat acestui filtru optimal.

Pentru început, recalculăm puterea de ieşire ce corespunde semnalului util ns notată

prin sP


2

H H H H

sP E n E n n w s w s s w w Rw (3.143)

Continuăm apoi prin calculul raportului semnal zgomot la ieşire

2

RSZH

s

Hoo

P

N

w Rw

w w (3.144)

Problema de optimizare poate fi acum formulată astfel: Să se determine vectorul w al

coeficienţilor filtrului FIR care maximizează valoarea raportului semnal zgomot la ieşire

RSZo

supus la constrângerea 1H w w .

Ecuaţia (3.144) arată, că exceptând factorul de scară 21 , raportul semnal zgomot la

ieşire RSZo este egal cu coeficientul Rayleigh al vectorului ponderilor filtrului FIR w

(relaţia (3.123). Se observă, prin urmare, că problema filtrării optime, aşa cum a fost formu-

lată aici, poate fi văzută ca o problemă de valori proprii. Într-adevăr, soluţia problemei

rezultă direct din Proprietatea 9 a valorilor şi vectorilor proprii ai matricii de corelaţie R

(Manolakis, ş.a. 2005). Utilizând (3.124), se pot afirma următoarele (Haykin 1996):

Valoarea maximă a raportului semnal zgomot este dată de:

max

2,maxRSZ

o

(3.145)

unde max este cea mai mare valoare proprie a matricii de corelaţie R .

Vectorul coeficienţilor filtrului FIR optim care produce raportul semnal zgomot maxim

din relaţia (3.145) se defineşte prin

maxo w q (3.146)

unde maxq este vectorul propriu asociat celei mai mari valori proprii a matricii de

corelaţie R . Este vorba de matricea de corelaţie a semnalului util de la intrare

s n .

Un filtru FIR al cărui răspuns la impuls are coeficienţii egali cu elementele unui vector

propriu este denumit filtru propriu (Makhoul 1981). Putem enunţa că filtrul optim este filtrul

asociat celei mai mari valori proprii a matricii de corelaţie a componentei utile din semna-

lul de la intrare.

3.8 Transformări care utilizează

descompunerea triunghiulară

Transformările lineare introduse în paragraful 3.6.2 se bazează pe diagonalizarea unei

matrici hermitice prin vectori şi valori proprii. Aceste transformări sunt deosebit de utile în

aplicaţii de detecţie şi estimare (Manolakis, ş.a. 2005). Descompunerea în matrici triunghiu-

lare conduce la transformări reprezentate prin operaţii de filtrare cauzală sau anticauzală a

secvenţelor asociate. Există două tipuri de descompuneri triunghiulare: LDU

3.8 Transformări care utilizează descompunerea triunghiulară 69

(Lower-Diagonal-Upper ~ Inferior-Diagonal-Superior) la care se asociază filtrarea cauzală

şi UDL (Upper-Diagonal-Lower ~ Superior-Diagonal-Inferior) căreia îi corespunde filtra-

rea anticauzală.

3.8.1 Descompunerea LDU

Orice matrice hermitică, pozitiv definită R poate fi factorizată astfel (Golub şi Van_Loan

1996)

H

LR LD L (3.147)

sau echivalent 1 H

L

L RL D (3.148)

unde L este o matrice unitară inferior triunghiulară, LD este o matrice diagonală cu

elemente pozitive iar HL este o matrice unitară superior triunghiulară.

Matricea L fiind inferior triunghiulară, 1

detM l

ii

R , unde l

i sunt elementele de

pe diagonala lui LD . Dacă pentru vectorul de date de intrare u , definim transformarea

lineară

1w L u Bu (3.149)

atunci se găseşte că

1 1H H H H

w LE E R ww L uu L L RL D (3.150)

Este evident că elementele vectorului w sunt ortogonale iar valorile l

k sunt momen-

tele lor de ordinul doi. Drept urmare, această transformare pare a fi similară unei transfor-

mări ortogonale. Totuşi, spre deosebire de o transformare ortogonală, LDU nu constă într-o

simplă rotaţie a vectorului u (Manolakis, ş.a. 2005). Pentru a înţelege transformarea, să

observăm pentru început că 1B L este, de asemenea, o matrice unitară inferior triunghiu-

lară. Atunci, (3.149) se poate scrie astfel:

1 1

1

1

1 0 0

1 0

1

ii i

M MiM M

w u

bw u

b bw u

(3.151)

unde ikb sunt elemente ale lui B . Ecuaţia (3.151) evidenţiază că iw este o combinaţie linea-

ră de ,ku k i , componente ale vectorului de intrare:

1

, 1i

i ik k

k

w b u i M

(3.152)

Dacă vectorul semnalului de intrare este alcătuit din eşantioane succesive ale procesului

aleator în timp discret u n , adică 1 1T

u n u n u n M u , atunci


ecuaţia (3.152) exprimă o operaţie de filtrare lineară cauzală a secvenţei aleatoare de la

intrare. Această transformare este utilizată frecvent în probleme de filtrare lineară optimală

şi predicţie lineară.

3.8.2 Descompunerea UDL

Acest procedeu de diagonalizare este aproape identic cu cel descris în paragraful anterior. El

constă în factorizarea unei matrici hermitice unitare pozitiv definite într-o formă superior-

diagonal-inferior:

H

UR UD U (3.153)

sau, echivalent 1

1diag , ,H u u

U M U RU D (3.154)

în care U este o matrice unitară superior triunghiulară, HU este o matrice unitară inferior

triunghiulară iar UD este o matrice diagonală cu elemente pozitive. Trebuie remarcat că

H U L şi U LD D . Urmând aceeaşi analiză ca şi în paragraful precedent, avem

1

det detM u

U ii

R D . Întrucât 1A U este o matrice unitară superior triunghiu-

lară în transformarea 1w U u , componentele lui w sunt ortogonale şi se exprimă prin

combinaţii lineare de ,ku k i , adică

, 1M

i ik k

k i

w l u i M

(3.155)

Dacă u este o secvenţă de eşantioane succesive ale unui semnal în timp discret, (3.155) se

constituie într-o operaţie de filtrare anticauzală a acestei secvenţe.

3.9 Modelarea lineară a semnalelor

stochastice

Utilizăm aici termenul de model pentru a desemna orice ipoteză care încearcă să explice sau

să descrie legile, în general necunoscute, care se presupun că guvernează generararea

semnalelor fizice de interes. Primul care a avut ideea de a reprezenta un proces aleator

printr-un model a fost Yule în 1927 (Haykin 1996).

În acest paragraf, vom introduce şi analiza proprietăţile unei clase speciale de secvenţe

aleatoare staţionare care se obţin prin trecerea zgomotului alb prin sisteme lineare şi inva-

riante în timp. Un proces aleator este adeseori modelat ca fiind răspunsul unui sistem la un

alt proces având caracteristici mai simple. Ideea esenţială este că o serie temporală u n ce

constă din „observaţii” puternic corelate, poate fi generată de ieşirea unui filtru linear la a

cărui intrare se aplică o serie temporală alcătuită din eşantioane independente ca în Figura

3.4 (Kay 1988, Manolakis, ş.a. 2005). Drept intrare în filtru se foloseşte, de obicei, o serie de

variabile aleatoare extrase dintr-o distribuţie gaussiană de medie nulă şi varianţă constantă.

O astfel de serie de variabile aleatoare se constituie în procesul aleator pe care l-am denumit

3.9 Modelarea lineară a semnalelor stochastice 71

zgomot alb gaussian. În termeni statistici, seria temporală de la intrarea sistemului din

Figura 3.4 se descrie astfel:

2

* ,0, şi

0, altfel

v k nE v n n E v n v k

(3.156)

Filtrul linear din Figura 3.4 poate avea diferite structuri care corespund unor modele

distincte pentru semnalul de ieşire. Pot fi identificate trei tipuri clasice de modele lineare

stochastice:

Model cu medie alunecătoare (MA – Moving Average),

Model autoregresiv (AR – Autoregressive),

Model mixt autoregresiv cu medie alunecătoare (ARMA).

În cele ce urmează, vom descrie aceste modele.

3.9.1 Modelul stochastic cu medie alunecătoare (MA)

Cel mai simplu tip de filtru este filtrul cu răspuns finit la impuls (FIR), descris în Figura 3.5.

Acesta este asociat modelului MA, fiind definit prin ecuaţia cu diferenţe finite:

1

* * * *

0 1 1

0

1 1L

L i

i

u n g v n g v n g v n L g v n i

(3.157)

unde coeficienţii * * *

0 1 1, , , Lg g g definesc răspunsul la impuls al filtrului, fiind denumiţi în

acest caz parametri MA iar v n este un proces de zgomot alb de medie zero şi varianţă

2

v . La ieşirea filtrului se obţine procesul MA u n . Este vorba după cum s-a arătat în

Capitolul 2 de un filtru având numai zerouri şi a cărui funcţie de transfer este un polinom în 1z :

Figura 3.4 Utilizarea filtrului linear pentru a genera un

proces aleator.

Figura 3.5 Generarea unui proces aleator cu medie

alunecătoare (MA) cu un filtru FIR.


1

*

0

Li

i

i

G z g z

(3.158)

În sfârşit, ordinul funcţiei de transfer din (3.158) stabileşte ordinul procesului MA. Deci, în

cazul de faţă, u n este un proces stochastic de ordinul 1L .

Pentru a determina funcţia de autocorelaţie a ieşirii u n , se aplică relaţia (3.55) şi se au

în vedere caracteristicile zgomotului alb, aşa cum sunt definite prin (3.156). Rezultă:

12 *

0

0

,

0,

L k

v l l k

l

l

g g k Lr k u l u k l

k L

(3.159)

Calculăm media şi varianţa procesului de ieşire:

1

22 2

0 0 0

0, 0L

l l v k

l k k

E g v n l g E v n l r g

(3.160)

Având în vedere faptul că răspunsul la impuls al filtrului este de lungime finită şi funcţia

de autocorelaţie a procesului de ieşire este nulă pentru întârzieri mai mari decât 1L .

3.9.2 Modelul stochastic autoregresiv (AR)

Seria temporală , 1 , ,u n u n u n M reprezintă o realizarea unui proces autoregre-

siv de ordinul M dacă ea satisface următoarea ecuaţie cu diferenţe finite:

*

1

M

i

i

u n a u n i v n

(3.161)

unde 1 2, , , Ma a a sunt constante denumite parametri AR iar v n este un proces de

zgomot alb.

Motivul pentru care se utilizează numele „autoregresiv” pentru acest proces este pus în

evidenţă prin rescrierea ecuaţiei (3.161):

* * *

1 21 2 Mu n a u n a u n a u n M v n (3.162)

Se observă că valoarea prezentă a procesului, u n este dată de o combinaţie lineară finită

a valorilor trecute ale procesului 1 , ,u n u n M la care se adaugă un termen de

eroare v n . Prin urmare, în ecuaţia (3.162), variabila u n se obţine prin regresie asupra

valorilor proprii precedente, şi de aici numele de „autoregresiv”.

Membrul stâng al ecuaţiei (3.161) poate fi considerat drept rezultat al convoluţiei

secvenţei de intrare , 1 , ,u n u n u n M şi a secvenţei de parametri * * *

0 1, , , Ma a a

unde 0 1a . Aplicăm în continuare transformata Z în (3.161) pe care îl rescriem astfel:

aH z U z V z (3.163)


unde U z şi V z sunt transformatele secvenţelor de intrare respectiv de ieşire iar

1

*

0

Mi

a i

i

H z a z

(3.164)

Sunt posibile două interpretări pentru ecuaţia (3.163) în funcţie de modul în care este

privit procesul AR: intrare sau ieşire a sistemului aH z . Acestea sunt:

1. Procesul AR se aplică la intrarea filtrului FIR aH z , ceea ce face ca la ieşirea acestuia

să se producă zgomotul alb v n . În acest tip de aplicaţii, filtrul este analizor de proces

AR cu funcţia de transfer aH z V z U z , coeficienţii lui find identici cu cei ai

procesului AR de intrare u n .

2. Dacă zgomotul alb v n este considerat intrare în sistem iar procesul AR u n ieşire,

atunci filtrul are structura din Figura 3.6. Acest filtru este un generator de proces AR,

având funcţia de transfer

*

0

1 1g M

iai

i

U zH z

V z H za z

(3.165)

Filtrul generator este de tipul cu răspuns infinit la impuls (IIR).

Analizorul de proces AR este un filtru ce are numai zerouri. Prin urmare, filtrul este

inerent stabil. Având în vedere că ieşirea acestui filtru este zgomotul alb v n , el este

denumit şi filtru de „albire”, pentru că transformă un proces aleator staţionar în zgomot alb.

Generatorul de proces AR din Figura 3.6 este un filtru ce are numai poli, adică funcţia

sa de transfer este complet definită prin specificarea poziţiei polilor săi, 1 2, , Mp p p , care

sunt soluţiile ecuaţiei caracteristice:

* 1 * 2 *

1 2 11 0M

Ma z a z a z

(3.166)

Polii permit scrierea funcţiei de transfer a generatorului AR sub forma

Figura 3.6 Generarea unui proces stochastic

autoregresiv (AR) cu un filtru IIR.


1 1 1

1 2

1

1 1 1g

M

H zp z p z p z

(3.167)

Condiţia necesară şi suficientă pentru ca procesul AR generat să fie staţionar în sens larg

este ca filtrul din Figura 3.6 să fie stabil, ceea ce, după cum s-a arătat în Capitolul 2, impune

ca polii acestuia să fie toţi plasaţi în interiorul cercului de rază unitate al planului Z

1,kp k (3.168)

Pentru a defini în mod unic modelul generator AR de ordin M din Figura 3.6, valorile

funcţiei de autocorelaţie a acestuia, 0 , 1 , , 1r r r M se consideră date iniţiale ale

problemei. Vom stabili în continuare ecuaţiile Yule-Walker care determină pe baza datelor

iniţiale, parametrii AR 1 2, , , Ma a a şi varianţa 2

v a zgomotului alb v n . În acest scop se

multiplică ambii membri ai relaţiei (3.161) cu *u n l iar apoi se aplică operatorul de

mediere statistică:

* * *

0

M

k

k

E a u n k u n l E v n u n l

(3.169)

Membrul drept al ecuaţiei se simplifică în urma observaţiei că * 0E v n u n l pentru

0l , astfel că ecuaţia (3.169) devine

*

0

0, 0M

k

k

a r l k l

(3.170)

şi, întrucât 0 1a , după aplicarea operaţiei de conjugare se obţine:

*

1

, 1M

k l

k

a r k l r l l

(3.171)

Sub formă matricială:

*

1

* *

2

* * *

0 1 1 1

1 0 2 2

1 2 0 M

r r r M a r

r r r M a r

r M r M r a r M

(3.172)

Acestea sunt ecuaţiile Yule-Walker, care se pot scrie şi într-o formă mai compactă

Ra r (3.173)

unde 1 2

T

Ma a aa şi * * *1 2T

r r r M r .

În sfârşit, pentru 0l , membrul drept al ecuaţiei (3.169) ia forma specială

* * 2

vE v n u n E v n v n , unde 2

v este varianţa zgomotului alb v n . Se

obţine astfel, formula de calcul a varianţei procesului de zgomot alb:


2

0

M

v k

k

a r k

(3.174)

unde 0 1a . Prin urmare, fiind cunoscute valorile funcţiei de autocorelaţie 0 , 1 ,r r

,r M , se poate determina varianţa zgomotului alb 2

v .

3.9.3 Modelul stochastic ARMA

Un semnal ARMA (AutoRegresiv cu Medie Alunecătoare) este obţinut la ieşirea unui filtru

având funcţia de transfer:

*

0

*

0

Li

i

ig M

iai

i

g zG z

H z G z H zH z

a z

(3.175)

unde *

0 1a . Ecuaţia cu diferenţe finite a modelului ARMA ce corespunde funcţiei (3.175)

este

* *

0 1

L M

i i

i i

u n g v n i a u n i

(3.176)

unde v n este zgomotul alb gaussian aplicat la intrarea modelului iar u n procesul

ARMA modelat.

O relaţie directă între funcţia de autocorelaţie şi coeficienţii modelului ARMA se obţine

înmulţind cei doi termeni ai ecuaţiei precedente cu *u n k şi aplicând apoi operatorul de

medie statistică, avem:

* * *

0 1

L M

i i

i i

r k g E v n i u n k a r k i

(3.177)

Se poate verifica că relaţiile dintre funcţiile de autocorelaţie şi coeficienţi devin nelineare din

cauza primului termen din ecuaţia (3.177).

Din punctul de vedere a calculelor, modelul AR are un atu important în faţa modelelor

MA şi ARMA. În particular, calculul coeficienţilor modelului AR din Figura 3.6 este dat de

sistemul de ecuaţii lineare Yule-Walker (3.172) şi (3.174). Pe de altă parte, calculul coefi-

cienţilor MA pentru modelul din Figura 3.5 precum şi al coeficienţilor ARMA sunt mult

mai complicate, vezi în acest sens relaţiile (3.159) ce pot fi utilizate la determinarea

coeficienţilor MA. Din aceste motive, în practică, modelele AR sunt mult mai utilizate decât

modelele MA şi ARMA.

Exemplul 3.5: Consideraţi procesul MA de ordinul 2 u n care satisface ecuaţia

cu diferenţe finite

0,75 1 0,25 2u n v n v n v n


unde v n este un proces aleator de zgomot alb cu medie zero şi varianţă unitară,

2 1v . Să se determine:

a. Funcţia de autocorelaţie ur k a procesului aleator u n ,

b. Să se aproximeze procesul MA cu procesul AR de ordinul 3M x n ,

calculându-se coeficienţii procesului AR.

Soluţie: Funcţia de autocorelaţie ur k a procesului u n se poate calcula

direct din ecuaţia de definiţie, dacă aceasta se multiplică cu *u n k iar apoi se

aplică media statistică relaţiei ce rezultă. Relaţia (3.159) sintetizează aceste

rezultate:

2 220 1 0,75 0,25 1,625; 1 0,75 1 0,25 0,75 0,9375;

2 0,25 1 0,25; 0, 2

u u

u u

r r

r r k k

Procesul AR de ordinul 3M x n aproximează procesul MA dacă xr k

ur k pentru 3k . Considerăm că egalitatea are loc, ceea ce permite să

determinăm coeficienţii procesului AR prin rezolvarea ecuaţiilor Yule-Walker

(3.172):

1

2

3

0 1 2 1

1 0 1 2

2 1 0 3

x x x x

x x x x

x x x x

r r r a r

r r r a r

r r r a r

Soluţiile sunt: 1 2 30,75; 0,3182; 0,0682a a a . În concluzie, procesul gene-

rator AR x n de ordinul 3M este descris de ecuaţia cu diferenţe finite:

0,75 1 0,3182 2 0,0682 3x n x n x n x n v n .

Probleme

P 3.1 Fie procesul aleator w n generat de aruncarea unei monezi „corecte” pentru

fiecare moment de timp n, n , definit prin:

"Cap" Pr 0,5

"Pajură" Pr 0,5

S Cw n

S P

unde S este o constantă.

(a) Caracterizaţi procesul din punctul de vedere a independenţei şi staţionarităţii,

calculând în primă instanţă media şi varianţa lui.

Vom defini, în continuare, un nou proces aleator, , 1x n n , prin

PROCESE ALEATOARE ÎN TIMP DISCRET Probleme 77

1

1 1

2 1 2 1 2

1n

i

x w

x x w w w

x n x n w n w i

Acest proces aleator poartă în literatură numele de „proces discret Wiener” sau în

engleză „random walk”.

(b) Calculaţi media şi varianţa lui x n şi stabiliţi dacă este proces staţionar sau

nu.

P 3.2 Pentru fiecare proces aleator din lista care urmează, stabiliţi dacă acesta este: (1)

staţionar în sens larg sau (2) ergodic în sens larg.

(a) x n A , unde A este o variabilă aleatoare distribuită uniform între 0 şi 1.

(b) 0cos ,x n A n unde A este o variabilă gaussiană cu media 0 şi varianţa 1.

(c) x n este un proces Bernoulli cu Pr 1 şi Pr 1 1x n p x n p .

P 3.3 O secvenţă aleatoare staţionară x n de medie 4x şi autocovarianţă

4 3

0 în restx

n nc n

se aplică la intrarea unui sistem SLIT cu răspunsul la impuls h n dat de

4h n n n

unde n este impulsul treaptă unitate. Semnalul de ieşire al sistemului este o

altă secvenţă aleatoare y n . Determinaţi pentru acest proces:

(a) media y n ,

(b) funcţia de intercovarianţă 1 2,xyc n n ,

(c) funcţia de autocovarianţă 1 2,xr n n .

P 3.4 Sistemului SLIT cauzal descris prin ecuaţia cu diferenţe finite

1 1

1 12 3

y n y n x n x n

i se aplică la intrare un proces aleator staţionar în sens larg de medie nulă şi

funcţie de autocorelaţie 0,5l

xr l .

(a) Determinaţi densitatea spectrală de putere şi funcţia de autocorelaţie a secvenţei

de ieşire y n .


(b) Determinaţi funcţia de intercorelaţie xyr l şi interspectrul de putere xyS

dintre semnalele de intrare şi ieşire.

P 3.5 Fie procesul aleator u n .

(a) Utilizând nenegativitatea expresiei 2

E u n l u n

, arătaţi că 0u ur r l ,

oricare ar fi l.

(b) Determinaţi care dintre matricile pătrate de mai jos reprezintă matrici de corelaţie:

1 2

3 4

1 0,5 0,251 1

1 2 0,5 1 0,51 1

0,25 0,5 1

1 0,5 11 1

3 4 0,5 2 0,51 1

1 1 1

j

j

R R

R R

P 3.6 Fie matricea de corelaţie R .

(a) Utilizând transformarea unitară de similaritate (vezi paragraful 3.6.2), arătaţi că

pentru orice n număr întreg, n n HR QΛ Q .

(b) Matricea 1 2R , cu proprietatea 1 2 1 2 R R R , este definită drept rădăcină pătrată

a lui R . Arătaţi că 1 2 1 2 HR QΛ Q .

(c) Arătaţi că identitatea H R QΛ Q este valabilă pentru orice număr raţional α.

P 3.7 Se consideră matricea de corelaţie R a vectorului de observaţii nu . Se defineşte

vectorul

1 2n nu R u

unde 1 2R este inversa matricii 1 2

R definită în problema P 3.6. Arătaţi că

matricea de corelaţie a lui nu este matricea identitate.

P 3.8 Consideraţi procesul 1u n au n w n , unde w n este un proces aleator

gaussian de medie nulă şi varianţă 2

w .

(a) Arătaţi că matricea de corelaţie a procesului de dimensiune M M este Toeplitz

simetrică, fiind dată de

1

22

2

1 2

1

1

1

1

m

m

w

m m

a a

a a

a

a a

R

(b) Verificaţi că

PROCESE ALEATOARE ÎN TIMP DISCRET Probleme 79

2

1

2

2

1 0 0

1 01

0

1

0 0 1

w

a

a a a

a

a a

a

R

(c) Arătaţi că dacă

1 0 0

1 0

0

0 0 1

a

a

L

atunci 21T a L RL I .

P 3.9 Calculaţi şi comparaţi autocorelaţiile următoarelor procese:

(a) 0,3 1 0,4 2au n v n v n v n şi

(b) 1,2 1 1,6 2bu n v n v n v n

unde v n este un proces normal de zgomot alb de medie nulă şi varianţă unitară.

Explicaţi rezultatele obţinute.

P 3.10 Consideraţi modelul MA(2) de proces aleator

0,1 1 0,2 2u n v n u n u n

unde v n este un proces normal de zgomot alb de medie nulă şi varianţă unitară.

(a) Este procesul u n staţionar? De ce?

(b) Este modelul considerat un model de fază minimă? De ce?

(c) Determinaţi funcţia de autocorelaţie a procesului.

P 3.11 Un proces real de ordinul întâi autoregresiv (AR) u n satisface ecuaţia cu

diferenţe finite reală

1 1u n a u n v n

unde 1a este o constantă iar v n este un proces de zgomot alb de varianţă 2

v .

(a) Arătaţi că dacă media lui v n este nenulă, atunci procesul AR u n este

nestaţionar.

(b) În cazul în care v n are media nulă iar constanta 1a satisface condiţia 1 1a ,

arătaţi că varianţa lui u n este


2

2

1

var1

vu na

(c) Pentru condiţiile specificate la punctul (b), stabiliţi funcţia de autocorelaţie a

procesului AR u n . Reprezentaţi grafic funcţia de autocorelaţie pentru cazurile

10 1a şi 11 0a

P 3.12 Utilizaţi ecuaţiile Yule-Walker pentru a determina funcţiile de autocorelaţie ale

modelelor AR de mai jos, presupunând că v n este un proces normal de zgomot

alb de medie nulă şi varianţă unitară:

(a) 0,5 1u n u n v n ,

(b) 1,5 1 0,6 2u n u n u n v n

Care este varianţa 2

u a procesului rezultat?

P 3.13 Dorim să generăm în MATLAB eşantioane dintr-un proces gaussian cu funcţia de

autocorelaţie 1 12 2

,l l

ur l l .

(a) Găsiţi ecuaţia cu diferenţe finite care generează procesul u n , atunci când

excitaţia este un proces normal de zgomot alb de medie nulă şi varianţă unitară.

(b) Generaţi 1000N eşantioane ale procesuluişi estimaţi densitatea de probabilitate

utilizând histograma şi funcţia de autocorelaţie normată.

(c) Verificaţi valabilitatea modelului, reprezentând pe acelaşi grafic (i) densitatea de

probabilitate reală şi estimată a lui u n şi (ii) funcţiile de autocorelaţie reale şi

estimate.

P 3.14 Determinaţi filtrul adaptat pentru impulsul determinist 0coss n n pentru

0 1n M şi zero în rest, atunci când zgomotul este (a) alb cu varianţa 2

v şi

(b) colorat cu funcţia de autocorelaţie 2 21 , 1 1l

v vr l .

Reprezentaţi răspunsul în frecvenţă al filtrului şi suprapuneţi-l peste densitatea de

putere a zgomotului pentru 2

0 6, 12, 1 şi =0,9vM .Explicaţi forma

pe care o ia răspunsul filtrului. (c) Studiaţi efectul valorii parametrului 2

v asupra

RSZ de la punctul (a).

4 Filtre lineare optimale

cest capitol este dedicat studierii clasei de filtre lineare optimale cunoscute sub

numele de filtre Wiener. După cum vom vedea în capitolele următoare, conceptul

de filtru Wiener se constituie într-un instrument esenţial în înţelegerea şi aprecierea

filtrelor adaptive. Mai mult, filtrarea Wiener este generală şi aplicabilă în toate categoriile de

aplicaţii care presupun estimarea unui semnal (denumit semnal dorit) printr-un alt semnal

asociat.

Semnalele care intervin în teoria filtrelor Wiener sunt presupuse a fi procese aleatoare

iar filtrul este realizat utilizând statistici obţimute prin mediere pe ansamblu. Această

abordare este urmată pe tot parcursul dezvoltării şi analizei teoretice a filtrelor Wiener.

Totuşi, din punctul de vedere a implementării algoritmilor de filtrare adaptivă, vom avea în

vedere în capitolele următoare şi utilizarea mediilor temporale în locul celor statistice.

Teoria filtrelor optimale a fost dezvoltată în timp continuu de Wiener (1942) şi

Kolmogorov (1939) iar în timp discret, Levinson (1947) a reformulat teoria filtrelor FIR şi a

proceselor staţionare, dezvoltând un algoritm elegant de rezolvare eficientă a ecuaţiilor

normale care exploatează structura Toeplitz a matricii de corelaţie R (Farhang-Boroujeny

1998, Manolakis, ş.a. 2005). Acesta este motivul pentru care filtrele optimale sunt denumite

filtre Wiener.

4.1 Filtrarea optimală lineară: punerea

problemei

Se consideră schema bloc din Figura 4.1. Intrarea filtrului constă din seria temporală cu

valori complexe 0 , 1 , 2 ,u u u , iar filtrul este caracterizat prin răspunsul la impuls

0 1 2, , ,w w w . La momentul de timp discret n , filtrul produce semnalul de ieşire y n .

Acesta reprezintă o estimare a răspunsului dorit notat prin d n . Diferenţa dintre d n şi

y n reprezintă eroarea de estimare e n , un semnal ce are caracteristicile sale statistice

proprii. Eroarea de estimare trebuie minimizată cât mai mult posibil, pe baza unui anumit

Capitolul

4

A

82 FILTRE LINEARE OPTIMALE - 4

criteriu statistic pe care urmează să-l stabilim în continuare. Utilizarea de semnale cu valori

complexe se datorează faptului că în multe aplicaţii practice (comunicaţii, radar, sonar, etc),

reprezentarea semnalelor în banda de bază se face în format complex. Evident că semnalele

reale reprezintă un caz particular pentru abordarea noastră.

Vom impune, din start, două restricţii asupra filtrului (Haykin 1996):

1. Filtrul este linear, ceea ce facilitează tratarea matematică a problemei;

2. Filtrul funcţionează în timp discret, ceea ce permite implementarea prin structuri

digitale hard/soft.

Este acum momentul să decidem în privinţa a două caracteristici importante care

influenţează profund performanţele filtrului adaptiv:

1. Ce fel de răspuns la impuls are filtrul utilizat: finit (FIR) sau infinit (IIR)?

2. Ce tip de criteriu statistic este utilizat pentru optimizarea parametrilor filtrului.

În ceea ce priveşte prima dilemă, dezvoltarea iniţială a teoriei filtrării optimale presupu-

ne că filtrul din Figura 4.1 are un număr infinit de coeficienţi iw , ceea ce înseamnă că trata-

rea include atât cazul FIR cât şi cel mai general, IIR. Totuşi, cea mai mare parte din lucrare

este dedicată exclusiv filtrelor FIR, pentru că acestea sunt inerent stabile iar structura lor nu

cuprinde decât căi directe de semnal între intrare şi ieşire. Filtrele IIR au în structură cel

puţin o cale de reacţie inversă de la ieşire spre intrare, ceea ce poate conduce, în anumite

condiţii, la pierderea stabilităţii circuitului. Deşi stabilitatea este un parametru ce poate fi

bine controlat, combinarea acestei probleme cu cea a adaptivităţii coeficienţilor filtrului, face

din filtrul IIR o opţiune nu foarte atractivă pentru implementarea filtrării adaptive. Acestea

sunt motivele care fac ca filtrele FIR să fie preferate celor IIR în probleme de filtrare

adaptivă, chiar dacă implementarea filtrelor IIR necesită mai puţină putere de calcul decât

filtrele FIR.

În ceea ce priveşte problema alegerii criteriului de optimizare, trebuie spus că multe

aplicaţii practice (ca de exemplu codarea vorbirii, a imaginilor, etc.) necesită criterii

subiective care sunt dificil de exprimat matematic. Drept urmare, ne vom îndrepta atenţia

către criterii de performanţă care:

1. depind numai de eroarea de estimare e n ;

2. asigură o evaluare suficientă a satisfacţiei utilizatorului, şi

3. conduc la o problemă tratabilă matematic.

Pentru că în cele mai multe aplicaţii eroarea este la fel de dăunătoare indiferent de

semnul pe care îl are, criteriul acordă ponderi egale atât erorilor pozitive cât şi celor

negative. Această cerinţă este satisfăcută de funcţii ca cele reprezentate în Figura 4.2: (i)

Figura 4.1 Schema bloc a problemei de filtrare adaptivă

4.1 Filtrarea optimală lineară: punerea problemei 83

valoarea absolută a erorii e n , (ii) eroarea pătratică 2

e n sau (iii) o altă putere a lui

e n . În raport cu primul criteriu, criteriul pătratului erorii subliniază mai pronunţat efectul

erorilor mari. El oferă, de asemenea, avantajul de a putea fi exprimat prin expresii

matematice convenabile, astfel că reprezintă cea mai convenabilă alegere.

Denumit funcţie de cost, criteriul de performanţă ce utilizează pătratul erorii 2

e n

trebuie să aibă în vedere şi caracterul stochastic al semnalelor din Figura 4.1, implicit al

erorii e n . Printre potenţialele funcţii de cost, alegerea se face între:

1. eroarea pătratică medie (EPM):

2

J E e n e n E e n (4.1)

2. suma pătratelor erorii:

2

1

2

1 2,n

n n

E n n e n

(4.2)

În cazul filtrării optimale Wiener, se alege prima funcţie, cea de a doua funcţie fiind

utilizată în cazul metodei celor mai mici pătrate (LS) ce va fi tratată în Capitolul 9 al cărţii.

Utilizarea erorii medii pătratice ca funcţie de cost oferă un cadru matematic convenabil,

conduce la soluţii aplicabile în practică şi, serveşte drept etalon pentru estimarea algoritmilor

de filtrare adaptivă. Vom mai preciza aici că metoda mediei pătratice a fost dezvoltată iniţial

de Gauss în secolul XIX şi a constituit de a lungul timpului obiectul studiului mai multor

generaţii de matematicieni.

În concluzie, problema filtrării adaptive Wiener se defineşte astfel (Haykin 1996):

Figura 4.2 Ilustrare grafică pentru acţiunea diverselor expresii ale

criteriului de optimizare


„Să se proiecteze un filtru linear în timp discret a cărui ieşire să furnizeze o

estimare a răspunsului dorit y n pe baza eşantioanelor semnalului de intrare

0 , 1 , 2 ,u u u , astfel încât valoarea medie pătratică a erorii de estimare

e n , definită ca diferenţa dintre răspunsul dorit d n şi răspunsul real y n , să

fie minimizată.”

4.2 Principiul ortogonalităţii

4.2.1 Formularea principiului

Să examinăm modelul filtrării statistice din Figura 4.1. Atât semnalul de intrare 0 , 1 ,u u

2 ,u , cât şi răspunsul la impuls al filtrului 0 1 2, , ,w w w , se presupun a fi serii tempora-

le cu valori complexe şi de durată infinită. Ieşirea filtrului la momentul de timp discret n ,

y n , este definită prin suma de convoluţie lineară:

0

[ ] [ ], 0,1,2,k

k

y n w u n k n

(4.3)

unde asteriscul reprezintă operaţia de conjugare complexă.

Scopul filtrului este de a furniza o estimare a răspunsului dorit d n . Presupunem că

atât semnalul de intrare cât şi răspunsul dorit sunt realizări singulare ale unor procese

aleatoare staţionare mutual în sens larg, ambele de medie nulă. Drept urmare, estimarea lui

d n este acompaniată de o eroare definită prin:

e n d n y n (4.4)

Valoarea e n este, de asemenea, o realizare a unei variabile aleatoare. Pentru a optimi-

za filtrul se minimizează valoarea pătratică medie a erorii de estimare (EPM) e n ce face

obiectul definiţiei (4.1) a funcţiei de cost J . Prin urmare, problema revine la determinarea

valorilor coeficienţilor filtrului oiw care fac ca J să-şi atinge minimul:

2

min mini iw w

J e n (4.5)

Pentru vectori de date de intrare complecşi, coeficienţii filtrului sunt, în general,

complecşi. Cel de-al k -lea coeficient al filtrului kw se descompune într-o parte reală şi una

imaginară:

, 0,1,2,k k kw a jb k (4.6)

Corespunzător, se poate defini un operator de gradient al cărui al k -lea element este

descris prin intermediul derivatelor parţiale de ordinul întâi în raport cu ka şi kb :

4.2 Principiul ortogonalităţii 85

, 0,1,2,k

k k

j ka b

(4.7)

Prin urmare, în cazul aplicării operatorului funcţiei de cost J , se obţine vectorul

multidimensional complex J cu elementul k dat de

, 0,1,2,k

k k

J JJ j k

a b

(4.8)

Operatorul gradient se utilizează în problemele de determinare a punctelor staţionare

ale unei funcţii de mai multe variabile (Ştefănescu şi Zidăroiu 1981). În consecinţă, funcţia

de cost J îşi atinge valoarea minimă când toate componentele vectorului gradient sunt

simultan nule, adică:

0, 0,1,2,k J k (4.9)

Cu aceste condiţii îndeplinite, filtrul este optim din punctul de vedere a erorii pătratice

medii.

În conformitate cu ecuaţia (4.1), funcţia J este un scalar independent de momentul de

timp n . Prin urmare, aplicând (4.8) asupra lui (4.1) se obţine:

* *

* *[ ]k

k k k k

e n e n e n e nJ E e n e n j e n j e n

a a b b

(4.10)

Din (4.4) şi (4.6) se obţin valorile derivatelor parţiale care apar în ecuaţia (4.10):

* *

*

; ;

; ;

k k

k k

e n e nu n k ju n k

a b

e n e nju n k u n k

b a

(4.11)

Valorile obţinute se înlocuiesc în (4.10) şi, după anularea termenilor comuni, se obţine în

final:

*2k J E u n k e n (4.12)

Se pot specifica acum condiţiile necesare pentru minimizarea funcţiei de cost. Fie oe

valoarea pe care o atinge eroarea de estimare atunci când filtrul a atins optimul. Condiţiile

specificate în (4.9) sunt, după cum se observă, echivalente cu:

* 0, 0,1,oE u n k e n k (4.13)

Cu alte cuvinte, ecuaţia (4.13) afirmă:

„Condiţia necesară şi suficientă pentru ca funcţia de cost J să atingă valoarea

minimă este ca valoarea corespunzătoare a erorii oe n să fie ortogonală pe

fiecare eşantion al semnalului de intrare ce intră în estimarea răspunsului dorit la

momentul de timp n ”.


Această propoziţie constituie principiul ortogonalităţii. Ea reprezintă una dintre cele mai

elegante teoreme din domeniul filtrării lineare optimale, constituind de asemenea baza

matematică a unor proceduri ce testează dacă filtrul linear funcţionează în condiţii optimale.

4.2.2 Corolarul principiului ortogonalităţii

Corolarul este obţinut în urma examinării corelaţiei dintre ieşirea filtrului y n şi eroarea de

estimare e n . Această corelaţie se exprimă astfel:

* * * * *

0 0

k k

k k

E y n e n E w u n k e n w E u n k e n

(4.14)

Vom nota prin oy n ieşirea filtrului optimizat în sensul EPM minime şi prin oe n

eroarea de estimare corespunzătoare. Aplicarea principiului ortogonalităţii (4.13) în suma

din (4.14) conduce la rezultatul dorit:

* 0o oE y n e n (4.15)

Corolarul principiului ortogonalităţii se enunţă astfel:

„Atunci când filtrul funcţionează în condiţii optimale, estimarea răspunsului dorit

de către ieşirea filtrului, oy n , şi eroarea de estimare corespunzătoare oe n

sunt ortogonale una în raport cu cealaltă."

4.2.3 Interpretarea geometrică a principiului

ortogonalităţii

Este convenabil şi pedagogic să privim variabilele aleatoare de medie nulă şi varianţă finită

ca vectori într-un spaţiu vectorial abstract înzestrat cu produs scalar (spaţiu Hilbert). În acest

spaţiu două variabile aleatoare x şi y sunt ortogonale, ceea ce se scrie x y , dacă produ-

sul lor scalar este

, , 0x y E x y (4.16)

ceea ce implică că ele sunt necorelate, întrucât sunt de medie nulă.

Punctul de vedere geometric oferă o interpretare intuitivă asupra principiului

ortogonalităţii. Pentru a ilustra utilizarea principiului ortogonalităţii, trebuie observat că

orice combinaţie lineară 0 1 1w u n w u n se plasează în subspaţiul definit de

vectorii , 1 ,u n u n , subspaţiul nU . Prin urmare, estimarea răspunsului dorit

od n y n

nU care minimizează pătratul vectorului de eroare, adică realizează o eroare

EPM minimă, este determinată de piciorul perpendicularei din vârful vectorului d la

„planul” determinat de vectorii , 1 ,u n u n . Aceasta este ilustrată în Figura 4.3 pentru

un spaţiu al semnalului în două dimensiuni. Întrucât oe este perpendicular pe fiecare vector

4.3 Ecuaţiile Wiener-Hopf 87

din plan, avem ,oe u n k k , ceea este este de fapt enunţul principiului ortogonalităţii

(4.13). Se remarcă de asemenea că perpendiculara oe reprezintă segmentul de lungime

minimă care poate fi dus din vârful vectorului d la „planul” nU .

Pe parcursul prezentării noastre, vom remarca de mai multe ori utilitatea interpretării

geometrice a principiului ortogonalităţii în cazul filtrării optimale. De exemplu, aplicarea

Teoremei lui Pitagora în triunghiul dreptunghic format din vectorii ˆ, od e şi d din Figura 4.3

conduce la relaţia

22 2ˆ

od d e

sau 22 2ˆ

oE d E d E e

(4.17)

care descompune puterea semnalului dorit în două componente, una care este corelată cu

datele de intrare şi alta care este necorelată cu acestea.

4.3 Ecuaţiile Wiener-Hopf

4.3.1 Calculul coeficienţilor filtrului Wiener în cazul

general

Principiul ortogonalităţii descris prin ecuaţia (4.13) specifică condiţia necesară şi suficientă

pentru funcţionarea optimă a filtrului. Această condiţie poate fi reformulată înlocuind

ecuaţiile (4.4) şi (4.3) în (4.13):

* *

0

0, 0,1,2,oi

i

E u n k d n w u n i k

(4.18)

Figura 4.3 Ilustrarea grafică a principiului

ortogonalităţii.


unde oiw este coeficientul al i -lea al răspunsului la impuls al filtrului optimal. Dezvoltarea

ecuaţiei, urmată de rearanjarea termenilor duce la:

* *

0

, 0,1,2,oi

i

w E u n k u n i E u n k d n k

(4.19)

Cele două operaţii de mediere din (4.19) au următoarele interpretări:

1. Media *E u n k u n i este egală cu funcţia de autocorelaţie a secvenţei de

la intrare pentru întârzierea i k :

*r i k E u n k u n i (4.20)

2. Media *E u n k d n este egală cu corelaţia mutuală a intrării filtrului

u n k cu răspunsul dorit pentru întârzierea k . Notaţia utilizată este următoarea:

p k E u n k d u (4.21)

Introducerea definiţiilor (4.20) şi (4.21) în (4.19) conduce la un sistem de ecuaţii de

dimensiuni infinite. Acestea constituie condiţia necesară şi suficientă pentru optimalitatea

filtrului:

0

; 0,1,2,....oi

i

w r i k p k k

(4.22)

Sistemul de ecuaţii (4.22) defineşte coeficienţii filtrului optimal, în funcţie de două funcţii de

corelaţie: autocorelaţia secvenţei de la intrare şi intercorelaţia intrării cu semnalul dorit.

Ecuaţiile sunt denumite ecuaţiile Wiener-Hopf sau ecuaţiile normale.

4.3.2 Soluţia matricială a ecuaţiilor Wiener-Hopf

pentru filtre FIR de lungime finită

Rezolvarea ecuaţiilor Wiener-Hopf este simplificată mult în cazul special al filtrelor lineare

transversale (filtre FIR) (vezi Figura 4.4). Acestea sunt definite printr-un set finit de blocuri

de întârziere 1z şi multiplicare 0 1 1, , , Mw w w . Ecuaţiile Wiener-Hopf se reduc la un

sistem de M ecuaţii simultane:

Figura 4.4 Filtru FIR transversal

4.3 Ecuaţiile Wiener-Hopf 89

1

0

; 0,1,2,..., -1M

oi

i

w r i k p k k M

(4.23)

Vom desemna prin R matricea de corelaţie de dimensiune M M a secvenţei de

intrare , 1 , , 1u n u n u n M în filtrul FIR din Figura 4.4:

E n n H

R u u (4.24)

unde nu este vectorul de dimensiune 1M :

1 1T

n u n u n u n M u (4.25)

Dezvoltarea lui R este:

0 1 1

1 0 2

1 2 0

r r r M

r r r M

r M r M r

R (4.26)

Similar, vectorul de intercorelaţie dintre semnalul de intrare nu şi răspunsul dorit

d n se notează cu p :

0 1 1 [ ]T

p p p M E n d n p u (4.27)

Se observă că întârzierile utilizate în definirea lui p sunt sau nule sau negative. Ecuaţiile

Wiener-Hopf (4.23) pot fi rescrise matricial astfel:

o Rw p (4.28)

unde 0w este vectorul optimal al coeficienţilor filtrului transversal:

0 1 1

T

o o o oMw w w w (4.29)

Ecuaţiile Wiener-Hopf pot fi rezolvate dacă matricea de corelaţie R este nesingulară.

Înmulţind ambii termeni ai ecuaţiei (4.28) cu 1R , inversa matricii R , se obţine:

1

o

w R p (4.30)

Prin urmare, calculul vectorului coeficienţilor optimali ow necesită cunoaşterea a două

mărimi:

1. matricea de corelaţie R a secvenţei de intrare,

2. vectorul de corelaţie mutuală p a secvenţei nu cu răspunsul dorit d n .

Exemplul 4.1: Semnalul de intrare u n al unui filtru FIR (vezi Figura 4.5) este

alcătuit dintr-o componentă utilă s n perturbată de zgomotul alb v n de

varianţă 2

v ce este necorelat cu s n :


u n s n v n

Semnalul s n este şi el un proces aleator cu funcţia de autocorelaţie dată prin

relaţia

, 0 1l

sr l

Să se stabilească coeficienţii filtrului optimal Wiener-Hopf de ordinul 2M .

Se va evalua, de asemenea, modul în care se modifică raportul semnal/zgomot

(RSZ) în urma trecerii semnalului prin filtrul optimal.

Soluţie: Deoarece s n şi v n sunt necorelate, funcţia de autocorelaţie a

semnalului de intrare r l este dată de suma

2 ,l

s v vr l r l r l l l

Prin urmare, matricea de corelaţie R a procesului stochastic de la intrare are,

pentru situaţia examinată, dimensiunea 2 2 şi expresia

2 2

2 2

1 0 1

1 0 1

v v

s v

v v

R R R

Vectorul de intercorelaţie p dintre semnalul de intrare nu şi răspunsul

dorit d n este

0 1 1T T

s sr r p

Ecuaţiile Wiener-Hopf sunt, prin urmare

2

0

21

11

1

v

v

w

w

iar soluţia este:

2 20

2 22 21

11

1

v

vv

w

w

RSZ la intrare este dat de raportul varianţelor semnalelor s n şi v n ,

adică: 2 2RSZ 0 1in s v vr . La ieşire, RSZout se stabileşte în urma calculului

puterilor de semnal şi zgomot la ieşirea filtrului

Figura 4.5 Configuraţia de filtrare pentru exemplul din

paragraful 4.3.

4.4 Suprafaţa de eroare 91

22 2 2 2 2 2 4

, 22 2

22 2 2 4

2

, 22 2

1 2 1,

1

1

1

v v v vH

out s o s o

v

v vH

out v o v o v

v

P

P

w R w

w R w

Prin urmare:

22 2 2 2 2 2 4

,

22 2 2 2 4

,

1 2 1RSZ

1

v v v vout s

out

out vv v v

P

P

În sfârşit, în scopul evidenţierii efectului pozitiv al filtrului optimal, vom calcu-

la raportul RSZout la RSZin

2 2 2

22 2 2 4

2 1RSZ1

RSZ 1

v vout

inv v

Examinând ultima expresie, se constată că valoarea ei este cuprinsă între 1 şi

2, valoarea maximă fiind atinsă atunci când 1 . Prin urmare, în cazul filtrului

optimal cu 2M , câştigul obţinut prin filtrare adaptivă este relativ modest (nu

mai mare de 3dB). În schimb, se poate demonstra că performanţele se îmbunătă-

ţesc, pe măsură ce numărul de coeficienţi ai filtrului creşte.

4.4 Suprafaţa de eroare

4.4.1 Calculul funcţiei de cost

Ecuaţiile Wiener-Hopf (4.28) au fost deduse pe baza principului ortogonalităţii introdus în

paragraful 4.2. Putem face remarca că aceste ecuaţii pot fi obţinute de asemenea prin

examinarea dependenţei funcţiei de cost de ponderile (coeficienţii) filtrului FIR, J w . În

acest scop, începem prin a exprima eroarea e n din relaţiile (4.4) şi (4.3):

1

0

MH

k

k

e n d n w u n k d n n

w u (4.31)

Funcţia de cost a structurii de filtru transversal din Figura 4.4 este media pătratului erorii

de estimare e n :

2

H H

J E e n e n E e n

E d n n d n n

w

w u u w

Prin urmare:


2 H H

H H

J E d n E d n n E n d n

E n n

w u w w u

w u u w

(4.32)

unde vectorul nu definit prin (4.25) este secvenţa de date, d n este semnalul dorit la

momentul de timp curent iar vectorul w descrie ponderile filtrului

0 1 1Mw w w w (4.33)

În membrul drept al expresiei (4.32) pot fi identificate patru medii statistice:

1. Varianţa răspunsului dorit d n , pe care îl presupunem a fi proces aleator de medie

nulă:

22

d E d n

(4.34)

2. Mediile E n d n u şi E d n n H

u se scriu astfel:

0

1 1

11

E u n d n p

E u n d n pE n d n

p ME u n M d n

u p (4.35)

şi 0 1 1H HE d n n p p p M u p (4.36)

3. În sfărşit, a patra medie este:

HE n n u u R (4.37)

Drept urmare, ecuaţia (4.32) poate fi rescrisă sub forma:

2

1 1 1 12

0 0 0 0

H H H

d

M M M M

d k k k i

k k k i

J

w p k w p k w w r i k

w w p p w w Rw

(4.38)

Ecuaţia (4.38) afirmă faptul că, în cazul în care semnalul de intrare în filtrul FIR şi

răspunsul dorit sunt mutual staţionare, funcţia de cost sau eroarea EPM J este o funcţie de

gradul doi de coeficienţii filtrului 0 1 1, , , Mw w w , fiind o suprafaţă paraboidală (de tip

cupă) în spaţiul 1M dimensional cu M grade de libertate reprezentate de coeficienţii

filtrului. Această suprafaţă este caracterizată printr-un minim unic. Este denumită suprafaţa

erorii pătratice medii (vezi Figura 4.6) sau, pur şi simplu suprafaţă de eroare. Valoarea

minimă a erorii, notată prin minJ este atinsă în punctul în care vectorul gradient J este

identic nul. Cu alte cuvinte se ajunge la ecuaţia:

0, 0,1,...., -1k J k M w (4.39)


cu soluţia, ecuaţiile Wiener-Hopf introduse în paragraful precedent.

Exemplul 4.2: Graficul din Figura 4.6 (a) reprezintă suprafaţa de eroare medie

pătratică pentru un filtru transversal cu 2M coeficienţi. Figura 4.6 (b) prezintă

Figura 4.6 (a) Suprafaţa de eroare medie pătratică pentru un filtru FIR cu

2M , (b) Curbele de contur ale aceluiaşi filtru.


contururile de eroare constantă ale suprafeţei obţinute prin secţionarea acesteia

cu plane paralele la planul 1 2,w w .

Expresia funcţiei de eroare reprezentate în Figura 4.6 este dată de ecuaţia

(4.38), iar parametrii utilizaţi pentru reprezentare sunt

24,5 0,1545 0,5

, 0,5 şi0,1545 4,5 0,1545

d

R p

4.4.2 Forma canonică a suprafeţei de eroare

Începem prin a rescrie expresia (4.38) a funcţiei de cost J w , punând în evidenţă depen-

denţa erorii de vectorul coeficienţilor filtrului:

2 H H H

dJ w w p p w w Rw

Eroarea atinge minimul minJ pentru valoarea vectorului coeficienţilor

ow care satisface

ecuaţiile Wiener-Hopf, (o Rw p ):

2

min

H H H

o d o o o oJ J 2 2

d dw w Rw w p p w (4.40)

şi, întrucât matricea de corelaţie R este aproape întotdeauna pozitiv definită, matricea

inversă 1R există şi ecuaţia (4.40) poate fi scrisă sub forma:

2 1

min

H

dJ p R p (4.41)

Ultima expresie este remarcabilă, întrucât exprimă valoarea minimă a erorii EPM numai în

funcţie de caracteristicile proceselor aleatoare implicate în operaţiunea de filtrare optimală,

nu şi de parametrii filtrului optimal.

Ecuaţia suprafeţei de eroare poate fi mai bine examinată calitativ dacă vom aplica o

translatare a axelor de coordonate astfel încât noua origine să se găsească în punctul de

localizare a filtrului optimal ow . Se înlocuieşte în acest scop în (4.38) vectorul w cu

o o w w w . Astfel, se obţine ecuaţia (4.38) sub forma:

2 1 1 1

HH

o o

HH

d

J

2

d ow p w w w R w w

p R p w R p R w R p (4.42)

Ultima expresie subliniază încă odată două caracteristici esenţiale ale filtrului FIR optimal.

În primul rând, termenul 1 1H

w R p R w R p este pozitiv întrucât matricea R este

pozitiv definită, anulându-se doar pentru 1w R p , adică exact valoarea optimă a

coeficienţilor filtrului. În al doilea rând, atunci când 1w R p , se anulează ultimul termen

din relaţia (4.42) şi funcţia de cost ia valoarea minimă specificată prin ecuaţia (4.41).

Exemplul 4.3: Pentru ca filtrarea optimală să fie eficientă din punctul de vedere

a EPM, intercorelaţia semnalului dorit d n cu vectorul semnalului de intrare


nu trebuie să fie nenulă. Pentru a sublinia acest lucru vom considera două

cazuri.

Drept prim exemplu fie semnalul dorit, obţinut printr-o simplă întârziere cu 2

eşantioane a semnalului de intrare, împreună cu o atenuare de valoare a :

2d n au n

Semnalul de intrare nu este necorelat, şi drept urmare:

2

MR I

În consecinţă, din (4.36) se scrie:

20 0 0 0T

E n d n a p u

Soluţia matricială a ecuaţiei Wiener-Hopf se scrie:

1 0 0 0 0T

o a w R p

iar EPM minimă este, conform cu ecuaţia (4.41), egală cu:

2 2 2 2

min 0H

dJ a a a op w

Este posibil în acest caz, ca cel puţin teoretic, să se obţină o eroare nulă, din cauza

gradului mare de corelaţie dintre semnalele u n şi d n .

Să comparăm acest prim rezultat cu cazul predicţiei liniare a unui semnal

necorelat. Acum se urmăreşte predicţia lui u n pe baza eşantioanelor precedente

1 , 2 , ,u n u n u n M . Prin urmare, ieşirea filtrului y n , utilizată

pentru predicţie, se descrie prin:

ˆ 1Hy n u n n w u

În acest caz se scrie:

21 1H

ME n n R u u I

şi, pentru că u n este necorelat:

1E n u n p u 0

Filtrul optimal are în acest caz coeficienţii:

o w 0 (4.43)

Filtrul „optimal” este, prin urmare, filtrul nul. Rezultatul se explică prin aceea că

în cazul unui semnal necorelat nu poate fi prezis corect eşantionul care urmează.

Orice altă predicţie ar fi eronată şi ar mări valoarea erorii J . Cea mai bună

predicţie este (4.43), întrucât menţine nivelul EPM la 2J .


4.5 Rezolvarea ecuaţiilor normale prin

descompunere triunghiulară

Vom prezenta, în cele ce urmează, o metodă numerică de rezolvare a ecuaţiilor normale şi

de calculare a EPM minime care utilizează descompunerea LDU a matricilor hermitice

pozitiv definite prezentată în paragraful 3.8. Conform ecuaţiei (3.147), aceste matrici pot fi

descompuse unic în produsul dintre o matrice inferior triunghiulară, o matrice diagonală şi

o matrice superior triunghiulară:

HR LDL (4.44)

unde L este o matrice unitară inferior triunghiulară

10

1,0 1,1

1 0 0

1 0

1M M

l

l l

L (4.45)

iar 1 2diag , , , M D (4.46)

este o matrice diagonală cu elemente reale şi pozitive. Dacă descompunerea (4.44) este

cunoscută, atunci poate fi rezolvat sistemul de ecuaţii normale

H

o o Rw LD L w p (4.47)

prin găsirea în primul pas al soluţiei sistemului inferior triunghiular:

LDk p (4.48)

urmată în al doilea pas de rezolvarea sistemului superior triunghiular:

H

o L w k (4.49)

Avantajul acestei abordări a rezolvării ecuaţiilor normale este acela că rezolvarea unui

sistem de ecuaţii triunghiulare devine o problemă trivială.

Exemplul care urmează, ilustrează cum se face descompunerea H

LDL şi cum se aplică

aceasta la rezolvarea sistemului de ecuaţii normale pentru 3M . Generalizarea pentru un

ordin M oarecare este imediată.

Exemplul 4.4 Să se rezolve explicit un sistem de ecuaţii normale de ordinul

3M prin descompunerea H

LDL .

Soluţie: Explicitarea relaţiei (4.44) este

* *

11 12 13 1 10 20

*

21 22 23 10 2 21

31 32 33 20 21 3

1 0 0 0 0 1

1 0 0 0 0 1

1 0 0 0 0 1

r r r l l

r r r l l

r r r l l

(4.50)

4.5 Rezolvarea ecuaţiilor normale prin descompunere triunghiulară 97

unde facem presupunerea că *

ij ijr r şi 0i . Efectuând multiplicarea matricilor

din membrul drept al ecuaţiei (4.50) şi egalând cu elementele matricii din membrul

stâng se obţine:

11 1 1 11

2121 1 10 10

1

2 2

22 1 10 2 2 22 1 10

3131 1 20 20

1

3

r r

rr l l

r l r l

rr l l

r

** 32 1 20 10

2 1 20 10 2 21 21

2

2 2 2 2

22 1 20 2 21 3 2 33 1 20 2 21

r l ll l l l

r l l r l l

(4.51)

Calculul elementelor descompunerii H

LDL se efectuează linie după linie, iar

calculul unei linii a matricii nu schimbă liniile deja calculate.

Sistemul unitar triunghiular din (4.48) devine:

1 1

10 2 2

20 21 3 3

1 0 0 0

1 0 1

1 2

k p

l k p

l l k p

(4.52)

şi poate fi rezolvat prin substituţie, pornind de la prima ecuaţie. Se obţine:

1 1 1

1

10 1 1

10 1 1 2 2 2

2

20 1 1 21 2 2

20 1 1 21 2 2 2 2 3

2

00

11

22

pk p k

p l kl k k p k

p l k l kl k l k k p k

(4.53)

Coeficienţii ik sunt calculaţi, ca şi pentru ijl respectiv i în ordine „directă”.

Valoarea coeficienţilor filtrului optimal rezultă în urma rezolvării sistemului triun-

ghiular superior (4.49) prin substituţie în ordine „inversă”, adică, substituţia

începe de la ultima ecuaţie din sistem:


* *

10 20 ,1 1 ,3 3

* *

21 ,2 2 ,2 2 21 ,3

* *

,3 3 ,1 1 10 ,2 20 ,3

1

0 1

0 0 1

o o

o o o

o o o o

l l w k w k

l w k w k l w

w k w k l w l w

(4.54)

Consecinţa substituţiei în ordine „inversă” este că în cazul în care se doreşte să se

calculeze încă un coeficient al filtrului optimal, se modifică valorile tuturor

coeficienţilor calculaţi anterior.

Tabelul 4.1 generalizează rezultatul din Exemplul 4.4, formulând algoritmul de rezol-

vare a ecuaţiilor normale prin descompunerea H

LDL . Descompunerea triunghiulară nece-

sită 3 6M operaţii iar soluţia unui sistem triunghiular presupune efectuarea a

21 2 2M M M operaţii.

Descompunerea H

LDL din (4.44) oferă o abordare simplă a calculului EPM minime a

filtrului optimal minJ fără a recurge la calculul coeficienţilor acestuia. În acest scop, prin

utilizarea relaţiilor (4.40), (4.44) şi (4.49), se obţine:

1 1

min

HH H H

oJ 2 2 2

d d dp w k L R L k k Dk (4.55)

sau, sub formă scalară: 2

min

1

M

i i

i

J k

2

d (4.56)

pentru că matricea D este diagonală.

Relaţia (4.56) este extrem de importantă, pentru că ea demonstrează că, întrucât 0i ,

creşterea ordinului filtrului (mărirea numărului de coeficienţi) determină reducerea erorii

Pentru 1,2, ,i M şi pentru 0,1, , 1,j i

1

*

1, 1 1

0

1(nu se execută pentru )

j

ij i j m im jm

mi

l r l l i M

1

2

1, 1

1

j

i ii m i m

m

r l

Pentru 1,2, , ,i M

2

1, 1

0

1 i

i i M M

mi

p ik l k

Pentru , 1, ,1,i M M

*

, 1, 1 ,

1

M

o i i m i o m

m i

w k l w

Tabelul 4.1 Algoritmul de rezolvare a ecuaţiilor normale prin descompunere triunghiulară.

4.6 Reprezentarea prin transformare a filtrului optimal 99

minime şi, prin urmare, conduce la o estimare mai bună a semnalului dorit (Manolakis, ş.a.

2005). În sfârşit, pentru că determinantul unei matrici unitare inferior triunghiulare este egal

cu unu, din (4.44) se obţine:

1

det det det detM

H

i

i

R L D L (4.57)

ceea ce arată că, dacă R este pozitiv definită, 0,i i şi viceversa.

Elementele diagonale i , obţinute prin descompunerea triunghiulară a matricii R sunt

pozitive, astfel încât matricea

1 2

L LD (4.58)

este inferior triunghiulară cu elemente diagonale pozitive. Atunci, definiţia (4.44) poate fi

rescrisă sub forma:

HR LL (4.59)

cunoscută sub numele de factorizarea (descompunerea) Cholesky a matricii R (Golub şi

Van_Loan 1996). Calculul matricii L necesită 3 6M multiplicări şi adunări şi M rădăcini

pătrate. În MATLAB, calculul poate fi efectuat utilizând funcţia L=chol(R,’lower’),

care implementează prima parte a algoritmului din Tabelul 4.1. Funcţia chol se constituie

într-un mijloc eficient de testare a caracterului pozitiv definit al matricii R, pentru că în cazul

în care aceasta nu este pozitiv definită, mediul MATLAB furnizează un mesaj de eroare.

4.6 Reprezentarea prin transformare a

filtrului optimal

Proprietăţile filtrelor lineare optimale şi suprafeţele lor de eroare depind de matricea de

corelaţie R . Se pot afla o serie de informaţii preţioase despre natura filtrului optimal dacă

R este exprimat în funcţie de valorile şi vectorii săi proprii. Într-adevăr din Capitolul 3

avem

1

şiM

H H H

i i i

i

R = QΛQ q q Λ Q RQ (4.60)

unde 1 2diag , , , M Λ (4.61)

sunt valorile proprii ale lui R , presupuse a fi distincte, iar

1 2 MQ q q q (4.62)

sunt vectorii proprii ai lui R . Matricea Q este unitară, adică

H Q Q I (4.63)

ceea ce implică 1 H Q Q . Relaţia (4.60) dintre R şi Λ este cunoscută sub numele de

transformarea de similaritate.


În general, prin multiplicarea unui vector cu o matrice se schimbă atât lungimea cât şi

direcţia vectorului. Definim o transformare de coordonate a vectorului coeficienţilor

filtrului optimal prin

' sau 'H

o o o ow Q w w Qw (4.64)

Pentru că ' ' ' ' 'H H H

o o o o o o w Qw Qw w Q Qw w (4.65)

transformarea (4.64) modifică direcţia vectorului transformat dar nu-i modifică lungimea.

Dacă se înlocuieşte (4.64) în ecuaţiile normale (4.28), se obţine:

sauH H H

o o QΛQ w p ΛQ w Q p

ceea ce conduce la

' 'o Λw p (4.66)

unde ' sau 'Hp Q p p Qp (4.67)

este vectorul de intercorelaţie transformat.

Din cauza faptului că Λ este o matrice diagonală, setul de M ecuaţii (4.66) se poate

scrie astfel:

' ' 1i oi iw p i M (4.68)

unde 'oiw şi 'ip sunt componentele lui 'ow respectiv lui 'p . Ecuaţiile (4.68) sunt un set de

M ecuaţii de gradul întâi „necuplate”, pentru că dacă 0i , atunci

'

' , 1ioi

i

pw i M

(4.69)

iar dacă 0i , atunci valoarea lui 'oiw este nedeterminată.

În ceea ce priveşte valoarea minimă a EPM, aceasta devine

2 2 2

min

2

2 2

1 1

' ' ' '

'' '

HH H

d d o d

M Mi

d i oi d

i i i

J

pp w

o op w Qp Qw p w

(4.70)

ceea ce evidenţiază modul în care valorile proprii şi componentele de intercorelaţie „necu-

plate” afectează performanţa filtrului optimal. Relaţiile (4.69) şi (4.70) oferă avantajul

studierii comportării fiecărui parametru al filtrului optimal, independent de ceilalţi

parametrii.

În continuare ne vom referi la semnificaţia transformării de similaritate asupra

suprafeţei de eroare de ordinul doi, rezultatele obţinute fiind uşor de generalizat la cazul

filtrului FIR de ordinul M, a cărui suprafaţă de eroare se reprezintă într-un spaţiu cu 1M

dimensiuni. Figura 4.7 reprezintă contururile de eroare pătratică medie constantă pentru o

suprafaţă de eroare de ordinul doi, pozitiv definită. Contururile sunt elipse concentrice

centrate pe vârful vectorului optim al coeficienţilor ow . Definim un nou sistem de coordo-

4.6 Reprezentarea prin transformare a filtrului optimal 101

nate, având originea în ow şi axele determinate de axele elipsei

1v şi 2v . Cele două axe

sunt ortogonale, iar sistemul rezultat este cunoscut sub numele de sistem principal de

coordonate. Transformarea de la sistemul „vechi” la cel „nou” se face în doi paşi:

Translaţie:

Rotaţie:

o

H

w w w

v Q w (4.71)

unde rotaţia schimbă axele spaţiului pentru a le alinia cu axele elipsoidului. Expresia EPM

(4.42) devine

min min

2

min min

1

H H H

MH

i i

i

J J J

J J v

v w Rw w QΛQ w

v Λv (4.72)

care arată că penalitatea plătită pentru deviaţia unui parametru de la valoarea sa optimală

este proporţională cu valoarea proprie corespunzătoare.

Utilizând transformarea de similaritate (4.60), avem

1 1

1 1

'HM MH i i

o i i

i ii i

p

q p

w R p QΛ Q p q q (4.73)

iar semnalul optimal de la ieşirea filtrului poate fi scris astfel

1

'MH i

o i

i i

pd n y n n n

w u q unU (4.74)

ceea ce conduce la reprezentarea filtrului optimal din Figura 4.8. Filtrele de valori proprii

iq decorelează vectorul de intrare nu în componentele sale principale, care, în continuare,

sunt ponderate şi însumate pentru a furniza semnalul de ieşire optim.

Figura 4.7 Contururile de eroare constantă şi axele de coordo-

nate principale pentru o suprafaţă de eroare de ordi-

nul doi.


4.7 Caracterizarea în frecvenţă a filtrului

optimal

Paragraful este dedicat caracterizării în domeniul frecvenţă a filtrului Wiener. Dacă, în

studiul întreprins în acest Capitol până în acest punct ne-am limitat la cazul filtrelor FIR

cauzale, în acest paragraf vom include în aria de acoperire şi filtrele necauzale, astfel că vom

considera că răspunsul în timp al filtrului optimal se întinde de la n la n . În

virtutea ipotezei făcute, rescriem principiul ortogonalităţii din (4.13) astfel:

* 0, , 2, 1,0,1,2,oE u n k e n k (4.75)

unde oe n este eroarea de estimare optimă.

Modificarea făcută în ecuaţiile (4.13) prin (4.75) aduce drept consecinţă şi o nouă formă

a ecuaţiilor Wiener-Hopf (4.22):

, 2, 1,0,1,2,oi

i

w r i k p k k

(4.76)

Relaţia (4.76) poate fi considerată ca fiind generală, astfel încât putem să recurgem în

continuare la exprimarea ei în domeniul frecvenţă. În acest scop vom scrie pentru început

răspunsul în frecvenţă al filtrului FIR caracterizat de vectorul coeficienţilor ow :

j k

o ok

k

W w e

(4.77)

De asemenea, aşa cum s-a stabilit în Capitolul 3, transformata Fourier în timp discret a

funcţiei de autocorelaţie r l este uS , densitatea spectrală de putere a procesului aleator

u n . În ceea ce priveşte membrul drept al ecuaţiei(4.76), *p k E u n k d n este

funcţia de intercorelaţie, udp k r k a cărei transformare Fourier în timp discret

poartă, aşa cum s-a introdus în Capitolul 3, numele de densitate spectrală mutuală de putere

sau interspectru: *

ud duS S .

Figura 4.8 Reprezentarea prin transformarea pe axele de coordonate

principale a filtrului linear optimal.

4.8 Egalizarea de canal 103

Cu aceste precizări şi având în vedere că transformarea Fourier în timp discret a

produsului de convoluţie în domeniul timp este un produs în domeniul frecvenţă, expresia

(4.76) se scrie în frecvenţă astfel:

*

u o udS W S (4.78)

Această ultimă relaţie poartă numele de ecuaţia Wiener-Hopf în domeniul frecvenţă. Filtrul

optimal Wiener-Hopf are funcţia de transfer

*

ud du

o

u u

S SW

S S

(4.79)

Vom spune că răspunsul în frecvenţă al filtrului Wiener optimal la o frecvenţă dată

i este determinat de raportul dintre densitatea spectrală mutuală a proceselor d n

şi u n şi densitatea spectrală de putere a procesului u n la i .

Expresia în domeniul frecvenţă a erorii pătratice medii (EPM) minime pentru filtrul

Wiener optimal se obţine prin înlocuirea relaţiei (4.79) în ecuaţia (4.40). În condiţiile în care

răspunsul filtrului se întinde de la n la n , aceasta poate fi rescrisă astfel:

*

min ,

H

o o o k

k

J J p k w

2 2

d dw p w (4.80)

În continuare, utilizăm relaţia lui Parseval de mai jos

* *

1 2 1 2

1

2n

x n x n X X d

(4.81)

şi înlocuim suma de convoluţie din (4.80) cu echivalentul său din domeniul frecvenţă. Se

obţine:

2

min

1

2d ud oJ S W d

(4.82)

Ultima expresie este corectă, indiferent de tipul filtrului optimal, FIR sau IIR, atâta timp cât

în relaţia (4.80) sunt utilizate limitele corecte pentru sumă.

4.8 Egalizarea de canal

Ne vom îndrepta în continuare atenţia asupra câtorva aplicaţii ale teoriei filtrării optimale.

Mai întâi în acest paragraf va fi prezentată o aplicaţie din domeniul comunicaţiilor de date.

În continuare, vom discuta despre problemele care apar în filtrarea spaţială şi modul în care

optimizarea în sens Wiener a filtrării spaţiale se aplică în acest gen de aplicaţii.

Un canal de comunicaţii care se pretează bine la transmisia semnalelor digitale este

canalul telefonic. El este caracterizat printr-un raport semnal/zgomot mare. Cu toate acestea,

o limitare practică importantă a canalului telefonic este aceea că el este de bandă limitată.

Drept urmare, atunci când se transmite pe acest canal informaţie prin intermediul unei

modulaţii discrete în amplitudine şi fază a unei purtătoare sinusoidale, numărul de nivele

detectabile pe care canalul telefonic le poate suporta este limitat în principal mai degrabă de


interferenţa intersimbol (ISI – InterSymbol Interference) decât de zgomotul aditiv de pe

canal. În consecinţă, vom neglija în cele ce urmează zgomotul de pe canal. Interferenţa

intersimbol (ISI) se produce ca urmare a efectului de ”lăţire” a impulsurilor transmise, ce

este datorat naturii dispersive a canalului şi are drept consecinţă suprapunerea impulsurilor

adiacente. Dacă fenomenul ISI nu este combătut, pot apărea erori la reconstrucţia fluxului de

date la ieşirea receptorului. O metodă eficientă de combatere a degradării transmisiei ca

urmare a ISI este conectarea în cascadă cu canalul a unui egalizor ca în Figura 4.9. Structura

utilizată cu bune rezultate pe post de egalizor este cea de filtru transversal prezentată în

Figura 4.10 (Haykin 1996). Egalizorul este un sistem simetric, numărul de celule ale filtrului

egalizor fiind ales egal cu 2 1N , coeficienţii filtrului transversal fiind prin urmare notaţi

cu 1 0 1, , , , , ,N Nh h h h h . Răspunsul la impuls al egalizorului este, prin urmare

N

k

k N

h n h n k

(4.83)

unde n este impulsul unitate. Similar, putem exprima răspunsul la impuls al canalului

prin:

k

k

c n c n k (4.84)

În lumina celor discutate anterior, zgomotul canalului poate fi ignorat. În consecinţă,

conexiunea în cascadă a canalului şi a egalizorului este echivalentă cu un singur filtru

digital. Vom defini răspunsul la impuls a filtrului echivalent prin:

N

k

k N

w n w n k

(4.85)

Figura 4.9 Schema de principiu a egalizării unui canal de comunicaţii.

Figura 4.10 Filtru transversal simetric utilizat la implementarea blocului egalizor.

4.8 Egalizarea de canal 105

unde secvenţa w n este egală cu convoluţia secvenţelor c n şi h n . Prin urmare, coefi-

cienţii filtrului transversal sunt

, 0, 1, ,N

l k l k

k N

w h c l N

(4.86)

Fie secvenţa de date u n aplicată la intrarea canalului, o secvenţă necorelată cu media

zero şi varianţă unitară. În practică, o asemenea secvenţă poate fi bine aproximată printr-o

secvenţă pseudo-aleatoare generată de un registru de deplasare cu reacţie. Conform acestei

ipoteze, putem exprima elementele matricii de corelaţie R a semnalului de la intrarea

canalului după cum urmează:

1, 0

0, 0

lr l

l

(4.87)

Drept semnal de răspuns dorit d n aplicat filtrului egalizor, vom presupune că este

disponibilă o „replică” întârziată a secvenţei transmise. Răspunsul dorit poate fi generat de

un al doilea registru de deplasare cu reacţie, identic cu cel utilizat pentru generarea secvenţei

de date originale u n . Cele două registre de deplasare cu reacţie sunt sincronizate unul cu

celălalt, astfel încât are loc egalitatea d n u n , unde momentul de timp n se măsoară în

raport cu celula centrală a filtrului egalizor. Drept urmare, intercorelaţia secvenţei de intrare

u n cu răspunsul dorit d n este definită prin

1, 0

0, 1, 2, ,

lp l

l N

(4.88)

În acest moment, cadrul pentru aplicarea ecuaţiilor Wiener-Hopf (4.22) este fixat.

Potrivit ecuaţiilor (4.87) şi (4.88), vom impune

1, 0

0, 1, 2, ,l

lw

l N

(4.89)

Pe de altă parte, dacă facem apel la suma de convoluţie din ecuaţia (4.86), avem:

1, 0

0, 1, 2, ,

N

k l k

k N

lh c

l N

(4.90)

Acest sistem de ecuaţii simultane poate fi rescris în formă matricială extinsă astfel:


0 1 1 2

1 0 1 2 1 1

1 0 1 0

1 2 1 0 1 1

2 1 1 0

0

0

1

0

0

N N N N N

N N

N N

N N

N N N N N

c c c c c h

c c c c c h

c c c c c h

c c c c c h

c c c c c h

(4.91)

În concluzie, dacă se cunoaşte răspunsul la impuls al canalului, caracterizat de

coeficienţii 1 0 1, , , , , ,N Nc c c c c

, se utilizează ecuaţia (4.91) pentru a determina coefi-

cienţii necunoscuţi ai filtrului egalizor 1 0 1, , , , , ,N Nh h h h h

.

În literatura de specialitate (Lucky, ş.a. 1968), un egalizor proiectat în conformitate cu

ecuaţia (4.91) poartă numele de egalizor cu forţare de zero (zero-forcing equalizer).

Egalizorul este denumit astfel, întrucât dacă se transmite un singur impuls pe canal, el

„forţează” ieşirea receptorului să fie nulă la toate momentele de eşantionare, cu excepţia

momentului de timp ce corespunde impulsului transmis.

Principalul inconvenient al egalizoarelor zero-forcing (Manolakis, ş.a. 2005) este acela

că ignoră prezenţa zgomotului pe canal şi prin urmare, amplifică zgomotul care apare în

vecinătatea frecvenţelor la care amplificarea pe canal este nulă. De asemenea nu

funcţionează corect decât la valori mari ale raportului semnal/zgomot. Acestea sunt motivele

pentru care, la nivele de zgomot importante sunt preferate aşa-numitele egalizoare cu EPM

minimă (Minimum MSE Equalizers) care sunt mai robuste întrucât iau în considerare atât

ISI cât şi proprietăţile statistice ale zgomotului (Qureshi 1985).

4.9 Filtrul de varianţă minimă cu

constrângeri lineare

Caracteristic unui filtru Wiener este faptul că acesta minimizează valoarea pătratică medie a

erorii de estimare definită ca diferenţă dintre răspunsul dorit şi ieşirea filtrului. Nu există

constrângeri asupra soluţiei în rezolvarea problemei de minimizare. Există aplicaţii de

filtrare care au drept obiectiv proiectarea unui filtru care minimizează în medie pătratică un

criteriu impus, totodată acelaşi filtru fiind supus unor anumite constrângeri suplimentare. De

exemplu, se poate cere să se minimizeze puterea de ieşire medie a unui filtru linear şi, toto-

dată, acesta să asigure o amplitudine constantă a semnalului de ieşire la o anumită frecvenţă.

Acest paragraf, pe lâgă faptul că prezintă o anumită categorie de filtre spaţiale ce sunt reali-

zate pe baza criteriilor prezentate mai sus, se doreşte a se constitui într-o introducere în

problema filtrării optimale cu constrângeri.

Vom începe prin a considera filtrul transversal linear din Figura 4.4. Semnalul de ieşire

a filtrului, ca răspuns la excitaţiile de intrare , 1 , 1u n u n u n M este dat de

4.9 Filtrul de varianţă minimă cu constrângeri lineare 107

1

*

0

M

k

k

y n w u n k

(4.92)

În cazul special al unei excitaţii sinusoidale

j nu n e (4.93)

ecuaţia (4.92) se rescrie sub forma

1

*

0

Mj n j k

k

k

y n e w e

(4.94)

Problema de optimizare cu constrângere pe care dorim să o rezolvăm pentru acest

filtru, poate fi enunţată astfel

Să se determine setul optim de coeficienţi ai filtrului 0 1 1, ,c c c

o o oMw w w care mini-

mizează valoarea pătratică medie a ieşirii filtrului y n ,

1 1

2 *

0 0

M Mc c c cH

o o o o ok oi

k i

P E y n w w r i k

w Rw (4.95)

supus constrângerii liniare

1*

0

o

Mc j k

ok

k

w e g

(4.96)

unde o este o valoare prescrisă a frecvenţei cuprinsă în intervalul

iar g este o constantă complexă.

Problema de optimizare cu constrângere a filtrării aşa cum este descrisă prin ecuaţiile

(4.92) şi (4.96) este o problemă de natură temporală. Există şi o versiune spaţială a acestei

probleme de optimizare cu constrângere, întâlnită în cazul reţelelor liniare de receptoare

(senzori, antene) uniform distanţate, utilizată la stabilirea poziţiei unei surse de radiaţie

izotrope situate în regiunea de câmp îndepărtat (vezi Figura 4.11). Ieşirile acestor receptoare

sunt, pentru început, multiplicate fiecare în parte cu nişte ponderi variabile, iar în final însu-

mate, obţinându-se astfel un filtru transversal nu în domeniul timp ca cele utilizate în lucra-

re, ci mai degrabă în domeniu spaţial, datorită distanţelor egale d ce există între elementele

reţelei de antene. Prin utilizarea optimizării cu constrângere la o reţea de antene, pe de o

parte se maximizează rezoluţia reţelei pe o direcţie dată, iar pe de altă parte, se minimizează

puterea semnalului recepţionat pe toate celelalte direcţii. După cum s-a specificat în

Capitolul 1, în literatura de specialitate reţeaua de senzori (antene) direcţionabilă poartă

numele de beamformer (formator de fascicul).

Comparând filtrul transversal din Figura 4.4 şi beamformer-ul din Figura 4.11, se

observă că deşi acestea sunt complet diferite din punct de vedere fizic, cele două situaţii sunt

complet echivalente din punctul de vedere a formulării matematice, întrucât ambele cazuri

se rezolvă printr-o optimizare cu constrângere. Astfel în cazul filtrării spaţiale, locul

frecvenţei temporale o este luat de frecvenţa spaţială (unghi de incidenţă) o iar prin

filtrarea cu constrângere se urmăreşte să se menţină constant nivelul semnalului de unghi de


incidenţă o concomitent cu minimizarea tuturor semnalelor ce au un alt unghi de

incidenţă. Vom exemplifica, în continuare, rezolvarea problemei de optimizare cu

constrângere pentru cazul filtrului transversal.

În general, rezolvarea problemei de optimizare cu constrângere, face apel la metoda

multiplicatorilor lui Lagrange (Ştefănescu şi Zidăroiu 1981). Se începe prin a defini o

funcţie de cost reală ,c

J w , care combină cele două laturi ale problemei de optimizare

cu constrângere:

1 1 1

* * *

0 0 0

, Re

puterea de ieşire constrângere lineară

o

M M Mc j k

k i k

k i k

J w w r i k w e g

w (4.97)

unde este multiplicatorul complex al lui Lagrange. Faţă de filtrul optimal Wiener, în

acest caz există o diferenţă, şi anume lipseşte răspunsul dorit din definiţia funcţiei de cost ,c

J w . În schimb, această funcţie include o constrângere lineară ce trebuie să fie

satisfăcută la frecvenţa impusă o . În orice caz, impunerea constrângerii conservă

semnalul de interes, iar minimizarea funcţiei c

J atenuează zgomotul sau interferenţele ce

pot deveni deranjante dacă nu sunt ţinute sub control.

Pentru a calcula valorile optimale ale coeficienţilor filtrului transversal care minimizea-

ză funcţia de cost c

J definită prin ecuaţia (4.97), se determină vectorul gradient c

J , iar

Figura 4.11 Undă plană incidentă pe o reţea de 5 sensori. Ponderile cu care

sunt însumate contribuţiile senzorilor sunt controlate printr-un

algoritm adaptiv.

4.9 Filtrul de varianţă minimă cu constrângeri lineare 109

apoi se egalează acesta cu zero. Aplicând o procedură similară celei utilizate în paragraful

4.2.1 se stabileşte că componenta k a gradientului cJ este

1

*

0

2 o

Mc j k

k i

i

J w r i k e

(4.98)

Fie c

oiw componenta i a vectorului coeficienţilor filtrului optimal c

ow . Atunci, condiţia de

optim pentru filtrul transversal se scrie astfel:

*1

0

, 0,1, , 12

o

Mc j k

oi

i

w r i k e k M

(4.99)

Sistemul de M ecuaţii simultane (4.99) definesc valorile optime ale coeficienţilor filtrului

optimal cu constrângerea (4.96). Sistemul are o formă similară cu cea a ecuaţiei Wiener-

Hopf din (4.22).

În acest punct al expunerii este mai comod să trecem la formularea matricială a

problemei de optimizare, întrucât sistemul de M ecuaţii lineare din (4.99) se exprimă în

aceste condiţii astfel:

*

2

c

o o

Rw s (4.100)

Ca şi în restul capitolului, R este matricea de corelaţie M M iar c

ow e vectorul ponde-

rilor optimale ale filtrului optimizat cu constrângerea (4.96). În sfârşit, os este vectorul

11 oo

Tj Mj

o e e

s (4.101)

Soluţia ecuaţiei (4.100) este

*

1

2

c

o o

w R s (4.102)

unde 1R este inversa matricii de corelaţie R , considerând că matricea R e nesingulară.

Soluţia (4.102) a vectorului coeficienţilor filtrului optimal c

ow nu este explicită,

întrucât în expresie intervine multiplicatorul lui Lagrange care este necunoscut. Pentru a

elimina pe * din această ecuaţie, se recurge la relaţia care introduce constrângerea lineară,

(4.96). Varianta matricială a relaţiei (4.96) este

c H

o o g w s (4.103)

Pentru a determina valoarea constantei Lagrange , calculăm transpusa hermitică a relaţiei

(4.102) şi postmultiplicăm apoi rezultatul cu os . În sfârşit, se face apel la relaţia (4.103)

pentru a introduce constanta complexă g . Rezultatul final este:

1

2H

o o

g

s R s (4.104)


unde s-a utilizat proprietatea 1H R R . Forma pătratică 1H

o o

s R s este reală. În

final, înlocuind (4.104) în (4.102) se obţine formula căutată a vectorului ponderilor optimale

* 1

1

c o

o H

o o

g

R sw

s R s (4.105)

De observat că prin minimizarea puterii (varianţei) la ieşirea filtrului şi totodată prin

respectarea constrângerii (4.96), filtrul tinde să atenueze toate semnalele ale căror frecvenţă

este diferită de o .

Minimul funcţiei de cost, cu alte cuvinte valoarea minimă a puterii la ieşirea filtrului

optimal este dată de particularizarea relaţiei (4.97) pentru frecvenţa o :

min 1

1c c cH

o o H

o o

J

w Rws R s

(4.106)

unde s-a considerat 1g .

Procesul de minimizare a varianţei care conduce la rezultatul din (4.106), indică faptul

că min

cJ reprezintă o estimare de varianţă minimă şi fără distorsiuni a puterii la frecvenţa

o .

Rezultatul obţinut pentru filtrul transversal în domeniul timp poate fi generalizat în

cazul filtrării spaţiale, introducând o estimare a varianţei în funcţie de frecvenţa spaţială .

Înlocuind pe prin , exprimăm valoarea minimă a funcţiei de cost min

cJ . În acest mod se

defineşte în cazul filtrării spaţiale, spectrul de putere al estimatorului de varianţă minimă

fără distorsiuni (Minimum Variance Distorsionless Response – MVDR):

1

1MVDR H

S

s R s

(4.107)

unde: 11

Tj Mje e

s (4.108)

Vectorul s de dimensiune M M este denumit, în contextul beamformer-ului din

Figura 4.11, vector spaţial de scanare. Prin definiţie MVDRS are dimensiuni de putere.

Dependenţa sa de unghiul electric al reţelei spaţiale, justifică denumirea de estimator al

spectrului de putere. De observat că pentru orice alt unghi de incidenţă , puterea undei

incidente este minimizată. Drept urmare, spectrul obţinut prin filtrare MVDR tinde să aibă

maxime mai ascuţite şi o mai mare rezoluţie în raport cu cele oferite de alte metode

neparametrice.

FILTRE LINEARE OPTIMALE Probleme 111

Probleme

P 4.1 Fie un filtru Wiener determinat de matricea de corelaţie R a vectorului de intrare

nu , vectorul de intercorelaţie a lui nu cu răspunsul dorit d n şi varianţa

răspunsului dorit 2

d , definite prin

21 0,7 0,5

, şi 20,7 1 0,25

d

R p

(a) Calculaţi coeficienţii filtrului Wiener şi EPM minimă produsă de acest filtru

Wiener.

(b) Determinaţi expresia funcţiei de cost şi reprezentaţi suprafaţa de eroare, utilizând

MATLAB.

(c) Formulaţi o reprezentare a filtrului Wiener utilizând valorile proprii şi vectorii

proprii asociaţi ai matricii R.

P 4.2 Să se examineze problema de egalizare adaptivă din Figura 4.12. Simbolurile

generate de sursa s n se presupun a fi eşantioane ale unui proces de zgomot alb

de varianţă unitară.

(a) Să se determine matricea de corelaţie R a semnalului de la intrarea egalizorului şi

vectorul de intercorelaţie p dintre semnalul de intrare şi semnalul dorit.

(b) Să se determine valorile optime ale coeficienţilor egalizorului.

(c) Care este EPM minimă de la ieşirea egalizorului.

(d) Se pot explica rezultatele obţinute la punctele (b) şi (c) fără a recurge la toate

calculele efectuate? Cum şi de ce?

P 4.3 Fie procesul aleator armonic 0cosd n A n de amplitudine şi frecvenţă

fixe dar necunoscute şi fază aleatoate, distribuită uniform pe intervalul 0 2 .

Procesul este afectat de zgomotul aditiv alb gaussian v n de medie nulă şi

varianţă 2

v . Semnalul rezultat u n d n v n este disponibil pentru

procesare.

(a) Să se calculeze coeficienţii filtrului Wiener de ordinul doi cu intrare u n şi

semnal dorit d n pentru 2

00,5, 0,1 şi 0,5vA .

Figura 4.12 Schema de egalizare din problema P 4.2.


(b) Calculaţi EPM minimă a filtrului Wiener obţinut.

(c) Calculaţi RSZ la intrarea respectiv la ieşirea filtrului Wiener, exprimând în dB

câştigul pe care îl realizează filtrul Wiener proiectat.

P 4.4 Scopul acestei probleme este explorarea utilizării filtrării Wiener în radiolocaţie.

Expresia în timp discret a semnalului emis de radar este 0

0

j nA e

unde 0 este

frecvenţa semnalului transmis iar 0A este amplitudinea lui complexă. Semnalul

recepţionat este

1

1

j nu n Ae v n

unde 1 0A A , 1 diferă de

0 datorită deplasării Doppler produse de

mişcarea ţintei iar v n este un eşantion de zgomot alb.

(a) Arătaţi că matricea de corelaţie a seriei temporale u n compuse din M elemente

se poate scrie

2 2

1 1 1

H

v R I s s

unde 2

v este varianţa zgomotului alb de medie nulă v n , iar 22

1 1E A

şi

111

1 1T

j Mje e

s

(b) Seria temporală u n se aplică unui filtru Wiener cu M coeficienţi, vectorul de

intercorelaţie p dintre u n şi răspunsul dorit d n fiind dat de

2

0 0 p s

unde 22

0 0E A

şi 00 1

0 1T

j Mje e

s

Deduceţi o expresie pentru calculul vectorului coeficienţilor filtrului Wiener.

P 4.5 Vom considera semnalul dorit 0,8 1d n d n w n generat de procesul

zgomot alb w n de medie nulă şi varianţă 2

w . Acest semnal este trecut prin

sistemul cauzal 11 0,9H z z a cărui ieşire s n este afectată de zgomotul alb

aditiv v n de medie nulă şi varianţă 2

v . Procesele w n şi v n sunt necorelate

cu 2 0,3w şi 2 0,1v .

(a) Calculaţi filtrul FIR optim de ordinul doi care estimează pe d n din semnalul

u n s n v n şi determinaţi ow şi minJ .

(b) Reprezentaţi suprafaţa de eroare şi verificaţi că este pătratică iar punctul

corespunzător filtrului optim se găseşte în punctul ei de minim.

FILTRE LINEARE OPTIMALE Probleme 113

(c) Repetaţi punctul (a) pentru un filtru de ordinul trei şi verificaţi dacă există vreo

îmbunătăţire în acest caz.

P 4.6 Se consideră problema de modelare de sistem prezentată în Figura 4.13. Semnalul

s n este de tip zgomot alb cu dispersia unitară, iar semnalul v n are dispersia

2 0.1v .

(a) Să se găsească matricea de corelaţie R a coeficienţilor de intrare ai filtrului

precum şi vectorul de intercorelaţie p dintre vectorul de intrare nu şi semnalul

dorit d n .

(b) Să se găsească coeficienţii optimali ai filtrului Wiener.

(c) Care este eroarea pătratică medie minimă ? Să se determine această eroare atât

în mod analitic cât şi prin inspectarea directă a schemei din figură.

P 4.7 Consideraţi procesul aleator armonic

0 0cosd n A n

cu amplitudine şi frecvenţă fixe dar necunoscute, şi faza aleatoare distribuită

uniform pe intervalul 0,2 . Acest proces este afectat de zgomotul alb gaussian

aditiv v n de medie nulă şi varianţă 2

v , care este necorelat cu 0d n . Semnalul

rezultat 0d n d n v n este disponibil utilizatorului pentru prelucrare.

(a) Arătaţi că funcţia de autocorelaţie a procesului 0d n este

0

2

02 cosdr l A l .

(b) Scrieţi o funcţie MATLAB w=opt_fir(A,omega0,var_v,M) pentru a

proiecta filtrul FIR optimal de ordinul M cu răspunsul la impuls w n . Utilizaţi

funcţia toeplitz din MATLAB pentru a genera matricea de corelaţie R.

(c) Utilizaţi MATLAB pentru a determina şi reprezenta răspunsul în amplitudine al

filtrului optimal FIR de ordinul 20 pentru 20,5, 0 0,05 0,5vA omega şi .

2

1

1

1 z

1

0 1w w z

11 4z

u n

y n

e n

d n

v n

s n

Figura 4.13 Schema de modelare din problema P 4.6.


P 4.8 Consideraţi semnalul u n d n v n , unde d n este semnalul util aleator

corupt de zgomotul v n . Procesele d n şi v n sunt necorelate, având

densităţile spectrale de putere

1, 0

2

0,2

dS

respectiv 1,

4 2

0, 0 4 2

vS

şi

(a) Determinaţi funcţia de transfer în frecvenţă a filtrului FIR optimal şi EPM minimă.

Este acesta un filtru FIR?

(b) Determinaţi un filtru FIR optimal cu patru coeficienţi şi EPM minimă cores-

punzătoare.

(c) Determinaţi filtrul FIR noncauzal optimal cu trei coeficienţi definit prin

1 1 0 1 1y n w u n w u n w u n

5 Predicţia lineară

redicţia lineară joacă un rol major în multe domenii teoretice şi practice ale prelucrării

semnalelor. Noţiunea de predicţie include operaţiunile prin care se estimează sau se

prezice valoarea u n a unui semnal la momentul de timp 0n n , pe baza valorilor

altor eşantioane din acelaşi semnal (Manolakis, ş.a. 2005). Predicţia lineară joacă un rol

central în modelarea semnalelor şi implementarea unor algoritmi de calcul eficienţi. Deşi

predicţia lineară reprezintă un subiect teoretic major, importanţa sa în prelucrarea

semnalelor derivă, în mai mare măsură, din aplicaţiile practice pe care le are în domeniul

transmisiei şi compresiei informaţiei.

Dintr-un alt punct de vedere, predicţia lineară este un caz particular al filtrării optimale

Wiener, fiind cazul în care semnalele u n şi d n sunt identice dar decalate în timp

(Michaut 1992).

5.1 Predicţia lineară înainte (directă)

5.1.1 Filtrul de predicţie înainte

Predictorul linear înainte (Figura 5.1) constă dintr-un filtru transversal linear cu M

coeficienţi ,1 ,2 ,, , ,f f f Mw w w şi intrările 1 , 2 , ,u n u n u n M . Presupunem că

aceste semnale de intrare reprezintă un proces aleator staţionar în sens larg de medie nulă,

iar coeficienţii filtrului sunt optimizaţi în conformitate cu teoria filtrării optimale Wiener.

Capitolul

5

P

Figura 5.1 Filtrul de predicţie lineară înainte cu un pas.

116 PREDICŢIA LINEARĂ - 5

Filtrul realizează o predicţie lineară a valorii curente a semnalului de la intrare. Notând prin

1nU spaţiul M-dimensional al eşantioanelor de intrare, valoarea prezisă 1ˆ

nu n U este

definită prin:

1 ,

1

ˆ 1M

n f k f

k

u n w u n k n

w uU (5.1)

unde: 1 1T

n u n u n M u şi ,1 , .

T

f f f Mw w w Răspunsul

dorit d n este eşantionul curent (de la momentul n ) al semnalului de intrare:

d n u n (5.2)

Eroarea de predicţie înainte, Mf n este egală cu diferenţa dintre u n şi valoarea sa

prescrisă 1ˆ

nu n U :

1ˆ

M nf n u n u n U (5.3)

Indicele M din Mf n reprezintă ordinul predictorului, definit ca număr de elemente de

întârziere unitară necesare pentru a memora setul de eşantioane utilizate în realizarea

predicţiei.

Vom nota prin MP valoarea minimă a mediei pătratice a erorii de predicţie înainte:

2

M MP E f n

(5.4)

Deoarece se presupune că semnalul de intrare este de medie nulă, eroarea de predicţie

înainte Mf n va fi de asemenea medie nulă. În aceste circumstanţe, MP este egală cu

varianţa erorii înainte. El poate fi privit ca puterea erorii de predicţie, în condiţiile în care

Mf n este o tensiune aplicată pe o rezistenţă de 1Ω.

În vederea obţinerii vectorului optimal fw , rezolvarea ecuaţiilor Wiener-Hopf necesită

determinarea a doua mărimi:

1. Matricea de corelaţie a procesului de intrare [ 1]n u :

1 -1

0 1 1

1 0 2

1 2 0

M E n n

r r r M

r r r M

r M r M r

HR u u

(5.5)

MR are aceiaşi expresie ca şi în cazul filtrării Wiener pentru că matricea unui

proces staţionar rămâne invariantă la deplasarea în timp a semnalului:

1n n u u .

5.1 Predicţia lineară înainte (directă) 117

2. Vectorul de intercorelaţie dintre intrarea 1n u şi răspunsul dorit u n :

1 1

2 21

r r

r rE n u n

r M r M

r u (5.6)

În sfârşit pentru a evalua MP este necesară o a treia mărime, 2

u , varianţa lui u n :

3. Varianţa lui u n este egală cu 0r , întrucât semnalul este de medie nulă.

În consecinţă adaptarea ecuaţiilor Wiener-Hopf la problema predicţiei lineare directe

este:

M f R w r (5.7)

Similar, din (4.40) şi (5.6), puterea erorii de predicţie înainte se calculează cu:

2 0H H

M u f fP r r w r w (5.8)

Din ultimele două ecuaţii şi din (5.6), rezultă că vectorul de dimensiune 1M al coefi-

cienţilor predictorului înainte şi puterea erorii de predicţie sunt determinate numai de setul

de 1M valori ale funcţiei de autocorelaţie a procesului de intrare pentru întârzierile

0,1, ,M .

5.1.2 Filtrul erorii de predicţie înainte

Eroarea de predicţie înainte Mf n , definită prin relaţia (5.3) se poate dezvolta în

expresia:

,

1

M

M f k

k

f n u n w u n k

(5.9)

Vom nota prin ,M ka , 0,1,k M coeficienţii unei noi structuri de filtrare transversală. Ei

sunt legaţi de coeficienţii predictorului înainte prin relaţia:

,

,

1, 0

, 1,2, ,M k

f k

ka

w k M

(5.10)

În aceste condiţii, cei doi termeni din membrul drept al relaţiei (5.9) pot fi combinaţi într-o

unică sumă:

,

0

M

M M k

k

f n a u n k

(5.11)


Această relaţie intrare-ieşire este reprezentată de filtrul transversal din Figura 5.2, care se

numeşte filtrul erorii de predicţie înainte. După cum îi spune şi numele şi după cum rezultă

din relaţia (5.11), filtrul furnizează la ieşire semnalul de eroare de predicţie înainte Mf n .

Relaţia dintre filtrul de eroare de predicţie înainte şi filtrul predictor înainte este ilustrată

în Figura 5.3. De remarcat că lungimea filtrului erorii de predicţie este mai mare decât

lungimea filtrului predictor cu o unitate. Totuşi ambele filtre au acelaşi ordin M , pentru că,

conţin M elemente de întârziere.

5.1.3 Relaţia dintre predicţia lineară şi modelarea

autoregresivă

Este interesant să reluăm relaţiile (5.7) şi (5.8) pentru coeficienţii filtrului erorii de predicţie

înainte:

,1 ,2 , şi,T

M M M M Ma a a R r (5.12)

,1 ,2 , ,

0

0 sauM

TH

M M M M M M M k

k

P r a a a P a r k

r (5.13)

Dacă avem curiozitatea să le comparăm cu ecuaţiile Yule-Walker din Capitolul 3

(3.173) şi (3.174) care definesc modelul autoregresiv (AR) al unui proces aleator staţionar,

vom constata perfecta lor identitate, atât pentru ecuaţia ce defineşte coeficienţii filtrului

generator al procesului AR cât şi pentru formula varianţei zgomotului ce constituie excitaţia

aplicată la intrarea filtrului AR. De fapt, dacă la intrarea filtrului erorii de predicţie înainte se

aplică un proces staţionar AR de ordinul M, printr-o predicţie înainte de acelaşi ordin opti-

mizată în sensul mediei pătratice, putem stabili valoarea parametrilor ce definesc procesul

Figura 5.2 Filtrul erorii de predicţie înainte.

Figura 5.3 Relaţia dintre filtrul de eroare de predicţie înainte

şi filtrul predictor înainte.

5.1 Predicţia lineară înainte (directă) 119

aleator analizat. Chiar dacă procesul nu este autoregresiv, totuşi analiza prin predicţie lineară

poate furniza o aproximare a procesului (Haykin 1996).

Din cele discutate anterior mai rezultă observaţie importantă, care porneşte de la ideea

evidentă că filtrul generator AR şi filtrul erorii de predicţie fac unul în raport cu celălalt ope-

raţii inverse. Concluzia logică care urmează acestei observaţii este că, în condiţiile în care la

intrarea filtrului de predicţie înainte se aplică un proces staţionar iar lungimea acestuia, M,

este suficient de mare, semnalul de ieşire tinde către zgomot alb, identic cu semnalul de la

intrarea filtrului AR. Prin urmare, în condiţiile specificate, eşantioanele erorii de predicţie

înainte tind să devină independente statistic unul de celălalt. Se spune că filtrul erorii de

predicţie înainte are rolul de „a albi” procesul staţionar aplicat la intrarea sa (Bellanger

1989, Michaut 1992).

5.1.4 Ecuaţiile Wiener-Hopf extinse pentru predicţia

înainte

Ecuaţiile Wiener-Hopf (5.7) împreună cu cele ale puterii erorii de predicţie înainte (5.8), pot

fi combinate într-o singură relaţie matricială:

10 H

M

f MM

Pr

r

w 0r R (5.14)

unde M0 este vectorul nul de dimensiune 1M . În membrul stâng al relaţiei (5.14) poate fi

identificată expresia matricii de corelaţie extinse 1M R de dimensiune 1 1M M .

Această identificare se bazează pe Proprietatea 5 a matricilor de corelaţie introdusă în secţiu-

nea 3.5 a lucrării. 1M R este matricea de corelaţie a eşantioanelor , 1 , ,u n u n

u n M de la intrarea filtrului erorii de predicţie din Figura 5.2. Mai mult, vectorul de

dimensiune 1 1M din membrul stâng este vectorul coeficienţilor filtrului erorii de

predicţie înainte (vezi relaţia (5.10)):

1

M

f

a

w (5.15)

Prin urmare relaţia (5.14) se poate exprima sub forma:

1

M

M M

M

P

R a0

(5.16)

sau ,

0

, 0

0, 1,2, ,

MM

M l

l

P ia r l i

i M

(5.17)

Ecuaţiile (5.14), (5.16) şi (5.17) poartă numele de ecuaţiile Wiener-Hopf extinse ale

filtrului erorii de predicţie de ordinul M .


Exemplul 5.1: Vom calcula în conformitate cu relaţia (5.14), soluţia ecuaţiei

Wiener-Hopf extinse pentru filtrul erorii de predicţie înainte de ordinul 1M . De

remarcat rezolvarea se face doar cu valorile 0r şi 1r

1,0 1

1,1

0 1

1 0 0

ar r P

ar r

unde: 22

2det 0 1r r r R

De asemenea, prin definiţie: 1,0 1a . Prin urmare:

1 1,1

1;

0 0

rr

P ar r

Exemplul 5.2: Să se analizeze realizarea unui predictor de ordinul 2 pentru

procesul aleator autorecursiv AR(1) u n generat în Figura 5.4. Procesul

generator v n este un zgomot alb cu valoare medie nulă şi varianţă 2

v . De

asemenea, 1, .

Pentru a scrie ecuaţiile Wiener-Hopf este necesară determinarea funcţiei de

autocorelaţie a semnalului de intrare r k . În acest scop, se porneşte de la

ecuaţia cu diferenţe finite ce caracterizează procesul AR:

1u n u n v n

Multiplicăm ecuaţia cu u n l şi aplicăm operatorul de mediere statistică

1r l r l E v n u n l

Cu excepţia întârzierii 0l , membrul drept al ultimei ecuaţii este nul, întrucât

semnalul generator v n este necorelat cu eşantioane anterioare u n l . Se

scrie

20 1 , 0

1 0 0, 0

vr r l

r r l

Funcţia de autocorelaţie este

Figura 5.4 Filtrul de predicţie înainte pentru procesul autoregresiv de

ordinul 1 u n .

5.2 Predicţia lineară înapoi (inversă) 121

2

2,

1

n

vr n n

Coeficienţii optimi ai filtrului predictor de ordinul 2 sunt soluţiile ecuaţiei

matriciale:

0 0

2

1 1

1

1 0

o o

o o

w w

w w

Prin urmare, ieşirea filtrului predictor este

1ˆ 1nu n y n u n U

Predictorul este, de fapt, de ordinul 1, eşantionul 2u n nefiind utilizat, iar

coeficientul filtrului este egal cu parametrul procesului AR de intrare (vezi

paragraful 5.1.3). În sfârşit, eroarea medie pătratică este egală cu varianţa

zgomotului alb ce generează procesul de la intrare:

2 2

2 0 1 20

H

x o vP r r r

p w

5.2 Predicţia lineară înapoi (inversă)

5.2.1 Filtrul de predicţie înapoi

Asupra seriei temporale , 1 , ,u n u n u n M se poate acţiona şi în direcţie inversă

în operaţia de predicţie, şi anume pe baza eşantioanelor , 1 , , 1u n u n u n M , se

face predicţia lui u n M . Notând prin nU spaţiul M -dimensional subîntins de ,u n

1 , , 1u n u n M , predicţia eşantionului u n M se face prin:

,

1

ˆ 1M

b k

k

u n M w u n k

nU (5.18)

unde ,1 ,2 ,, , ,b b b Mw w w sunt coeficienţii filtrului de predicţie înapoi reprezentat în Figura

5.5.

Coeficienţii filtrului se presupun a fi optimizaţi în conformitate cu teoria filtrării Wiener.

Astfel, răspunsul dorit este acum:

d n u n M (5.19)

iar eroarea de predicţie înapoi are expresia:

ˆM nb n u n M u n M U (5.20)

Şi în acest caz indicele M din Mb n semnifică ordinul predictorului, adică numărul de

elemente de întârziere utilizate.


Prin MP este notată valoarea medie pătratică minimă a erorii de predicţie înapoi sau

puterea erorii de predicţie înapoi:

2

M MP E b n

(5.21)

Faptul că se utilizează o unică notaţie MP pentru puterea erorii de predicţie, atât înainte cât

şi înapoi, indică că aceste două mărimi sunt egale, lucru care va fi demonstrat pe parcursul

acestui paragraf.

Următoarele mărimi sunt utilizate pentru rezolvarea ecuaţiilor Wiener-Hopf ale

predicţiei înapoi.

1. Matricea de corelaţie MR a vectorului semnalului de intrare nu :

H

M E n n R u u (5.22)

unde: 1 1T

n u n u n u n M u . Procesul fiind staţionar,

definiţiile matricii MR prin (5.5) şi (5.22) conduc la rezultate identice.

2. Vectorul de intercorelaţie dintre intrarea nu şi răspunsul dorit u n M de

dimensiune 1M :

1 1TB E n u n M r M r M r r u (5.23)

Indicele B din Br indică aranjarea în ordine inversă a elementelor vectorului.

3. Varianţa răspunsului dorit u n M , egală cu 0r . Şi în acest caz, procesul fiind

staţionar, valoarea este identică cu cea utilizată pentru predicţia înainte.

În condiţiile specificate anterior, ecuaţiile Wiener-Hopf ce rezolvă problema predicţiei

lineare înapoi pentru semnale staţionare de intrare sunt:

B

M b

R w r (5.24)

Similar, se obţine expresia puterii erorii de predicţie înapoi:

20 BT BT

M b u bP r r w r w (5.25)

În Tabelul 5.1 (Haykin 1996) sunt recapitulate diversele mărimi relative la filtrul

Wiener, predictorul înainte şi respectiv predictorul înapoi.

Figura 5.5 Filtrul predictor de eroare înapoi cu un pas


5.2.2 Relaţia dintre filtrele de predicţie înainte şi

înapoi

Similitudinea care există între relaţiile Wiener-Hopf ale predictorului înainte (5.7) şi (5.8) şi

ale predictorului înapoi (5.24) şi (5.25) ne determină să stabilim echivalenţe între cele două

tipuri de predictoare. În acest scop, introducem matricea de schimb notată J care inversează

ordinea elementelor unui vector:

0 0 1

,0 1 0

1 0 0

H H

J J J JJ I (5.26)

În aceste condiţii, utilizăm matricea J şi rescriem vectorul de intercorelaţie Br utilizat în

cazul predicţiei inverse, astfel:

B E n u n M r u Jr (5.27)

Prin urmare, ecuaţiile Wiener-Hopf pentru predicţia înapoi (5.24) şi (5.25) devin

M b

R w Jr (5.28)

şi 0 0BT T

M b bP r r r w r Jw (5.29)

Pentru echivalarea celor două tipuri de predicţie, începem prin a conjuga complex

ecuaţia Wiener-Hopf a predictorului înainte (5.7):

M f

R w r (5.30)

Aplicăm în continuare matricea de schimb relaţiei (5.30)

M f

JR w Jr (5.31)

Dar MR este o matrice Toeplitz simetrică (vezi Capitolul 3), şi are proprietatea

RJ JR (5.32)

Aplicăm ecuaţia (5.32) relaţiei (5.31) şi obţinem:

Tabelul 5.1 Principalele mărimi utilizate la definirea filtrului Wiener, a filtrului de

predicţie înainte şi a filtrului de predicţie înapoi.


M f

R Jw Jr (5.33)

Comparând ultima ecuaţie cu (5.28), avem

b f

w Jw (5.34)

sau, cu alte cuvinte:

Un predictor înapoi poate fi obţinut dintr-un predictor înainte prin inversarea

ordinii coeficienţilor şi conjugarea lor complexă.

Pentru a demonstra egalitatea puterii erorilor de predicţie înainte şi înapoi, se conjugă

complex relaţia (5.29) şi se are în vedere că atât MP cât şi 0r sunt mărimi reale, nefiind

afectate de această operaţie. În sfârşit, din utilizarea relaţiei de legătură (5.34) rezultă că

puterile erorilor de predicţie înainte şi înapoi sunt egale.

Aceste proprietăţi remarcabile de simetrie a celor două tipuri de predictoare optimale se

manifestă doar în cazul proceselor staţionare dar dispare pentru procese nestaţionare

(Manolakis, ş.a. 2005). De asemenea, simetria încetează să se manifeste dacă se aplică un alt

criteriu de minimizare în locul celui al EPM minime sau dacă procesul prezis este

negaussian (Weiss 1975).

5.2.3 Filtrul erorii de predicţie înapoi

Eroarea de predicţie înapoi Mb n definită prin ecuaţia (5.20) se dezvoltă conform cu (5.18)

astfel:

,

1

1M

M b k

k

b n u n M w u n k

(5.35)

Coeficienţii filtrului erorii de predicţie înapoi se definesc în raport cu cei corespunzători ai

predictorului înapoi după cum urmează:

, 1

,

, 0,1, , 1

1,

b k

M k

w k Mc

k M

(5.36)

În consecinţă ecuaţia (5.35) se rescrie (vezi Figura 5.6) astfel:

,

0

M

M M k

k

b n c u n k

(5.37)

Ecuaţia (5.34) exprimă relaţia dintre vectorii coeficienţilor filtrului predictor înainte şi

înapoi. Expresia scalară a relaţiei este:

, 1 , , 1,2, ,b M k f kw w k M

sau echivalent: , , 1 , 1,2, ,b k f M kw w k M

(5.38)

Înlocuind prin urmare (5.38) în (5.36) se obţine:

,

,

, 0,1, , 1

1,

f M k

M k

w k Mc

k M

(5.39)


Astfel, utilizând relaţiile între coeficienţii filtrului erorii de predicţie înainte şi ai

predictorului înainte date în (5.10) se poate scrie:

, , , 0,1, ,M k M M kc a k M

(5.40)

Drept urmare, în cazul filtrului erorii de predicţie înapoi, relaţia intrare-ieşire se poate

exprima sub forma:

,

0

M

M M M k

k

b n a u n k

(5.41)

Relaţia (5.41) este transpusă în Figura 5.7. Comparând această reprezentare cu cea din

Figura 5.2 pentru filtrul erorii de predicţie înainte, devine evident faptul că cele două filtre se

obţin unul din celălalt prin inversarea ordinii coeficienţilor şi conjugare complexă.

5.2.4 Ecuaţiile Wiener-Hopf extinse pentru predicţia

înapoi

Ecuaţiile Wiener-Hopf ale predictorului înapoi (5.24) şi expresia puterii erorii de predicţie

înapoi (5.25) pot fi combinate într-o singură relaţie, după cum urmează:

10

B

MbM

BT

MPr

0wR r

r (5.42)

unde M0 este vectorul nul de dimensiune 1M . În membrul stâng se remarcă matricea de

corelaţie extinsă 1M R de dimensiune 1 1M M , a eşantioanelor de intrare ,u n

1 , ,u n u n M în filtrul erorii de predicţie din Figura 5.6. Mai mult, se observă că:

1

b B

M M

wc a

Relaţia (5.42) se scrie atunci:

1

MB

M M

MP

0R a

Figura 5.6 Filtrul erorii de predicţie înapoi. Figura 5.7 Filtrul erorii de predicţie înapoi definit pe baza

coeficienţilor filtrului erorii de predicţie înainte.


sau: ,

0

0, 0,1, , 1

,

M

M M i

i M

i Ma r l i

P i M

(5.43)

Ecuaţiile (5.42) şi (5.43) poartă numele de ecuaţii Wiener-Hopf extinse pentru predicţia

înapoi de ordinul M . Ecuaţia (5.42) este echivalentă ecuaţiei (5.14) pentru predicţia înainte.

Având în vedere că 1M R este atât o matrice Toeplitz cât şi hermitică, ultima ecuaţie

întăreşte relaţia stabilită dintre coeficienţii filtrului erorii de predicţie înapoi şi ai filtrului

erorii de predicţie înainte.

5.3 Predicţia lineară generalizată

Ca şi în cazurile studiate anterior, se porneşte de la setul de valori ale procesului stochastic

, 1 , ,u n u n u n M . Diferenţa în situaţia pe care o tratăm constă în faptul că de

această dată se doreşte a fi estimată o valoare oarecare din set, să spunem u n i , printr-o

combinaţie lineară a celorlalte eşantioane. Estimarea rezultată u n i şi eroarea de estima-

re corespunzătoare i

Me n sunt:

,

0

ˆM

g k

kk i

u n i w u n k

(5.44)

şi

, ,

0

ˆ cu 1M

i i i

M M k M i

k

e n u n i u n i g u n k g

(5.45)

Coeficienţii ,g kw care apar în ecuaţia (5.44) sunt elementele vectorului ponderilor filtrului

de predicţie generalizate: ,0 ,1 , .T

g g g g Mw w w w Ecuaţia (5.45) defineşte filtrul

erorii de predicţie generalizate de ordinul M, elementele ,

i

M kg

constituind coeficienţii

acestui filtru:

,0 ,1 , .Ti

M M M M Mg g g g Filtrul erorii de predicţie generalizate este

reprezentat în Figura 5.8. Relaţiile dintre coeficienţii celor două filtre sunt de aceiaşi formă

cu cele scrise în paragrafele 5.1.2 şi 5.2.3 pentru predicţia înainte şi înapoi:

Figura 5.8 Filtrul erorii de predicţie generalizate.

5.3 Predicţia lineară generalizată 127

,

,

1,

, 1,2, , ,

i

M k

g k

k ig

w k M k i

(5.46)

O imagine sugestivă a similitudinilor dar şi a diferenţelor care se stabilesc între predicţia

generalizată, predicţia înainte şi predicţia înapoi este prezentată în Figura 5.9 (Manolakis,

ş.a. 2005). Se remarcă că, în toate cele trei cazuri, predicţia este realizată pe baza aceluiaşi

set de eşantioane, diferit fiind doar termenul seriei temporale care se estimează.

Pentru a obţine ecuaţiile Wiener-Hopf care definesc valoarea minimă a EPM în cazul

filtrului de predicţie generalizată, se partiţionează ecuaţia (5.45) astfel:

1

, ,

0 1

,1 1 ,2 2

i Mi

M M k M k

k k i

i H i H i H

M M M

e n g u n k u n i g u n k

n u n i n n

g u g u g u

(5.47)

unde partiţiile vectorului coeficienţilor şi ale vectorului de date în jurul componentei i,

rezultă din context, iar T

n u n u n i u n M u . Să observăm că în

acest caz, componentele operaţiei de optimizare sunt:

1

2

Răspunsul dorit Vectorul de daten

u n in

u

u

Utilizând relaţia (5.7), prima ecuaţie Wiener-Hopf se scrie astfel:

,1 111 11

212 22 ,2

i

M

T i

M

n

n

g uR R

uR R g (5.48)

Explicaţia semnului minus din membrul drept al lui (5.48) este datorat utilizării

coeficienţilor filtrului de eroare de predicţie din (5.46) în loc de coeficienţii filtrului de

predicţie. De asemenea, pentru , 1,2j k , s-a scris:

şi H

jk j k j jE n n E n u n i R u u r u (5.49)

Pentru a scrie puterea erorii de predicţie generalizate iMP se porneşte de la (5.8), şi se

ţine cont de schimbarea de semn din (5.46). Rezultă

1 ,1 2 ,20i i iH H

M M MP r r g r g (5.50)

Ecuaţia Wiener-Hopf extinsă a predicţiei generalizate se obţine prin combinarea într-o

singură ecuaţie a relatiilor (5.48) şi (5.50). În acest scop, este util de notat că matricea de

corelaţie 1M R a vectorului extins nu poate fi partiţionată în raport cu linia i şi coloana i

astfel:

11 1 12

1 1 2

12 2 22

0H H

M

H

r

R r R

R r r

R r R

(5.51)


Relaţia se obţine, combinând (5.48), (5.50) şi (5.51) într-o singură ecuaţie matricială

1 linia i i

M M MP i

0

R g

0

(5.52)

Aceasta este ecuaţia Wiener-Hopf extinsă a predicţiei generalizate.

Dacă 2M L şi i L , atunci se obţine aşa-numitul filtru de netezire simetric Mg .

Acesta produce o estimare a eşantionului median ce utilizează L eşantioane anterioare şi L

eşantioane posterioare.

5.4 Algoritmul Levinson-Durbin

Este o metodă directă de calcul al coeficienţilor filtrelor erorii de predicţie şi al puterii erorii

de predicţie prin rezolvarea ecuaţiilor Wiener-Hopf extinse. Metoda este recursivă şi se

bazează pe structura Toeplitz a matricii de corelaţie. În principiu, procedura utilizează solu-

ţia ecuaţiilor Wiener-Hopf extinse pentru un filtru de eroare de predicţie de ordinul 1m

pentru a calcula soluţia corespunzătoare pentru filtrul cu un ordin mai mare (Bellanger

2001). Principala calitate a algoritmului Levinson-Durbin este eficienţa în calcule: se reali-

Figura 5.9 Estimări, eşantioane şi erori utilizate în predicţia

generalizată, predicţia înainte şi predicţia înapoi.

5.4 Algoritmul Levinson-Durbin 129

zează economii în ceea ce priveşte numărul operaţiilor aritmetice şi capacitatea de memorie

utilizată în raport cu metodele standard (Manolakis, ş.a. 2005).

Numele pe care îl poartă algoritmul a fost dat în semn de recunoaştere a faptului că a

fost introdus prima oară de Levinson în 1947, fiind reformulat independent mai târziu de

Durbin în 1960 (Haykin 1996).

5.4.1 Formularea algoritmului

Fie vectorul ma de dimensiune 1 1m al coeficienţilor filtrului erorii de predicţie

înainte de ordinul m . Coeficienţii filtrului erorii de predicţie înapoi se obţin prin inversarea

ordinii elementelor vectorului urmată de operaţia de conjugare complexă. Efectul combinat

al acestor două operaţiuni este notat prin B

M

a . Vectorii de dimensiune 1m ai filtrelor de

eroare de ordinul 1m sunt notaţi prin 1ma respectiv

1

B

m

a . Operaţia de recursie

Levinson-Durbin se face după ordinul filtrului şi permite, ca pe baza coeficienţilor filtrulului

erorii de predicţie de ordinul m-1, să se calculeze coeficienţii filtrului de ordinul m. Ea se

formulează în două moduri echivalente:

1. Coeficienţii filtrului de eroare de predicţie înainte sunt calculaţi recursiv cu relaţia:

1

1

0

0

m

m m B

m

aa

a (5.53)

unde m este o constantă. Versiunea scalară a acestei operaţiuni este:

, 1, 1, ; 0,1, ,m l m l m m m la a a l m

(5.54)

unde ,m la este coeficientul l al filtrului erorii de predicţie înainte de ordinul m şi

similar pentru 1,m la care este coeficientul l al filtrului de ordinul 1m . Elementul

1,m m la

este coeficientul l al filtrului erorii de predicţie înapoi de ordinul 1m . De

remarcat că 1,0 1ma iar 1, 0m ma .

2. Coeficienţii filtrului de eroare de predicţie înapoi sunt calculaţi recursiv cu ecuaţia:

1

1

0

0

mB

m mB

m

aa

a (5.55)

versiunea scalară fiind:

, 1, 1, ; 0,1, ,m m l m m l m m la a a l m

(5.56)

unde ,m m la

este coeficientul l al filtrului de eroare de predicţie înapoi de ordinul

m , celelalte elemente fiind definite anterior.

Pentru a stabili condiţiile pe care constanta m trebuie să le satisfacă, se parcurg cele

patru etape care urmează:


1. Se înmulţeşte ecuaţia (5.53) cu 1mR , matricea de corelaţie de dimensiune

1 1m m a intrărilor , 1 , ,u n u n u n m . Pentru membrul stâng al

ecuaţiei (5.53) se obţine, în conformitate cu (5.14):

1

m

m m

m

P

R a0

(5.57)

Indicii matricii 1mR şi ai vectorului

m0 se referă la dimensiunile lor, în timp ce

indicii vectorului ma şi ai scalarului

mP (puterea erorii de predicţie) se referă la

ordinul predicţiei.

2. Pentru primul termen din membrul drept al ecuaţiei (5.53) se utilizează partiţia

matricii de corelaţie 1mR de forma:

10

B

m m

m BT

m r

R rR

r

unde B

mr este vectorul de intercorelaţie a intrărilor , 1 , , 1u n u n u n m

cu u n m . Se scrie:

11 1

1

-10 00

B

m mm mm m

m BTBT

m mm r

R aa aR rR

r ar (5.58)

Setul de ecuaţii extinse Wiener-Hopf pentru filtrul erorii de predicţie înainte de

ordinul 1m este:

1

1

1

m

m m

m

P

R a0

(5.59)

unde 1mP este puterea erorii de predicţie a acestui filtru. Se defineşte scalarul:

1

1 1 1,

0

mBT

m m m m l

l

r l m a

r a (5.60)

Înlocuind ecuaţiile (5.59) şi (5.60) în ecuaţia (5.58), se obţine:

1

1

1 1

1

0

m

m

m m

m

P

aR 0 (5.61)

3. Pentru cel de-al doilea termen din membrul drept al ecuaţiei (5.53) se utilizează o

altă partiţie a lui 1mR :

1

0 H

m

m

m m

r

rR

r R


unde mr este intercorelaţia vectorului 1n u cu u n . Se poate scrie prin urmare:

1

1

1 1 1

0 00 H H B

m m m

m B B Bm mm m m m

r

r r aR

a ar R R a (5.62)

Scalarul 1

H B

m m

r a este egal cu:

1

1 1, 1, 1

1 0

m mH B

m m m m k m l m

k l

r k a r l m a

r a (5.63)

De asemenea, setul de ecuaţii Wiener-Hopf extinse pentru filtrul erorii de predicţie

înapoi de ordinul 1m este:

1

1

1

mB

m m

mP

0R a (5.64)

Înlocuind ecuaţiile (5.63) şi (5.64) în (5.62), se scrie:

1

1 1

1

1

0m

m mB

m

mP

R 0a

(5.65)

4. Însumând rezultatele obţinute la paşii 1, 2, 3 şi anume, ecuaţiile (5.57), (5.61) şi

(5.65) se ajunge la observaţia că multiplicând ambii termeni ai ecuaţiei (5.53) cu

matricea 1mR se obţine:

1 1

1 1

1 1

m m

m

m m m

m

M m

PP

P

0 00

(5.66)

În concluzie, dacă relaţia de recursie (5.53) este corectă, atunci ecuaţia (5.66) este un

rezultat direct al acestei recursii. Invers, dacă condiţiile descrise de ecuaţia (5.66) se aplică,

vectorul coeficienţilor filtrului erorii de predicţie înainte, poate fi calculat ca în ecuaţia

(5.53).

Din ecuaţia (5.66) se pot trage două concluzii importante:

1. Din prima linie a vectorilor ecuaţiei (5.66) rezultă:

1 1m m m mP P

(5.67)

2. Din ultima linie a vectorilor din ecuaţia (5.66) se scrie:

1 10 m m mP (5.68)

Rezultă imediat valoarea constantei m :

1

1

mm

mP

(5.69)


unde 1m este definită prin ecuaţia (5.60). Mai mult

1m se poate elimina între ecuaţiile

(5.67) şi (5.68), furnizând relaţia de calcul prin recursie al puterii erorii de predicţie:

2

1 1m m mP P (5.70)

Pe măsură ce ordinul m al filtrului erorii de predicţie creşte, valoarea corespunzătoare a

puterii erorii de predicţie descreşte sau rămâne aceeaşi. Bineînţeles, mP nu poate fi negativă

şi astfel întotdeauna:

10 , 1m mP P m (5.71)

În cazul elementar al filtrului erorii de predicţie de ordinul 0:

0 0P r

unde 0r este funcţia de autocorelaţie a intrării pentru întârziere nulă. Se poate acum,

aplicând repetat ecuaţia (5.70) şi pornind de la relaţia de mai sus, determina puterea erorii de

predicţie pentru ordinul M:

2

01

1M

M mm

P P

(5.72)

5.4.2 Interpretări ale parametrilor m şi

1m

Parametrii m , 1 m M , ce rezultă din aplicarea recursiei Levinson-Durbin unui filtru al

erorii de predicţie de ordinul final M sunt denumiţi coeficienţi de reflexie. Utilizarea

termenului vine de la analogia ecuaţiei (5.70) cu teoria liniilor de transmisie unde m poate

fi considerat coeficient de reflexie la graniţa dintre două secţiuni cu impedanţe caracteristice

diferite. De observat condiţia asupra coeficientului de reflexie care rezultă din (5.71):

1,m m (5.73)

Din ecuaţia (5.54) se observă că pentru un filtru al erorii de predicţie de ordinul m ,

coeficientul m este egal cu ultimul coeficient al filtrului, ,m ma :

,m m ma (5.74)

În ceea ce priveşte parametrul 1m , el poate fi interpretat ca intercorelaţia dintre

eroarea de predicţie înainte 1mf n şi eroarea de predicţie înapoi întârziată 1 1mb n .

Pornind de la definiţii şi utilizând principiul ortogonalităţii, se poate scrie (vezi Exemplul

5.3):

1 1 11m m mE b n f n

(5.75)

unde 1mf n se produce la ieşirea filtrului erorii de predicţie înainte de ordinul 1m ca

răspuns la secvenţa de intrare , 1 , , 1u n u n u n m iar 1 1mb n se produce la

ieşirea filtrului erorii de predicţie înapoi ca răspuns la secvenţa 1 , ,u n u n m .


De subliniat că:

0 0f n b n u n

unde u n este intrarea filtrului erorii de predicţie la momentul n . Prin urmare, din ecuaţia

(5.75) se poate stabili că 0 are valoarea:

0 0 01 1 1E b n f n E u n u n r

Cunoscând 0 şi

0P , se poate calcula, folosind relaţiile de recurenţă (5.69) şi (5.70),

coeficientul 1 :

201 1 0 1

0

0; 1

1

rP P

P r

şi aşa mai departe până la ordinul M . Coeficienţii 1m se calculează cu formula de

definiţie (5.60) şi, utilizând relaţiile de recurenţă, se pot calcula succesiv mP ,

m şî ma

pornind de la 0m .

Ecuaţiile (5.69) şi (5.70) se pot utiliza pentru a dezvolta o interpretare diferită a para-

metrului m . În particular, întrucât

1mP poate fi văzut drept valoarea medie pătratică a ero-

rii de predicţie înainte 1mf n , se poate scrie

1 1

2

1

1m m

m

m

E b n f n

E f n

(5.76)

Membrul drept al ecuaţiei (5.76), cu excepţia unui semn, poartă numele de coeficient de

corelaţie parţială (PARCOR), terminologie larg utilizată în literatura de specialitate.

5.4.3 Implementarea algoritmului

Tabelul 5.2 prezintă o implementare a algoritmului (Ciochină şi Negrescu 1999). În această

abordare, sunt utilizate succesiv ecuaţiile (5.69), (5.70), (5.74), (5.54) şi (5.60).

Dacă rezolvarea matricială a ecuaţiilor Wiener-Hopf necesită un număr de operaţii

matematice proporţional cu 3M , în cazul algoritmului Levinson-Durbin, în pasul m sunt

efectuate:

1 (o) împărţire,

2 1m înmulţiri,

2m adunări.

Întregul algoritm necesită 2

12 2 3

M

mm M M

înmulţiri / împărţiri şi

2

12

M

mm M M

adunări. Timpul total de calcul este proporţional cu 2M .


Exemplul 5.3: Să se demonstreze că 1m este egală cu intercorelaţia dintre

eroarea de predicţie înapoi întârziată 1 1mb n şi eroarea de predicţie înainte

1mf n .

Soluţie: Este simplu de observat că:

1 1 11m m mE b n f n E u n m f n

pentru că 1

1 ,

1

1m

m b k

k

b n u n m w u n k

,

iar, în conformitate cu principiul ortogonalităţii:

1 0, 0,1, , 1mE u n k f n k n m

De asemenea, eroare de predicţie înainte poate fi scrisă ca:

1 1 1 m-1 1 fH T H

m m m mf n n n n n

a u u a u a

Prin urmare:

1 1

1 11 1 q.e.d

H

m m

BT

m m m

E u n m f n E u n m n

r m r m r

u a

a r a

Exemplul 5.4: Se dau coeficienţii 3,1 3,2 3,3, ,a a a ai unui filtru al erorii de predicţie

de ordinul 3. Să se determine coeficienţii de reflexie corespunzători 1 2 3, , .

Tabelul 5.2 Implementarea algoritmului

Levinson-Durbin.


Este vorba de a stabili aşa-numitul algoritm Levinson-Durbin invers. În general, se

porneşte de la valorile coeficienţilor filtrului ,1 ,2 ,, , ,M M M Ma a a şi se calculează coeficienţii

de reflexie 1 2, , , M . Evident, ,0 1Ma . Pentru rezolvare, se combină ecuaţiile (5.54)

şi (5.56) ce reprezintă versiunile scalare ale recursiei Levinson-Durbin pentru filtrele de

eroare de predicţie înainte respectiv înapoi:

, 1,

, 1,

1, 0,1, ,

1

m k m km

m m k m m km

a ak m

a a

(5.77)

unde ordinul este 1,2, ,m M . Presupunând că 1m , soluţia pentru coeficientul

1,m ka este:

, , ,

1, 2

,

; 0,1, ,1

m k m m m m k

m k

m m

a a aa k m

a

(5.78)

unde s-a utilizat ,m m ma .

Procedura de calcul porneşte de la setul de coeficienţi ,M ka pentru care filtrul erorii de

predicţie are ordinul M . Se utilizează ecuaţia (5.78) recursiv pentru ordine descrescătoare

ale filtrului: , 1, ,2m M M . În final, se utilizează pentru a determina coeficienţii de

reflexie, relaţia:

, , , 1, ,1m m ma m M M

Soluţie:

a. Filtrul erorii de predicţie de ordinul 2 ( 3m ):

3,1 3,3 3,2 3,2 3,3 3,1

2,1 2,22 2

3,3 3,3

;1 1

a a a a a aa a

a a

b. Filtrul erorii de predicţie de ordinul 1 ( 2m ):

2,1 2,2 21

1,1 2

2,21

a a aa

a

c. Coeficienţii de reflexie sunt, prin urmare:

3 3,3 2 2,2 1 1,1, ,a a a

unde 3,3a este dat iar 2,2a şi 1,1a sunt calculaţi mai sus.

Exemplul 5.5: Să se calculeze prin algoritmul Levinson-Durbin coeficienţii de

reflexie ai unui predictor de ordinul 3, din valorile funcţiei de autocorelaţie:

0 1; 1 0,75; 2 0,5; 3 0,25r r r r . Ecuaţia Wiener-Hopf este:


,1

,2

,3

1 0,75 0,5 0,75

0,75 1 0,75 0,5

0,5 0,75 1 0,25

f

f

f

w

w

w

Soluţie: Se aplică algoritmul Levinson-Durbin din Tabelul 5.2.

a. Iniţializare: 0 00 1; 1 0,75P r r

b. Predictorul de ordinul I:

201 1 0 1

0

1,0 1,1 1

1 1,0 1,1

3 7; 1

4 16

31;

4

12 1

16

P PP

a a

a r a r

c. Predictorul de ordinul II:

212 2 1 2

1

2,0 2,1 1,1 2 1,1 2,2 2

2 2,0 2,1 2,2

1 3; 1

7 7

6 11; ;

7 7

13 2 1

14

P PP

a a a k a a

a r a r a r

d. Predictorul de ordinul III:

223 3 2 3

2

3,0 3,1 2,1 3 2,2 3,2 2,2 3 2,1 3,3 3

1 5; 1

6 12

5 11; ; 0 ;

6 6

P PP

a a a a a a a a

5.5 Algoritmul Schür

Spre deosebire de algoritmul Levinson-Durbin, algoritmul Schür calculează doar coeficienţii

de reflexie m ai filtrului erorii de predicţie, nu şi ponderile acestuia, , ,,m k m ka c . Prin urma-

re, este normal ca algoritmul Schür să ofere problemei de determinare a filtrului predictor o

soluţie mai eficientă (Ciochină şi Negrescu 1999, Manolakis, ş.a. 2005).

Definim secvenţa ,f my i obţinută prin convoluţia coeficienţilor filtrului erorii de

predicţie înainte de ordinul m ce are ponderile ,m ka cu secvenţa de autocorelaţie r i :

, ,

0

m

f m m k

k

y i a r i k

(5.79)

5.5 Algoritmul Schür 137

Pe de altă parte, ecuaţia Wiener-Hopf extinsă (5.17) a filtrului erorii de predicţie înainte se

poate scrie în formele

,

1

, 1, 2, ,m

m k

k

a r i k r i i m

(5.80)

,

0

0, 1, 2, ,m

m k

k

a r i k i m

(5.81)

Comparând rezultatele din (5.79), (5.80) şi (5.81) se observă că:

, 0, 1, 2, ,f my i i m (5.82)

şi, de asemenea ,

0

0, 1, 2, ,m

m k

k

a r i k i m

(5.83)

În cazul filtrului erorii de predicţie înapoi de ordinul m având coeficienţii notaţi prin

,m kc , se defineşte similar secvenţa ,b my i :

, ,

0

m

b m m k

k

y i c r i k

(5.84)

Pe de altă parte, după cum s-a stabilit în (5.40)

*

, ,m k m m kc a

ceea ce are drept consecinţă faptul că:

*

, ,b m f my i y m i (5.85)

Ca în (5.82) şi în (5.83) rezultă proprietăţi echivalente pentru secvenţa ,b my i

, 0, 0,1, , 1b my i i m (5.86)

,b m my m P (5.87)

Facem în continuare apel la relaţiile de recurenţă (5.54) şi (5.56) pe care le rescriem

pentru simplificare, în cele ce urmează

, 1, 1, 1

*

, 1, 1, 1

m k m k m m k

m k m m k m k

a a c

c a c

Relaţii de recurenţă asemănătoare se pot scrie şi pentru secvenţele ,f my i şi ,b my i :

, , 1 , 1 1f m f m m b my i y i y i (5.88)

*

, , 1 , 1 1b m m f m b my i y i y i (5.89)

Pe de altă parte, condiţiile iniţiale pentru relaţiile de recurenţă (5.88) şi (5.89) sunt:

,0 ,0f by i y i r i (5.90)


În sfârşit, coeficienţii de reflexie m pot fi calculaţi recursiv dacă se face apel pentru

momentul m la relaţia de recurenţă (5.88) şi la proprietatea (5.82)

, , 1 , 1 1 0f m f m m b my m y m y m (5.91)

Prin urmare:

, 1

, 1 1

f m

m

b m

y mk

y m

(5.92)

Algoritmul Schür calculează recursiv coeficienţii de reflexie ai predictorului optim,

făcând apel la valorile funcţiei de autocorelaţie şi la relaţiile (5.90),(5.91), (5.92), (5.88) şi

(5.89). El este prezentat în Tabelul 5.3. Parcurgerea unui ciclu al algoritmului presupune

efectuarea următoarelor operaţiuni matematice (Ciochină şi Negrescu 1999):

O împărţire pentru calculul lui m ;

M m înmulţiri şi M m adunări în primul ciclu după i ;

1M m înmulţiri şi 1M m adunări în al doilea ciclu după i .

Într-un ciclu sunt 2 2 2M m înmulţiri/împărţiri şi 2 2 1m M adunări, ceea ce face în

total 2M M înmulţiri/împărţiri şi 2M adunări.

Modalitatea de organizare practică a algoritmului este următoarea:

Se iniţializează algoritmul. Se constituie „matricea generatoare”:

Tabelul 5.3 Implementarea algoritmului Schür.

5.5 Algoritmul Schür 139

0

0 1 2

0 1 2

r r r M

r r r r M

G (5.93)

Se deplasează spre dreapta cu o unitate, linia a doua a matricii 0G

'

0

0 1 2

0 0 1 1

r r r M

r r r M

G (5.94)

Raportul cu semn schimbat al elementelor de pe coloana a doua stabileşte valoarea

coeficientului de reflexie 1 .

Se constituie matricea

1

1 *

1

1

1

K (5.95)

Se calculează

,1 ,1' '

1 1 0

,1 ,1 ,1

0 0 2

0 1 2

f f

b b b

y y M

y y y M

G K G (5.96)

unde s-a avut în vedere relaţiile de recurenţă şi faptul că ,1 1 0fy .

În continuare se repetă ultimele trei operaţii.

Exemplul 5.6: Să se calculeze prin algoritmul Schür coeficienţii de reflexie ai

unui predictor de ordinul 3. Valorile funcţiei de autocorelaţie sunt: 0 1;r

1 0,75; 2 0,5; 3 0,25r r r .

Soluţie: Se constituie matricile 0G şi '

0G

'

0 0

0 0,75 0,5 0,25 0 0,75 0,5 0,25,

1 0,75 0,5 0,25 0 1 0,75 0,5

G G

Rezultă: 1 1

1 0,750,75 3,

0,75 11 4

K

Se reia calculul pentru 1m

' '

1 1 0 1

2 2

0 0 1 16 1 8 0 0 1 16 1 8,

0 7 16 3 8 5 16 0 0 7 16 3 8

1 1 71 161 7 ,

1 7 17 16

G K G G

K

Pentru 2m

' '

2 2 1 2

0 0 0 1 14 0 0 0 1 14,

0 0 3 7 5 14 0 0 0 3 7

G K G G


3

1 141 6

3 7

5.6 Proprietăţile filtrelor erorii de predicţie

Proprietatea 1. Echivalenţa dintre funcţia de autocorelaţie şi coeficienţii

de reflexie. Există o corespondenţă strictă între valorile coeficienţilor de reflexie

ai unui filtru al erorii de predicţie şi valorile funcţiei de corelaţie, în sensul că

dacă se cunoaşte una dintre ele, cea de a doua poate fi determinată în mod unic

într-o manieră recursivă.

Valorile funcţiei de autocorelaţie sau transformata sa Fourier - densitatea spectrală de putere

- reprezintă o modalitate obişnuită de a reprezenta statistic un proces aleator staţionar în sens

larg. Afirmaţia din titlu se referă la faptul că setul de valori ale coeficienţilor de refle-

xie 0 1 20 , , , , MP r ai unui filtru de eroare de predicţie de ordinul M determină în

mod unic setul corespunzător de valori ale funcţiei de autocorelaţie 0 , 1 , ,r r r M şi

viceversa.

Pentru a demonstra această echivalenţă, vom începe prin a elimina 1m între ecuaţiile

(5.60) şi (5.68). Se obţine:

1

1, 1

0

m

m k m m

k

a r k m P

(5.97)

În (5.97) înlocuim r m r m şi avem în vedere că 1,0 1ma , ceea ce conduce la rela-

ţia de recursie

1

*

1 1.

1

m

m m m k

k

r m P a r m k

(5.98)

Prin urmare, dacă se dă setul de numere 1 20 , , , , Mr , prin utilizarea relaţiei (5.98)

împreună cu ecuaţiile de recursie Levinson-Durbin (5.54) şi (5.70) , se poate genera recursiv

setul de numere care le corespunde: 0 , 1 , ,r r r M .

Vom presupune, în continuare, că este dat setul de valori ale funcţiei de autocorelaţie

1 , ,r r M . Atunci se poate calcula recursiv setul corespunzător de numere 1 2, ,

, M prin utilizarea relaţiei:

1

1,

01

1 m

M m k

km

a r k mP

(5.99)

Ultima relaţie se obţine prin rezolvarea ecuaţiei (5.97) pentru m . În ecuaţia (5.99) se presu-

pune că 1mP este nenul. Dacă 1mP este nul, din (5.70) rezultă că 1 1m , iar secvenţa

coeficienţilor de reflexie 1 2 1, , , m este terminată.

5.6 Proprietăţile filtrelor erorii de predicţie 141

Proprietatea 2. Legătura dintre funcţia de transfer a filtrului erorii de

predicţie şi coeficienţii de reflexie. Fiind dat coeficientul de reflexie m şi funcţii-

le de transfer de ordinul 1m ale filtrelor erorii de predicţie înainte şi înapoi,

funcţiile de transfer corespunzătoare de ordinul m ale filtrelor erorii de predicţie

sunt unic determinate.

Vom nota prin ,f mH z , respectiv ,b mH z funcţiile de transfer ale filtrelor erorii de

predicţie înainte şi înapoi de ordinul m . Acestea se obţin prin aplicarea transformatei Z

răspunsului la impuls al acestor filtre:

, , , , ,

0 0 0

,m m m

k k k

f m m k b m m k m m k

k k k

H z a z H z c z a z

(5.100)

Pe baza recursiei Levinson-Durbin exprimată prin ecuaţiile (5.54) şi (5.56), coeficienţii

filtrului de ordinul m se pot exprima în funcţie de cei ai filtrelor de ordinul 1m :

, 1, 1,

0 0

-1 11

-1, 1, 1

0 0

=

m mk k

f m m k m m m k

k k

m mk k

m k m m m k

k k

H z a z a z

a z z a z

(5.101)

unde, în linia a doua s-a utilizat faptul că 1, 0m ma . Secvenţa de numere 1. , 0,1,m ka k

, 1m defineşte răspunsul la impuls al unui filtru al erorii de predicţie înainte de ordinul

1m , iar secvenţa 1, 1 , 0,1, , 1m m ka k m defineşte răspunsul la impuls al unui filtru al

erorii de predicţie înapoi de acelaşi ordin. Înlocuind funcţiile menţionate în (5.101), se scrie:

1

, , 1 , 1f m f m m b mH z H z z H z

(5.102)

Similar, se scrie relaţia de recurenţă pentru filtrul erorii de predicţie înapoi de ordinul m :

1

, , 1 , 1b m f m m b mH z z H z H z

(5.103)

Proprietatea 3. Dacă procesul u n este staţionar, filtrul erorii de predicţie

înainte este de fază minimă iar filtrul erorii de predicţie înapoi este de fază

maximă.

Un filtru de fază minimă are toate zerourile situate în interiorul cercului 1z , iar filtrul de

fază maximă are toate zerourile în exteriorul cercului 1z (vezi Capitolul 2). Având în

vedere definiţiile funcţiilor de transfer ale celor două filtre făcute în (5.100) şi proprietatea

(5.40), este simplu de arătat că între funcţiile de transfer ale celor două filtre se stabileşte

relaţia

, ,

1( ) m

b m f mH z z Hz

(5.104)

În conformitate cu (5.104), zerourile filtrului erorii de predicţie înapoi sunt simetrice în

raport cu circumferinţa cercului de rază unitate cu zerourile filtrului erorii de predicţie


înainte. Drept urmare, este suficient să se demonstreze prima parte a proprietăţii pentru că

cea de a doua rezultă automat din (5.104)

Nu vom face aici demonstraţia proprietăţii, întrucât aceasta depăşeşte cadrul lucrării.

Cei interesaţi pot consulta demonstraţia ingenioasă din Vaidyanathan, ş.a. (1997) reluată şi

în Manolakis, ş.a. (2005).

Proprietatea 4. Filtrul erorii de predicţie înainte are proprietatea de „a albi” un

proces stochastic staţionar în timp discret, cu condiţia ca ordinul filtrului să fie

suficient de mare.

Putem justifica această proprietate dacă ne referim la afirmaţia făcută în paragraful 5.1.3 cu

privire la faptul că generarea unui proces staţionar pornind de la zgomot alb şi utilizând un

model AR pe de o parte, şi predicţia lineară a aceluiaşi proces pe de alta, sunt două operaţii

inverse, una în raport cu cealaltă. Consecinţa este că, dacă ordinul filtrului erorii de predicţie

este, cel puţin, egal cu cel al procesului AR, atunci procesul aleator de la ieşirea filtrului va fi

necorelat, adică zgomot alb.

Dintr-un alt punct de vedere, procesul de predicţie se bazează pe prezenţa corelaţiei

dintre eşantioanele adiacente ale procesului de intrare. Implicaţiile acestei observaţii este că,

pe măsură ce ordinul filtrului erorii de predicţie creşte, succesiv se reduce corelaţia dintre

eşantioanele adiacente ale procesului de intrare, până când se ajunge la punctul în care filtrul

are un ordin suficient de mare pentru ca ieşirea sa să fie alcătuită dintr-o secvenţă de

eşantioane necorelate.

5.7 Structuri lattice pentru filtrele de

eroare de predicţie

Structura lattice (în traducere românească zăbrele) reprezintă o modalitate eficientă şi

modulară de implementare sub forma unei reţele a predicţiei lineare. Un predictor lattice

constă din conexiunea în cascadă a unor etaje elementare de structură tip lattice. Numărul de

etaje este egal cu ordinul de predicţie.

5.7.1 Ortogonalitatea erorilor de predicţie

Să considerăm o „baterie” de filtre ale erorii de predicţie înapoi de ordine de la 0 la M,

conectate în paralel ca în Figura 5.10. De observat că pentru predicţia de ordinul zero, filtrul

erorii se reduce la conexiunea directă. Vom nota prin 0 ,b n 1 , , Mb n b n , secvenţa

erorilor predicţiei înapoi produsă de aceste filtre. Aceste erori pot fi exprimate prin

intermediul secvenţei de intrare şi al coeficienţilor filtrelor de eroare astfel, vezi relaţia

(5.41)

0

1 1,1 1,0

2 2,2 2,1 2,0

1

1 2

b n u n

b n a u n a u n

b n a u n a u n a u n

5.7 Structuri lattice pentru filtrele de eroare de predicţie 143

, , 1 ,01M M M M M Mb n a u n a u n a u n M

Aceste 1M ecuaţii lineare se pot combina într-o singură ecuaţie matricială, sub

forma:

n nb Lu (5.105)

unde nu este vectorul de intrare de dimensiune 1 1M :

1T

n u n u n u n M u

iar nb este vectorul erorilor de predicţie înapoi de dimensiune 1 1M :

0 1

T

Mn b n b n b n b

Matricea coeficienţilor din membrul drept al ecuaţiei (5.105) are dimensiunea

1 1M M şi este dată de coeficienţii filtrelor de eroare de predicţie înapoi cu ordine

de la 0 la M, astfel:

1,1

, , 1

1 0 0

1 0

1M M M M

a

a a

L (5.106)

Matricea L are trei proprietăţi utile:

1. este inferior-triunghiulară, cu valoarea 1 de-a lungul diagonalei sale principale;

toate elementele sale deasupra diagonalei principale sunt nule.

2. determinantul matricii L este unitar, prin urmare este nesingular (este

inversabilă).

Figura 5.10 Set de filtre ale erorii de predicţie înapoi de

ordine cuprinse între 0 şi M, conectate în

paralel.


3. elementele nenule din fiecare linie a matricii L sunt, cu excepţia conjugării

complexe, egale cu coeficienţii filtrului erorii de predicţie al cărui ordin

corespunde cu poziţia acelei linii în matrice.

Din cele prezentate până acum, este evident că transformarea lineară (5.105) are toate

proprietăţile descompunerii inferior triunghiulară a vectorului de date nu , descompunere

prezentată în Capitolul 3. În contextul predicţiei lineare, transformarea (5.105) poartă nume-

le de algoritm de ortogonalizare Gram-Schmidt. În sens invers, fiind dat vectorul nb , se

poate obţine vectorul nu prin utilizarea inversei ecuaţiei (5.105):

1n nu L b (5.107)

Secvenţa de erori a predicţiei înapoi ce constituie elementele vectorului nb au o

proprietate importantă:

Şirul de erori de predicţie înapoi 0 1, , , Mb n b n b n este constituit din elemen-

te ortogonale unul în raport cu celălalt, după cum arată relaţia:

,

0,

m

m i

P i mE b n b n

i m

(5.108)

Pentru a demonstra proprietatea, vom presupune de la început că m i . În scopul

demonstrării relaţiei (5.108), începem prin a utiliza suma de convoluţie din (5.41) pentru a

exprima eroarea de predicţie ib n

,

0

i

i i i k

k

b n a u n k

În continuare, utilizăm această relaţie pentru a evalua autocorelaţia secvenţei ib n :

,

0

i

m i i i k m

k

E b n b n a E b n u n k

(5.109)

Conform principiului ortogonalităţii, media statistică din (5.109) este nulă atâta vreme cât

0 k i . Prin urmare, pentru m i şi 0 k i :

0,m iE b n b n m i

De asemenea, atunci când m i , ecuaţia (5.109) se reduce la

,m i m m mE b n b n E b n b n P m i

De subliniat că proprietatea este îndeplinită numai în condiţiile în care nu este un

proces aleator staţionar în sens larg. În concluzie, algoritmul Gram-Schmidt transformă

vectorul de intrare nu alcătuit din eşantioane corelate în vectorul nb al erorilor de

predicţie care sunt necorelate.


În sfârşit, exprimăm matricea de corelaţie a vectorului erorilor de predicţie înapoi nb

în funcţie de matricea de corelaţie 1mR a semnalului de intrare. În conformitate cu termino-

logia utilizată în legătură cu descompunerea LDU dezvoltată în Capitolul 3, matricea respec-

tivă este notată prin 1mD :

1

1

H H H

m

H H H

m

n n E n n

E n n

D E b b Lu u L

L u u L LR L (5.110)

Vom încheia prin două observaţii referitoare la matricea de corelaţie a erorilor de

predicţie înapoi:

1. Atunci când matricea 1mR a vectorului de intrare nu este pozitiv definită şi are

drept urmare inversă, matricea de corelaţie1mD a vectorului erorilor de predicţie

este, de asemenea, pozitiv definită şi inversabilă.

2. Matricea de corelaţie 1mD este diagonală, pentru că nb este alcătuit din elemen-

te care sunt ortogonale între ele. În particular, expresia lui 1mD este:

1 0 1diag , , ,m mP P P D (5.111)

unde iP este puterea medie a erorii de predicţie înapoi de ordinul i, ib n , adică:

2

, 0,1, ,i iP E b n i M

(5.112)

5.7.2 Recursii după ordin pentru erorile de predicţie

O posibilitate de a implementa algoritmul Gram-Schmidt din ecuaţia (5.105) care transfor-

mă vectorul de intrare nu în vectorul echivalent nb alcătuit din erori de predicţie neco-

relate este de a utiliza structura de calcul paralel din Figura 5.10. Calculul în paralel al erori-

lor este însă ineficient în condiţiile în care prin algoritmul Levinson-Durbin, calculul poate fi

realizat recursiv după ordinul erorii de predicţie, prin conectarea în cascadă a mai multor

structuri elementare de calcul denumite predictoare lattice şi care, fiecare în parte, realizea-

ză o recursie elementară de un ordin atât pentru eroarea de predicţie înainte cât şi pentru

eroarea de predicţie înapoi. Numele acestor structuri este dat de reprezentarea lor grafică

care aminteşte de structura de grinzi cu zăbrele. Numărul de etaje de predicţie lattice utiliza-

te egalează ordinul filtrului erorii de predicţie care se implementează.

Relaţiile intrare-ieşire care caracterizează un predictor lattice pot fi extrase din formula-

rea matriceală a algoritmului Levinson-Durbin dată prin ecuaţiile (5.53) şi (5.55). Reluăm

aceste ecuaţii aici:

1

1

0

0

m

m m B

m

aa

a (5.53)


1

1

0

0

mB

m mB

m

aa

a (5.55)

Să considerăm pentru început filtrul erorii de predicţie înainte de ordinul m cu vectorul

de intrare , 1 , ,u n u n u n m . Vectorul 1m nu poate fi partiţionat sub forma:

1

m

m

n

n

u n m

u

u (5.113)

sau, echivalent:

1

1

m

m

u n

n

n

u

u

(5.114)

În continuare formăm produsul scalar al vectorilor ma şi 1m nu :

1. Pentru membrul stâng al ecuaţiei (5.53):

1

H

m m mf n n a u (5.115)

unde mf n este eroarea de predicţie înainte produsă la ieşirea filtrului erorii de

predicţie înainte de ordinul m.

2. Pentru primul termen din membrul drept al ecuaţiei (5.53) utilizăm partiţia lui

1m nu din ecuaţia (5.113):

1 1 1

1 1

0 0

m

H H

m m m

H

m m m

n

n

u n m

n f n

u

a u a

a u

(5.116)

unde 1mf n este eroarea de predicţie înainte produsă la ieşirea filtrului erorii de

predicţie înainte de ordinul 1m .

3. Pentru a doua matrice din membrul drept al ecuaţiei (5.53) se utilizează partiţia lui

1m nu din ecuaţia (5.114):

1 1 10 1 1

1

BT BT

m m m m

m

u n

n b n

n

a a u

u

(5.117)

unde 1 1Mb n este eroarea de predicţie înapoi întârziată produsă la ieşirea

filtrului erorii de predicţie înapoi de ordinul 1m .

Combinând ultimele trei relaţii, se obţine:


1 1 1m m m mf n f n b n

(5.118)

În mod similar, actionând asupra ecuaţiei (5.55) se găseşte că:

1 11m m m mb n b n f n (5.119)

Ecuaţiile (5.118) şi (5.119) reprezintă perechea de ecuaţii de recursie după ordin care

caracterizează etajul m al predictorului lattice. Ele pot fi scrise într-un format matricial:

1

1

1 , 1,2,...,

11

m mm

m mm

f n f nm M

b n b n

(5.120)

Pentru a da o reprezentare grafică etajului de predicţie lattice, putem vedea 1 1Mb n

drept rezultat al aplicării operatorului de întârziere unitară asupra erorii de predicţie înapoi

1Mb n :

1

1 11m mb n z b n

(5.121)

Utilizarea ecuaţiilor (5.120) şi (5.121) conduce la reprezentarea etajului m al predictorului

lattice din Figura 5.11.

Pentru cazul elementar 0m , se scriu condiţiile iniţiale:

0 0f n b n u n (5.122)

unde u n este semnalul de intrare la momentul n . Prin urmare, pornind cu 0m şi

mărind progresiv ordinul filtrului se obţine modelul lattice echivalent prezentat în Figura

5.12 pentru un filtru de eroare de predicţie de ordinul M . Este nevoie doar de cunoaşterea

setului complet de coeficienţi de reflexie 1 2, , , M pentru a reprezenta filtrul.

Structura lattice a predictorului oferă următoarele avantaje:

1. Eficienţă. Atât eroarea de predicţie înainte cât şi cea de predicţie înapoi sunt genera-

te simultan.

2. „Decuplare” între etajele predictorului lattice pentru că erorile de predicţie produse

de etaje sunt ortogonale una pe cealaltă, aşa cum s-a arătat în paragraful 5.7.1.

Figura 5.11 Celula elementară a predictorului lattice.


3. Modularitatea structurii. Dacă problema o cere, se pot adăuga una sau mai multe

celule fără a fi afectate celulele anterioare.

5.8 Recursia lui Burg

Burg a propus o metodă de calcul recursiv care, spre deosebire de algoritmul

Levinson-Durbin nu necesită calculul intermediar al valorilor funcţiei de autocorelaţie.

Metoda calculează valorile coeficienţilor de reflexie pornind direct de la datele de intrare

(Burg 1968, McClellan 1988). În afara excepţiei menţionate, algoritmul Burg utilizează

aceiaşi manieră de recursie după ordin ca şi filtrele erorii de predicţie discutate anterior. Prin

urmare, filtrele erorii de predicţie ce utilizează algoritmul Burg, operează într-o structură de

tip lattice (Haykin 1996).

Considerăm etajul m al predictorului lattice din Figura 5.12. Relaţiile intrare-ieşire ale

acestuia sunt exprimate în format matricial de ecuaţia (5.120). Reluăm aici expandat aceste

relaţii:

1 1 1m m m mf n f n b n

(5.118)

1 11m m m mb n b n f n (5.119)

unde 1,2, ,m M , M fiind ordinul final al predictorului.

Coeficientul de reflexie m al etajului lattice m este astfel ales încât să minimizeze

funcţia de cost mJ calculată prin însumarea mediilor statistică a semnalelor de eroare de

predicţie de la ieşirea etajului m a predictorului lattice:

2 2

m m mJ E f n E b n

(5.123)

Înlocuind relaţiile (5.118) şi (5.119) în (5.123) se obţine:

2 2 2

1 1

1 1 1 1

1 1

2 1 2 1

m m m m

m m m m m m

J E f n E b n

E f n b n E f n b n

(5.124)

În general, coeficientul de reflexie este o mărime complexă m m mj . Vom dife-

renţia funcţia de cost mJ în raport atât cu partea reală cât şi cea imaginară a lui m pentru a

obţine gradientul complex al acesteia

Figura 5.12 Structura modulară a unui predictor lattice de ordin m.

5.8 Recursia lui Burg 149

2 2

1 1 1 12 1 4 1

m mm

m m

m m m m m

J JJ

E f n E b n E f n b n

(5.125)

Egalând acest gradient cu zero, vom determina valoarea optimă a coeficientului de reflexie

care minimizează funcţia de cost mJ :

1 1

, 2 2

1 1

2 1, 1,2, ,

1

m m

m o

m m

E f n b nm M

E f n b n

(5.126)

Ecuaţia (5.126) pentru coeficientul de reflexie este cunoscută sub numele de formula Burg.

Utilizarea sa oferă două proprietăţi interesante:

1. Coeficientul de reflexie ,m o satisface condiţia

, 1m o m (5.127)

Cu alte cuvinte, formula Burg furnizează întotdeauna o structură de filtru de fază

minimă pentru predictorul lattice.

2. Valorile medii pătratice ale erorilor de predicţie înainte şi înapoi la ieşirea etajului m

sunt legate de erorile de predicţie aplicate la intrarea etajului astfel:

22 2

, 11m m o mE f n E f n

(5.128)

şi 22 2

, 11 1m m o mE b n E b n

(5.129)

Formula Burg, aşa cum este descrisă de relaţia (5.126), presupune utilizarea mediilor pe

ansamblu. Presupunând că procesul de intrare u n este ergodic, mediile pe ansamblu pot fi

înlocuite prin medii temporale. Se ajunge astfel la estimatorul Burg al coeficientului de

reflexie al etajului m al predictorului lattice

1 1

1

2 2

1 1

1

2 1

ˆ , 1,2,

1

N

m m

n mm N

m m

n m

b n f n

m M

f n b n

(5.130)

unde N este lungimea blocului de date de intrare iar 0 0f n b n u n . Conform ultimei

relaţii, calitatea estimării lui ˆm este dependentă de lungimea blocului de date.

Algoritmul Burg necesită un volum mare de calcul şi de memorie. Această abordare nu

asigură o modalitate simplă de a exprima coeficientul de reflexie la momentul n+1 de

valoarea sa la momentul anterior n. Acest tip de comportare contrastează cu procedurile de

estimare adaptivă descrise în capitolele următoare, şi care se remarcă prin număr mic de


operaţii matematice, volum de memorie redus şi formule de recursie după timp extrem de

convenabile.

Probleme

P 5.1 Se consideră procesul staţionar în sens larg u n caracterizat prin următoarele

valori ale funcţiei de autocorelaţie:

0 1, 1 0,8, 2 0,6, 3 0,4r r r r

(a) Folosiţi recursia Levinson-Durbin pentru a evalua coeficienţii de reflexie 1 ,

2 şi

3

(b) Implementaţi un predictor de tip lattice cu trei celule elementare, folosind valorile

coeficienţilor de reflexie găsiţi la punctul anterior.

(c) Evaluaţi puterea medie a erorii de predicţie la ieşirea fiecărei celule din acest

predictor. Trasaţi apoi un grafic al puterii erorii de predicţie în funcţie de ordinul

predicţiei. Comentaţi rezultatelor obţinute.

P 5.2 Se consideră structura de filtrare din Figura 5.13 în care întârzierea este un

număr întreg mai mare decât unu. Se cere să se aleagă vectorul coeficienţilor

filtrului FIR, w astfel încât să minimizeze valoarea pătratică medie a erorii de

estimare e n . Să se determine valoarea optimă a lui nw .

P 5.3 Se consideră predicţia liniară a unui proces autoregresiv staţionar u n , generat

de ecuaţia cu diferenţe finite de ordinul I:

0.9 1u n u n v n

unde v n este un proces de zgomot alb cu media nulă şi dispersia unitară.

Ordinul de predicţie este doi.

(a) Determinaţi coeficienţii filtrului erorii de predicţie înainte 2,1a şi 2,2a .

(b) Determinaţi coeficienţii de reflexie 1 şi 2 ai predictorului lattice corespunzător.

Comentaţi rezultatele obţinute.

P 5.4 Vectorul nu este caracterizat prin următoarele valori ale funcţiei de autocore-

Figura 5.13 Structura de filtrare din problema P 5.2.

PREDICŢIA LINEARĂ Probleme 151

laţie: 0 1, 1 0,8, 2 0,4, 3 0,1r r r r . Se doreşte realizarea predicţiei

eşantionului curent u n pe baza eşantioanelor anterioare.

(a) Să se determine filtrul de predicţie optimal cu un singur coeficient.

(b) Să se determine filtrul de predicţie optimal cu doi coeficienţi.

(c) Să se determine filtrul de predicţie optimal cu trei coeficienţi.

(d) Utilizând rezultatele de la punctele anterioare să se determine EPM minimă, iP

pentru fiecare filtru. Se consideră 2 1d .

P 5.5 Utilizaţi algoritmul Levinson-Durbin pentru a rezolva sistemul de ecuaţii

0

1

2

3

1,0 0,8 0,5 0,2 0,8

0,8 1,0 0,8 0,5 0,5

0,5 0,8 1,0 0,8 0,2

0,2 0,5 0,8 1,0 0

w

w

w

w

P 5.6 Consideraţi procesul AR(1) 1u n u n v n , unde v n este zgomot alb de

medie nulă şi varianţă 2

v iar 1 1 .

(a) Determinaţi matricea de corelaţie a procesului, 1M R .

(b) Determinaţi predictorul linear înainte de ordinul M, utilizând algoritmul Levinson-

Durbin.

P 5.7 Dacă 0cosr l l , determinaţi filtrul erorii de predicţie de ordinul doi şi

verificaţi dacă este un filtru de fază minimă.

P 5.8 Consideraţi o secvenţă aleatoare cu funcţia de autocorelaţie 0 1; 1 0,8;r r

2 0,6; 3 0,4r r .

(a) Determinaţi coeficienţii filtrului erorii de predicţie înainte ma şi valoarea minimă a

erorii de predicţie înainte mP pentru 0,1,2,3m .

(b) Determinaţi şi reprezentaţi structura lattice a filtrului erorii de predicţie de ordinul

trei.

P 5.9 Fiind dată secvenţa de autocorelaţie 0 1; 1 2 0,5; 3 0,25r r r r ,

calculaţi coeficienţii structurii lattice a filtrului erorii de predicţie prin utilizarea

algoritmului Schür.

P 5.10 Problema îşi propune să stabilească prin predicţie lineară un model AR(2) pentru

un semnal sinusoidal cu fază aleatoare înecat în zgomot aditiv. Secvenţa de autoco-

relaţie este dată de relaţia

2

0 0cos vr l P l l

unde l este impulsul unitate.


(a) Să se determine parametrii modelului 2,0 2,1 2,2, ,a a a şi 2

w în funcţie de 0 0,P şi

2

v .

(b) Să se determine coeficienţii de reflexie ai modelului lattice al procesului.

(c) Care sunt valorile limită ale coeficienţilor structurii directe de filtrare şi ai modelu-

lui lattice atunci când 2 0v .

P 5.11 Consideraţi un filtru al erorii de predicţie specificat prin 2

3 015 16 , 1 4,P

1 21 2, 1 4 .

(a) Determinaţi coeficienţi filtrului FIR corespunzător.

(b) Determinaţi valorile funcţiei de autocorelaţie 1 , 2r r şi 3r .

(c) Determinaţi valoarea 4r astfel încât valoarea minimă a pătratului erorii de

predicţie 4P a filtrului de predicţie de ordinul patru corespunzător să fie minim

posibilă.

P 5.12 Consideraţi procesul AR definit prin ecuaţia cu diferenţe finite

0,7 1 0,66 2 0,432 3u n u n u n u n v n

unde v n este un proces de zgomot alb de medie nulă şi varianţă unitară.

(a) Determinaţi funcţia de sistem H z care leagă u n de v n .

(b) Arătaţi că polii lui H z sunt 0,9; -0,8; şi 0,6.

(c) Determinaţi puterea lui u n .

(d) Determinaţi coeficienţi de reflexie ai lui u n : 1 2 3, şi .

(e) Determinaţi puterile erorii de predicţie ale lui u n : 1 2 3, P P şi P .

(f) Ce se poate spune despre valorile lui m mşi P pentru 4m .

6 Metode de gradient

n Capitolul 4 am stabilit că prin rezolvarea ecuaţiei Wiener-Hopf pot fi obţinute valorile

optimale ale coeficienţilor unui filtru Wiener transversal, cu condiţia cunoaşterii caracte-

risticilor statistice ale semnalelor de interes. Reamintim că soluţia ecuaţiei Wiener-Hopf

este obţinută prin minimizarea unei funcţii de cost care, de obicei, depinde printr-o expresie

pătratică de coeficienţii filtrului. O cale alternativă de a determina ponderile optime ale

filtrului transversal este de a utiliza un algoritm iterativ de căutare, care porneşte dintr-un

punct iniţial, ales arbitrar în spaţiul vectorului coeficienţilor filtrului, deplasându-se, prin paşi

progresivi, spre vectorul coeficienţilor optimi ai filtrului. Fiecare pas al algoritmului se efec-

tuează astfel încât să determine reducerea funcţiei de cost. Pentru o funcţie de cost convexă,

ceea ce se întâmplă în cazul unui filtru FIR, o asemenea procedură de găsire a minimului

converge în mod garantat către soluţia optimă. Principiul determinării vectorului optim al

coeficienţilor prin minimizarea progresivă a funcţiei de cost este fundamental în dezvoltarea

algoritmilor adaptivi, care fac obiectul următoarelor capitole ale cărţii. Prin urmare, o înţele-

gere aprofundată a metodelor iterative de căutare, atât din punctul de vedere a dezvoltării

lor, cât şi din cel a proprietăţilor de convergenţă pe care le au, este esenţială în studiul

algoritmilor adaptivi (Widrow şi Stearns 1985).

În acest capitol vom prezenta două metode de căutare iterativă bazate pe determinarea

gradientului funcţiei de cost, care permit stabilirea valorii coeficienţilor filtrului Wiener

transversal ce corespund minimului acestei funcţii. Aceste metode reprezintă versiuni ideali-

zate ale unei clase de algoritmi care, sub numele generic de algoritmi LMS vor fi introduşi

în capitolul următor. Vom presupune pe parcursul capitolului că sunt cunoscute à-priori

matricea de corelaţie a eşantioanelor de intrare precum şi vectorul de intercorelaţie dintre

semnalul dorit şi semnalul de intrare.

Prima metodă prezentată este denumită în limba engleză „Steepest Descent”, ceea ce se

traduce în română sub numele de metoda pantei descendente maxime. Pe lângă utilizarea

denumirii româneşti, vom folosi frecvent şi numele metoda SD, făcând apel la prescurtarea

denumirii din limba engleză. Conceptul care stă la baza acestei metode este simplu. Indife-

rent de punctul iniţial al suprafeţei de eroare din care se porneşte, algoritmul va face un pas

în direcţia pe care funcţia de cost descreşte cel mai rapid, adică pe direcţia pantei descenden-

te maxime, direcţie dată de gradientul la suprafaţa de eroare. De aici şi denumirea alternativă

Capitolul

6

Î

154 METODE DE GRADIENT - 6

pe care o are metoda SD: metoda gradientului. Repetând succesiv paşii de dimensiune

convenabilă făcuţi pe direcţia pantei descendente maxime, convergenţa metodei SD este

asigurată.

De multe ori metoda SD prezintă o convergenţă slabă şi lentă. Cea de a doua metodă

introdusă în acest capitol depăşeşte acest neajuns cu preţul unei complexităţi mai mari.

Cunoscută sub numele de metoda Newton, ea poate, cel puţin din punct de vedere teoretic,

să stabilească într-un singur pas poziţia minimului suprafeţei de eroare.

6.1 Metoda SD

6.1.1 Introducere

Considerăm filtrul transversal ce are drept intrări eşantioanele , 1 , ,u n u n

1u n M extrase dintr-un proces aleator stator staţionar în sens larg de medie nulă şi

matrice de corelaţie R . Setul corespunzător de coeficienţi ai filtrului transversal este:

0 1 1, , , Mw n w n w n . În plus, răspunsul dorit d n constituie un cadru de referinţă

pentru acţiunea de filtrare optimală. Figura 6.1 descrie configuraţia de filtrare utilizată.

Notăm prin nu vectorul eşantioanelor de la intrările filtrului din momentul n. Estima-

rea răspunsului dorit de la ieşirea filtrului este desemnată prin ˆnd n U , unde nU este

spaţiul subîntins de intrările , 1 , , 1u n u n u n M . Comparând această estimare

cu răspunsul dorit d n , se generează eroarea de estimare, e n :

ˆ H

ne n d n d n d n n n w uU (6.1)

unde termenul H n nw u este produsul scalar dintre vectorul coeficienţilor filtrului nw

şi vectorul semnalului de intrare nu :

0 1 1

T

Mn w n w n w n w (6.2)

şi 1 1T

n u n u n u n M u (6.3)

Figura 6.1 Structura filtrului transversal adaptiv.

6.1 Metoda SD 155

Dacă vectorul nu şi semnalul de referinţă d n sunt mutual staţionare, atunci

eroarea pătratică medie (EPM) sau funcţia de cost J n la momentul n are o dependenţă

pătratică de vectorul coeficienţilor filtrului, astfel că se poate scrie (ecuaţia (4.38)):

2 H H H

dJ n n n n n w p p w w Rw (6.4)

unde 2

d este varianţa răspunsului dorit d n , p este vectorul de intercorelaţie dintre

vectorul nu şi răspunsul dorit iar R este matricea de corelaţie a vectorului de intrare

nu .

Dependenţa EPM J n de elementele vectorului coeficienţilor nw poate fi vizuali-

zată printr-o suprafaţă în formă de cupă ce are un singur minim denumită suprafaţa de

eroare a filtrului adaptiv (vezi Figura 6.2 pentru cazul unui filtru transversal cu doi coefi-

cienţi). Procesul adaptiv are sarcina de a căuta continuu punctul de minim al acestei suprafe-

ţe. În punctul de minim al suprafeţei de eroare, vectorul coeficienţilor ia valoarea optimă

ow , definită de ecuaţiile Wiener-Hopf (4.28):

o Rw p (6.5)

Eroarea pătratică medie este egală cu (vezi ecuaţia (4.40)):

min

H

o oJ J 2

dw p w (6.6)

6.1.2 Descrierea metodei SD

Pentru a înţelege principiile care guvernează metoda SD, vom considera cazul unui filtru

FIR cu doi coeficienţi, a cărui suprafaţă de eroare este reprezentată în Figura 6.2.

Figura 6.2 Suprafaţa de eroare J nw a unui filtru transversal cu

doi coeficienţi: 0 1,w w .


Punctul iniţial al algoritmului sunt valorile coeficienţilor incluse în vectorul 0w .

Acestor valori le corespunde, conform suprafeţei reprezentate în Figura 6.2, o eroare EPM

de valoare 0 0J Jw . În punctul corespunzător al suprafeţei de eroare pătratică

medie, există o orientare specifică a suprafeţei ce poate fi descrisă prin derivatele

direcţionale ale suprafeţei în acest punct. Aceasta înseamnă că în punctul considerat, există o

pantă instantanee la suprafaţă care exprimă viteza şi direcţia după care suprafaţa are variaţie

maximă. Funcţia matematică corespunzătoare acestui vector de direcţie este gradientul

suprafeţei în punctul considerat, 0w J . În cazul nostru bidimensional, gradientul

funcţiei de eroare în punctul de coordonate se scrie astfel pentru un set de coeficienţi

complecşi ai filtrului:

0 0 0

1 1 10 0

0w

J J J J

J J Jj

w a bJ

J J Jj

w a b

(6.7)

unde kJ a şi , 0,1kJ b k sunt derivatele parţiale ale funcţiei de cost J în raport cu

partea reală ka respectiv partea imaginară

kb a coeficientului kw al filtrului. În (6.7) relaţia

este prezentată pentru un filtru având 2M coeficienţi; extinderea ei la M arbitrar este

imediată. Proiecţia acestui gradient pe contururile funcţiei de cost este prezentată în Figura

6.3.

Să presupunem acum că în punctul 0 , 0Jw se pune o bilă. Dacă i s-ar da drumul,

atunci bila s-ar rostogoli înspre minimul suprafeţei, adică într-o direcţie opusă celei pe care

viteza de creştere a funcţiei este maximă. Această direcţie este opusa celei a gradientului în

punctul considerat sau echivalent, este direcţia „pantei descendente maxime” (SD). Prin

urmare, metoda SD rezolvă ecuaţiile Wiener-Hopf printr-o metodă matematică similară

descrierii calitative a procesului de rostogolire al bilei înspre minimul suprafeţei paraboidale.

Figura 6.3 Calculul din derivatele parţiale a

direcţiei de deplasare a metodei

gradientului.

6.1 Metoda SD 157

Dacă s-ar lua „instantanee” la intervale discrete de timp asupra poziţiei bilei, bila s-ar

deplasa în paşi discreţi către minimul suprafeţei de eroare. Din fiecare nouă poziţie de timp

discret, bila ar aluneca înspre minimul global pe o direcţie dependentă de gradientul lui J în

punctul considerat.

Generalizând acum, poziţia bilei la momentul de timp 1 în planul w este:

1 0 0w J w w

unde este o constantă oarecare, ce va fi definită mai târziu. La momentul de timp 2 se

scrie:

2 1 1w J w w

iar formula generală de recursie se exprimă prin:

1 wn n J n w w (6.8)

Relaţia (6.8) exprimă algoritmul matematic care corespunde la alunecarea bilei către

minimul suprafeţei de eroare pătratică medie. Vectorul nw din (6.8) este setul coeficienţi-

lor filtrului adaptiv la iteraţia n. Această recursie exprimă noul vector al coeficienţilor în

funcţie de vechea sa valoare la care se adaugă un termen de corecţie care depinde de

proprietăţile funcţiei de cost în poziţia anterioară.

Pentru a aplica metoda gradientului la cazul filtrului adaptiv, trebuie estimat gradientul

suprafeţei de eroare. Aplicarea derivatei vectoriale expresiei (6.4) furnizează:

2 2wJ n n p Rw (6.9)

Relaţia (6.9) este universal valabilă, indiferent de punctul de pe suprafaţa de eroare în

care este ea calculată. Înlocuirea expresiei gradientului (6.9) în relaţia de recursie (6.8),

produce următoarea formulare pentru recursia SD:

1 2 2n n n w w p Rw (6.10)

Întrucât este o constantă, se obişnuieşte să se definească valoarea pasului algoritmu-

lui SD prin:

2 (6.11)

ceea ce conduce la forma utilizată pentru descrierea metodei de recursie SD:

1n n n w w p Rw (6.12)

Ultima relaţie poate fi scrisă şi în forma:

1 Mn n w I R w p (6.13)

unde MI este matricea identitate de dimensiune M M .

În concluzie, metoda gradientului poate fi aplicată la stabilirea problemei filtrării opti-

male după cum urmează (Alexander 1986):

1. Se calculează pentru început estimări ale matricii de corelaţie R şi ale vectorului de

intercorelaţie p.


2. Estimările R se folosesc în ecuaţia (6.12) pentru a realiza iteraţii succesive în

scopul determinării soluţiei ecuaţiei ˆ ˆRw p prin metoda pantei descendente

maxime.

6.2 Soluţia directă a ecuaţiei de recursie

SD

6.2.1 Calculul soluţiei

Vom începe prin a scrie ecuaţia de recursie (6.13) la momentul de timp 0n :

1 0M w I R w p (6.14)

Similar, pentru 1n :

2 1M w I R w p (6.15)

Dacă înlocuim ecuaţia (6.14) în (6.15) şi continuăm acest proces până la iteraţia a n-a

obţinem:

1

0

0n

n j

M M

j

n

w I R w p I R (6.16)

Ecuaţia (6.16) poate fi folosită pentru a calcula vectorul coeficienţilor după oricare

iteraţie n, pentru că valorile lui p şi R sunt cunoscute. Totuşi, calculele sunt greoaie, iar

expresia matematică nu evidenţiază convergenţa lui nw către ow . Este nevoie, prin

urmare, de o metodă care să simplifice interpretarea ecuaţiei (6.16). Vom aplica în acest

scop asupra vectorului coeficienţilor nw transformări lineare, transformări ale căror

proprietăţi au fost discutate în Capitolul 3. În acest scop, definim vectorul de eroare al coefi-

cienţilor la momentul n:

on n c w w (6.17)

Înlocuim pe nw cu nc în ecuaţia (6.12), scăzând valoarea optimă Ow din ambii

termeni ai ecuaţiei:

1 1 o on n n n

n n

c w w w w p Rw

c p Rw (6.18)

Ecuaţia (6.18) poate fi exprimată doar în funcţie de vectorul de eroare, dacă în termenul

drept se adună şi se scade factorul oRw :

1 o on n n c c R w w p Rw (6.19)

În (6.19), ultima paranteză este nulă, ceea ce conduce la ecuaţia de recursie în formă

vectorială:

6.2 Soluţia directă a ecuaţiei de recursie SD 159

1 Mn n c I R c (6.20)

Ultima formă, ecuaţia (6.20) este mult mai uşor de evaluat decât soluţia directă (6.13).

Soluţia generală (6.16) se prezintă acum sub forma:

0n

Mn c I R c (6.21)

Deşi (6.21) reprezintă o îmbunătăţire în raport cu ecuaţia (6.16) în evidenţierea compor-

tării dinamice a soluţiei

nw , nu este încă clar modul în care termenul din dreapta ecuaţiei

tinde către zero pentru n . Dificultatea întâmpinată este un rezultat direct al faptului că,

componentele vectorului nc sunt legate unele de celălalte ca urmare a faptului că

M I R nu este o matrice diagonală. Este necesară prin urmare, aplicarea transformării

unitare de similaritate (vezi Capitolul 3, ecuaţia (3.107)) pentru a transforma setul de ecuaţii

lineare cuplate (6.21) într-un set de ecuaţii decuplate, în care fiecare componentă scalară să

fie funcţie de o singură pondere scalară. Prin transformare, R se descompune astfel:

HR QΛQ (6.22)

Coloanele matricii Q sunt constituite din setul ortogonal de vectori proprii asociaţi valorilor

proprii ale matricii R. Matricea Q este denumită matricea unitară a transformării. Matricea

Λ este diagonală şi are drept elemente diagonale valorile proprii ale matricii de corelaţie R.

Aceste valori proprii notate prin 1,

2 , , M , sunt toate reale şi pozitive. Fiecare valoare

proprie este asociată vectorului propriu corespunzător sau coloanei corespunzătoare a

matricii Q.

Se porneşte de la ecuaţia de bază a recursiei (6.13) în care se aplică matricii de corelaţie

transformarea (6.22):

1 H

Mn n w Q I Λ Q w p (6.23)

unde s-a folosit proprietatea matricilor ortogonale H

MQQ I . Se defineşte în continuare,

vectorul coeficienţilor necuplaţi nw , prin transformarea:

Hn n w Q w (6.24)

Aceiaşi transformare dă şi setul de coeficienţi optimali necuplaţi:

H

o o w Q w (6.25)

Pentru a obţine soluţia în această situaţie, se înmulţeşte ecuaţia (6.23) cu HQ şi se înlocuieşte

apoi din ecuaţia (6.25):

1 H H

M

M

n n

n

w Q Q I Λ w Q p

I Λ w p (6.26)

unde s-a folosit notaţia:

H p Q p (6.27)

Înlocuim acum în (6.25):


1H H

o o

w Q w Q R p (6.28)

Proprietăţile speciale ale transformării (6.22) fac, ca pentru inversa lui R, să putem scrie:

1

1H H

R QΛQ QΛ Q (6.29)

iar apoi înlocuind (6.29) în (6.28), să obţinem

1 1H H

o

w Q QΛ Q p Λ p (6.30)

Ecuaţia (6.30) este similară ecuaţiei normale, cu excepţia faptului că este scrisă pentru

vectorul coeficienţilor necuplaţi ow . Pentru că este o matrice diagonală, inversa sa este,

de asemenea, diagonală:

1

1 2diag 1 ,1 , ,1 M Λ (6.31)

Acum, se poate stabili o expresie simplă pentru fiecare componentă a lui o

w , prin

dezvoltarea relaţiei (6.30):

1 1

2 2

1 0 0

0 1 0

0 0 1

o

M M

p

p

p

w (6.32)

din care se observă că fiecare componentă iow este dată de:

, 1,2, ,io i iw p i M (6.33)

Întrucât acum, matricea M I Λ este diagonală, ecuaţia de recursie (6.26) poate fi

explicitată în felul următor:

1 11 1

2 22 2

1 1 0 0

1 0 1 0

1 0 0 1M MM M

w n w n p

w n w n p

w n w n p

(6.34)

Se observă că fiecare componentă 1iw n este funcţie doar de iw n şi nu este funcţie de

nici o altă componentă jw n , oricare ar fi j i . Aceasta este exact proprietatea necesară

pentru a scrie sistemul de ecuaţii (6.34) ca un set de M ecuaţii scalare necuplate:

1 1 , 1i i i iw n w n p i M (6.35)

Aceste ecuaţii pot fi rezolvate în cazul general, obţinându-se întregul set de soluţii pentru

1 i M .

6.2.2 Soluţia metodei SD

Ecuaţia de recursie (6.35) poate fi evaluată pentru valori succesive ale lui n şi o relaţie de

recurenţă poate fi stabilită. Exprimăm (6.35) pentru 0n :

6.3 Convergenţa metodei SD 161

1 1 0i i i iw w p

şi apoi pentru 1n :

1

2

0

2 1 1 1 0 1j

i i i i i i i

j

w w p w p

Relaţia generală, este prin urmare:

1

0

1 0 1n

n j

i i i i

j

w n w p

(6.36)

Întrucât factorul 1 i apare frecvent în cele ce urmează, facem substituţia:

1i i (6.37)

şi rescriem relaţia (6.36):

1

0

0n

n j

i i i i

j

w n w p

(6.38)

Pentru suma din ultima relaţie se poate scrie:

1

0

1

1

nnj i

i

j i

(6.39)

astfel încât forma finală a relaţiei (6.38) ce dă soluţia necuplată a coeficienţilor filtrului

adaptiv este

1

01

nn i

i i i

i

w n w p

(6.40)

6.3 Convergenţa metodei SD

6.3.1 Stabilirea condiţiilor de convergenţă

Studiul convergenţei metodei gradientului o facem pe ecuaţia (6.40) pentru n .

Condiţia ca această ecuaţie să producă o soluţie mărginită pentru iw n este ca valoarea

absolută a lui i să fie subunitară pentru orice 1 i M :

1i (6.41)

Condiţia (6.41) impune restricţii asupra parametrului de câştig , care conform relaţiei

(6.37) se scriu:

1 1i (6.42)

ceea ce este echivalent cu:

1 1 1i (6.43)

Este simplu de demonstrat că inegalităţile din (6.43) sunt echivalente cu:


2

0i

(6.44)

Ultima relaţie trebuie să fie valabilă pentru orice i, 1 i M şi, prin urmare, trebuie

găsită valoarea minimă a lui pentru care orice i îndeplineşte condiţia (6.42). Cazul cel

mai defavorabil se produce atunci când maxi , valoarea proprie maximă a matricii de

corelaţie R. Domeniul valorilor lui care asigură convergenţa este prin urmare:

max

20

(6.45)

Pentru situat în limitele mai sus menţionate, avem 0 1i şi utilizând (6.40), se

obţine prin trecere la limită:

lim ii

ni

pw n

(6.46)

De observat că acesta este exact rezultatul pentru ow , soluţia optimă pentru coeficienţii

necuplaţi obţinută prin relaţia (6.33). Prin urmare, coeficienţii obţinuţi prin metoda pantei

descendente maxime converg către setul de valori optimale ce reprezintă soluţiile ecuaţiilor

Wiener-Hopf, cu condiţia ca să se găsească între limitele impuse de relaţia (6.45).

6.3.2 Dinamica procesului de convergenţă

Vom examina în continuare procesul prin care metoda SD tinde către ow optimal. Elemen-

te esenţiale definitorii pentru acest proces sunt constantele de timp care stabilesc evoluţia

soluţiei recursive. De asemenea, acestea stabilesc natura convergenţei: monotonă sau oscila-

torie. Vom utiliza în continuare spaţiul coeficienţilor centraţi necuplaţi v , care oferă un

punct de vedere global asupra procesului de convergenţă.

Începem, prin a reaminti din ecuaţia (6.17) expresia vectorului de eroare (centrat) al

coeficienţilor:

on n c w w

Notăm prin nv vectorul care se obţine în urma aplicării transformării unitare de similari-

tate (6.22) asupra vectorului centrat al coeficienţilor:

Hn nv Q c (6.47)

Vectorul nv este atât centrat cât şi decuplat, ceea ce evidenţiază relaţia de mai jos, obţinu-

tă din (6.47) şi (6.24):

on n v w w (6.48)

Vom scrie componenta i a vectorului, iv n , înlocuind (6.33) şi (6.40) în ecuaţia (6.48),

sub forma


1

01

nn i i

i i i i

i i

pv n w p

(6.49)

Este o relaţie, care după prelucrări ulterioare conduce la:

0 1ni

i i i

i

pv n w

(6.50)

De remarcat că termenul din paranteza dreaptă a membrului drept al ecuaţiei este o constan-

tă dacă se aleg coeficienţii filtrului la momentul 0, 0iw . În aceste condiţii, desemnăm

această constantă prin 0iv . Prin urmare ecuaţia (6.50) poate fi scrisă mai simplu sub

forma:

1 0n

i i iv n v (6.51)

Din examinarea relaţiei (6.51) este evident că în cazul în care 0 0iv , coeficienţii

centraţi necuplaţi iv n converg exponenţial către 0 cu o constantă de timp ce depinde de

raportul dintre valoarea lui şi valorile proprii ale lui R. Reamintind definiţia lui iv n ,

această constatare implică faptul că vectorul coeficienţilor nw converge prin recursia SD

către valorile optime ow în aceiaşi manieră în care nv converge către 0. O altă observaţie

importantă din ecuaţia (6.51), este că iv n tinde către 0 indiferent de valoarea iniţială a lui

0iv , ceea ce este echivalent cu afirmaţia că nw converge către ow , fără ca valoarea

iniţială aleasă 0w să conteze. Este o proprietate foarte importantă a metodei SD ce se

păstrează la toţi algoritmii adaptivi ce se bazează pe această metodă.

6.3.3 Comportarea tranzitorie a erorii pătratice medii

Putem obţine o mai bună înţelegere asupra metodei gradientului prin examinarea

comportării tranzitorii a funcţiei de cost J n , eroarea pătratică medie. Vom utiliza în acest

scop expresia EPM (4.56) stabilită în Capitolul 4:

2

min

1

M

k k

k

J n J v n

(6.52)

unde minJ este valoarea minimă a erorii pătratice minime. Comportarea tranzitorie a compo-

nentei k a vectorului coeficienţilor centraţi necuplaţi kv n este dictată de ecuaţia (6.51).

Prin înlocuirea lui (6.51) în ecuaţia (6.52) se obţine:

22

min

1

1 0M

n

k k k

k

J n J v

(6.53)


unde 0kv este valoarea iniţială a lui kv n . Dacă metoda SD este convergentă, adică dacă

pasul algoritmului este ales în limitele definite de ecuaţia (6.45), se observă că, indiferent

de condiţiile iniţiale,

minlimn

J n J

(6.54)

Graficul obţinut prin reprezentarea dependenţei erorii pătratice medii J n de numărul

de iteraţii, n, este denumită curbă de învăţare (Farhang-Boroujeny 1998, Haykin 1996).

Ecuaţia (6.53) evidenţiază observaţia: curba de învăţare a metodei SD constă dintr-o sumă

de exponenţiale, ce corespund fiecare câte unei componente necuplate a algoritmului. În

general, numărul de exponenţiale ce contribuie la curba de învăţare este egal cu numărul de

coeficienţi ai filtrului.

6.3.4 Viteza de convergenţă

Viteza (sau rata) de convergenţă a metodei SD depinde de parametrii suprafeţei de eroare.

Cel mai important efect asupra acesteia îl are numărul de condiţionare a matricii de corelaţie

R care determină forma suprafeţei J n . Se poate arăta că (Luenberger 1984 , Manolakis,

ş.a. 2005):

2

11

1J n J n

R

R (6.55)

unde: max min R (6.56)

este numărul de condiţionare a matricii R. Reamintim că R a fost introdus în Capitolul

3 prin relaţia (3.120) şi reprezintă gradul de împrăştiere a valorilor proprii a matricii de

corelaţie.

Să observăm că vectorii proprii ce corespund lui min şi

max indică direcţiile de curbu-

ră minimă respectiv maximă a suprafeţei de eroare. Vom remarca că convergenţa se reduce

pe măsură ce contururile funcţiei de cost (vezi Figura 6.3) devin din ce în ce mai turtite. În

cazul unor contururi circulare, ce corespund condiţiei 1 R , algoritmul converge rapid,

dar situaţia se degradează rapid pe măsură ce gradul de împrăştiere a valorilor proprii creşte.

Chiar dacă matricea R are 1M valori proprii egale şi una diferită mult de acestea,

convergenţa algoritmului este foarte lentă.

Viteza de convergenţă poate fi caracterizată de constanta de timp i definită prin:

1 1

1 exp 1i

i i

(6.57)

care defineşte timpul (sau numărul de iteraţii) în care componenta i a vectorului

coeficienţilor necuplaţi şi centraţi iv n (vezi ecuaţia (6.51) se reduce la 1 e din valoarea sa

iniţială 0iv . Atunci când 1 , se poate scrie:


1

i

i

(6.58)

În mod similar, există o constantă de timp ,i EPM pentru eroarea pătratică medie J n , care

este, în conformitate cu (6.53) şi (6.57):

,

1

2i EPM

i

(6.59)

În concluzie, se poate considera că constanta de timp (a coeficientului kv ) a algoritmu-

lui gradientului este min1 , care împreună cu condiţia max2 , conduc la:

max min2 2 . Prin urmare, cu cât mai mare este gradul de împrăştiere a valori-

lor proprii a matricii de corelaţie R, cu atât mai îndelungat va fi timpul necesar ca algorit-

mul SD să realizeze convergenţa.

În exemplul care urmează, vom calcula proprietăţile unui predictor linear cu trei coefi-

cienţi, ilustrând proprietăţile metodei SD.

Exemplul 6.1: Se consideră semnalul u n generat de procesul autoregresiv de

ordinul doi

1 21 2u n a u n a u n v n (6.60)

unde v n este zgomot alb de medie nulă şi varianţă 2

v . Parametrii 1a şi

2a sunt

astfel aleşi încât sistemul (6.60) să fie de fază minimă. Ne propunem să calculăm

un filtru adaptiv care să utilizeze eşantioanele 1u n şi 2u n pentru a prezice

valoarea u n (răspunsul dorit).

Soluţie: Dacă multiplicăm (6.60) cu , 0,1,2u n k k , şi aplicăm

operatorul de mediere statistică în ambii termeni, se obţin ecuaţiile lineare:

2

1 2

1 2

1 2

0 1 2

1 0 1 0

2 1 0 0

vr a r a r

r a r a r

r a r a r

(6.61)

care pot fi utilizate pentru a exprima autocorelaţia lui u n în funcţie de

parametrii modelului 1a , 2a . Soluţiile sistemului sunt

22 2

2 22 2 1

2

1 12

2 2

10 ,

1 1

1 0 , 2 01 1

vu

ar

a a a

a ar r r a r

a a

Alegem 2 1u , astfel încât


2 2

2 2 12

2

1 1

1v

a a a

a

Coeficienţii predictorului optimal

,0 ,1ˆ 1 2o oy n u n w u n w u n

sunt daţi de sistemul de ecuaţii Wiener-Hopf (vezi Capitolul 5)

,0 ,1

,0 ,1

0 1 1

1 0 2

o o

o o

r w r w r

r w r w r

cu min ,0 ,10 1 0 .o oJ r r w r w

Prin comparaţie cu (6.61), soluţia sistemului este ,0 1,ow a ,1 2 ,ow a şi

2

2 vP .

Valorile proprii ale matricii de corelaţie

0 1

1 0

r r

r r

R

sunt: 211,2

2

11

u

a

a

de unde, rezultă că împrăştierea valorilor proprii este

1 1 2

2 1 2

1

1

a a

a a

R

care, dacă 2 0a şi 1 0a , este mai mare decât 1.

S-au realizat în continuare experimente MATLAB privind influenţa numărului

R şi a pasului SD (Manolakis, ş.a. 2005, Quinquis, ş.a. 1998). În aceste

experimente s-a ales astfel 2

v încât 2 1u . Formularea algoritmului SD este,

conform cu (6.12)

0 1 1 1T

k w k w k k k w w p Rw

unde 1 2 şi 0 0 0T T

r r p w

S-au ales două seturi diferite de valori pentru 1a şi 2a : primul conduce la un

număr R redus, iar cel de al doilea la o valoare mare pentru acelaşi parame-

tru.Tabelul 6.1 prezintă aceste valori împreună cu numerele R corespunză-

toare şi valorile varianţei 2

v .


Pentru fiecare set de parametri, punctul iniţial al algoritmului este dat de

vectorul 0w , utilizând două valori distincte pentru pasul . Pentru a descrie

comportarea tranzitorie a algoritmului, se reprezintă traiectoriile coeficienţilor

0w k şi 1w k în funcţie de indicele iteraţiei k de-a lungul contururilor suprafe-

ţei de eroare J k . Traiectoria lui kw porneşte din originea 0 w 0 şi se

termină în punctul corespunzător valorii optime 1 2

T

o a a w . O ilustrarea a

comportării tranzitorii poate fi de asemenea realizată şi în domeniul coeficienţilor

necuplaţi şi centraţi kv . Utilizând ecuaţia (6.51), observăm că aceşti coeficienţi

sunt daţi de:

1 00

1 2 1

1 0

1 0

k

k

vv kk

v k v

v

unde valoarea iniţială 0v ce rezultă din ecuaţiile (6.17) şi (6.47), este

0 1

1 2

00 0 0

0

T T T T

o o

v a

v a

v Q c Q w w Q w Q

Astfel, traiectoria lui kv începe în 0v şi se termină în origine o v 0 . Contu-

rurile funcţiei de eroare în domeniul transformat sunt date de ecuaţia (6.52):

2 2

min 1 0 2 1J k J v k v k

a. Împrăştiere redusă a valorilor proprii şi răspuns supraamortizat

In acest experiment, valorile parametrilor au fost astfel alese încât numărul R

să fie apropiat de unitate ( 1,22 R ). Valoarea pasului algoritmului este

0,3 , mai mică decât max2 1,8 , ceea ce asigură convergenţa, răspunsul

fiind amortizat. În Figura 6.4 se prezintă patru grafice care descriu comportarea

algoritmului. Graficul (a) prezintă evoluţia lui 0w k şi 1w k în funcţie de numă-

rul iteraţiei k , în timp ce graficul din (b) reprezintă curba de învăţare pentru

EPM J k . Graficul (c) reprezintă traiectoria vectorului coeficienţilor kw în

raport cu contururile de eroare de predicţie constantă. În sfârşit, (d) prezintă

traiectoria lui kv de a lungul curbelor ce reprezintă valori succesive ale lui

Împrăştierea

valorilor proprii 1a 2a

1 2 R 2

v

Mică -0,1950 0,95 1,1 0,9 1,22 0,0965

Mare -1,5955 0,95 1,818 0,182 9,99 0,0322

Tabelul 6.1 Valorile parametrilor utilizate în simularea algoritmului SD în problema

predicţiei liniare a semnalului autoregresiv de ordinul doi.


J k . Primele trei curbe pentru 0,1,2k sunt numerotate pentru a reprezenta

direcţia traiectoriei.

În concluzie, coeficienţii converg în mod monoton, ceea ce confirmă natura

supraamortizată a răspunsului. De asemenea, convergenţa este rapidă pentru că

sunt suficiente aproximativ 15 iteraţii, ceea ce este de aşteptat în condiţiile în care

valorile proprii au o împrăştiere redusă.

b. Împrăştiere mare a valorilor proprii şi răspuns supraamortizat

Pentru acest experiment, valoarea parametrilor a fost astfel aleasă încât

împrăştierea valorilor proprii să fie aproximativ egală cu 10 ( 9,99 R ).

Pasul algoritmului este, din nou, 0,3 . Figura 6.5 reprezintă performanţele

experimentului, acestea fiind similare cu rezultatele reprezentate în Figura 6.4.

Diferenţa dintre cele două cazuri se datorează valorii mult mai mari pe care o are

numărul R în situaţia de faţă. În primul rând,contururile funcţiei de cost sunt

eliptice chiar şi în domeniul transformat, iar în al doilea rând, convergenţa este

lentă, fiind necesare peste 60 de iteraţii pentru convergenţă. Răspunsul tranzitoriu

este, din nou, supraamortizat.

Figura 6.4 Curbele ce caracterizează performanţele algoritmului SD utilizat în problema de

predicţie lineară cu pasul algoritmului 0,3 şi gradul de împrăştiere a valorilor

proprii 1,22 R .

6.4 Metoda Newton 169

c. Împrăştiere mare a valorilor proprii şi răspuns subamortizat

În final, cel de-al treilea experiment utilizează aceiaşi parametri de model ca şi în

cazul anterior dar măreşte valoarea pasului algoritmului la 1 , ceea ce este

inferior valorii limită care asigură stabilitatea, dar suficient pentru a face ca

răspunsul tranzitoriu să fie subamortizat. Figura 6.6 reprezintă curbele corespun-

zătoare. De remarcat că acum, maniera de convergenţă a parametrilor este oscila-

torie, totuşi convergenţa este sensibil mai rapidă decât în cazul supraamortizat.

Prin urmare, alegerea pasului algoritmului reprezintă un element important în

reglarea algoritmului.

6.4 Metoda Newton


Exemplul 6.1 a evidenţiat ideea că performanţele algoritmului pantei descendente maxime

sunt afectate puternic de modurile de convergenţă lente care apar din cauza împrăştierii

valorilor proprii ale matricii de corelaţie R. Aceasta înseamnă că, dacă s-ar putea reduce

această împrăştiere, atunci şi performanţele de convergenţă ar deveni mult mai bune.

Această ultimă aserţiune este exact ceea ce îşi propune să realizeze metoda Newton. Pentru


predicţie lineară cu pasul algoritmului 0,3 şi gradul de împrăştiere a valorilor

proprii 10 R .


a obţine algoritmul Newton în cazul funcţiilor de eroare pătratică medie, pornim de la algo-

ritmul SD dat prin ecuaţia (6.12). Utilizând egalitatea op Rw , relaţia (6.12) devine

1 on n n w w R w w (6.62)

Ultima ecuaţie evidenţiază faptul că prezenţa lui R în (6.62) provoacă probleme datorită

împrăştierii valorilor proprii ale acestei matrici. Metoda Newton rezolvă aceste probleme

prin înlocuirea parametrului scalar de pas din (6.8) prin matricea A de dimensiuni

M M . În aceste condiţii, ecuaţia de recursie (6.8) se scrie astfel:

11

2n

n n J w

w w A (6.63)

Pentru a stabili valoarea pasului matricial A care permite atingerea soluţiei optime

ow dintr-o singură iteraţie, vom relua ecuaţia (6.20), punând în locul lui pe A :

1 o M on n w w I AR w w (6.64)

Algoritmul va converge într-un singur pas, dacă obligatoriu, termenul M I AR este

nul, situaţie din care rezultă:


predicţie lineară cu pasul algoritmului 1 şi gradul de împrăştiere a valorilor

proprii 10 R .

6.4 Metoda Newton 171

1 şi 1 A R (6.65)

Prin urmare, metoda Newton originală converge într-un singur pas şi are expresia:

111

2n

n n J n w

w w R (6.66)

Figura 6.7 demonstrează efectul înlocuirii vectorului gradient J din algoritmul SD origi-

nal cu vectorul 1 J R în ecuaţia Newton de recursie (6.64). Acest lucru are efectul rotirii

vectorului gradient pe direcţia minimului suprafeţei de eroare medie pătratică.

Acest algoritm este foarte atractiv deoarece conduce la o convergenţă extrem de rapidă

(într-un singur pas), după care vectorul pondere atinge valoarea optimă ow . Algoritmul

Newton este aplicabil numai atunci când matricea R este pozitiv definită, deoarece implică

faptul că inversa acesteia există. În aplicaţiile practice, funcţia de cost J nu este cunoscută, ea

fiind doar estimată în urma măsurării statisticii semnalului de intrare (Farhang-Boroujeny

1998). Drept urmare, ar putea apare un zgomot de estimare a gradientului care ar afecta prin

intermediul ecuaţiei de evoluţie vectorul pondere. Acest efect nedorit ar putea fi diminuat

dacă 0 , ceea ce contravine condiţiei (6.65).

În metoda Newton originală pasul algoritmului se alege 1 iar nw converge către

valoarea optimă ow într-o singură iteraţie. Totuşi, în implementările reale, valorile exacte

ale lui J şi 1R nu sunt disponibile şi trebuie estimate, astfel încât suntem nevoiţi să folo-

sim un pas diferit de 1 (Manolakis, ş.a. 2005). Cu această observaţie, folosim ecuaţia de

recursie (6.64) şi condiţia matricială din (6.65) pentru a exprima valoarea vectorului nw

după n iteraţii, valoarea iniţială fiind 0w :

Figura 6.7 Vectorul gradientului J indicând panta

descrescătoare maximă şi corecţia acestuia prin

metoda Newton, 1 J R .


1 0n

o on w w w w (6.67)

Ultima relaţie ne permite să concluzionăm că stabilitatea algoritmului Newton este garantată

atunci când 1 1 sau, echivalent

0 2 (6.68)

În concluzie, comportarea tranzitorie a algoritmului Newton este caracterizată de o

singură exponenţială, metoda Newton evidenţiindu-se printr-un unic mod de convergenţă,

acesta fiind determinat numai de mărimea pasului algoritmului şi nu şi de valorile şi

gradul de împrăştiere a valorilor proprii i ale matricii de corelaţie ca în cazul algoritmului

SD.

6.4.2 O interpretare alternativă a metodei Newton

Vom încerca în cele ce urmează să dezvoltăm o abordare distinctă a algoritmului Newton

pornind de la transformarea Karhunen-Loève (TKL) introdusă în Capitolul 3.

Transformarea TKL a unui vector de date nu se defineşte prin ecuaţia (3.128):

Hn n u Q u (6.69)

unde Q este matricea de dimensiune M M a cărei coloane sunt vectorii proprii ai matricii

de corelaţie HE n n R u u . Reamintim că în Capitolul 3 s-a arătat că componentele

vectorului transformat, desemnate prin 1 2, ,u n u n Mu n reprezintă un set de variabi-

le aleatoare mutual necorelate. Mai mult, conform relaţiei (3.131), valorile medii pătratice

ale acestora sunt egale cu valorile proprii ale matricii de corelaţie R :

2

, 1,2, ,i iE u n i M

(6.70)

Vom defini prin N nu vectorul ale cărui componente se exprimă prin

1 2

, , 1,2, ,N i i iu n u n i M (6.71)

Indicele N indică faptul că ,N iu n este normat pentru o valoare unitară a puterii. Ecuaţiile

(6.71) pot fi grupate în ecuaţia vectorială

1 2

N n n u Λ u (6.72)

unde matricea Λ este diagonală, fiind compusă din valorile proprii 1 2, , M . Se demon-

strează imediat, pornind de la faptul că Q este o matrice unitară, faptul că matricea de

corelaţie a vectorului transformat normat N nu este

H

N N N Me n n R u u I (6.73)

unde MI este matricea identitate de dimensiune M M .

METODE DE GRADIENT Probleme 173

Vectorul transformat normat se aplică la intrarea filtrului transversal modificat ce are

coeficienţii

1 2 H

N w Λ Q w (6.74)

Expresia de mai sus a coeficienţilor filtrului a fost aleasă pentru că aceasta furnizează la

ieşire semnalul H

N N Ny n n w u ce este identic cu cel dat de filtrul originar

Hy n nw u . Într-adevăr

H H H H

N N n n n w u w QΛ Λ Q u w u

Ultimul rezultat indică faptul că alternativ filtrului ce are drept intrare nu şi ieşire

Hy n nw u poate fi utilizat filtrul cu intrarea N nu şi coeficienţi Nw . Algoritmul

pantei descendente maxime pentru această realizare se scrie, conform (6.13), astfel:

1N M N N Nn n w I R w p (6.75)

unde *

N NE n d n p w (6.76)

Înlocuind (6.73) în relaţia (6.75), această ultimă relaţie se simplifică la

1 1N N oNn n w w w (6.77)

unde 1

oN N N N

w R p p .

Dacă comparăm relaţia (6.77) cu ecuaţia recursivă a algoritmului Newton (6.67), se

constată că în cazul vectorilor de date supuşi transformării Karhunen-Loève (TKL) şi

normării, acţiunea algoritmului SD este identică cu acţiunea algoritmului Newton asupra

vectorilor de date iniţiali (Farhang-Boroujeny 1998).

În concluzie se poate afirma că algoritmul Newton poate fi văzut ca un algoritm SD

pentru semnale de intrare transformate TKL (Ciochină şi Negrescu 1999). Problema

provocată metodei pantei descendente maxime de împrăştierea valorilor proprii ale matricii

de corelaţie este rezolvată prin decorelarea eşantioanelor de intrare în filtrul transversal (prin

transformarea corespunzătoare TKL) urmată de o procedură de normare în putere. Întreaga

operaţie poartă numele de procedură de albire; pentru că prin decorelare şi, apoi normare la

putere unitară înainte de operaţia propriu zisă de filtrare, aceste eşantioane capătă

caracteristicile unui zgomot alb de varianţă unitară.

Probleme

P 6.1 Să se arate că, dacă în algoritmul SD valoarea iniţială a vectorului coeficienţilor

0w este vectorul nul, atunci după n iteraţii el va fi egal cu

2n

on

w I I R w

unde ow reprezintă valorea optimă a vectorului coeficienţilor.


P 6.2 Se consideră procesul autoregresiv (AR) de ordinul întâi u n , descris prin ecuaţia

cu diferenţe finite:

1u n au n v n

unde a este parametrul AR al procesului, iar v n este un zgomot alb de medie

nulă şi varianţă 2

v .

(a) Să se determine un predictor liniar de ordinul unu pentru calculul parametrului a .

Să se utilizeze metoda SD pentru calculul prin recursie al soluţiei Wiener pentru

parametrul a .

(b) Să se reprezinte curba de eroare pentru această problemă, identificând punctul de

minim al curbei în funcţie de parametrii cunoscuţi.

(c) Ce condiţie se impune pasului algoritmului pentru ca acesta să fie stabil? Justi-

ficaţi răspunsul!

P 6.3 Se consideră un filtru Wiener cu doi coeficienţi caracterizat de următorii

parametrii:

1 0.8 2

şi 0.8 1 1

R p

unde R este matricea de corelaţie a intrării, nu , iar p este vectorul de inter-

corelaţie dintre semnalul de intrare nu şi ieşirea dorită d n .

(a) Să se determine pentru pasul intervalul de valori care asigură convergenţa

metodei SD. Să se specifice, dacă rezultatul obţinut este influenţat de vectorul de

intercorelaţie p .

(b) Utilizând MATLAB, să se ruleze algoritmul SD pentru parametrii

0,05;0,1;0,5 şi 1 şi să se traseze traiectoriile corespunzătoare în planul

0 1,w w .

(c) Să se reprezinte grafic pentru 0,05 , separat, evoluţia coeficienţilor 0w k şi

1w k în funcţie de indicele de iteraţie 0,1, ,200k .

(d) Pe graficele obţinute la punctul (c) ar trebui să se observe că evoluţia fiecărui

coeficient este influenţată de două constante de timp diferite. Aceasta implică că

variaţia coeficienţilor poate fi descompusă în suma a două serii exponenţiale

distincte. Să se dea o explicaţie acestei observaţii.

P 6.4 Se consideră procesul u n generat de modelul AR(3)

0,729 3u n u n v n

METODE DE GRADIENT Probleme 175

unde v n este un zgomot alb de medie nulă şi varianţă unitară. Utilizând metoda

SD se proiectează un predictor linear al lui u n definit prin

,1 ,2 ,3ˆ 1 2 3o o oy n u n w u n w u n w u n Un-1

(a) Determinaţi matricea de corelaţie R a lui u n de dimensiune 3 3 şi calculaţi

valorile proprii 1 2 3, , .

(b) Determinaţi vectorul de intercorelaţie p de dimensiune 3 1 .

(c) Alegeţi pasul SD astfel încât răspunsul algoritmului să fie supraamortizat. Apoi

implementaţi algoritmul în MATLAB şi reprezentaţi traiectoriile coeficienţilor

filtrului 3

1i

iw n

în funcţie de n.

(d) Repetaţi punctul (c), alegând pentru o asemenea valoare încât răspunsul să fie

subamortizat.

P 6.5 Se consideră un filtru transversal având vectorul semnalului de intrare nu şi

vectorul ponderilor w . Ieşirea y n este dată de:

Hy n nw x

Definim vectorul 1 2n nu R u unde Hn n R E u u . Fie nu vectorul

de intrare într-un filtru al cărui semnal de ieşire se calculează cu relaţia

Hy n nw x

unde w este vectorul coeficienţilor noului filtru.

(a) Să se deducă o ecuaţie pentru coeficienţii w astfel încât ieşirile celor două filtre

y n şi y n să fie identice.

(b) Să se determine ecuaţia de recursie SD pentru vectorul ponderilor w .

(c) Să se deducă o relaţie care să demonstreze evoluţia coeficienţilor filtrului pe

măsură ce evoluează algoritmul SD determinat la punctul (b) .

(d) Determinaţi constantele de timp ale curbei de învăţare a algoritmului.

(e) Să se demonstreze că ecuaţia de recursie determinată la punctul (b) este

echivalentă cu algoritmul lui Newton.

P 6.6 Ecuaţia (6.53) defineşte comportarea tranzitorie a EPM J n în cazul aplicării

algoritmului SD. Vom nota prin 0J şi J valoarea iniţială respectiv

valoarea finală a lui J n . Vom aproxima răspunsul tranzitoriu printr-o singură

exponenţială astfel: 0 nJ n J J e J unde este denumit

constantă de timp efectivă. Vom alege pe astfel încât 1 1J J .


Se cere să se arate că viteza iniţială de convergenţă a algoritmului SD definită ca

fiind inversa lui , este dată de

01ln

1

J J

J J

Utilizând ecuaţia (6.53) determinaţi valoarea lui 1 . Presupuneţi că valoarea

iniţială 0w este nulă iar pasul este mic.

P 6.7 Ne propunem să evaluăm o altă modalitate de deducere a ecuaţiei (6.12) ce

defineşte algoritmul SD. Inversa unei matrici pozitiv definite se poate dezvolta în

serie astfel:

1

0

k

k

R I R

unde I ete matricea identitate iar μ o constantă pozitivă. Pentru a asigura

convergenţa seriei, constanta μ trebuie să se situeze în domeniul

max

20

unde max este cea mai mare valoare proprie a matricii R. Utilizând această

dezvoltare în serie a inversei matricii de corelaţie în ecuaţiile Wiener-Hopf,

dezvoltaţi ecuaţia de recursie

1n n n w w p Rw

unde nw este aproximarea soluţiei Wiener pentru vectorului coeficienţilor:

0

k

k

n

w I R p

7 Algoritmul gradientului

stochastic (LMS)

n acest capitol vom deduce, vom analiza performanţele şi vom prezenta câteva aplicaţii

practice ale algoritmului adaptiv LMS (Least Mean Squares – media pătratică minimă).

Denumirea „gradient stochastic” are scopul de a diferenţia algoritmul LMS de metoda

SD, care utilizează în calculul recursiv al filtrului Wiener un gradient calculat determinist.

Algoritmul LMS, introdus de Widrow şi Hoff Jr. (1960), împreună cu toate variantele sale

este cel mai larg utilizat în practică datorită simplităţii, eficienţei computaţionale şi perfor-

manţelor excelente, indiferent de condiţiile în care el este utilizat. Mai mult, el nu necesită

nici măsurarea sau calculul funcţiilor de corelaţie şi nici realizarea operaţiei de inversare a

matricii de corelaţie. Algoritmul gradientului stochastic reprezintă un standard în raport cu

care sunt comparate performanţele altor algoritmi de filtrare adaptivă.

7.1 Deducerea algoritmului LMS

Dacă ar fi posibilă măsurarea exactă a vectorului gradient J n la fiecare iteraţie n şi

dacă parametrul ar fi ales în mod convenabil, atunci vectorul ponderilor filtrului adaptiv

nw calculat prin metoda SD ar converge într-adevăr către soluţia Wiener. În realitate,

măsurători exacte ale vectorului gradient nu sunt posibile pentru că ar necesita cunoaşterea

apriori atât a matricii R cât şi a răspunsului dorit, d n . Drept urmare, vectorul gradient

trebuie să fie estimat pe baza datelor disponibile.

Pentru a dezvolta o estimare a vectorului gradient J n , strategia cea mai evidentă

este de a substitui estimările matricii de corelaţie R şi ale vectorului de intercorelaţie p din

formula (6.9), utilizată în metoda SD a gradientului suprafeţei de eroare:

*2 2 2 2 HJ n n E n d n E n n n p Rw u u u w (7.1)

Cea mai simplă alegere a estimatorilor pentru R şi p utilizează estimatele instantanee ale

acestora bazate pe valorile instantanee ale vectorului semnalului de intrare nu şi ale

Capitolul

7

Î

178 ALGORITMUL GRADIENTULUI STOCHASTIC (LMS) - 7

răspunsului dorit d n , aşa cum sunt definite, în urma renunţării la operaţia de mediere

statistică, prin:

ˆ Hn n nR u u (7.2)

şi respectiv *ˆ n n d np u (7.3)

În mod corespunzător, estimatul instantaneu al vectorului gradient este:

*ˆ ˆ2 2 HJ n n d n n n n u u u w (7.4)

În general, estimatul este deplasat, din cauză că estimatul vectorului coeficienţilor ˆ nw

este un vector aleator care depinde de vectorul semnal de intrare nu . De observat, că esti-

matul ˆ J n poate fi, de asemenea, văzut ca operatorul gradient aplicat erorii pătratice

instantanee e n .

Înlocuind estimata din ecuaţia (7.4) a vectorul gradient J n în algoritmul de pantă

descendentă maximă (vezi Capitolul 6) descris prin ecuaţia:

1

12

n n J n w w (7.5)

se obţine noua relaţie de recursie pentru actualizarea vectorului coeficienţilor filtrului

adaptiv:

*

*

ˆ ˆ ˆ1

ˆ

Hn n n d n n

n n e n

w w u u w

w u (7.6)

unde este pasul algoritmului LMS. S-a utilizat simbolul căciulă aşezat deasupra

simbolului vectorului coeficienţilor ˆ nw pentru a realiza distincţia dintre valoarea curentă

şi cea obţinută prin algoritmul SD. În mod echivalent, rezultatul poate fi scris sub forma a

trei relaţii de bază care sintetizează acţiunea algoritmului LMS, după cum urmează:

1. Calculul semnalului de ieşire al filtrului:

ˆ Hy n n nw u (7.7)

2. Calculul erorii de estimare:

e n d n y n (7.8)

3. Actualizarea (recursia) coeficienţilor filtrului adaptiv:

*ˆ ˆ1n n n e n w w u (7.9)

Ecuaţiile (7.7) şi (7.8) definesc eroarea de estimare e n , a cărui calcul se bazează pe

estimarea curentă (eroare apriori) a vectorului ponderilor ˆ nw . De observat de asemenea

că cel de-al doilea termen *n e nu din membrul drept al ecuaţiei (7.9) reprezintă

7.1 Deducerea algoritmului LMS 179

corecţia ce se aplică asupra estimării curente a vectorului coeficienţilor ˆ nw . Procedura

iterativă porneşte de la o estimare iniţială ˆ 0w .

Algoritmul descris de ecuaţiile (7.7)-(7.9) reprezintă forma complexă a algoritmului

adaptiv LMS. La fiecare iteraţie sau actualizare a vectorului coeficienţilor, el necesită

cunoaşterea celor mai recente valori nu , d n şi ˆ nw . Algoritmul LMS face parte din

familia algoritmilor de gradient stochastic. În particular, atunci când algoritmul LMS

operează asupra unui set de semnale aleatoare, setul permis de direcţii pe care algoritmul

adaptiv le adoptă de la o recursie la alta este destul de aleator, astfel încât acestea nu pot fi

privite ca fiind direcţiile adevărate ale gradientului. De aici, explicaţia denumirii pe care o

aplicăm acestei categorii de algoritmi adaptivi.

Figura 7.1 prezintă graful algoritmului LMS sub forma unui model cu reacţie. Acest

model se aseamănă cu modelul utilizat pentru descrierea algoritmului SD. Graful ilustrează

simplitatea extremă a algoritmului LMS. În particular, din figură rezultă, că algoritmul

necesită doar 2 1M multiplicări complexe şi 2M adunări complexe pe iteraţie, unde

M este numărul de coeficienţi ai filtrului transversal adaptiv. Cu alte cuvinte, complexitatea

de calcul a algoritmului LMS este 0 M .

Estimările instantanee ale lui R şi p date prin ecuaţiile (7.2) şi (7.3) au varianţe relativ

importante. La prima vedere, drept urmare, se poate face observaţia că algoritmul LMS este

incapabil de performante bune întrucât utilizează estimări instantanee. Totuşi, să ne reamin-

tim, că algoritmul gradientului stochastic este prin natura lui recursiv, ceea ce are drept

consecinţă faptul că algoritmul însuşi face efectiv media acestor estimări pe parcursul adap-

tării. Sistemul adaptiv controlat de algoritmul de gradient stochastic este prezentat în Figura

Figura 7.1 Reprezentarea grafică a algoritmului LMS.


7.2. În Tabelul 7.1 sunt rezumate operaţiunile necesare implementării algoritmului LMS

(Ciochină şi Negrescu 1999).

7.2 Analiza performanţelor algoritmului

LMS

7.2.1 Convergenţa în medie a vectorului coeficienţilor

În continuare, vom studia stabilitatea şi performanţele în regim staţionar ale algoritmului

LMS în ipoteza în care semnalul de intrare nu şi răspunsul dorit d n sunt procese

aleatoare staţionare mutual. În acest caz, vectorul optim al coeficienţilor filtrului Wiener

optimal, ow , este fixat şi poate fi stabilit în conformitate cu ecuaţiile Wiener Hopf (4.30).

Scăzând ow din cei doi membri ai ecuaţiei (7.9), se obţine

*ˆ ˆ1n n e n n c c u (7.10)

unde ˆ ˆon n c w w este vectorul de eroare al coeficienţilor. Pentru eroarea de ieşire a

filtrului, e n , putem, de asemenea, scrie

ˆ ˆ

ˆ

H H H

o o

H

o

e n d n n n d n n n n

e n n n

u w u w u w w

u c (7.11)

unde oe n este eroarea de estimare atunci când ponderile filtrului sunt optimale:

Figura 7.2 Filtrul adaptiv LMS

7.2 Analiza performanţelor algoritmului LMS 181

H

o oe n d n n u w (7.12)

Înlocuind (7.11) în ecuaţia (7.10), se obţine în urma rearanjării

*ˆ ˆ1 H

on n n n e n n c I u u c u (7.13)

unde I este matricea identitate. Prin aplicarea operatorului de mediere statistică ambilor

termeni ai ecuaţiei (7.13), se obţine

*ˆ ˆ1

ˆ

H

o

H

E n E n n n E e n n

E n n n

c I u u c u

I u u c (7.14)

unde ultima egalitate rezultă din faptul că, în conformitate cu principiul ortogonalităţii,

* 0oE e n n u .

Principala dificultate pe care o întâmpină orice analiză mai elaborată a membrului drept

al ecuaţiei (7.14) este evaluarea momentului de ordinul trei al vectorului

ˆHE n n n u u c , ceea ce, în general, este o sarcină matematică dificilă. Pentru a depăşi

această dificultate matematică, cercetătorii au adoptat diferite strategii. Cele mai multe dintre

aceste abordări presupun că eşantioanele de date curente ( ,n d nu ) sunt independente de

observaţiile anterioare ( 1 , 1n d n u ),( 2 , 2n d n u ),...; vezi de exemplu Feuer

şi Weinstein (1985) şi Farhang-Boroujeny (1998). Această abordare se numeşte Ipoteza de

Independenţă. Conform ipotezei, putem argumenta că, întrucât ˆ nc depinde numai de

observaţiile anterioare ( 1 , 1n d n u ),( 2 , 2n d n u ,...,) el este independent în

raport cu nu , astfel încât

ˆ ˆH HE n n n E n n E n u u c u u c (7.15)

1. Se iniţializează variabila contor a ciclului 0n şi se atribuie o

valoare iniţială pentru vectorul coeficienţilor (de obicei ˆ w 0 ). Se alege corespunzător constanta .

2. Se calculează ieşirea curentă a filtrului:

ˆ Hy n n nw u

3. Se determină eşantionul curent al semnalului de eroare:

e n d n y n

4. Se calculează vectorul ponderilor pentru pasul următor:

*ˆ ˆ1n n n e n w w u

5. Se incrementează variabila contor 1n n şi se execută salt la

2 .

Tabelul 7.1 Algoritmul LMS


De fapt, în cele mai multe din cazurile practice, ipoteza de independenţă este

discutabilă. De exemplu, vectorii de intrare nu şi 1n u au 1M termeni comuni din

M . Cu toate acestea, practica algoritmului LMS a arătat că presupunerile făcute pe baza

ipotezei de independenţă se armonizează bine cu simulările făcute pe calculator şi cu

performanţele algoritmului LMS în practică. Vom încerca o explicaţie pentru această

situaţie în cele ce urmează.

La orice moment de timp, vectorul coeficienţilor ˆ nw este afectat de toată evoluţia

eşantioanelor observate ( 1 , 1n d n u ),( 2 , 2n d n u ),... Atunci când pasul

algoritmului este mic, ponderea ultimelor M observaţii în valoarea actuală a lui ˆ nw

este redusă, şi astfel putem afirma că nu şi ˆ nw sunt slab dependente. Rezultatul

evident al afirmaţiei este că relaţia (7.15) poate fi acceptată cu un anumit grad de

aproximare. Oricum, acest gen de raţionament poate fi acceptat mai uşor decât ipoteza de

independenţă. Indiferent de aceste consideraţii, analiza algoritmului LMS, pe care o facem

în continuare, se bazează pe (7.15) şi alte aproximări similare.

Înlocuim (7.15) în ecuaţia (7.14), pentru a obţine:

ˆ ˆ1E n E n c I R c (7.16)

unde HE n n R u u este matricea de corelaţie a vectorului de date nu .

Comparaţia ecuaţiilor de recursie (7.16) şi (6.20) indică faptul că acestea sunt exact de

aceiaşi formă matematică. Vectorul determinist de eroare ˆ nc al coeficienţilor filtrului din

(6.20) obţinut prin metoda SD este înlocuit prin media statistică a vectorului de eroare

ˆE n c a coeficienţilor filtrului LMS. Ultima observaţie sugerează că, în medie,

algoritmul LMS se comportă identic cu metoda pantei descendente maxime. În consecinţă,

convergenţa algoritmului LMS este direct legată de împrăştierea valorilor proprii ale

matricii de corelaţie R . Mai mult, reamintindu-ne de relaţia dintre gradul de împrăştiere a

valorilor proprii ale lui R şi densitatea spectrală de putere a semnalului u n , observăm că

convergenţa algoritmului LMS este legată direct de gradul de aplatizare a spectrului de

putere al semnalului de intrare.

În particular, vectorul de eroare a coeficienţilor ˆ nc se apropie de zero, dar execută

mici fluctuaţii în jurul acestei valori. Aceste observaţii confirmă formal faptul că vectorul

convergent al coeficienţilor filtrului LMS poate fi modelat ca în Figura 7.3.

Dacă se urmăreşte o procedură similară ca în Capitolul 6, manipularea relaţiei (7.16)

conduce la concluzia că ˆE n c tinde către zero dacă pasul algoritmului LMS , verifică

inegalitatea:

max

20

(7.17)


unde max este cea mai mare valoare proprie a lui R . Totuşi, vom sublinia aici că

îndeplinirea inegalităţii (7.17) nu garantează, în mod necesar, stabilitatea algoritmului LMS.

Convergenţa algoritmului LMS presupune convergenţa în medie a lui ˆ nw către ow şi,

de asemenea, convergenţa varianţei componentelor lui ˆ nw către anumite valori limită.

După cum vom arăta în continuare, pentru a garanta stabilitatea algoritmului LMS,

valabilitatea relaţiei (7.17) devine discutabilă.

Exemplul 7.1: Algoritmul LMS cu „pierderi” (leaky-LMS) este caracterizat de

ecuaţia (Diniz 2008, Håkansson 2004):

*ˆ ˆ1 1n n n e n w w u (7.18)

unde 0 1 . Se cere:

a. Să se calculeze domeniul valorilor lui necesar pentru a asigura conver-

genţa în medie a coeficienţilor.

b. Care este expresia funcţiei de cost lJ n pe care o minimizează acest

algoritm.

c. Ce se întâmplă cu coeficienţii filtrului adaptiv în situaţia în care eroarea

şi/sau semnalul de intrare devin nule.

Soluţie:

a. Dezvoltăm expresia erorii din ecuaţia de ajustare a coeficienţilor algorit-

mului leaky-LMS:

*

*

ˆ ˆ ˆ1 1

ˆ

H

H

n n n d n n n

n n n n d n

w w u u w

I u u I w u

Aplicăm în continuare ultimei expresii operatorul de mediere:

ˆ ˆ1E n E n w I R I w p

Filtru Wiener

ow

Filtru stochastic

ˆ ˆo c w w

u n y n e n

d n

Figura 7.3 Model al algoritmului LMS


Apariţia lui în prima expresie este echivalentă cu adăugarea la semnalul

de intrare nu a unui zgomot alb, astfel încât la valorile proprii ale

matricii de corelaţie R să se adauge valoarea . Drept urmare, condiţia

de stabilitate în medie statistică a coeficienţilor se exprimă prin:

max

20

Coeficienţii converg către o soluţie „deplasată” (în engleză – biased) în

raport cu soluţia optimală Wiener, fiind daţi de:

1

ˆ pentru E n n

w R I p

b. Ecuaţia (7.18) poate fi rescrisă într-un format care să permită identi-

ficarea expresiei gradientului funcţiei de cost lJ n :

*

*

ˆ ˆ ˆ1

ˆ ˆ ˆH

n n n n e n

n n d n n n n n

w w w u

w w u u u w (7.19)

Dacă comparăm ultima expresie cu relaţia (7.5) care defineşte metoda SD,

rezultă că gradientul căutat este definit prin:

*

ˆ

*

ˆ ˆ2 2

ˆ2 2

H

lJ n n n d n n n

n n e n

w w u u w

w u

Prin urmare, funcţia de cost care este supusă minimizării în algoritmul

leaky-LMS este:

2 2

ˆlJ n e n n w

c. În condiţiile în care semnalul de intrare (sau eroarea) sunt anulate după

câteva iteraţii iniţiale, ecuaţia de actualizare (7.18) are excitaţii nule.

Întrucât valorile proprii ale matricii de tranziţie Hn n I u u I

sunt mai mici decât unu, atunci coeficienţii filtrului adaptiv vor tinde către

zero, pe măsură ce n .

7.2.2 Ipoteze utilizate în studiul comportării erorii

pătratice medii a algoritmului LMS

Vom studia, în continuare, evoluţia lui 2

J n E e n

pe măsură ce algoritmul LMS

evoluează. Vom folosi rezultatele comunicate de Feuer şi Weinstein (1985) şi reluate apoi în

tratatele scrise de Haykin (1996) şi Farhang-Boroujeny (1998). Vom urmări direct,

condiţiile în care are loc convergenţa algoritmului LMS. Presupunerile pe care ne bazăm

sunt următoarele:


1. Secvenţa de intrare u n şi secvenţa de răspuns dorit d n sunt procese

aleatoare staţionare de medie nulă.

2. Secvenţele aleatoare u n şi d n constau din variabile aleatoare cu distribuţie

mutual gaussiană.

3. La momentul de timp n , vectorul ponderilor filtrului adaptiv ˆ nw este

independent atât în raport cu vectorul de intrare nu cât şi cu semnalul dorit

d n .

Validitatea ultimei ipoteze este justificată, aşa cum s-a discutat în paragraful anterior

atunci când pasul algoritmului este mic. Aceasta este Ipoteza de Independenţă. Prima

presupunere simplifică mult analiza, în timp ce a doua conduce la simplificări în rezultatul

final, întrucât momentele de ordinul trei şi patru care apar pe parcursul calculelor pot fi

exprimate prin intermediul momentelor de ordinul doi în cazurile în care variabilele

aleatoare care intervin au o distribuţie mutual gaussiană.

7.2.3 Curba de învăţare a algoritmului LMS

Calculăm eroarea pătratică medie la ieşirea filtrului adaptiv LMS, pornind de la relaţia

(7.11):

ˆH

oe n e n n n c u (7.20)

Pentru a obţine eroarea pătratică medie (EPM), multiplicăm cu conjugata ambii

membrii ai relaţiei (7.20) şi aplicăm operatorul de mediere:

22 2

*

ˆ

ˆ ˆ

H

o

H H

o o

J n E e n E e n E n n

E e n n n E e n n n

c u

u c c u

(7.21)

Cel de-al doilea termen din membrul drept al ecuaţiei (7.21) se calculează, pe baza ipotezei

de independenţă şi a egalităţii ˆ ˆH Hn n n nc u u c , astfel:

2

ˆ ˆ ˆ

ˆ ˆ ˆ ˆ

H H H

H H H

E n n E n n n n

E n E n n n E n n

c u c u u c

c u u c c Rc

(7.22)

Observând că 2

ˆHE n n

c u este un scalar şi, făcând apel la relaţia (7.22), se scrie în

continuare

2 2

ˆ ˆ ˆ ˆtr tr

ˆ ˆtr

H H H

H

E n n E n n E n n

E n n

c u c u c Rc

c Rc

(7.23)


unde tr reprezintă urma unei matrici, iar în scrierea ultimei egalităţi am utilizat

proprietatea operatorilor lineari „urmă” şi „medie” de a putea fi schimbaţi între ei. Acest

rezultat poate fi simplificat mai mult dacă folosim un rezultat din algebra matricială şi

anume că pentru orice pereche de matrici A şi B de dimensiuni N M respectiv M N

se poate scrie

tr trAB BA (7.24)

Utilizarea identităţii (7.24) conduce la:

ˆ ˆ ˆ ˆ ˆ ˆtr tr trH H HE n n E n n E n n c Rc c c R c c R (7.25)

În aceste condiţii, definim matricea de corelaţie a vectorului de eroare a coeficienţilor ˆ nc

prin

ˆ ˆHn E n n K c c (7.26)

şi rezultatul din (7.25) se reduce la

2

ˆ trHE n n n c u K R (7.27)

Utilizând ipoteza de independenţă şi observând că oe n este un scalar, ultimul termen

din membrul drept al relaţiei (7.21) se calculează astfel:

* *

*

ˆ ˆ

ˆ 0

H H

o o

H

o

E e n n n E n n e n

E n E n e n

c u c u

c u (7.28)

unde ultimul pas rezultă din principiul ortogonalităţii care afirmă că eroarea de estimare

optimă şi eşantioanele de semnal de la intrarea unui filtru Wiener sunt ortogonale

(necorelate), adică * 0oE n e n u . Similar,

ˆ 0H

oE e n n n u c (7.29)

Înlocuind relaţiile (7.27), (7.28) şi (7.29) în (7.21), se obţine

2

min trJ n E e n J n RK (7.30)

unde 2

min oJ E e n

este eroarea pătratică medie (EPM) minimă a ieşirii filtrului.

În vederea unei analize mai detailate, acest ultim rezultat poate fi pus într-o formă mai

convenabilă, dacă ne reamintim că în Capitolul 3 matricea de corelaţie R s-a descompus

astfel

HR QΛQ (7.31)


unde Q este matricea de dimensiune M M a cărei coloane sunt vectorii proprii ai matricii

R iar Λ este matricea diagonală alcătuită din valorile proprii 1 1, , , M ale lui R . Prin

introducerea lui (7.31) în relaţia (7.30) şi utilizarea identităţii (7.24), se obţine

min trJ n J n ΛX (7.32)

unde Hn nX Q K Q . În plus, utilizând (7.26) şi relaţia (6.47) Hn nv Q c din

Capitolul 6, matricea nX poate fi definită prin

ˆ ˆ Hn E n n X v v (7.33)

unde ˆˆ Hn nv Q c este vectorul de eroare a coeficienţilor în coordonatele definite de

vectorii proprii ai lui R .

Observând că Λ este o matrice diagonală, relaţia (7.32) se exprimă astfel:

min

1

M

i ii

i

J n J x n

(7.34)

unde iix n este elementul i de pe diagonala matricii nX .

Reprezentarea graficului J n în funcţie de indicele de timp n , definită prin (7.30) sau

prin formele alternative (7.32) sau (7.34) este denumită curba de învăţare a algoritmului

LMS (Farhang-Boroujeny 1998 şi Manolakis, ş.a. 2005). Aceasta este asemănătoare cu

curba de învăţare a metodei SD, pentru că, în conformitate cu observaţiile din paragraful

anterior, algoritmul LMS urmăreşte în medie aceiaşi traiectorie cu metoda SD. Variaţiile

coeficienţilor filtrului datorate zgomotului, introduc în cazul algoritmului LMS o eroare

adiţională, exJ n , şi plasează curba sa de învăţare mai sus decât curba metodei SD. Totuşi,

atunci când pasul al algoritmului LMS este redus (ceea ce în practică este obişnuit),

diferenţa dintre cele două curbe poate fi observabilă doar atunci când metodele au realizat

convergenţa iar curbele s-au apropiat de valorile lor finale.

7.2.4 Evoluţia matricii de corelaţie a erorii

coeficienţilor

Matricea de corelaţie a erorii coeficienţilor nK joacă un rol important în studiul algorit-

mului LMS. Relaţia (7.30) indică că J n este legat direct de nK . Această ecuaţie impli-

că faptul că, dacă valorile elementelor acestei matrici rămân mărginite atunci când n creşte,

stabilitatea algoritmului LMS este garantată.

Pentru a calcula nK , vom postmultiplica mai întâi ambii termeni ai ecuaţiei de recur-

sie (7.13) cu hermiticele lor respective iar apoi vom aplica operatorul de mediere statistică

rezultatelor obţinute:


*

2 *

ˆ ˆ1 1 1

ˆ ˆ

ˆ

ˆ

H

HH H H

H H

o

HH H

o

H

o o

n E n n

E n n n n n n

E n n n e n n

E n e n n n n

E n e n e n n

K c c

I u u c c I u u

I u u c u

u c I u u

u u

(7.35)

Din ipotezele de independenţă, oe n este independentă faţă de ˆ nc şi nu . Prin urmare,

al doilea şi al treilea termen din (7.35) dispar, iar cel de al patrulea este egal cu 2

minJ R .

Dacă dezvoltăm primul termen din (7.35), se obţine:

2 2

min1n n n n J K K RK K R A R (7.36)

unde: ˆ ˆH H TE n n n n n n A u u c c u u (7.37)

iar termenii nRK şi nK R sunt obţinuţi prin utilizarea independenţei mutuale a

mărimilor nu , ˆ nc şi oe n .

Calculul matricii A poate fi simplificat dacă se adoptă unele ipoteze suplimentare refe-

ritoare la proprietăţile statistice ale lui nu . După cum a arătat Gardner (1984), dezvoltarea

unei relaţii de recursie pentru elementele lui nK prin utilizarea numai a ipotezelor de

independenţă necesită produse şi inversări de matrici de dimensiune 2 2M M , M fiind

dimensiunea vectorului nu .

Dacă Gardner (1984) a evaluat acest termen în ipoteza că secvenţa nu este IID, foarte

plauzibilă în cazul transmisiunilor de date, în cazul unei distribuţii gaussiene a datelor, care

caracterizează foarte bine semnalele vocale, calculele au fost făcute de Rupp (1993).

Presupunând că secvenţa nu de medie nulă şi matrice de corelaţie R este normal

distribuită, se pot face o serie de simplificări. Într-adevăr, în acest caz se poate utiliza

proprietatea de factorizare a variabilelor aleatoare normal distribuite pentru a exprima

momentele de ordinul patru (Papoulis 1991). Astfel, dacă 1 2 3 4, , şi z z z z sunt variabile alea-

toare complexe, de medie aleatoare nulă şi distribuite mutual gaussian, atunci

* * * * * *

1 2 3 4 1 2 3 4 1 4 2 3E z z z z E z z E z z E z z E z z (7.38)

Înlocuind direct (7.38) în (7.37), se poate arăta (Manolakis, ş.a. 2005) că

trn n A RK R R RK (7.39)

În final, înlocuind (7.39) în (7.36) se obţine ecuaţia stochastică cu diferenţe finite pentru

nK :


2 2

min

1

tr

n n n n

n n J

K K RK K R

RK R R RK R (7.40)

Prezenţa termenului 2

minJ R în (7.40) are drept consecinţă faptul că nK nu va

deveni nul în nicio condiţie, şi drept urmare, coeficienţii filtrului LMS adaptiv vor fluctua

întotdeauna în jurul valorilor optime, ceea ce împiedică convergenţa.

O simplificare importantă a analizei se realizează dacă trecem de la nK la matricea

nX definită prin relaţiile (7.31) şi (7.33). Dacă pre- şi postmultiplicăm (7.40) cu HQ

respectiv Q şi folosim egalităţile H H Q Q QQ I , se obţine:

2 2

min

1

tr

n n n n

n n J

X X ΛX X Λ

ΛX Λ Λ ΛX Λ (7.41)

Simplificările se bazează pe faptul că Λ este o matrice diagonală. Elementele oricărei

matrici nX simetrică şi pozitiv definită satisfac, oricare ar fi valorile lui i şi j , relaţiile

2

ij ii jjx n x n x n . Prin urmare, convergenţa elementelor diagonale ale lui nX este

suficientă pentru a asigura convergenţa tuturor elementelor sale. Această observaţie

împreună cu relaţia (7.41) sugerează că pentru a analiza algoritmului va trebui să studiem

din (7.41) ecuaţiile elementelor diagonale ale matricii nX incluse în vectorul nx :

11 22

T

MMn x n x n x n x (7.42)

Se poate arăta uşor că ecuaţia recursivă a vectorului nx este:

2

min1n n J x Bx λ (7.43)

unde 2 TB Ρ λ λλ (7.44)

1 2

T

M λ (7.45)

1 2

2

diag , ,

1 0, 1

M

k k k M

Ρ λ (7.46)

Matricea B de dimensiune M M este reală, pozitiv definită şi simetrică, de elemente

2

2

1 ,

,

i

ij

i j

i jb

i j

(7.47)

Ecuaţia stochastică cu diferenţe finite (7.43) poate fi utilizată la studiul stabilităţii

algoritmului LMS. Aceasta este garantată dacă elementele lui nx rămân mărginite odată

cu creşterea lui n . Condiţia necesară şi suficientă este ca toate valorile proprii ale matricii

B să fie subunitare. Feuer şi Weinstein (1985) au dat, pe această bază condiţiile de


stabilitate. În lucrarea noastră, vom stabili condiţiile de stabilitate într-un mod indirect după

ce vom determina expresii convenabile pentru EPM în exces şi dezadaptare.

7.2.5 Eroarea pătratică medie în exces şi

dezadaptarea

Chiar şi în condiţiile în care vectorul coeficienţilor filtrului ˆ nw se apropie de valoarea

optimală ow , iar media gradientului pătratului erorii J n tinde către zero, valoarea

instantanee a acestui gradient poate să nu fie nulă. Există, prin urmare, o perturbaţie a vecto-

rului coeficienţilor ˆ nw în jurul valorii sale optimale ow , chiar şi după ce algoritmul a

realizat convergenţa. Aceasta, la rândul său, măreşte EPM a algoritmului LMS la un nivel ce

se situează peste valoarea minimă a acestei erori care este obţinută pentru coeficienţii

filtrului Wiener. Această eroare suplimentară este denumită eroare pătratică medie în exces.

Cu alte cuvinte, EPM în exces a unui filtru adaptiv ,excJ este definită drept diferenţa dintre

EPM a filtrului în regim staţionar ,J şi EPM minimă minJ . Din relaţiile (7.30), (7.34),

(7.42) şi (7.45) scriem:

min

1

exc

MT

i ii

i

J J J

tr x

RK λ x (7.48)

Atunci când algoritmul LMS este convergent, nx converge către o valoare de regim

permanent mărginită şi putem spune că 1 ,n n x x atunci când n . Cu această

observaţie, din ecuaţia (7.43) se obţine

12

minn J

x I B λ (7.49)

Înlocuim ultima expresie în (7.48) pentru a avea:

12

min

T

excJ J

λ I B λ (7.50)

În primul rând să remarcăm că excJ este proporţional cu min ,J observaţie intuitiv de

înţeles, dacă se remarcă că atunci când ˆ nw se situează într-o vecinătate a lui ow , varianţa

elementelor vectorului gradientului erorii este proporţională cu minJ . De asemenea, ca şi

min ,J excJ este o putere. Pentru a avea o măsură absolută a degradării datorate lui ,excJ se

obişnuieşte să se normeze excJ la minJ . Rezultatul poartă numele de dezadaptare

(misadjustment) şi este notat prin M :

12

min

TexcJ

J

λ I B λM (7.51)

Structura specială a matricei I B ne permite să-i stabilim inversa.

Remarcăm din (7.44) şi (7.46) că


2

1 2diag 1 ,1 , ,1 T

M I B λλ (7.52)

Pentru a inversa matricea ,I B facem apel la Lema de inversare matricială (vezi

Capitolul 10), care, pentru o matrice A de dimensiune M M , un vector a de lungime

M şi un scalar , afirmă că:

1 1

11

11

HH

H

A aa AA aa A

a A a (7.53)

Identificăm în (7.53) 2

1 2diag 1 ,1 , ,1 , şi - ,M A a λ aflăm inversa

lui ,I B înlocuim rezultatul în definiţia (7.51), şi, după câteva manipulări directe, se

obţine

1

1

2

12

Mi

i i

Mi

i i

M (7.54)

Este util să simplificăm acest rezultat prin câteva aproximări adecvate, astfel încât

rezultatul să poată fi utilizat la alegerea pasului algoritmului, . În practică se obişnuieşte să

se aleagă o astfel de valoare pentru încât să se realizeze o dezadaptare M de 10%

( 0,1M ) sau chiar mai mică. În cazul considerat, se poate face simplificarea

1 1

tr2 2 2

M Mi

i

i ii

R (7.55)

Justificarea aproximării este dată de observaţia că pentru valori mici ale lui M , suma din

membrul stâng al lui (7.55) este, de asemenea mică. Mai mult, pentru o valoare mică a lui

M , se poate face aproximarea 2 2, 1 ,i i M iar numitoarele termenilor din

sumele aflate în membrul drept al ecuaţiei (7.54) dispar. Se obţine astfel

tr

2 tr

R

RM (7.56)

În plus, se observă că pentru valori mici ale lui M , de exemplu 0,1M , valoarea expre-

siei tr R este, de asemenea, mică, şi astfel ea poate fi ignorată la numitorul relaţiei

(7.56) pentru a da aproximarea:

tr2

RM (7.57)

Ultima ecuaţie este extrem de convenabilă în practică, întrucât tr R este egală cu

suma puterii eşantioanelor de semnal de la intrarea filtrului. Aceasta poate fi uşor măsurată

şi folosită la alegerea pasului algoritmului, , astfel încât să se realizeze un anumit nivel al

dezadaptării. Mai mult, atunci când procesul de la intrarea filtrului nu este staţionar,


estimarea pentru tr R poate fi actualizată recursiv iar pasul algoritmului , ales astfel

încât să menţină un anumit nivel de dezadaptare.

7.2.6 Stabilitatea algoritmului LMS

În Capitolul 6 am arătat că pentru metoda SD, limitele între care poate lua valori pasul algo-

ritmului este dependentă de proprietăţile statistice ale procesului aleator de la intrare.

Condiţia a fost reluată în acest Capitol la studiul convergenţei în medie a coeficienţilor filtru-

lui LMS prin relaţia (7.17). Ne aşteptăm, totuşi, ca examinarea erorii pătratice medii a filtru-

lui să stabilească limite mai restrictive în ceea ce priveşte valoarea lui . Pentru a determina

limita superioară a lui , care garantează stabilitatea algoritmului LMS, vom examina în

detaliu relaţia de calcul al dezadaptării (7.54).

Definim:

1 2

Mi

i i

(7.58)

şi notăm că

1

M (7.59)

De observat că noua variabilă este o funcţie strict crescătoare de , întrucât:

21 2

Mi

i i

(7.60)

Similar, se poate arăta că M este o funcţie crescătoare de . În consecinţă, dezadaptarea

M definită prin (7.54) este, de asemenea, o funcţie crescătoare de . Astfel, pornind de la

0, limita inferioară a parametrului , şi crescând pe , găsim că atât cât şi M pornesc

de la zero şi cresc odată cu . Se remarcă că, pe măsură ce se apropie de unu, M tinde

la infinit. Această condiţie coincide evident cu limita superioară a lui , valoare sub care

trebuie să se situeze pasul algoritmului, dacă se doreşte asigurarea stabilităţii acestuia.

Astfel, valoarea maximă a lui se obţine în urma stabilirii primei rădăcini pozitive a

ecuaţiei:

1

12

Mi

i i

(7.61)

Rezolvarea exactă a ecuaţiei(7.61) se dovedeşte a fi în general, o problemă matematică

dificilă. În plus, din punct de vedere practic, o asemenea soluţie nu e rentabilă, având în

vedere că aceasta depinde, într-un manieră complicată, de statistica semnalului de intrare.

Vom calcula în continuare marginea superioară a valorilor lui , care depinde numai de

1

trM

ii

R , o mărime uşor de măsurat în practică. Vom utiliza pentru început observa-

ţia din Farhang-Boroujeny (1998) că, orice valoare a lui care satisface ecuaţia


1

1

1

2

M

i

i

M

i

i

(7.62)

satisface şi inegalitatea

1

12

Mi

i i

(7.63)

În plus, orice valoare a lui situată între zero şi soluţia ecuaţiei (7.62) satisface condiţia

(7.63). Consecinţa este că (7.62) stabileşte o limită superioară pentru suficientă pentru

stabilitatea algoritmului LMS, dar care, în general, nu este necesară. Notând prin max solu-

ţia lui (7.62), se obţine:

max

1

1 1

trM

i

i

R

(7.64)

În concluzie, algoritmul LMS rămâne stabil, dacă

10

tr

R (7.65)

o condiţie mult mai restrictivă decât cea bazată pe convergenţa în medie a coeficienţilor

filtrului LMS către valorile lor optimale, ecuaţia (7.17). Să mai remarcăm că (7.65)

constituie o condiţie suficientă dar nu necesară pentru stabilitate. Avantajul acestei soluţii

este acela că ea poate fi măsurată uşor din eşantioanele de semnal de la intrarea filtrului.

7.2.7 Reguli practice de implementare a algoritmului

LMS

Condiţia de convergenţă a algoritmului LMS exprimată prin relaţia (7.65) poate fi reformu-

lată pornind de la proprietăţile remarcabile pe care le are o matrice de corelaţie. Aceasta este

o matrice Toeplitz, pozitiv definită, având toate elementele de pe diagonala principală egale

cu 0r . Întrucât 0r este el însuşi egal cu valoarea medie pătratică a semnalului de intrare

pe fiecare dintre cele M celule multiplicative ale filtrului transversal, se scrie

1

2

1 0

0M M

i

i k

tr Mr E u n k

R (7.66)

Astfel, utilizând noţiunea de putere a vectorului de intrare pentru a face referire la suma

valorilor pătratice medii ale semnalelor , 1 , , 1u n u n u n M , condiţia din ecua-

ţia (7.65) pentru convergenţa algoritmului LMS în medie pătratică poate fi reformulată astfel

1

0Puterea vectorului de intrare

(7.67)


O altă expresie care primeşte o reformulare mai practică este (7.57), referitoare la

dezadaptarea M :

1

Puterea vectorului de intrare2 2

M

i

i

M (7.68)

Prin urmare, dacă se impune, pentru stabilitate, condiţia practică (7.67), se asigură automat

nu numai convergenţa algoritmului ci şi realizarea unei dezadaptări M mai mici decât ½.

Se poate defini pentru matricea de corelaţie R o valoare proprie medie prin

1

1 M

i

iM

(7.69)

De asemenea, se poate presupune că curba de învăţare mediată pe ansamblu a algoritmului

LMS este aproximată printr-o singură exponenţială cu constanta de timp EPM . În

continuare, putem utiliza ecuaţia (6.59), dezvoltată pentru metoda gradientului, pentru a

defini constanta de timp medie EPM a algoritmului LMS:

1

2EPM

(7.70)

Prin urmare, substituind ecuaţiile (7.69) şi (7.70) în (7.68), poate fi redefinită aproxi-

mativ dezadaptarea astfel (Widrow şi Stearns 1985):

2 4 epm

M M

M (7.71)

Pe baza formulei de mai sus, se pot face următoarele observaţii:

1. Dezadaptarea M creşte linear cu lungimea filtrului M pentru o constantă de

timp fixată, EPM .

2. Timpul necesar amortizării regimului tranzitoriu (settling time) al algoritmului

LMS este proporţional cu constanta de timp medie EPM . Consecinţa este că

dezadaptarea M este invers proporţională cu settling time.

3. Dezadaptarea M este direct proporţională cu pasul algoritmului , în timp ce

constanta de timp medie EPM este invers proporţională cu . Există aici o

contradicţie în sensul că dacă este mic pentru a reduce dezadaptarea atunci

timpul de amortizare a algoritmului LMS va creşte. Prin urmare, trebuie acor-

dată o atenţie deosebită alegerii parametrului .

7.3 Simulări pe calculator

Simulările pe computer joacă un rol major în studiul filtrelor adaptive. În analiza prezentată

în paragraful anterior, în scopul simplificării tratamentului matematic al problemei, au fost

făcute o serie de ipoteze şi presupuneri. Valabilitatea acestor supoziţii şi concordanţa dintre

7.3 Simulări pe calculator 195

rezultatele matematice şi performanţele reale ale filtrelor adaptive sunt verificate de obicei

prin simulări pe calculator.

Vom prezenta în continuare câteva exemple de simulări pe calculator. Este vorba de trei

aplicaţii diferite ale filtrării adaptive:

Predicţia lineară

Identificarea de sistem

Egalizare de canal.

În primul caz, vom relua din Capitolul 6 problema de predicţie lineară şi vom compara pe

exemplul ales performanţele algoritmului LMS cu cele ale metodei SD. A doua aplicaţie

este o problemă de modelare de sistem în condiţiile în care ieşirea sistemului este înecată în

zgomot iar semnalul de intrare este un zgomot „colorat”. Ultimul exemplu studiază apli-

carea egalizării adaptive LMS la minimizarea interferenţei intersimbol de pe un canal de

comunicaţii dispersiv.

Obiectivele urmărite prin aceste exemplificări sunt

Să-i ajute pe cititori să se familiarizeze cu simulările pe calculator.

Să verifice acurateţea rezultatelor teoretice obţinute.

Să îmbunătăţească înţelegerea rezultatelor teoretice prin examinarea şi interpre-

tarea atentă a rezultatelor simulărilor.

Toate rezultatele prezentate în continuare au fost obţinute prin utilizarea mediului de progra-

me pentru calcule ştiinţifice şi tehnice MATLAB. Pe lângă funcţii şi operatori matematici de

uz general, MATLAB include şi instrumente specifice „Toolboxes” dedicate în mod explicit

realizării şi analizei performanţelor filtrelor adaptive (Douglas şi Losada 2002).

7.3.1 Predicţia lineară

În Exemplul 6.1, s-a utilizat metoda SD pentru a face predicţie lineară asupra modelului AR

de ordinul doi dat prin ecuaţia (6.60). S-au analizat de asemenea, performanţele metodei SD.

În Exemplul 7.2, vom executa aceleaşi operaţii prin algoritmul LMS şi vom studia efectele

pe care le are împrăştierea valorilor proprii ale matricii de corelaţie asupra convergenţei

algoritmului LMS.

Exemplul 7.2: Vom relua, pentru început relaţia (6.60) a procesului AR care

generează semnalul u n :

1 21 2u n a u n a u n v n

unde v n este zgomot alb de medie nulă şi varianţă 2

v , iar coeficienţii sunt aleşi

din Tabelul 6.1 pentru două valori distincte ale gradului de împrăştiere a valorilor

proprii, R . În scopul efectuării analizei statistice, pentru fiecare set de para-

metri din tabel s-au generat 1000 de realizări aleatoare ale procesului v n .


Coeficienţii 1 2ˆ ˆ ˆ

T

n w n w n w ai predictorului adaptiv LMS de ordinul

doi se calculează cu ecuaţiile recursive (vezi Tabelul 7.1):

1 2

1 1

2 2

ˆ ˆ1 1 1 1 1 2

ˆ ˆ 1 1 1

ˆ ˆ 1 1 2

e n u n w n u n w n u n

w n w n e n u n

w n w n e n u n

unde este parametrul de pas al algoritmului. Predictorul adaptiv s-a iniţializat

prin 0 1ˆ ˆ1 2 0 şi 1 1 0u u w w . Implementarea predictorului LMS

s-a făcut cu pasul 0,08 , iar evoluţia coeficienţilor şi a EPM a fost înregistrată

pentru fiecare realizare a procesului. Pentru a studia statistic comportarea algo-

ritmului LMS, aceste mărimi s-au mediat pe ansamblul realizărilor. Calculele s-au

reluat pentru 0,02 .

Figura 7.4 prezintă câteva grafice obţinute pentru 1,22 R . Graficul (a)

prezintă traiectoria mediată pe ansamblu 300

0ˆ

nn

w suprapusă peste contururile

Figura 7.4 Graficele performanţelor algoritmului LMS în problema de predicţie lineară

pentru valori ale parametrilor 1,22 R şi 0,08 .


suprafeţelor de EPM constantă. Pentru a evidenţia caracterul aleator al unei

singure realizări este reprezentată, de asemenea, o astfel de traiectorie. Graficul

(b) prezintă curbele de învăţare mediate ale lui ˆ nw împreună cu rezultatul obţi-

nut pentru o singură realizare. Graficul (c) prezintă curbele de învăţare ale EPM

iar, în final, graficul (d) descrie efectul pe care îl are mărimea pasului asupra

curbei de învăţare a EPM. Grafice similare prezintă Figura 7.5 pentru 10 R .

Câteva observaţii se pot face pornind de la graficele obţinute prin simulările descrise

mai sus:

Traiectoriile şi curbele de învăţare ale unei simple realizări sunt, evident, aleatoare

sau „zgomotoase”, în timp ce operaţia de mediere pe ansamblu are, clar, un efect de

„netezire”.

Mărimile mediate (coeficienţii şi EPM) converg către valorile optimale iar rata de

convergenţă este în concordanţă cu calculele teoretice.

Rata de convergenţă a algoritmului LMS depinde de pasul algoritmului . Cu cât

este mai mic acest pas, cu atât mai lentă este viteza de convergenţă.

Figura 7.5 Graficele performanţelor algoritmului LMS în problema de predicţie lineară

pentru valori ale parametrilor 10 R şi 0,08 .


Rata de convergenţă depinde de asemenea de gradul de împrăştiere a valorilor

proprii R . Cu cât mai mare este această împrăştiere, cu atât mai lentă este

această rată. Pentru 1,22 R , algoritmul converge în aproximativ 150 de paşi

în timp ce, pentru 10 R , el are nevoie de aproximativ 500 de paşi.

7.3.2 Modelarea de sistem

Vom examina în continuare problema de identificare a unui sistem descrisă în Figura 7.6.

Semnalul de intrare u n pentru sistemul de identificat şi filtrul adaptiv este obţinut prin

trecerea unei secvenţe de zgomot alb gaussian de varianţă unitară, v n , prin filtrul cu

răspunsul la impuls h n . Sistemul necunoscut, ow n , este presupus a fi de tipul FIR ,

adică răspunsul lui la impuls este de durată finită, M eşantioane. Ieşirea sistemului este

contaminată cu o secvenţă de zgomot alb gaussian, oe n , de varianţă 2

o . Un filtru adap-

tiv cu M coeficienţi, ˆ , 0,1, , 1w n n M este utilizat pentru estimarea parametrilor

sistemului de identificat.

Exemplul 7.3: Se consideră aplicaţia de modelare din Figura 7.6, în care siste-

mul de identificat are funcţia de transfer

14

0 8

ii i

o o

i i

W z Z w n z z

Prin urmare, ordinul filtrului adaptiv utilizat la identificare este 15M . Pe de

altă parte, varianţa zgomotului alb oe n este 2 310o .

În ceea ce priveşte filtrul FIR h n , ce „colorează” semnalul de intrare în

sistem, în scopul examinării efectului gradului de împrăştiere a valorilor proprii

ale lui R asupra performanţelor filtrării adaptive se utilizează pentru funcţia de

transfer H z două expresii distincte:

Figura 7.6 Modelarea adaptivă a unui sistem necunoscut FIR


1 2

1 1

1 2

2 2

0,35 0,35

0,35 0,35

H z Z h n z zH z Z h n

H z Z h n z z

Alegerea primei expresii conduce la o valoare a împrăştierii 1,45 R , apro-

piată de cea a zgomotului alb. În schimb, utilizarea celei de a doua variante dă un

semnal de intrare mult mai „colorat”, întrucât 28,7 R . Conform proprietăţii

a 7-a a valorilor şi vectorilor proprii ale lui R (vezi Capitolul 3), valoarea

gradului de împrăştiere R poate fi aproximată din graficul densităţii spectrale

de putere (DSP) a procesului considerat. Figura 7.7 reprezintă DSP pentru cele

două funcţii de transfer considerate. Pentru a reprezenta graficele din Figura 7.7,

s-a avut în vedere că spectrul procesului u n se obţine prin aplicarea relaţiei

(3.58) la cazul examinat:

2

u vS H S

cu 1vS , pentru că v n este zgomot alb de varianţă unitară. În concluzie,

Figura 7.7 evidenţiază că procesul generat de 2H z este puternic „colorat” în

timp ce spectrul generat de 1H z este relativ plat.

Figura 7.8 reprezintă curbele de învăţăre ale algoritmului LMS pentru cele

două variante de filtru H z utilizate. Parametrul de pas al algoritmului se

alege în conformitate cu relaţia (7.68) dintre dezadaptarea M şi puterea proce-

sului u n , astfel încât valoarea dezadaptării să fie de 10%, 20% respectiv 30%.

Valorile iniţiale ale coeficienţilor filtrului adaptiv sunt nule, ˆ 0 0,iw

Figura 7.7 Densităţi spectrale de putere ale proceselor

de intrare u n obţinute prin filtrare cu:

(a) 1h n h n , (b) 2h n h n .


0,1, , 1i M . Fiecare curbă reprezentată în Figura 7.8 este obţinută printr-o

mediere statistică pe 100 de rulări independente ale experimentului. Se observă că

eroarea minimă este minJ 2 2

o oE e n , valoare atinsă atunci când coefi-

cienţii filtrului LMS coincid cu cei ai modelului.

Figura 7.8(a) evidenţiază încă o dată faptul că în situaţia în care dezadaptarea este redu-

să şi pentru un acelaşi pas al algoritmului LMS, convergenţa algoritmului se face mai

rapid în cazul unei împrăştieri mai mici a valorilor proprii R . Din Figura 7.8(b) rezultă

că, pentru un grad de împrăştiere R dat, odată cu creşterea pasului şi, implicit a

dezadaptării M , rata de convergenţă a algoritmului creşte, dar, lucru evident pentru

30%M , sporeşte şi instabilitatea algoritmului.

Sunt câteva concluzii care pot fi desprinse din Exemplul 7.3:

Pentru un nivel al dezadaptării 10%M (şi mai mic), relaţia (7.68) descrie foarte

bine ceea ce se întâmplă în realitate, după cum rezultă din simulări. Pentru nivele de

dezadaptare 10% 30% M , relaţia mai precisă, (7.54), realizează o bună

concordanţă cu rezultatele simulărilor (Farhang-Boroujeny 1998).

După cum se remarcă şi din Figura 7.8(a), pentru dezadaptări 30%M ,

rezultatele simulărilor nu mai pot fi descrise satisfăcător de modele teoretice

adecvate. Mai mult, figura evidenţiază, pentru 30%M , un anumit grad de

instabilitate, care se accentuează dacă dezadaptarea creşte. Explicaţia dezacordului,

în acest ultim caz, dintre teorie şi experiment poate fi atribuit faptului că ipoteza de

independenţă, care s-a făcut la dezvoltarea rezultatelor teoretice, este serios violată

pentru valori mari ale lui .

7.3.3 Egalizarea adaptivă

Performanţele sistemelor de transmisie a datelor pe canale care pot fi aproximate prin

sisteme lineare sunt limitate de factori ca banda finită de frecvenţă, interferenţa intersimbol

(ISI) şi zgomotul termic. Exemplele tipice de asemenea canale includ liniile telefonice,

Figura 7.8 Curbele de învăţare ale algoritmului LMS pentru problema de identificare de

sistem din Figura 7.6, pentru cele două variante de procese de intrare discutate.


transmisiunile de microunde cu propagare directă, canalele de satelit şi canalele acustice

subacvatice. Pentru viteze de transmisie a datelor mai mici de 2400 biţi/s, ISI este relativ

redus şi nu pune probleme în funcţionarea unui modem. Totuşi, dacă vitezele de

comunicaţie depăşesc 2400 biţi/s, modemul are nevoie de un egalizor pentru a compensa

distorsiunea de canal. Deoarece caracteristicile canalelor sunt, în general, necunoscute şi

variabile în timp, se foloseşte un algoritm adaptiv, ceea ce conduce la egalizare adaptivă.

Figura 7.9 descrie aplicarea filtrării adaptive la egalizarea de canal. Iniţial, se transmite o

secvenţă cunoscută şi de durată scurtă pentru a ajusta coeficienţii egalizorului prin

intermediul algoritmului LMS. După această scurtă perioadă de învăţare, se transmite

efectiv secvenţa de date u n . Variaţiile lente ale caracteristicilor canalului sunt în

continuare urmărite în mod continuu prin ajustarea coeficienţilor egalizorului ce utilizează

deciziile în locul secvenţei cunoscute de învăţare. Această abordare este eficientă, atâta timp

cât rata de eroare a deciziilor este redusă.

Exemplul 7.4: Figura 7.10 prezintă schema bloc a sistemului utilizat în studiul

experimental al performanţelor algoritmului LMS utilizat în egalizarea adaptivă.

Sursa de date generează secvenţa Bernoulli 0d n de simboluri 1 şi 1 , ce are

media nulă şi varianţa unitară. Canalul, prin care se propagă semnalul sursei, este

modelat de un răspuns la impuls de tip cosinus ridicat:

Figura 7.9 Modelul unui egalizor adaptiv dintr-un sistem de transmisiuni de date.


20,5 1 cos 2 , 1,2,3

0, în rest

n nh n W

(7.72)

unde parametrul W este utilizat pentru a controla mărimea distorsiunii de canal.

Distorsiunea creşte odată cu creşterea lui W . Generatorul de zgomot aleator

furnizează secvenţa de zgomot alb gaussian v n , care modelează zgomotul

canalului. Secvenţa de intrare în egalizor este:

3

0

1k

u n h k d n k v n

(7.73)

Secvenţa 0d n este independentă, iar zgomotul v n este necorelat cu ea, astfel

încât întârzierea maximă pentru care corelaţia este nenulă este 2. Calculul

corelaţiei lui u n :

2 2 2 20 1 2 3

1 1 2 2 3

2 1 3

vr h h h

r h h h h

r h h

permite ca, pentru un egalizor de lungime M , să se formeze matricea R de

dimensiune M M . Întrucât, parametrul W controlează valorile proprii ale lui

R , el dictează implicit şi gradul de împrăştiere a acestora, R .

În cazul simulării, semnalul de învăţare al egalizorului adaptiv este o versiune

a lui 0d n , decalată faţă de aceasta cu o durată egală cu suma întârzierilor intro-

duse de canal şi egalizor, . Răspunsul la impuls al canalului din (7.72) este

simetric în raport cu 2n , şi presupunând că egalizorul este un filtru FIR cu fază

lineară, întârzierea totală este egală cu 1 2 2M . Semnalul de eroare

e n d n y n este utilizat împreună cu y n pentru a implementa algoritmul

Figura 7.10 Schema bloc a sistemului utilizat în studiul performanţelor unui

egalizor adaptiv.


LMS în egalizorul adaptiv, valorile iniţiale fiind nule: ˆ 0 w 0 . Pentru fiecare

caz studiat, s-au executat 100 de realizări independente ale secvenţelor aleatoare,

11M iar varianţa zgomotului de canal este 2 310v . S-au efectuat rulări

pentru două valori distincte ale parametrului de canal: 2,9 W=3,5W şi respec-

tiv pentru patru valori ale lui : 0,01; 0,02; 0,04 şi 0,08. Rezultatele sunt prezen-

tate în Figura 7.11. Figura 7.12 evidenţiază faptul că răspunsul la impuls al

filtrului adaptiv este simetric în raport cu cel de-al 7-lea coeficient al filtrului,

exact aşa cum s-a prevăzut, în timp ce Figura 7.13 prezintă realizări particulare ce

se obţin cu egalizorul LMS prezentat pentru secvenţa transmisă, recepţionată

respectiv egalizată.

În legătură cu rezultatele obţinute, subliniem următoarele:

Efectul împrăştierii valorilor proprii. Curbele de învăţare ale erorii pătratice

medii pentru 2,9W şi 3,5W din Figura 7.11(a) indică faptul că rata de

convergenţă a EPM descreşte odată cu creşterea lui W (sau, echivalent, cu

creşterea lui R ), ceea ce era de aşteptat. Pe de altă parte, valoarea de regim

permanent a EPM se măreşte, atunci când W creşte.

Efectul pasului μ. Figura 7.11(b) prezintă curbele de învăţare ale EPM obţinute

Figura 7.11 Graficele de analiză a performanţelor algoritmului LMS în problema de egalizare

adaptivă.

Figura 7.12 Valorile mediate pe ansamblu ale coeficienţilor egalizorului

adaptiv.


pentru trei valori diferite ale lui . Acestea evidenţiază că afectează rata de

convergenţă ca şi valoarea de regim permanent a erorii. Pentru 0,08 , algorit-

mul converge în aproximativ 100 de iteraţii, în timp ce atunci când 0,01 sunt

necesari în jur de 500 de paşi ai algoritmului.

7.4 Algoritmi LMS pentru aplicaţii de

control activ

Domeniul aplicaţiilor filtrării adaptive este, de regulă, cel al prelucrării semnalelor în teleco-

municaţii. În acest gen de aplicaţii, ieşirea filtrului este o estimare a semnalului dorit. În apli-

caţiile de control activ (reducerea zgomotului acustic sau a vibraţiilor nedorite), filtrul adap-

tiv controlează un sistem dinamic ce conţine amplificatoare sau elemente de acţionare

(actuatori) (Elliott 2001). După cum evidenţiază Figura 7.14(a), ieşirea sistemului dinamic

(anti-zgomot sau anti-vibraţii) reprezintă semnalul de ieşire al sistemului adaptiv. În conse-

cinţă, în acest gen de aplicaţii, se utilizează variante specializate ale algoritmilor adaptivi.

Este evident că un algoritm adaptiv convenţional ca de pildă algoritmul LMS se dove-

deşte, după toate probabilităţile, instabil în acest gen de aplicaţii datorită întârzierilor ce apar

pe calea directă (Elliott şi Nelson 1993). În aceste situaţii, o posibilă alegere sunt algoritmii

LMS cu filtrarea referinţei (în engleză – filtered-X LMS) şi LMS cu filtrarea erorii (în

engleză – adjoint LMS). Ambii algoritmi provin din algoritmul LMS dar introduc, pentru

calculul vectorului coeficienţilor, modele ale sistemului de comandă între semnal şi algoritm

Figura 7.13 Formele de undă ale unei secvenţe aleatoare transmise,

recepţionate şi egalizate de egalizorul LMS.

7.4 Algoritmi LMS pentru aplicaţii de control activ 205

(Håkansson 2006, Morgan 1980) în cazul primului algoritm menţionat respectiv între

semnalul de eroare şi algoritm (Elliott 2001, Wan 1996) în cazul celui de al doilea.

7.4.1 Algoritmul LMS cu filtrarea referinţei

Pentru a exprima semnalul de ieşire Cy n al sistemului de control activ din Figura 7.14(a)

avem în vedere că filtrul FIR este adaptiv cu M coeficienţi variabili, vectorul coeficienţilor

fiind 0 1 1ˆ ˆ ˆ ˆ

T

Mn w n w n w n w . De asemenea, vom presupune că sistemul

de control c poate fi descris printr-o funcţie de transfer de tip FIR de ordinul I:

0 1 1Ic c c c (7.74)

În aceste condiţii, calculăm semnalul de ieşire Cy n al schemei din Figura 7.14(a)

1

0

1 1 1

0 0 0

ˆ ˆ

IT

C j

j

I I MT

j j i

j j i

y n n c y n j

c n j n j c w n j u n j i

c y

w u

(7.75)

Ideea care stă la baza aplicării algoritmilor adaptivi în sistemele de control activ este că

variaţia în timp a coeficienţilor filtrului adaptiv ˆiw este mult mai lentă decât dinamica siste-

mului de control, astfel încât într-o primă aproximaţie, filtrul adaptiv poate fi considerat ca

fiind invariabil în timp. În aceste condiţii, se poate face aproximaţia: ˆ ˆ ,i iw n j w n

0,1, , 1, 0,1, 1i M j I şi:

1 1 1 1

0 0 0 0

ˆ ˆI M M I

j i i j

j i i j

c w n j u n j i w n c u n i j

(7.76)

Expresia din membrul drept al ecuaţiei (7.76) indică posibilitatea echivalării configuraţiei

Figura 7.14 (a) Versiunea simplificată a schemei bloc a unui sistem adaptiv

de control activ. (b) Versiunea rearanjată a schemei din (a) în

cazul unor sisteme liniare şi invariante în timp.


din Figura 7.14(a) cu cea din Figura 7.14(b), ceea ce este justificat pentru un sistem linear

invariant în timp. Drept urmare, pentru a aplica sistemului de control activ din Figura

7.14(a) algoritmul LMS, ne vom referi la schema echivalentă din Figura 7.14(b), ecuaţia

LMS de recursie a vectorului coeficienţilor (7.9) luând acum forma:

ˆ ˆ1n n n e n w w r (7.77)

unde nr este răspunsul sistemului de control c la secvenţa de intrare nu :

1

0

1 ,

cu:

T

I

j

j

n r n r n k r n M

r n k c u n k j

r

(7.78)

iar expresia semnalului de eroare e n este

T

Ce n d n y n d n n n w r (7.79)

Relaţia (7.77) reprezintă ecuaţia de recursie a algoritmului LMS cu filtrarea referinţei,

numit în limba engleză filtered-X LMS din motiv că se obişnuieşte ca semnalul de referinţă

u n să fie notat în literatura de specialitate cu x n .

În practică, semnalul de referinţă filtrat va fi generat utilizând o versiune estimată a

răspunsului real al actuatorului făcută de un model al sistemului de control. Acesta poate fi

implementat ca un filtru separat cu funcţia de transfer C z , care este utilizat pentru a gene-

ra semnalul de referinţă filtrat, r n , după cum este ilustrat de Figura 7.15. Versiunea

practică a algoritmului LMS cu filtrarea referinţei poate fi atunci scrisă sub forma:

ˆˆ ˆ1n n n e n w w r (7.80)

O interpretare fizică a acestui algoritm poate fi obţinută comparând relaţia (7.80) cu ecuaţia

corespunzătoare a algoritmului LMS standard, (7.9). În cazul algoritmului LMS, semnalul

de eroare este multiplicat direct cu semnalul de referinţă pentru a furniza estimarea funcţiei

de intercorelaţie utilizată în adaptarea filtrului. Dacă această abordare ar fi fost adoptată în

cazul sistemului de control activ, semnalul de eroare ar fi fost filtrat de ieşirea actuatorului,

Figura 7.15 Schema bloc a implementării în practică a algoritmului LMS cu filtrarea

referinţei. Se utilizează un model C z al sistemului de comandă real

C z pentru a genera semnalul de referinţă filtrat ˆ nr .


ceea ce ar fi distorsionat estimarea intercorelaţiei. Algoritmul LMS cu filtrarea referinţei

prefiltrează u n cu răspunsul estimat al actuatorului astfel încât semnalul de eroare şi

semnalul de referinţă filtrat să fie din nou aliniate în timp, dând astfel o estimare validă a

intercorelaţiei.

În raport cu algoritmul LMS standard, este evident că volumul de calcul pe care îl

implică implementarea algoritmului LMS cu filtrarea referinţei este mai mare, datorită

calculului vectorului ˆ nr la fiecare iteraţie, ceea ce necesită un număr de I multiplicări

suplimentare.

7.4.2 Algoritmul LMS cu filtrarea erorii

Acest algoritm reprezintă o simplă alternativă la algoritmul anterior. În algoritmul LMS cu

filtrarea erorii, după cum îi spune şi numele, se filtrează, printr-un model adjunct al

sistemului de comandă, eroarea e n şi nu semnalul de referinţă u n . Pentru a deduce

algoritmul LMS cu filtrarea erorii, va trebui să revenim asupra schemei de principiu a

sistemului de control activ din Figura 7.15(b) şi să exprimăm explicit gradientul mediei

statistice a pătratului semnalului de eroare:

2

ˆ ˆˆ2 2TE e n E e n d n n E e n n w w w r r (7.81)

Pentru a justifica înlocuirea operaţiei de filtrare a semnalului de referinţă utilizată în

algoritmul precedent cu filtrarea erorii, vom face apel la caracterul ergodic al semnalelor ce

apar în relaţia (7.81) şi vom înlocui în respectiva relaţie medierea statistică prin mediere

temporală:

2

ˆ 2 2E e n E e n n e n n w r r (7.82)

Continuăm calculul, şi facem apel la relaţia (7.78) pentru a examina componenta k a

vectorului gradientului

2

2

1

0

2

2lim

2 1

kw

k

N I

jN

n N j

E e nE e n e n r n k

w

e n c u n k jN

(7.83)

Rescriem ultima ecuaţie într-un format alternativ, prin efectuarea schimbării de variabilă

n n j n n j :

2

1

0

2lim

2 1

I N

jN

j n j Nk

E e nu n k c e n j

w N

(7.84)

Notăm prin f n rezultatul convoluţiei necauzale dintre semnalul de eroare cu răspunsul

inversat în timp al sistemului de comandă:


1

0

I

j

j

f n c e n j

(7.85)

Observăm de asemenea că întrucât j este întotdeauna finit, rezultatul sumării de la –N la N

pe măsură ce N tinde la ∞ din membrul drept al ecuaţiei (7.84) este identic atât pentru

la n cât şi pentru la n j . Rezultatul mediei temporale din (7.84) poate

fi scris în consecinţă astfel:

2

2lim 2

2 1

N

Nn Nk

E e nf n u n k f n u n k

w N

(7.86)

Ultimul rezultat va fi folosit pentru implementarea algoritmului tip LMS pornind de la

ecuaţia (7.5) a metodei gradientului. Astfel, estimata instantanee a componentei k a

gradientului EPM este 2 f n u n k iar o estimare instantanee a gradientului EPM

poate fi exprimată după cum urmează:

2

ˆ 2E e n f n n w u (7.87)

Problema pe care o pune aplicarea relaţiei (7.87) într-un algoritm în timp real este că relaţia

de calcul (7.85) al funcţiei f n nu poate fi implementată într-un sistem în timp real. Ea

poate fi depăşită prin întârzierea atât a lui f n cât şi a lui u n k din ecuaţia (7.86) cu

1I eşantioane. Forma finală a algoritmului LMS cu filtrarea erorii poate fi acum scrisă

prin înlocuirea estimării (7.87) în ecuaţia (7.5) şi întârzierea cu 1I eşantioane ale

rezultatului obţinut (Wan 1996):

ˆ ˆ1 1 1n n f n I n I w w u (7.88)

unde: 1 1 2T

n I u n I u n I u n I M u (7.89)

Semnalul întârziat de eroare filtrat, care ar fi utilizat într-o implementare practică a

algoritmului, are expresia

1 1

1

0 0

ˆ ˆ ˆ1 1I I

j I j

j j

f n I c e n j c e n j

(7.90)

unde ˆjc sunt coeficienţii răspunsului la impuls al unui model FIR al sistemului de control,

care se presupune că are I coeficienţi. Forma finală a ecuaţiei (7.90) se obţine făcând

schimbarea de variabilă 1j I j şi subliniind că semnalul de eroare este acum filtrat

cauzal prin utilizarea unei versiuni inversate în timp a modelului sistemului de control. Dacă

transformata Z a acestui model este:

1

0

ˆ ˆI

j

j

j

C z c z

(7.91)


atunci funcţia de transfer a filtrului necesar pentru a genera versiunea întârziată a semnalului

de eroare filtrat ˆ 1f n I din semnalul de eroare e n poate fi scrisă astfel

1

1 1 1

0

ˆ ˆI

I j I

j

j

z C z c z

(7.92)

Rezultatul obţinut este schema bloc a algoritmului LMS cu filtrarea erorii prezentată în

Figura 7.16. Numele de algoritm LMS adjunct utilizat adesea pentru a desemna algoritmul

se datorează faptului că modelul utilizat pentru filtrarea erorii are drept funcţie de transfer

adjuncta funcţiei sistemului de control (Wan 1996).

În cazul sistemelor de control activ mono-canal, algoritmul LMS cu filtrarea erorii nu

oferă nici un avantaj în raport cu algoritmul LMS cu filtrarea referinţei, pentru că şi într-un

caz şi în celălalt este necesar ca la fiecare iteraţie să se calculeze convoluţia cu toţi

coeficienţii modelului utilizat. Totuşi, în cazul sistemelor multi-canal situaţia este diferită,

avantajul fiind de partea algoritmului LMS adjunct (Elliott 2001).

În măsura în care pasul algoritmului LMS cu filtrarea erorii este mic, nu există diferenţe

între performanţele acestui algoritm şi cele ale algoritmului LMS cu filtrarea referinţei.

Diferenţe apar în favoarea algoritmului LMS cu filtrarea referinţei odată cu creşterea facto-

rului , datorită întârzierii suplimentare de 1I eşantioane introdusă de algoritmul LMS

cu filtrarea erorii în scopul asigurării cauzalităţii filtrului adjunct.

Exemplul 7.5: În scopul comparării performanţelor algoritmilor LMS utilizaţi în

aplicaţii de control activ se utilizează în experiment schema de principiu din

Figura 7.14(a). Semnalul de referinţă u n este zgomot alb de medie nulă şi

varianţă unitară. Schema de control activ are scopul să compenseze semnalul

perturbator d n , obţinut prin trecerea lui u n prin filtrul FIR, D cu carac-

teristica de transfer din Figura 7.19 şi însumarea la rezultatul obţinut a unui

zgomot alb de varianţă 2 410v . Sistemul de comandă C z aflat în structura

schemei de control activ, şi modelul acestuia C z utilizat de algoritmii LMS de

control activ (vezi Figura 7.15 şi Figura 7.16) sunt filtre FIR cu 32 de coeficienţi,

proiectate prin metoda ferestrei Hamming.

Figura 7.16 Schema bloc a algoritmului LMS cu filtrarea erorii în care eroarea este

filtrată de un filtru care este o versiune inversată şi întârziată a

modelului sistemului de comandă.


S-a studiat comportarea algoritmilor LMS cu filtrarea referinţei, respectiv

LMS cu filtrarea erorii, utilizând în ambele situaţii un filtru adaptiv FIR cu 32 de

coeficienţi. Pasul algoritmilor este 0,008 . Figura 7.17 evidenţiază echivalenţa

celor doi algoritmi din punctul de vedere al evoluţiei în timp a semnalului de

eroare e n .

O bună caracterizare a acţiunii sistemelor de control activ se poate face în

domeniul frecvenţă. În cazul în care ieşirea acestuia Cy n reuseşte să realizeze o

bună compensare a semnalului perturbator d n , caracteristicile de frecvenţă ale

sistemului de control şi ale canalului perturbator D devin similare. Acest

Figura 7.17 Evoluţia instantanee a erorii e n la ieşirea

schemelor de control activ LMS cu filtrarea

referinţei respectiv cu filtrarea erorii.

Figura 7.18 Curbele de învăţare ale EPM ale algoritmi-

lor LMS cu fitrarea referinţei respectiv LMS

cu filtrarea erorii.

7.5 Algoritmul LMS cu constrângeri liniare 211

lucru îl demonstrează Figura 7.19. Pentru a evidenţia acţiunea algoritmilor LMS

de control activ, în figură este reprezentată şi caracteristica de frecvenţă a

sistemului de control C .

Curbele de învăţare ale EPM reprezentate în Figura 7.18 au fost obţinute prin

mediere pe 100 de realizări independente şi sunt perfect identice, atâta vreme cât

factorul are valori reduse. Diferenţe în favoarea algoritmului LMS cu filtrarea

referinţei apar în experiment atunci când 0,015 .

7.5 Algoritmul LMS cu constrângeri liniare

În aplicaţiile de bandă îngustă ale formatoarelor de fascicoli (beamformer) discutate în

Secţiunea 4.8, obiectivul urmărit a fost acela de a minimiza puterea de ieşire a reţelei de

antene, prin impunerea unui set de constrângeri asupra coeficienţilor filtrului adaptiv. Vom

reaminti în cele ce urmează problema filtrării de varianţă minimă cu constrângeri lineare în

scopul dezvoltării unui algoritm LMS adecvat acesteia.

Beamformer-ul este o reţea adaptivă de antene (vezi Figura 7.20), ale căror semnale

recepţionate sunt combinate linear, ( 1 *

0ˆ

M c

k kky n w n u n

), astfel încât la ieşire să

apară doar semnalele sosite pe o anumită direcţie particulară, în timp ce semnalele sau

perturbaţiile având alte direcţii de propagare sunt atenuate. Din punct de vedere matematic,

condiţia impusă reprezintă o problemă de optimizare cu constrângeri, enunţată în Capitolul

4 prin ecuaţiile (4.79) şi (4.80). Vom relua în continuare aceste condiţii, la un nivel mai înalt

de generalizare şi adaptate scopului propus:

Figura 7.19 Spectrele canalului perturbator D , ale

sistemului de comandă C , şi ale algo-

ritmilor LMS de control activ.


Fiind dat vectorul de observaţie 0 1 1

T

Mn u n u n u n u , să se

determine coeficienţii optimi 0 1 1ˆ ˆ ˆ ˆ

Tc c c c

o o o oMn w n w n w n

w care mini-

mizează în sensul mediei pătratice puterea de ieşire a combinatorului

ˆ c Hy n n nw u :

2

ˆ ˆ

ˆ

ˆ ˆmin min

ˆ ˆmin

c c

c

c H cH

c H c

E y n n E n n n

n n

w w

w

w u u w

w Rw

(7.93)

în condiţiile îndeplinirii setului de constrângeri liniare:

ˆ cH n S w g (7.94)

unde R este matricea de corelaţie a semnalului de intrare, S este matricea de

constrângeri iar g un vector fixat.

Problema poate fi rezolvată prin metoda multiplicatorilor lui Lagrange. Definim, în

acest scop, funcţia de cost cJ n , dată de relaţia (ca peste tot în acest paragraf indicele (c)

desemnează constrângere):

2ˆ

ˆ ˆ ˆ

c cH

c H c cH

J n E y n n n

n n n

λ S w g

w n Rw λ S w g

(7.95)

unde nλ este vectorul coeficienţilor Lagrange.

Acţiunea algoritmului LMS cu constrângeri (Diniz 2008, Frost_III 1972) constă în

căutarea unui vector al coeficienţilor ˆ 1c

n w care să satisfacă atât setul de constrângeri

Figura 7.20 Descrierea acţiunii unui formator de fascicul

(beamformer).


cât şi să reprezinte o mică actualizare în raport cu ˆ cnw pe direcţia opusă gradientului

funcţiei de cost (vezi ecuaţia (7.5)):

ˆ

1ˆ ˆ1

2

1 ˆˆ ˆ22

ç

c c c

c

n n J n

n n n n

ww w

w R w Sλ

(7.96)

unde ˆ nR este estimarea matricii de corelaţie a semnalului de intrare la momentul n. De

remarcat că gradientul funcţiei de cost în raport cu ˆ cnw este:

ˆ

ˆ2ç

cJ n n n

wRw Sλ

În cazul particular al algoritmului LMS cu constrângeri, matricea ˆ nR se alege ca în

(7.2) drept estimarea instantanee Hn nu u , ceea ce face ca relaţia (7.96) să devină

1

ˆ ˆ ˆ12

c c Hn n n n n n w w u u w Sλ (7.97)

Aplicăm în expresia de mai sus constrângerea liniară (7.94) sub forma ˆ 1cH n S w g , şi

rezultă

*

1ˆ ˆ ˆ1

2

1ˆ

2

c cH H H H H

cH H H

n n n n n n

n y n n n

S w g S w S u u w S Sλ

S w S u S Sλ

(7.98)

Rezolvăm ecuaţia de mai sus pentru 1 2 nλ şi obţinem:

1 1

*ˆ1 2cH H Hn n y n n

λ S S S w u S S g (7.99)

Acum, pentru a ajunge la forma finală a ecuaţiei de recursie, rămâne să înlocuim (7.99) în

ecuaţia (7.97), ceea ce conduce la

*ˆ ˆ1c c

Sn n y n n w P w u g (7.100)

unde 1

H

S

g S S S iar 1

H H

P I S S S S .

Putem face observaţia că actualizarea vectorului coeficienţilor din ecuaţia (7.100) constă

în efectuarea proiecţiei pe hiperplanul definit prin ˆH S w 0 a unei soluţii LMS neconstrânse

la care se adaugă un vector Sg ce readuce soluţia proiectată în hiperplanul cu constrângeri.

Dacă în configuraţia beamformer-ului din Figura 7.20 este inclusă şi o intrare de

referinţă ca în Figura 1.23 ce furnizează semnalul dorit d n , ecuaţia de actualizare (7.100)

capătă expresia


*ˆ ˆ1c c

Sn n e n n w P w u g (7.101)

unde semnalul de eroare e n este ca de obicei, diferenţa d n y n . Tabelul 7.2 rezumă

operaţiile necesare implementării ecuaţiei (7.101).

Şi algoritmul LMS normalizat prezentat în Capitolul 8 poate fi modelat ca o problemă

de optimizare cu constrângerea ˆ 1H n n d n w u . Prin urmare, pentru a avea un

algoritm LMS normalizat cu constrângeri, soluţia va trebui să satisfacă pe lângă condiţia ˆ 1cH n S w g şi egalitatea de normalizare ˆ 1

c Hn n d n w u . O astfel de

abordare a fost urmată, printre alţii, de J.A.Apolinário_Jr, ş.a. (1998).

Exemplul 7.6: O reţea de antene cu 4 elemente (vezi Figura 7.21) cu distanţa

dintre elemente 0,15md recepţionează semnale de la două surse diferite plasate

la 90° respectiv 30° în raport cu axa antenelor. Semnalul util soseşte la antenă sub

un unghi de 90°, având frecvenţa de 20MHz iar semnalul parazit este o sinusoidă

cu frecvenţa 70MHz. Frecvenţa de eşantionare este de 2GHz. Nivelul puterii

semnalelor recepţionate este de 0dB iar cel al zgomotului în antenă este -30dB. Se

va utiliza algoritmul LMS cu constrângeri lineare pentru a adapta beamformer-ul.

Este o problemă de optimizare cu două constrângeri. O primă constrângere

impune ca amplitudinea recepţionată pe frecvenţa 20MHz să fie unitară, cea de a

doua anulează la ieşire amplitudinea corespunzătoare frecvenţei perturbatoare.

Expresia lor matematică este

1. Se alege o valoare convenabilă pentru pasul şi constanta . Se

iniţializează variabila contor 0n , vectorul pondere, vectorul şi

matricea care modelează constrângerile:

1 1

ˆ 0 ,c H H H

S

w g S S S g P I S S S S


ˆ c Hy n n nw u

3. Se determină eşantionul curent al secvenţei de eroare:

e n d n y n

4. Se calculează soluţia LMS fără constrângeri:

*ˆ ˆ1c

n n e n n w w u

5. Se calculează vectorul coeficienţilor pentru pasul următor, impunând constrângerile:

ˆ ˆ1 1c

Sn n w Pw g

6. Se incrementează variabila contor 1n n şi se execută un salt

la 2.

Tabelul 7.2 Algoritmul LMS cu constrângeri


1 2

3 3* *

0 0

ˆ ˆ1 şi 0c cjk jk

k k

k k

w e w e

unde ˆ c

kw sunt coeficienţii beamformer-ului iar , 1,2i i reprezintă frecvenţa

spaţială a reţelei în raport cu cele două unde electrice (vezi relaţia (1.8)):

2

cos , 1,2i i

i

di

În relaţia de mai sus, i şi i sunt parametrii celor două unde incidente.

Expresia matricială a constrângerilor este:

ˆ cH S w g

cu 0 1 2 3

ˆ ˆ ˆ ˆ ˆT

c c c c cw w w w

w vectorul coeficienţilor, 1 0T

g şi

1 1 1

2 2 2

2 3

2 3

1

1

j j j

T

j j j

e e e

e e e

S

Figura 7.22 prezintă rezultatele obţinute în urma implementării algoritmului

descris în Tabelul 7.1, demonstrând că, practic, după convergenţă, în semnalul de

ieşire se regăseşte doar sinusoida de interes. Graficul puterii de ieşire a reţelei în

funcţie de unghiul de incidenţă este prezentat în Figura 7.23. Din această figură, se

observă atenuarea mare pe care beamformer-ul o impune asupra semnalelor ce

sosesc pe direcţia de 30°.

Figura 7.21 Sistem de antene cu 4 elemente.


7.6 Efectele cuantizării asupra implemen-

tării digitale a algoritmului LMS

Implementarea digitală a algoritmilor de filtrare adaptivă introduce o limitare a preciziei atât

în privinţa mărimilor de intrare cât şi a rezultatelor algoritmilor. Semnalele de intrare în

filtrul adaptiv sunt cuantizate la o precizie numerică limitată în convertoarele analog-

numerice (CAN). Operaţiile aritmetice sunt efectuate cu o precizie de calcul limitată iar

rezultatele acestora sunt rotunjite sau trunchiate cu o precizie limitată specifică (Håkansson

2004, Oppenheim, ş.a. 1998). Figura 7.24 ilustrează pe schema bloc a algoritmului LMS

operaţiile algoritmului care sunt afectate de precizia limitată.

Figura 7.23 Caracteristica de directivitate a beam-

former-ului din Exemplul 7.6.

Figura 7.22 Semnale la intrarea şi ieşirea beamformer-

ului din Exemplul 7.6, obţinute după

convergenţa algoritmului LMS cu

constrângeri.

7.6 Efectele cuantizării asupra implementării digitale a algoritmului LMS 217

Blocurile notate în figură cu Q efectuează operaţia de cuantizare. Cuantizarea, atât în

blocurile CAN cât şi în operaţiile aritmetice ca de exemplu multiplicare în care se fac

rotunjiri sau trunchieri, introduce erori de cuantizare. În cazul cuantizării uniforme din

convertoarele CAN, eroarea de cuantizare introdusă poate fi aproximată printr-un proces de

zgomot alb de medie nulă şi varianţă 2 12 , unde este valoarea pasului de cuantizare

(Mateescu, ş.a. 1997). În plus, de obicei erorile de cuantizare rezultate din rotunjirea

produselor sunt de medie nenulă.

Cu alte cuvinte, produsul e n n u cu care se actualizează coeficienţii în algoritmul

LMS (vezi ecuaţia (7.6)) va fi cuantizat Q e n n u ca în:

Q e n n e n n n u u b (7.102)

unde vectorul erorilor de cuantizare 0 1 1

T

Mn b n b n b n b este posibil să

includă şi componente , 0,1, , 1kb n k M de medie nenulă (Cioffi 1987). Ecuaţia

algoritmului LMS poate fi scrisă, prin urmare, astfel:

1n n e n n n w w u b (7.103)

Media statistică a vectorului coeficienţilor este în acest caz dată de (Cioffi 1987):

1E n E n E n w I R w p b (7.104)

În regim staţionar permanent, când 1n w w , se poate scrie

1 11E

w R p R b (7.105)

unde b este media vectorului erorilor de cuantizare.

Având în vedere că matricea de corelaţie R este hermitică, utilizăm ecuaţia (3.107)

pentru a o descompune după vectori şi valori proprii:

Figura 7.24 Schema bloc a algoritmului LMS cu precizie limitată.


H

1

MH

i i i

i

R = QΛQ q q (7.106)

unde i şi

iq sunt valorile şi vectorii proprii ai matricii de corelaţie. Introducând ultima

relaţie în membrul drept al ecuaţiei (7.105), se obţine

1 1

1

1 1 MH

i i i

i

R b q q b (7.107)

Termenii care corespund celor mai mici valori proprii domină această sumă, pentru că

proiecţiile vectorului erorilor de cuantizare pe vectorii proprii care le corespund sunt nenule.

Efectele acestor erori sistematice se cumulează, astfel încât este posibil, chiar şi pentru erori

de cuantizare reduse, ca valoarea coeficienţilor să crească şi să provoace depăşiri înainte ca

limita prescrisă de ecuaţia (7.105) să fie atinsă. Dacă se produce depăşire atunci

performanţele se deteriorează semnificativ. Şi mai serios este faptul că algoritmul LMS nu

va mai converge până ce coeficienţii nu sunt resetaţi, cu alte cuvinte se produce aşa-numita

„agăţare” a adaptării (Cioffi 1987). În plus, valorile mici ale pasului contribuie la

creşterea erorilor de rotunjire cu un termen invers proporţional cu .

Probleme

P 7.1 Algoritmul LMS este utilizat pentru a face predicţia înainte cu un pas a semnalului

cos 3u n n , utilizând un filtru FIR cu trei coeficienţi, primul coeficient

având valoarea fixată la 1, prin minimizarea valorii medii pătratice a lui y n .

Calculaţi o valoare adecvată pentru pasul algoritmului , semnalul de ieşire al

filtrului şi coeficienţii filtrului pentru primele 10 iteraţii. Valoarea iniţială a

coeficienţilor este 0 1 0 0T w .

P 7.2 Semnalul 0,85 1u n u n v n

este aplicat la intrarea unui predictor cu doi coeficienţi, unde v n este zgomot alb

gaussian cu varianţă 2 0,3v . Se recomandă utilizarea MATLAB la rezolvarea

problemei.

(a) Calculaţi soluţia Wiener.

(b) Alegeţi o valoare adecvată pentru şi reprezentaţi curba de învăţare a algo-

ritmului LMS pe suprafaţa de eroare EPM.

(c) Reprezentaţi curbele de învăţare ale EPM şi ale coeficienţilor filtrului, obţinute atât

printr-o rulare unică cât şi prin medierea a 25 de rulări.

P 7.3 Consideraţi procesul AR(1) 1u n au n v n , unde v n este zgomot alb

gaussian de varianţă 2

v . Dorim să proiectăm un predictor linear de ordinul unu

într-un pas, utilizând algoritmul LMS de mai jos:

ALGORITMUL GRADIENTULUI STOCHASTIC (LMS) Probleme 219

ˆ ˆ 1 1

ˆ

ˆ ˆ 1 1

u n a n u n

e n u n u n

a n a n e n u n

unde este pasul algoritmului.

(a) Determinaţi funcţia de autocorelaţie r l , predictorul linear de ordinul unu optim

şi EPM minimă corespunzătoare.

(b) Utilizând ipoteza de independenţă, determinaţi mai întâi iar apoi rezolvaţi ecuaţia

cu diferenţe finite pentru ˆE a n .

(c) Utilizând MATLAB, pentru 20,95; 0,025; 1 şi 0 500va n N ,

determinaţi media pe ansamblu a lui ˆE a n utilizând 200 de rulări

independente şi comparaţi rezultatul cu curba teoretică obţinută la punctul (b).

(d) Utilizând ipoteza de independenţă, determinaţi mai întâi iar apoi rezolvaţi ecuaţia

cu diferenţe finite pentru P n E e n .

(e) Reluaţi punctul (c) pentru P n şi comentaţi rezultatele obţinute.

P 7.4 Utilizaţi algoritmul LMS pentru a identifica un sistem cu funcţia de transfer

12

1

1

1

zH z

z

Semnalul de intrare este zgomot alb uniform distribuit cu varianţă 2 1u iar

zgomotul de măsurare este zgomot alb gaussian necorelat cu intrarea şi de

varianţă 2 310v . Filtrul adaptiv are 12 coeficienţi. Utilizaţi MATLAB pentru

rezolvare.

(a) Calculaţi max , valoarea maximă a pasului algoritmului, care asigură stabilitatea

acestuia.

(b) Rulaţi algoritmul pentru max max max2, 10 şi 50 . Comentaţi comportarea

algoritmului în fiecare dintre aceste cazuri.

(c) Măsuraţi dezadaptarea M în fiecare din cazurile studiate la punctul (b) şi

comparaţi cu rezultatele obţinute prin ecuaţia (7.57).

(d) Reprezentaţi răspunsul în frecvenţă al filtrului FIR în fiecare din cazurile studiate

la punctul (b) şi comparaţi acesta cu caracteristica de frecvenţă a sistemului necu-

noscut.

P 7.5 Secvenţa cos ou n n n reprezintă eşantioanele unui semnal modulat în

fază de bandă îngustă. Faza semnalului n este aleatoare, dar variază lent în

timp, adică 1 2n n n . Scopul problemei este detectarea


frecvenţei purtătoarei o a semnalului u n . Coeficienţii filtrului nw se

ajustează astfel încât să minimizeze semnalul de ieşire y n în sensul mediei

pătratice. Se propune să se utilizeze schema de filtrare adaptivă prezentată în

Figura 7.25. Coeficientul w n este astfel ajustat încât să minimizeze semnalul de

ieşire y n în sensul mediei pătratice.

(a) Arătaţi că valoarea optimă a coeficientului w este

2coso ow

(b) Formulaţi algoritmul LMS pentru problema de faţă. În particular, specificaţi

vectorul coeficienţilor filtrului, nw , vectorul de intrare nx , ieşirea dorită,

d n şi modul în care este definită eroarea de la ieşirea filtrului în acest caz.

P 7.6 Schema bloc din Figura 7.26 reprezintă modelarea adaptivă a unui sistem

necunoscut, în care filtrul adaptiv transversal este controlat de o versiune

modificată a algoritmului LMS. Semnalul de ieşire notat cu d n are expresia:

T

od n n n v n w u

unde ow este vectorul (necunoscut) al parametrilor modelului, nu este vectorul

de intrare (regresor) iar v n este constituit din eşantioane ale unui proces de tip

zgomot alb de medie nulă şi de dispersia 2

v . În particular, vectorul coeficienţilor

filtrului transversal nw este ales astfel încât să minimeze indicele de

performanţă:

2, pentru 1,2,3,KJ E e n K w K

(a) Utilizând vectorul gradient instantaneu, să se arate că nouă ecuaţie de adaptare

pentru estimatul corespunzător vectorilor ponderilor este

2 1ˆ ˆ1 Kn n K n e n w w u

Figura 7.25 Schema de filtrare adaptivă utilizată în

problema P 7.5.

ALGORITMUL GRADIENTULUI STOCHASTIC (LMS) Probleme 221

(b) Se presupune că vectorul erorii coeficienţilor ˆon n c w w este aproape nul

şi că nv este independent de nu . Să se arate că:

2 21 2 1 KE n K K E v n E n c I R c

unde R este matricea de corelaţie a vectorului de intrare nu .

(c) Să se arate că algoritmul LMS modificat descris la punctul (a) converge în valoare

medie dacă parametrul satisface condiţia:

2 1

max

20

2 1K

K K E v n

unde max este cea mai mare valoare proprie a matricii de corelaţie R .

P 7.7 Consideraţi sistemul de anulare a zgomotului prezentat în Figura 7.27. Semnalul

util este sinusoida 0coss n n , unde 0 16 şi faza este o varia-

bilă aleatoare uniform distribuită pe intervalul 0 şi 2 . Semnalele de zgomot sunt

date de 1 10,9 1v n v n w n şi 2 20,75 1v n v n w n , unde

secvenţa w n este zgomot alb gaussian de medie nulă şi varianţă unitară.

Figura 7.26 Schemă de modelare a unui sistem necunos-

cut utilizată în problema P 7.6.

Figura 7.27 Sistemul de anulare a zgomotului utilizat în problema

P 7.7.


(a) Proiectaţi un filtru optimal de lungime M şi alegeţi o valoare rezonabilă pentru

oM , reprezentând grafic dependenţa dintre EPM minimă şi M.

(b) Proiectaţi un filtru LMS cu oM coeficienţi şi alegeţi pasul algoritmului astfel

încât dezadaptarea M să aibă valoarea 10%.

(c) Reprezentaţi semnalele 1 2, ,s n s n v n v n , semnalul de eroare furnizat de

filtrul optimal oe n şi semnalul de eroare LMSe n dat de filtrul LMS. Comentaţi

rezultatele obţinute.

P 7.8 Utilizând MATLAB, reprezentaţi curbele de învăţare LMS ale sistemului din

Figura 7.28, pentru 0,005 şi 0,02 . Generatoarele de date A şi B transmit

simbolurile +1 şi -1 cu probabilitate egală. Filtrul FIR de la ieşirea lui A care

modelează calea de ecou are răspunsul la impuls

5 81 43 2 3 5

, 0 1n n

ow n n M

unde 20M este lungimea totală a căii de ecou. Filtrul de la ieşirea generatoru-

lui B modelează calea de transmisie de la emiţător la receptor, fiind caracterizat de

345 5

ng n

Zgomotul generat de generatorul de zgomot este alb gaussian de medie nulă şi 2 1v şi modelează zgomotul de transmisie. Semnalul r n este astfel scalat încât

2 210lg 30dBd r , iar valoarea iniţială a coeficienţilor filtrului adaptiv este

0 w 0 .

Curbele de învăţare pentru EPM de la ieşirea e n sunt rezultatul medierii pe

ansamblul a 200 de realizări individuale.

Figura 7.28 Schema bloc a sistemului de studiu al performantelor blocului adaptiv de

suprimare a ecoului din problema P 7.8.

8 Algoritmi derivaţi din

algoritmul LMS

xistă un număr de algoritmi de filtrare adaptivă care provin din algoritmul LMS

convenţional prezentat în Capitolul precedent. Obiectivul acestor algoritmi LMS

alternativi este, fie să reducă complexitatea şi volumul de calcul, fie să reducă timpul

de convergenţă. Vom prezenta şi analiza în continuare câţiva algoritmi care provin din algo-

ritmul LMS şi anume: algoritmii LMS cu semn (Ciochină şi Negrescu 1999, Verkhoecx şi

Claasen 1984), algoritmul LMS cu transformare de domeniu, sau LMS în domeniul frecven-

ţă (Farhang-Boroujeny 1998, Narayan, ş.a. 1983), algoritmul LMS normalizat (Alexander

1986, Ciochină şi Negrescu 1999), algoritmi de proiecţie afină (Diniz 2008, Ozeki şi Umeda

1984) şi, în sfârşit, algoritmii LMS pentru structuri de filtrare lattice (Clarkson 1993,

Griffiths 1977).

Algoritmii LMS cu semn au o complexitate de calcul redusă în raport cu algoritmul

standard, întrucât limitează reprezentarea semnalelor ce intervin în algoritmul LMS la

semnul lor.

Algoritmul LMS normalizat utilizează un pas variabil al algoritmului care minimizează

eroarea instantanee. Un asemenea pas reduce timpul de convergenţă a algoritmului dar

măreşte totodată dezadaptarea acestuia.

Algoritmul cu transformare de domeniu aplică o transformare asupra semnalului de

intrare pentru a reduce gradul de împrăştiere a valorilor proprii ale matricii de corelaţie a

semnalului transformat în raport cu împrăştierea valorilor proprii ale matricii de corelaţie a

semnalului de intrare. Aplicarea algoritmului LMS asupra semnalului transformat permite

realizarea unei convergenţe mai rapide.

Algoritmul de proiecţie afină refoloseşte date mai vechi în scopul realizării unei

convergenţe rapide atunci când semnalul de intrare este puternic corelat, deschizând calea

către o famile de algoritmi care armonizează efortul de calcul cu viteza de convergenţă.

Capitolul

8

E

224 ALGORITMI DERIVAŢI DIN ALGORITMUL LMS - 8

8.1 Algoritmi LMS cu semn

În cazul algoritmului LMS determinarea setului de coeficienţi pentru pasul următor necesită

în total 2 1M înmulţiri reale şi 2M adunări pentru fiecare iteraţie. Deşi volumul de calcul

este mic în comparaţie cu alţi algoritmi mai elaboraţi, există situaţii când se doreşte reduce-

rea la maximum a numărului de operaţii matematice sau simplificarea implementării hard-

ware. Un caz tipic este cel al prelucrării digitale a semnalului TV, situaţie în care debitul

mare al datelor pune probleme atunci când se urmăreşte realizarea prelucrării în timp real. În

aceste situaţii se folosesc algoritmi LMS cu semn. Cei mai importanţi membri ai aceste clase

de algoritmi sunt prezentaţi în continuare.

8.1.1 Algoritmul LMS cu semnul erorii

Algoritmul LMS cu semnul erorii foloseşte pentru actualizarea ponderilor semnul secvenţei

de eroare în locul valorilor e n propriu-zise. Expresia algoritmului LMS standard:

*ˆ ˆ1n n n e n w w u (8.1)

este înlocuită acum, în cazul unor semnale de intrare nu reale prin (vezi Tabelul 8.1)

ˆ ˆ1 sgnsen n e n n w w u (8.2)

Din cauza înlocuirii erorii e n prin semnul ei, implementarea acestei ecuaţii de recursie

poate fi mult mai simplă şi eficientă decât utilizarea algoritmului LMS standard, în special în

aplicaţiile de mare viteză unde este necesar ca recursia de adaptare să fie realizată în

hardware. Mai mult, de obicei pasul se al algoritmului este o putere a lui doi, astfel încât

1. Se alege o valoare convenabilă pentru pasul se . Se iniţializează

variabila contor 0n şi vectorul pondere:

ˆ 0 0 0 0T

w


ˆ Ty n n nw u


e n d n y n

4. Se calculează semnul erorii:

sgn e n

5. Se calculează vectorul pondere pentru pasul următor:

ˆ ˆ1 sen n n w w u

6. Se incrementează variabila contor 1n n şi se execută un

salt la 2.

Tabelul 8.1 Algoritmul LMS cu semnul erorii

8.1 Algoritmi LMS cu semn 225

pentru a implementa ecuaţia (8.2) nu este necesară vreo operaţie de multiplicare. Operaţii de

deplasare combinate cu adunări sau scăderi sunt suficiente pentru a actualiza coeficienţii

filtrului adaptiv.

O justificare pentru algoritm pleacă de la observaţia că, dacă algoritmul LMS se obţine

pornind de la criteriul minimizării erorii pătratice medii (EPM), pentru derivarea algoritmu-

lui LMS cu semnul erorii se utilizează criteriul minimizării valorii absolute medii a erorii

(Benesty 2004):

T

aJ n E e n E d n n w u (8.3)

Gradientul funcţiei aJ n este

sgnaa

JJ n E n e n

u

w (8.4)

Estimarea valorii instantanee a gradientului se face, prin urmare, cu expresia:

ˆ sgnaJ n n e n u (8.5)

ceea ce se constituie într-o justificare a relaţiei de definire a algoritmului (8.2).

Eroarea semnalului, ˆ Te n d n n n w u , este denumită de asemenea eroare

apriori, pentru că în calculul ei se utilizează valorile coeficienţilor filtrului de dinainte de

actualizare. Eroarea aposteriori n se defineşte prin:

ˆ 1Tn d n n n w u (8.6)

şi se calculează odată ce actualizarea a fost efectuată.

Algoritmul poate fi considerat stabil dacă valoarea absolută a erorii „aposteriori” este

mai mică decât cea a erorii „apriori”, ceea ce este logic întrucât n beneficiază de mai

multe informaţii decât e n . Calculăm n :

1

T

se

n nn e n

e n

u u (8.7)

şi impunem condiţia: n e n (8.8)

Din (8.8) şi (8.7) se deduce condiţia de stabilitate a algoritmului LMS cu semnul erorii:

20 se T

e n

n n

u u (8.9)

Dezavantajul algoritmului este că utilizează un estimat mai zgomotos al semnalului de

eroare, ceea ce are drept consecinţă creşterea fluctuaţiilor ponderilor în jurul valorilor

optime. Pentru ca soluţia de regim permanent să aibă o calitate comparabilă cu cea a algorit-

mului LMS standard, este necesară micşorarea constantei de adaptare, ceea ce face în


consecinţă ca timpii necesari atingerii regimului permanent să crească, ducând la scăderea

posibilităţilor de urmărire în cazul unor semnale de intrare nestaţionare.

8.1.2 Algoritmul LMS cu semnul datelor

Algoritmul LMS cu semnul datelor utilizează pentru actualizarea ponderilor în locul

eşantioanelor semnalului de intrare u n l doar semnul acestora sgn u n l ,

adică:

ˆ ˆ1 sgnsdn n e n n w w u (8.10)

unde: sgn sgn sgn 1 sgn 1T

n u n u n u n M u (8.11)

Condiţia de stabilitate a algoritmului, dedusă ca în (8.9), se scrie, în acest caz, astfel:

20

sgnsd T n n

u u

(8.12)

Deşi din punct de vedere a formei sunt similare, algoritmul LMS cu semnul datelor are

performanţe mult mai bune decât algoritmul LMS cu semnul erorii.

8.1.3 Algoritmul LMS semn-semn

Algoritmul LMS semn-semn cum îi spune numele, combină algoritmii cu semnul erorii cu

algoritmul cu semnul datelor. El actualizează vectorul ponderilor fără nici o multiplicare,

conform relaţiei:

ˆ ˆ1 sgn sgnssn n e n n w w u (8.13)

Condiţia de stabilitate este

20

sgnss T

e n

n n

u u (8.14)

În acest caz, estimatul folosit este mai zgomotos faţă de cazurile precedente, performanţele

fiind, în consecinţă, mai slabe. Totuşi, această variantă cunoaşte o largă răspândire, constitu-

ind standardul CCITT pentru transmisiile ADPCM (Adaptive Differential Pulse Code

Modulation) (Treichler, ş.a. 1986).

Vom remarca că, chiar dacă în multe cazuri algoritmii simplificaţi par să conveargă

către soluţia Wiener-Hopf optimă, în general, această afirmaţie nu poate fi susţinută. De

exemplu, algoritmul semn-semn converge către un set de coeficienţi care satisfac ecuaţia

sgn 0E e n n u (8.15)

care, în general, poate să nu fie echivalentă cu principiul ortogonalităţii care conduce la

soluţia Wiener-Hopf:

0E e n n u (8.16)

8.2 Algoritmul LMS normalizat 227

Cu toate acestea, în cele mai multe cazuri, soluţiile obţinute prin (8.15) şi (8.16) sunt, de

obicei, identice.

Exemplul 8.1: În scopul evaluării şi comparării performanţelor algoritmilor cu

semn şi ale algoritmului LMS standard, s-a utilizat problema de identificare de

sistem introdusă în Exemplul 7.3 din Capitolul 7. La intrare s-a aplicat semnalul

furnizat de filtrul 2H z , caracterizat de gradul de împrăştiere 28,7 R .

Valoarea parametrilor de pas pentru diverşii algoritmi s-a stabilit experimental

astfel încât, indiferent de algoritm, în regim staţionar să se atingă aceiaşi valoare

a erorii pătratice medii. Curbele de învăţare ale EPM prezentate în Figura 8.1

sunt rezultatul al 100 de rulări independente.

Principalele concluzii care pot fi trase pe baza graficului din Figura 8.1 evidenţiază în

primul rând faptul că algoritmul LMS cu semnul datelor este numai uşor mai lent decât

versiunea standard a algoritmului. Totuşi, algoritmii cu semnul erorii şi semn-semn sunt

ambele mult mai lente decât algoritmul convenţional. Modul în care se produce convergenţa

în aceste cazuri este particular: iniţial, viteza de convergenţă este extrem de redusă, aceasta

crescând mult, pe măsură ce nivelul EPM se reduce.

8.2 Algoritmul LMS normalizat

8.2.1 Deducerea algoritmului

Algoritmul LMS normalizat (Normalised LMS - NLMS) trebuie văzut drept o implementare

specială a algoritmului LMS care ia în considerare variaţia nivelului semnalului de la intra-

rea filtrului şi determină pe baza acestuia mărimea pasului de convergenţă astfel încât să

se obţină un algoritm mai stabil şi cu o viteză de convergenţă mai mare. Algoritmul NLMS

poate fi dezvoltat pe baza a mai multor puncte de vedere. Vom adopta în continuare, aborda-

Figura 8.1 Curbele de învăţare ale EPM pentru algoritmii:

(a) LMS standard, (b) LMS cu semnul erorii, (c)

LMS cu semnul datelor, (c) LMS semn-semn.


rea făcută de Goodwin şi Sin (1984), care au formulat algoritmul NLMS ca o problemă de

optimizare cu constrângeri. Pentru simplificarea aparatului matematic, vom aborda cazul în

care atât semnalul cât şi coeficienţii filtrului au valori reale (Alexander 1986). Soluţia în

cazul general, în care mărimile sunt complexe, este o generalizare a soluţiei particulare la

care vom ajunge.

În cazul algoritmului LMS pentru valori reale, corecţia ˆ ˆ ˆ1 1n n n w w w

cu care se face actualizarea vectorului ponderilor este de forma:

ˆ 1n n e n w u (8.17)

fiind direct proporţională cu mărimea semnalului de intrare. Dacă norma lui nu este

mare, are loc fenomenul de amplificare a zgomotului de estimare a gradientului. Această

dificultate poate fi depăşită de algoritmul LMS normalizat în care pasul de adaptare este

invers proporţional cu norma semnalului de intrare.

Algoritmul LMS normalizat poate fi privit ca o problemă de optimizare cu constrângeri

alcătuită dintr-o condiţie de optimizare cu constrângeri şi o constrângere:

1. Condiţia de optimizare impune ca valorile actualizate ale coeficienţilor, ˆ 1n w ,

să fie determinate astfel încât variaţia vectorul ponderilor:

ˆ ˆ ˆ1 1n n n w w w (8.18)

să fie minimă.

2. Constrângerea impusă este:

ˆ 1T n n d n w u (8.19)

Cu alte cuvinte: valoarea noilor coeficienţi după actualizare, ar fi anulat la

momentul anterior valoarea erorii.

În cazul problemelor de optimizare cu constrângeri, se utilizează metoda multiplicatori-

lor Lagrange (vezi paragraful 7.5 al acestei lucrări). Funcţia de cost cJ n este astfel

definită încât să reflecte cele două condiţii care stabilesc problema de optimizare. Metoda

minimizează în cazul nostru funcţia de cost definită prin relaţia:

2ˆ ˆ ˆ1 1

c TJ n n n n d n w w u (8.20)

unde reprezintă aşa-numitul multiplicator al lui Lagrange. Şi în acest caz, rezolvarea

problemei constă în determinarea soluţiei care anulează gradientul funcţiei de cost. Deci:

c

J n 0 (8.21)

Începem calculul gradientului funcţiei de cost prin dezvoltarea expresiei (8.20):

ˆ ˆ ˆ ˆ ˆ1 1 1

ˆ ˆ ˆ ˆ ˆ ˆ1 1 1 1

ˆ ˆ ˆ 1

c T T T

T T T

T

J n n n n n n n d n

n n n n n n

n n n n d n

w w w w w u

w w w w w w

w w w u

(8.22)


Gradientul se calculează în raport cu noile ponderi ˆ 1n w . Avem succesiv:

ˆ ˆ1 1 2 1 ,

ˆ ˆ ˆ ˆ ˆ1 1 2 ,

ˆ 1 .

T

T T

T

n n n

n n n n n

n n n

w w w

w w w w w

w u u

(8.23)

Prin urmare: ˆ ˆ2 1 2c

J n n n n w w u (8.24)

Egalând cu zero expresia (8.24) se obţine relaţia de actualizare a coeficienţilor:

1

ˆ ˆ12

n n n w w u (8.25)

Determinarea valorii multiplicatorului Lagrange se face impunând constrângerea (8.19).

În ecuaţia (8.25) înmulţim la stânga ambii membri cu T nu :

1

ˆ ˆ12

T T Tn n n n n n u w u w u u (8.26)

În continuare, în relaţia (8.26) putem distinge:

2

ˆ 1 şi T Tn n d n n n n u w u u u (8.27)

Prin urmare, multiplicatorul Lagrange are valoarea:

2 2

22ˆT

e nd n n n

n n u w

u u (8.28)

iar relaţia de actualizare a vectorului coeficienţilor se calculează, înlocuind multiplicatorul

Lagrange din (8.28) în relaţia (8.25):

2

1ˆ ˆ1n n n e n

n w w u

u (8.29)

Se obişnuieşte să se introducă pentru algoritmul NLMS un pas variabil :

2ˆ ˆ1n n n e n

n

w w u

u (8.30)

Compararea ultimei expresii cu ecuaţia care defineşte algoritmul LMS, (8.1), duce la consta-

tarea imediată, că algoritmul LMS normalizat poate fi echivalat cu algoritmul gradientului

stochastic, dacă considerăm că în cazul algoritmului NLMS locul pasului fix al algoritmului

LMS standard, , este luat de pasul variabil, n :

2n

n

u (8.31)


La o primă vedere, conform ecuaţiei (8.30), fiecare iteraţie a algoritmului NLMS

necesită, pentru calculul lui 2

nu , un număr suplimentar de M multiplicări şi 1M

adunări. Acest efort de calcul poate fi redus, dacă se utilizează M locaţii suplimentare de

memorie şi se face apel la formula de tip fereastră alunecătoare:

1

2 2 2 2 2

0

1M

k

n u n k n u n u n M

u u (8.32)

unde 2

1 0 u . Efortul de calcul al formulei (8.32) s-a redus astfel la o înmulţire şi două

adunări.

În practică, pentru a evita împărţirea cu zero, dacă n u 0 , se adaugă la numitor o

mică cantitate, 0 :

2ˆ ˆ1n n n e n

n

w w u

u (8.33)

Generalizarea ecuaţiei (8.33) pentru semnale complexe este directă:

*

2ˆ ˆ1n n n e n

n

w w u

u (8.34)

În Tabelul 8.2 sunt rezumate operaţiunile necesare implementării algoritmului LMS norma-

lizat.

8.2.2 Stabilitatea algoritmului NLMS

Algoritmul poate fi considerat stabil dacă n e n , unde n este eroarea „aposte-

riori”. Înlocuind ecuaţia algoritmului NLMS (8.30) în expresia erorii „aposteriori” (8.6) se

obţine:

ˆ 1

ˆ 1

T

T

n d n n n

d n n n e n e n

w u

w u (8.35)

Prin urmare:

1 1 1 0 2e n e n (8.36)

În aceste condiţii, constanta poate fi privită atât drept un parametru care controlează

viteza de convergenţă a algoritmului cât şi dezadaptarea acestuia.

Impunând condiţii mai riguroase, Rupp (1993), Slock (1993) au arătat că algoritmul

NLMS converge în medie pătratică dacă

0 1, (8.37)

ceea ce face ca alegerea parametrului de pas să fie mult mai simplă decât stabilirea valorii

lui în cazul algoritmului LMS.


Exemplul 8.2: Vom compara, în cele ce urmează, performanţele algoritmilor

LMS şi NLMS, în condiţii de lucru similare. Reluăm, în acest scop, experimentul cu

egalizorul adaptiv, studiat în Exemplul 7.4.

Asigurarea echivalenţei condiţiilor de acţiune a celor doi algoritmi s-a făcut,

prin stabilirea în mod experimental a valorilor pasului celor doi algoritmi, ,

respectiv astfel încât valorile EPM de regim staţionar să fie egale pentru cei

doi algoritmi.

Experimentul este realizat în conformitate cu schema bloc din Figura 7.10,

canalul de comunicaţii este modelat prin relaţia (7.70) cu parametrul de canal

2,9W . Cele două filtre sunt realizate cu 11M coeficienţi. Utilizarea

facilităţilor oferite de pachetul MATLAB ne-a permis să stabilim că, pentru ca

valoarea finală a EPM să fie în ambele situaţii 0,0025J , se alege 0,06

în cazul LMS şi 0,75 în cazul NLMS. Figura 8.2 prezintă rezultatele obţinute.

Experimentul descris evidenţiază, ca o caracteristică generală, că algoritmul LMS

normalizat prezintă o rată de convergenţă potenţial mai rapidă decât algoritmul LMS

standard. Avantajele algoritmului NLMS în raport cu LMS standard devin şi mai evidente,

în condiţiile unor semnale de intrare nestaţionare, situaţie în care, capacitatea NLMS de a


iniţializează variabila contor 0n , vectorul pondere şi vectorul

de semnal :

ˆ 0 1 0 0 0T

w u


ˆ Hy n n nw u


e n d n y n

4. Se calculează pătratul eşantionului curent de intrare 2

u n .

5. Se calculează pătratul normei semnalului de intrare:

2 2 2 2

1n n u n u n M u u


*

2ˆ ˆ1n n n e n

n

w w u

u


la 2.

Tabelul 8.2 Algoritmul LMS normalizat


urmări variaţiile parametrilor statistici ai semnalelor prelucrate este, evident, superioară

performanţelor LMS standard.

8.3 Algoritmul LMS-Newton

Algoritmul utilizează estimări temporale ale matricii de corelaţie R în scopul creşterii

vitezei de convergenţă a algoritmului LMS în situaţiile în care semnalul de intrare este

puternic corelat. Progresele realizate în privinţa vitezei de convergenţă sunt realizate cu

preţul creşterii complexităţii calculelor.

Punctul de pornire a algoritmului LMS-Newton este metoda Newton introdusă în

Capitolul 6. Aceasta minimizează EPM într-un singur pas la momentul 1n , calculând

coeficienţii filtrului prin relaţia (6.66) pe care o reluăm în continuare:

111

2n

n n J n w

w w R (8.38)

În cazul ideal, atunci când matricea R şi vectorul gradient nJ n

wse cunosc cu precizie,

11 on w R p w . Prin urmare, metoda Newton converge către soluţia optimală într-o

singură iteraţie, ceea ce este de aşteptat în cazul unei funcţii obiectiv pătratice.

În practică, sunt disponibile numai nişte estimări ale matricii R şi ale vectorului

nJ n

w. Aceste estimări pot fi introduse în formula de actualizare (8.38), definind astfel

o metodă de tip Newton prin:

11 ˆ ˆˆ ˆ12

N nn n J n

ww w R (8.39)

Figura 8.2 Compararea performanţelor algoritmilor LMS şi

NLMS din punctul de vedere a evoluţiei EPM.

8.3 Algoritmul LMS-Newton 233

S-a introdus factorul de convergenţă (pas) N în scopul protejării algoritmului de divergen-

ţa datorată utilizării unor estimări prea „zgomotoase” a mărimilor R şi n

J nw

.

Dacă în ecuaţia (8.39) se înlocuieşte estimarea vectorului gradient cu relaţia

ˆ 2n

J n e n n w

u (vezi ecuaţia (7.4) din Capitolul 7), rezultă formula ce defineşte

ecuaţia de actualizare a algoritmului LMS-Newton:

1ˆˆ ˆ1 Nn n e n n n w w R u (8.40)

Pentru semnale de intrare staţionare şi reale, o estimare a lui R este

0

1 1ˆ ˆ 11 1 1

nT T

i

nn i i n n n

n n n

R u u R u u (8.41)

Estimarea este „nedeplasată”, întrucât:

0

1ˆ1

nT

i

E n E i in

R u u R (8.42)

Totuşi, estimarea lui R prin relaţia (8.41) nu este practică, pentru că la n mare, orice

schimbare în statistica semnalului de intrare va fi neglijată din cauza memoriei infinite a

algoritmului de estimare.

O altă modalitate de estimare a matricii de corelaţie poate fi generată prin folosirea unei

sumări ponderate, după cum urmează:

1

0

ˆ ˆ1 1

1

T

nn iT T

i

n n n n

n n i i

R u u R

u u u u (8.43)

unde în practică, este un factor mic ales în gama 0 0,1 . Acest domeniu de valori

ale lui permite un bun echilibru între valorile prezente şi trecute de informaţie. Calculând

media statistică în ambii membri ai relaţiei (8.43) şi presupunând că n , rezultă

0

ˆ 1 ,n

n i T

i

E n E i i n

R u u R (8.44)

Drept urmare, estimarea lui R din ecuaţia (8.43) este „nedeplasată”.

Pentru a evita operaţia de inversare a matricii ˆ nR , operaţie necesară conform ecuaţiei

(8.39), se poate utiliza aşa-numita lemă de inversare matricială definită prin relaţia

11 1 1 1 1 1 A BCD A A B DA B C DA (8.45)

unde , , şi A B C D sunt matrici de dimensiuni adecvate iar şi A C sunt matrici nesingulare.

Relaţia de mai sus poate fi demonstrată, arătând că prin premultiplicarea membrului drept al

ecuaţiei cu A BCD rezultă matricea identitate. Alegând ˆ1 1 ,n A R

T n B D u şi C , se poate arăta că


1 1

1 1

11

ˆ ˆ1 11ˆ ˆ 1ˆ1 1

T

T

n n n nn n

n n n

R u u RR R

u R u (8.46)

Ecuaţia de calcul al lui 1ˆ nR este mai puţin complexă de actualizat (numărul

multiplicărilor este de ordinul a 2M operaţii) decât inversarea directă la fiecare iteraţie a

matricii ˆ nR (multiplicări de ordinul a 3M operaţii).

Algoritmul LMS-Newton complet este prezentat în Tabelul 8.3. Trebuie remarcat că

sunt posibile şi alte proceduri de iniţializare decât cea utilizată în tabel.

După cum am subliniat în Capitolul 7, direcţia gradientului estimat are tendinţa să se

apropie de direcţia ideală a gradientului. Similar, vectorul care rezultă din produsul lui

1ˆ nR cu gradientul estimat tinde să se apropie de direcţia Newton. În consecinţă, putem

concluziona că algoritmul LMS-Newton converge într-o manieră mult mai directă spre

minimul suprafeţei de eroare decât alţi algoritmi LMS. Se poate arăta, de asemenea că în

cazul algoritmului LMS-Newton, convergenţa acestuia este independentă de împrăştierea

valorilor proprii ale lui R .

Algoritmul LMS-Newton este matematic identic cu algoritmul RLS dacă factorul de

uitare al algoritmului RLS se alege astfel încât 2 1 (Diniz 2008). Întrucât vom

discuta pe larg despre algoritmul RLS ceva mai târziu, vom încheia aici discuţia despre

algoritmul LMS-Newton.

1. Iniţializare:

1ˆ 1 ( este o constantă pozitivă mică)

ˆ 0 1 0 0 0T

R I

w u


ˆ Ty n n nw u


e n d n y n

4. Se calculează estimatul inversei matricii de corelaţie:

1 1

1 1

11

ˆ ˆ1 11ˆ ˆ 1ˆ1 1

T

T

n n n nn n

n n n

R u u RR R

u R u


1ˆˆ ˆ1 Nn n e n n n w w R u

6. Se incrementează variabila contor 1n n şi se execută salt la

2.

Tabelul 8.3 Algoritmul LMS-Newton

8.4 Algoritmi LMS cu transformare de domeniu 235

8.4 Algoritmi LMS cu transformare de

domeniu

Convergenţa algoritmilor de tip LMS depinde puternic de nivelul în care semnalul de la

intrarea filtrului este corelat şi, în particular, de gradul de împrăştiere a valorilor proprii ale

matricii de corelaţie R .

Filtrele adaptive cu transformare de domeniu (TDAF – Transform Domain Adaptive

Filter) exploatează proprietăţile de decorelare pe care le au anumite transformări de semnal

bine-cunoscute, precum transformarea Fourier discretă (DFT) sau transformarea cosinus

discretă (DCT). Aplicarea acestor transformări asupra datelor de intrare determină „albirea”

(sau decorelarea) acestora cu câştiguri imediate în ceea ce priveşte convergenţa algoritmului.

Creşterea performanţelor filtrelor TDAF este, de regulă, dependentă de gradul de corelaţie a

semnalului şi, prin urmare, gradul de succes al metodei variază de la semnal la semnal şi de

la transformare la transformare. Efortul de calcul rămâne şi în cazul TDAF de ordinul a

O M operaţii pe eşantion pentru un filtru de lungime M.

8.4.1 Principiul filtrării adaptive TDAF

Scopul algoritmului LMS cu transformare de domeniu este de a mări viteza de convergenţă

în raport cu algoritmul LMS convenţional în cazul secvenţelor de intrare puternic corelate.

Ideea fundamentală este de a modifica semnalul aplicat la intrarea filtrului adaptiv astfel

încât gradul de împrăştiere a valorilor proprii ale matricii corespunzătoare de corelaţie să se

reducă.

În algoritmul LMS cu transformare de domeniu, vectorul semnalului de intrare nu

este transformat, prin aplicarea transformării ortonormate (sau unitare) T , în vectorul „mai

convenabil” nu (vezi Figura 8.3):

n nu Tu (8.47)

unde T reprezintă matricea de dimensiune M M a transformării, aleasă astfel încât

transformarea să fie unitară:

H H

M TT T T I (8.48)

Expresia semnalului de ieşire al filtrului TDAF este

ˆ Hy n n nw u (8.49)

iar funcţia de cost J n se exprimă prin:

2 2 ˆ ˆ ˆ ˆH H H

d T T TJ n E e n

w p p w w R w (8.50)


unde 2* 2, iar .H

T T dE n n E n d n E d n R u u p u Egalând gradien-

tul lui J n cu zero se obţine ecuaţia Wiener-Hopf ce dă coeficienţii filtrului TDAF

optimal:

1

o T T

w R p (8.51)

Înlocuim ultima valoare în (8.50) iar rezultatul obţinut este valoarea minimă a erorii pătrati-

ce medii a filtrului cu transformarea unitară T:

2 1

min

H

d T T TJ p R p (8.52)

Vom compara eroarea minimă (8.52) cu valoarea EPM minime obţinute în cazul unui

filtru adaptiv convenţional. În acest scop, calculăm:

H H H H

T E n n E n n R u u T u u T TRT (8.53)

şi * *

T E n d n E n d n p u T u Tp (8.54)

Înlocuind (8.53) şi (8.54) în (8.52), şi ţinând cont de (8.48), se obţine după câteva operaţii

2 1

min

H

dJ p R p (8.55)

Acest rezultat este identic cu cel obţinut în Capitolul 4. El indică faptul că eroarea mini-

mă la filtrarea adaptivă TDAF este identică cu cea obţinută în cazul convenţional. Rezultatul

este absolut normal şi poate fi înţeles intuitiv având în vedere că transformarea

n nu Tu este reversibilă, adică Hn nu T u . În consecinţă, între coeficienţii

filtrului TDAF şi cei ai filtrului convenţional există, de asemenea, aceiaşi relaţie:

Figura 8.3 Filtrul adaptiv cu transformare de domeniu.


n nw Tw (8.56)

Înainte de a intra în detaliile filtrării TDAF, vom prezenta în următorul paragraf caracte-

ristici deosebite ale transformărilor ortogonale care le fac foarte promiţătoare din punctul de

vedere a algoritmilor cu transformare de domeniu.

8.4.2 Transformări ortogonale

Există mai multe transformări ortogonale care realizează cu mai mult sau mai puţin succes

filtrarea adaptivă de domeniu. De exemplu, matricea T poate realiza transformarea Fourier

discretă (DFT - vezi paragraful 2.6). În acest caz, elementul klf al matricii DFTT are

expresia

2

1, , 0,1, , 1

klj

Mklf e k l M

M

(8.57)

O altă transformare ortogonală importantă este transformarea cosinus discretă (DCT – vezi

paragraful 2.8). Se utilizează şi alte transformări în filtrarea adaptivă TDAF: transformarea

sinus discretă şi transformarea Hartley discretă (Diniz 2008, Sayed 2008). De remarcat că

nu există o soluţie optimă în ceea ce priveşte alegerea transformării, iar această alegere

depinde de tipul aplicaţiei şi al semnalelor care se prelucrează în aceasta. Sunt şi alte

considerente, ca de exemplu viteza de calcul, care concură la alegerea transformării într-o

aplicaţie dată.

În calitate de exemplu de transformare ortogonală vom examina în continuare transfor-

marea cosinus discretă. DCT a fost definită în Capitolul 2 prin ecuaţiile (2.20)-(2.22), modi-

ficate în aşa fel încât transformarea să fie unitară. Definim acum transformarea DCT a

secvenţei , 1 , , 1u n u n u n M prin

1

0

, 0,1, , 1M

k kl

l

u n c u n l k M

(8.58)

unde coeficienţii utilizaţi de transformarea DCT sunt:

1 , 0

2 12 cos , 1,2, , 1

2

kl

M k

c l kM k M

M

(8.59)

Vom sublinia de asemenea că relaţia (8.58) poate fi scrisă şi sub forma

DCTn nu T u (8.60)

DCTT este matricea transformării DCT. Cu această notaţie, klc din (8.58) este elementul kl

al matricii DCTT , iar vectorul nu de dimensiune 1M este

0 1 1Mn u n u n u n u

În afară de a fi o transformare lineară, operaţia definită prin (8.58) sau (8.60) poate fi

privită şi drept o implementare a unui banc de M filtre cu răspuns finit la impuls (FIR) ale


căror coeficienţi sunt chiar , 0,1, 1klc l M . Figura 8.4 prezintă răspunsul la impuls al

filtrelor DCT pentru 8M . Aceste curbe reflectă clar proprietatea de separare în benzi a

filtrelor DCT. Fiecare răspuns are un lob principal care poate fi identificat drept banda de

trecere a filtrului precum şi un număr de lobi secundari situaţi în banda de blocare. Caracte-

ristici similare de frecvenţă prezintă şi celelalte transformări ortogonale utilizate în filtrarea

TDAF, de exemplu DFT.

Proprietăţii de separare în benzi pe care o au transformările ortogonale îi corespunde în

domeniul timp proprietatea de ortogonalizare. Proprietatea de ortogonalizare poate fi expli-

cată intuitiv pornind chiar de la separarea în benzi. Se ştie că două procese ce au benzi

spectrale ce se exclud mutual, sunt necorelate unul cu celălalt (Papoulis 1991). Pe de altă

parte, din proprietatea de separare în benzi, se observă că elementele vectorului transformat

de la ieşire nu reprezintă un set de procese aleatoare cu benzi de frecvenţă separate

aproximativ între ele. Aceasta implică faptul că componentele lui nu sunt (cel puţin)

aproximativ necorelate între ele. Ultima constatare are drept consecinţă faptul că matricea de

corelaţie a procesului transformat H

T E n n R u u este mai apropiată de o matrice

diagonală decât matricea de corelaţie a procesului iniţial R . Vom exemplifica acest raţiona-

ment prin exemplul care urmează.

Exemplul 8.3: Pentru a demonstra proprietăţile de decorelare a transformatelor

DCT şi DFT se consideră procesul aleator nu cu matricea de corelaţie de

ordinul 4M :

1,000 0,900 0,810 0,729

0,900 1,000 0,900 0,810

0,810 0,900 1,000 0,900

0,729 0,810 0,900 1,000

R

Matricile transformărilor utilizate sunt:

0 0.1 0.2 0.3 0.4 0.50

0.5

1

1.5

2

2.5

3

Frecventa normalizata

Am

plitu

din

e

k=0

1 2 3 4 5 6

7

Figura 8.4 Caracteristicile de frecvenţă ale filtrelor DCT

pentru 8M .


0,500 0,500 0,500 0,500

0,653 0,271 0,271 0,653

0,500 0,500 0,500 0,500

0,271 0,653 0,653 0,271

0,500 0,500 0,500 0,500

0,500 0,500 0,500 0,500

0,500 0,500 0,500 0,500

0,500 0,500 0,500 0,500

DCT

DFT

j j

j j

T

T

Transformarea de domeniu (8.53) conduce la

3,525 0,000 0,086 0,000

0,000 0,310 0,000 0,003

0,086 0,000 0,105 0,000

0,000 0,003 0,000 0,061

H

C DCT DCT

R T RT

3,525 0,043 0,043 0,000 0,043 0,043

0,043 0,043 0,190 0,043 0,043 0,086

0,000 0,043 0,043 0,096 0,043 0,043

0,043 0,043 0,086 0,043 0,043 0,190

F

j j

j j j

j j

j j j

R

Trebuie remarcat că matricile rezultate în urma transformărilor DCT şi DFT sunt

mai apropiate de matricea diagonală (pentru că elementele care nu sunt pe diago-

nală sunt mai aproape de zero) decât matricea R.

În pofida diagonalizării evidente a matricii transformate TR , datorită faptului că T este

unitară, relaţia dintre R şi TR are forma unei transformări de similaritate, transformare care

păstrează valorile proprii. Aceasta înseamnă că R şi TR au aceleaşi valori proprii iar pentru

Exemplul 8.3: 57,4T R R . În consecinţă, simpla utilizare a unei transformări

ortogonale nu îmbunătăţeşte performanţele algoritmulului LMS. Este nevoie de mai mult

pentru a spori aceste performanţe.

Operaţia prin care metoda transformării de domeniu devine eficace în cazul filtrării

adaptive este normarea la putere unitară a elementelor vectorului transformat nu . În acest

scop, notăm prin D matricea de dimensiune M M :


2

0

2

1

2

1

0 0

0 0

0 0 M

E u n

E u n

E u n

D (8.61)

iar operaţia de normare este descrisă prin relaţia

1

2N n n

u D u (8.62)

unde N nu este vectorul normat. Matricea de corelaţie asociată vectorului N nu este

1 1

2 2TN T

R D R D (8.63)

Mai mult, este de observat că diag TD R , (8.64)

unde diag TR este matricea diagonală ce constă din elementele diagonale ale lui TR .

Drept rezultat al acestei normări, toate componentele vectorului N nu au valoarea medie

pătratică egală cu unu şi acelaşi lucru se întâmplă cu elementele de pe diagonala lui TNR .

Trebuie remarcat că relaţia dintre matricile de corelaţie R şi TNR nu mai este una de

similaritate, şi drept urmare, gradul de împrăştiere a valorilor lor proprii este diferit.

Exemplul 8.4: Ne propunem să normalizăm matricile şi C FR R obţinute în

Exemplul 8.3 iar apoi să calculăm TN R în cele două cazuri.

Aplicăm pentru început (8.64) şi continuăm cu operaţia de normare din (8.63).

Rezultatele sunt:

1,000 0,000 0,141 0,000

0,000 1,000 0,000 0,023

0,141 0,000 1,000 0,000

0,000 0,023 0,000 1,000

1,000 0,052 0,052 0,000 0,052 0,052

0,052 0,052 1,000 0,317 0,317 0,450

0,000 0,317 0,317 1,000 0

CN

FN

i i

i j j

j

R

R,317 0,317

0,052 0,052 0,450 0,317 0,317 1,000

j

i j j

Gradul de împrăştiere a valorilor proprii ale matricilor este 1,33CN R

pentru transformarea DCT şi 3,60FN R pentru DFT.


Efectul pe care secvenţa de transformare de forma T TN R R R îl are asupra

suprafeţei de eroare a unui filtru adaptiv cu doi coeficienţi este evidenţiat în Figura 8.5. Se

observă că efectul matricii de transformare unitară este de a roti suprafaţa de eroare, fără a

modifica excentricitatea elipsei. Prin urmare, transformarea nu afectează gradul de împrăş-

tiere a valorilor proprii. Principalul efect al normalizării constă în egalizarea axelor, ceea ce

conduce la micşorarea împrăştierii valorilor proprii ale matricii de corelaţie a procesului.


Implementarea algoritmului LMS cu transformare de domeniu utilizează pentru calculul

recursiv al ponderilor filtrului adaptiv următoara ecuaţie de recursie

1 *ˆˆ ˆ1n n n e n w w D u (8.65)

unde D este un estimat al matricii diagonale D definită în paragraful precedent. Această

recursie scrisă mai sus la nivelul vectorului coeficienţilor poate fi descompusă în M ecuaţii

scalare de recursie:

*

2ˆ ˆ1 , 0,1, , 1

ˆi

i i i

u

w n w n u n e n i Mn

(8.66)

unde 2ˆiu n este o estimare a lui

2

iE u n

. Acest fapt arată că prezenţa lui 1ˆ D în

ecuaţia (8.65) este echivalentă cu utilizarea de paşi diferiţi pentru fiecare din componentele

vectorului ponderilor filtrului în cazul filtrării TDAF. Fiecare parametru de pas este ales

proporţional cu inversa puterii componentei corespunzătoare de intrare în filtru. Din acest

motiv recursia din (8.65) este denumită recursie LMS cu pas normalizat. Pentru a preveni

confuzia dintre acest algoritm şi algoritmul LMS normalizat îl vom numi în continuare

algoritm LMS cu pas normalizat.

Apariţia factorului 1ˆ D în ecuaţia (8.65) este echivalentă cu operaţia de normare a

vectorului transformat descrisă în paragraful anterior prin ecuaţiile (8.62) şi (8.63). Pentru a

demonstra aceasta, dacă premultiplicăm şi postmultiplicăm cu 1

2D ecuaţia (8.65), obţinem

*ˆ ˆ1N N Nn n n e n w w u (8.67)

Figura 8.5 a. Contururile suprafeţei EPM iniţiale, b. Suprafaţa de eroare rezultată în urma

transformării de domeniu, c. Suprafaţa de eroare obţinută prin normalizare.


unde N nu e definit prin (8.62) iar 1

2ˆˆ ˆN n n

w D w . Cu alte cuvinte, algoritmul LMS

cu pas normalizat poate fi echivalat cu un algoritm LMS convenţional dacă vectorul care se

aplică pe intrările filtrului este normalizat, N nu având componente de putere unu.

Pentru implementarea lui (8.65) este necesar să se facă estimarea puterii semnalului de

intrare pe fiecare dintre celulele filtrului adaptiv în domeniu transformat, adică a valorilor

2ˆiu n . Se utilizează în acest scop ecuaţia de recursie

22 2ˆ ˆ 1 1 , 0,1, , 1

i iu u in n u n i M (8.68)

unde este o constantă pozitivă, apropiată dar mai mică decât unu. Algoritmul LMS cu

pas normalizat este prezentat în Tabelul 8.4.

Complexitatea de calcul a algoritmului LMS cu transformare de domeniu depinde de

alegerea lui T şi de modul în care această transformare este implementată. De exemplu, să

presupunem că este vorba de transformarea DFT definită prin relaţia (8.57). Chiar dacă se

realizează transformarea n nu Tu prin FFT, această etapă necesită 2logM M operaţii

pe iteraţie. Costurile sunt mai mari, oricum decât în cazul LMS convenţional (de ordinul a 2M operaţii pe iteraţie). Cu toate acestea, cel puţin în cazul transformărilor DFT şi DCT

(Sayed 2008), numărul de operaţii se poate reduce la ~M/iteraţie dacă se exploatează faptul

1. Iniţializare:

2ˆ 1 , 0,1, , 1 ( este o constantă pozitivă mică)

ˆ 0 1 0 0 0

iu

T

i M

w u

2. Se calculează transformarea ortogonală:

n nu Tu

3. Se determină semnalul de ieşire al filtrului:

ˆ Hy n n nw u

4. Se stabileşte eroarea la ieşirea filtrului:

e n d n y n

5. Se estimează puterea pe intrările filtrului ( pentru 0,1, , 1 i M )

22 2ˆ ˆ 1 1

i iu u in n u n

6. Se calculează elementele vectorului pondere pentru pasul următor:

*

2ˆ ˆ1 , 0,1, , 1

ˆi

i i i

u

w n w n u n e n i Mn

7. Se incrementează variabila contor 1n n şi se face salt la 2.

Tabelul 8.4 Algoritmul LMS cu transformare de domeniu


că doi vectori de date succesivi { 1 ,n nu u } au comune cea mai mare parte a elemen-

telor:

Drept urmare, vectorul nu poate fi calculat direct din 1n u şi valorile u n şi

u n M iar consecinţa directă a acestei observaţii este reducerea numărului de operaţii la

O M pe iteraţie.

8.4.4 Transformarea Karhunen-Loève şi algoritmul

LMS-Newton

Scopul acestui paragraf este să exploreze relaţia strânsă care există între algoritmul LMS-

Newton, aşa cum este acesta definit prin relaţia (8.40) şi algoritmii LMS cu transformare de

domeniu. Vom arăta că atunci când matricea transformării de domeniu T este astfel aleasă

încât să realizeze transformarea Karhunen-Loève (TKL), cele două proceduri reprezintă

două formulări diferite ale aceluiaşi algoritm. Astfel, rezultă concluzia logică că atunci când

este utilizată o transformare de domeniu adecvată, algoritmul LMS cu transformare de

domeniu poate fi considerat a fi o implementare eficientă a algoritmului LMS-Newton.

Conform Proprietăţii 5 a matricii de corelaţie R (vezi Capitolul 3), descompunerea

acesteia după valori proprii se face prin transformarea unitară de similaritate, conform rela-

ţiei (3.107):

HR = QΛQ

unde H QQ I iar Λ este matricea diagonală alcătuită din valorile proprii ale lui R. În

consecinţă, efectuăm transformarea de domeniu cu relaţia HT Q , care este transformarea

Karhunen-Loève (TKL) introdusă tot în Capitolul 3 prin relaţiile (3.128) şi (3.132), aplicând

relaţia (8.53) pentru a calcula matricea de corelaţie a procesului rezultat:

H H H

T R TRT Q QΛQ Q Λ (8.69)

Şi matricea diagonală D utilizată pentru normare în ecuaţia de recursie (8.65), capătă o

expresie simplă în cazul TKL: D Λ . Având în vedere că Λ este o matrice diagonală,

rezultă că TKL decorelează complet componentele vectorului transformat nu , ceea ce

înseamnă că aceasta este cea mai bună transformare din punctul de vedere a eficienţei

filtrării TDAF.

Se poate acum cerceta şi legătura care există între algoritmii LMS-Newton şi LMS cu

transformare de domeniu. În acest scop, premultiplicăm cu H

Q ecuaţia de recursie LMS-

Newton (8.40). Rezultatul obţinut:

1 *ˆ ˆ1H H H

Nn n n e n Q w Q w Λ Q u (8.70)


este identic, având în vedere cele discutate înainte, cu forma pe care o ia recursia (8.65)

atunci când se utilizează TKL ca transformare de domeniu. Pe de altă parte, se poate

considera că algoritmul LMS-Newton încearcă să facă o estimare a transformării Karhunen-

Loève, atunci când detemină 1ˆ nR . În sfârşit, şi algoritmul NLMS este un caz particular

al algoritmului LMS-TDAF, pentru că utilizează o transformare identitate T I şi o

estimare instantanee a puterii semnalului de intrare dată de norma 2

nu .

Transformarea Karhunen-Loève (TKL) este transformarea optimală, dar este dependen-

tă de semnal şi, practic, ea nu poate fi calculată în timp real. Întrucât transformarea optimală

în cazul filtrării TDAF este dependentă de semnal, nu se poate stabili o transformare optimă

cu parametrii fixaţi care să fie utilizată universal în cazul filtrării adaptive cu transformare de

domeniu. În fapt, dacă spectrul semnalului de intrare este cunoscut, atunci poate fi calculată

şi utilizată TKL, altfel orice matrice unitară de dimensiuni corespunzătoare poate fi o

alegere posibilă pentru transformare. Totuşi utilizarea cea mai răspândită o are

transformarea cosinus discretă, care cel puţin pentru un proces Markov de ordinul întâi,

staţionar, de medie zero, este echivalentă asimptotic cu TKL (Beaufays 1995,

Kenneth_Jenkins şi D.F. Marshall 1999).

Exemplul 8.5: Ne propunem să comparăm, din punctul de vedere a vitezei de

convergenţă, în raport cu algoritmul LMS standard, performanţele algoritmilor

TDAF: LMS-DFT şi LMS-DCT. Ca şi în cazul algoritmului NLMS, reluăm, în

acest scop, experimentul cu egalizorul adaptiv introdus în Exemplul 7.4 din

Capitolul 7.

Asigurarea echivalenţei condiţiilor de acţiune a celor trei algoritmi s-a făcut,

prin stabilirea, în mod experimental, a valorilor pasului celor trei algoritmi, ,

astfel încât valorile EPM de regim staţionar să rămână egale, indiferent de

algoritmi.

Experimentul este realizat în conformitate cu schema bloc din Figura 7.10,

canalul de comunicaţii este modelat prin relaţia 7.70 cu parametrul de canal

2,9W . Filtrele au toate 11M coeficienţi. Utilizarea facilităţilor oferite de

pachetul MATLAB ne-a permis să stabilim că, pentru ca valoarea finală a EPM să

fie în toate cazurile 0,0025J , se alege 0,06 pentru algoritmul LMS

standard şi 0,08 pentru algoritmii LMS-DFT şi LMS-DCT. Figura 8.6 prezintă

rezultatele obţinute, evidenţiind faptul că algoritmii LMS cu transformare de

domeniu, au, în raport cu algoritmul LMS standard, o convergenţă mai rapidă.

8.5 Algoritmul de proiecţie afină

Deducerea algoritmului LMS s-a făcut pe baza unor aproximaţii simple efectuate asupra

matricii de corelaţie R şi a vectorului de intercorelaţie p. Algoritmi mai avansaţi, cu

performanţe superioare dar şi costuri de calcul mai mari, pot fi obţinuţi făcând apel la

aproximări mai sofisticate pentru R şi p. Aşa-numitul algoritm de proiecţie afină (APA)

reprezintă o ilustrare a acestor afirmaţii.

8.5 Algoritmul de proiecţie afină 245

8.5.1 Formularea algoritmului APA

Deşi APA reprezintă o generalizare a algoritmului NLMS şi poate fi dezvoltat similar cu

acesta (Ciochină 2008), am ales, pentru a trata subiectul, abordarea din Sayed (2008).

Punctul de pornire îl constituie acum algoritmul LMS-Newton formulat prin recursia (8.39)

pe care o amendăm aici, adăugând la matricea de corelaţie R un termen de valoare redusă

I , ce poate să garanteze inversabilitatea expresiei corespunzătoare:

1

ˆ

1

1 ˆ ˆˆ ˆ12

ˆ ˆˆˆ ˆ

N nn n n J n

n n n n n

ww w I R

w I R p R w

(8.71)

În ecuaţie, ˆ nR şi ˆ np sunt estimările mărimilor corespunzătoare făcute la momen-

tul de timp n, iar algoritmul de proiecţie afină, spre deosebire de alţi algoritmi realizează o

mai bună aproximare a acestora. În acest scop se alege un număr pozitiv întreg K (de regulă

K M , unde dimensiunile vectorului w sunt 1M ) iar estimările ˆ nR şi ˆ np se

calculează prin următoarele aproximaţii instantanee:

*

1 1

1 1ˆ ˆ,n n

H

j n K j n K

n j j n j d jK K

R u u p u (8.72)

unde 1 1T

j u j u j u j M u şi d j sunt vectorul de intrare,

respectiv semnalul dorit la momentul j . Cu alte cuvinte, la fiecare iteraţie n sunt utilizaţi cei

mai recenţi K vectori de intrare şi cele mai recente K observaţii pentru a calcula prin mediere

temporală valorile aproximative ale lui R şi p:

Figura 8.6 Compararea performanţelor algoritmilor LMS stan-

dard, LMS-DFT şi LMS-DCT din punctul de vedere a

evoluţiei EPM.


, 1 , , 1 şi , 1 , , 1n n n K d n d n d n K u u u

Introducem matricea datelor de intrare nA de dimensiune K M şi vectorul semna-

lelor dorite nd de dimensiune 1K :

1 1

1 1

1 2

1 2

1 1

H

H

n n n n K

u n u n u n K

u n u n u n K

u n M u n M u n K M

n d n d n d n K

A u u u

d

(8.73)

Cu noile notaţii, ˆ nR şi ˆ np pot fi exprimate într-o formă mult mai compactă:

1 1ˆ ˆşiH Hn n n n n nK K

R A A p A d (8.74)

Drept urmare, reformulăm expresia ecuaţiei de recursie Newton (8.71), în care înlocuim cu

relaţiile din (8.74) şi K :

1

ˆ ˆ ˆ1 H Hn n n n n n n n

w w I A A A d A w (8.75)

Deşi produsul H n nA A este o matrice singulară atunci când K M , termenul I

garantează existenţa inversei lui H n n I A A .

Rezolvarea ecuaţiei de recursie (8.75) necesită, la fiecare iteraţie, inversarea matricii

H n nA A de dimensiune M M . Alternativ, se poate face apel la formula de inversare

matricială (8.45) pentru a verifica egalitatea de mai jos:

1 1

H H H Hn n n n n n

I A A A A I A A (8.76)

caz în care, relaţia (8.75) devine

1

1

ˆ ˆ ˆ1

ˆ

H H

H H

n n n n n n n n

n n n n n

w w A I A A d A w

w A I A A e

(8.77)

Această ultimă formă a recursiei APA este mai convenabilă întrucât necesită inversarea

la fiecare iteraţie a matricii Hn n I A A de dimensiune (de obicei mai mică)

K K .

Ecuaţia (8.77) este formularea algoritmului de proiecţie afină. În particular, se observă

că atunci când 1K , APA se reduce la ecuaţia de recursie a algoritmului LMS normalizat

(8.34). Mai general, din compararea APA cu algoritmii LMS standard sau NLMS, se poate


constata că APA utilizează pentru eroarea de estimare vectorul ˆn n n n e d A w ,

spre deosebire de eroarea scalară ˆHe n d n n n u w utilizată de LMS şi NLMS.

Această observaţie evidenţiază faptul că, spre deosebire de LMS şi NLMS care folosesc

pachetul de date de la momentul n pentru a actualiza coeficienţii filtrului adaptiv, APA

utilizează în acelaşi scop cele mai recente K pachete de date. Din acest motiv, algoritmul

APA este denumit şi algoritm cu reutilizarea datelor pentru că refoloseşte pachete de date

de la momentele de timp anterioare. Numărul întreg K este denumit ordin al filtrului APA.

Tabelul 8.5 rezumă operaţiunile care implementează algoritmul. Efortul de calcul al

algoritmului APA este mare, având în vedere că produsul Hn nA A necesită 2K M

multiplicări iar inversarea 1

Hn n

I A A costă 3O K operaţii (multiplicări şi

adunări). Concluzia este că ordinul de mărime a numărului de operaţii la care se ridică costul

APA este 2O K M pe iteraţie, o valoare foarte mare, atunci când o comparăm cu costul

LMS standard. Există, trebuie să spunem, multe variante mai rapide ale algoritmului (Albu,

ş.a. 2007, Sayed 2008) care utilizează în scopul reducerii numărului de operaţii, redundanţa

care există în datele prelucrate.

Exemplul 8.6: Figura 8.7 compară performanţele a patru implementări ale algo-

ritmului APA cu algoritmul LMS standard pentru experimentul realizat în

conformitate cu schema bloc din Figura 7.10, canalul de comunicaţii fiind modelat


iniţializează variabila contor 0n , vectorul pondere şi vectorii

de semnal :

ˆ 0 0 0 0 , 0, 0T

d i u i i w


ˆ Hy n n nw u

3. Se determină valoarea curentă a vectorului de eroare:

ˆn n n n e d A w

4. Se calculează pătratul eşantionului curent de intrare 2

u n .

5. Se calculează pătratul normei semnalului de intrare:

2 2 2 2

1n n u n u n M u u


1

ˆ ˆ1 H Hn n n n n n

w w A I A A e


la 2.

Tabelul 8.5 Algoritmul de proiecţie afină


prin relaţia 7.70, cu parametrul de canal 2,9W . În toate situaţiile, filtrul

adaptiv are 11M coeficienţi iar curbele de învăţare au fost obţinute prin medie-

re pe 300 de experimente.

Cele 4 curbe generate pentru algoritmul APA corespund la patru valori

distincte ale ordinului filtrului APA: 1,2,4,6K . S-a realizat astfel o evaluare a

efectului pe care îl are ordinul proiecţiei afine asupra performanţelor

algoritmului.

Asigurarea echivalenţei condiţiilor de acţiune a celor trei algoritmi s-a făcut,

prin stabilirea, în mod experimental, a valorilor pasului celor trei algoritmi, ,

astfel încât valorile EPM de regim staţionar să rămână egale, indiferent de

algoritmi. Valorile acestor paşi sunt trecute în grafic.

Experimentul evidenţiază că APA are performanţe net superioare algoritmului

LMS standard, în condiţiile în care ordinul APA este 1K . Totuşi pe măsură ce K

creşte, numărul de operaţii matematice se măreşte cu pătratul lui K, ceea ce

devine, de la un anumit nivel, prohibitiv. De asemenea, există o limită pentru K, în

experimentul nostru 4K , dincolo de care, în loc ca performanţele să se

îmbunătăţească, se constată o degradare a acestora.

8.5.2 Abordare alternativă a algoritmului APA

Algoritmul proiecţiei afine poate fi definit ca fiind soluţia exactă a unei probleme de

optimizare locală. Pentru a justifica acestea, vom presupune că se dispune de coeficienţii

filtrului ˆ nw estimaţi la momentul 1n şi de datele de intrare la momentul n, nd şi

nA . Definim doi vectori de eroare de estimare: vectorul de eroare apriori:

Figura 8.7 Compararea performanţelor algoritmului LMS standard

şi a algoritmului proiecţiei afine pentru mai multe

valori ale ordinului de proiecţie K.


ˆn n n n e d A w (8.78)

şi vectorul de eroare aposteriori:

ˆ 1n n n n ε d A w (8.79)

Dacă primul dintre ei măsoară eroarea care se face la estimarea lui nd prin utilizarea

produsului ˆn nA w . adică prin utilizarea coeficienţilor disponibili înainte de actualizare.

cel de al doilea măsoară eroarea la estimarea lui nd prin ˆ 1n n A w , adică după utili-

zarea noilor coeficienţi. Vectorul aposteriori se poate exprima în funcţie de vectorul apriori

dacă în relaţia(8.79) se înlocuieşte ˆ 1n w prin ecuaţia de recursie (8.77):

1

1

ˆ H H

H H

n n n n n n n n

n n n n n

ε d A w A I A A e

I A A I A A e

(8.80)

În concluzie, algoritmul APA determină coeficienţii ˆ 1n w care rezolvă următorul

criteriu de optimizare cu constrângeri:

2

ˆ 1

1

ˆ ˆmin 1 cu condiţia:n

H H

n n

n n n n n n

ww w

ε I A A I A A e

(8.81)

Cu alte cuvinte, se caută vectorul ˆ 1n w cel mai apropiat în sensul normei euclidiene de

ˆ nw şi supus unei constrângeri dată de egalitatea (8.80).

Se poate demonstra (Sayed 2008) că constrângerea din (8.81) este îndeplinită atâta

vreme cât pasul algoritmului îndeplineşte condiţia

0 2 (8.82)

Mai mult, (8.82) asigură realizarea inegalităţii 2 2

n nε e , ceea ce garantează că

ˆ 1n n A w este o estimare mai bună a lui nd decât ˆn nA w .

8.5.3 Interpretarea proiecţiei afine

Formularea (8.81) ne permite să explicăm de ce în numele algoritmului apare termenul

„proiecţie afină”. Motivul este că un caz special al recursiei APA (8.77) admite o

interpretare ce face apel la proiecţii pe subspaţii afine. În acest scop, ne referim la condiţia

(8.81) cu K M şi cazul particular 1 şi =0 , situaţie în care condiţia se reduce la

2

ˆ 1ˆ ˆmin 1 cu condiţia:

nn n n

ww w ε 0 (8.83)

sau, echivalent:


2

ˆ 1ˆ ˆ ˆmin 1 cu condiţia: 1

nn n n n n

ww w d A w (8.84)

iar ecuaţia de recursie a algoritmului APA devine

1

ˆ ˆ ˆ1 H Hn n n n n n n n

w w A A A d A w (8.85)

Cu alte cuvinte, pentru 1 şi =0 , APA satisface ˆ 1n n n d A w . În cazul special

1K , regăsim formularea algoritmului LMS normalizat:

2

ˆ 1ˆ ˆ ˆmin 1 cu condiţia: 1H

nn n d n n n

ww w u w (8.86)

a cărei soluţie este ecuaţia de recursie NLMS

2

ˆ ˆ ˆ1 1

H

Hn

n n d n n nn

u

w w u wu

(8.87)

În acest caz, algoritmul NLMS satisface egalitatea ˆ 1Hd n n n u w . Această obser-

vaţie admite interpretarea geometrică pe care o dăm în continuare.

Oricare ar fi datele de intrare ,n nd u , există o infinitate de vectori care rezolvă

egalitatea ˆ 1Hd n n n u w . Setul tuturor acestor vectori w este un subspaţiu afin

(denumit de asemenea hiperplan) notat prin nM , a cărui relaţie de definiţie este:

ˆ ˆsetul tuturor vectorilor care satisfac condiţia 0H

n n d n w u wM

Se utilizează denumirea „afin” pentru a indica că hiperplanul nu trece în mod necesar prin

originea ˆ w 0 . Pornind de la vectorul ˆ nw şi îndeplinind condiţia (8.86), NLMS

selectează acel vector particular ˆ 1n w care este cel mai aproape de ˆ nw în sensul

normei euclidiene. Vom spune prin urmare, că ˆ 1n w se obţine prin proiecţia lui ˆ nw

pe subspaţiul afin nM .

Pe de altă parte, atunci când 1K , se observă din condiţia (8.86) că recursia (8.85)

impune satisfacerea a K egalităţi (spre deosebire de una ca în cazul NLMS):

ˆ ˆ1 , 1 1 1 , ,

ˆ, 1 1

H H

H

d n n n d n n n

d n K n n K

u w u w

u w

Pentru fiecare pereche de date ,n i n i d u , există o infinitate de vectori w care

satisfac egalitatea ˆ 1Hd n i n i n u w şi care definesc un subspaţiu n iM .

Vectorul coeficienţilor care este calculat cu (8.84)-(8.85) este situat la intersecţia a K

subspaţii afine:

1

ˆ 1n

j

j n K

n

w M

8.6 Algoritmi LMS pentru structuri lattice 251

Se spune atunci că ˆ 1n w dat de APA pentru 1 se obţine prin proiecţia vectorului

ˆ nw pe intersecţia subspaţiilor , , 1, , 1j j n n n K M . Figura 8.8 ilustrează

această construcţie pentru cazul 2K . Două subspaţii sunt arătate în figură: nM şi n iM .

În figură, estimarea ˆ nw se află în planul n iM în timp ce estimarea actualizată ˆ 1n w

se găseşte la intersecţia celor două hiperplane, 1n nM M .

8.6 Algoritmi LMS pentru structuri lattice

Structura lattice de filtrare adaptivă introdusă în Capitolul 5 reprezintă o modalitate eficientă

de implementare a algoritmului LMS. Algoritmii dezvoltaţi pentru aceste structuri de

predicţie lineară şi care reprezintă o extensie naturală a algoritmului LMS sunt denumiţi

algoritmi GAL (Gradient Adaptive Lattice). Utilizarea metodei gradientului pentru structuri

lattice a fost introdusă de Griffiths (1977).

8.6.1 Algoritmul LMS-GAL pentru filtre ale erorii de

predicţie lattice

Vom considera celula m din structura lattice a unui filtru al erorii de predicţie reprezentată în

Figura 8.9. Caracteristic unei astfel de celule este faptul că relaţia intrare-ieşire este

caracterizată de un singur parametru, şi anume coeficientul de reflexie m . Vom presupune

că semnalele de intrare sunt staţionare în sens larg iar m este un număr complex.

Etajul de predicţie lineară din Figura 8.9 este optimal atunci când erorile de predicţie

înainte şi înapoi de la ieşirea celulei, şi m mf n b n sunt minime. În consecinţă, se

Figura 8.8 Interpretarea geometrică a APA de ordinul doi.

Estimarea ˆ 1n w situată în planul n iM este

proiectată în punctul ˆ nw aflat la intersecţia

planelor n iM şi

nM .


stabileşte valoarea optimă a coeficientului m din condiţia de minimizare a funcţiei de cost,

definită de (Ciochină 2008, Haykin 1996):

2 2

m m mJ n E f n b n

(8.88)

Relaţiile intrare-ieşire ale celulei lattice considerate sunt stabilite în Capitolul 5 prin

ecuaţiile (5.118) şi (5.119). Le reluăm în continuare, pentru comoditatea expunerii:

1 1

1 1

1

1

m m m m

m m m m

f n f n b n

b n b n f n

(8.89)

Pentru calculul gradientului funcţiei de cost în raport cu părţile reale şi imaginare ale

coeficientului de reflexie m , aplicăm regulile formale de derivare:

2 * * *

1

2 * * *

1

2 1

2

m m m

m m m

m m m m m m m

m m m m m m m

E f n E f n f n f n f n E f n b n

E b n E b n b n b n b n E b n f n

Deci: * *

1 12 1m m m m m mJ n E f n b n b n f n

(8.90)

unde 1mf n este eroarea de predicţie înainte iar 1 1Mb n este eroare de predicţie înapoi

întârziată, ambele măsurate la intrarea blocului.

Principiul de bază al algoritmilor LMS enunţat în Capitolul 7 prin relaţiile (7.2)-(7.4)

este de a înlocui media statistică utilizată în calculul gradientului funcţiei de cost prin esti-

marea instantanee a acesteia. Aplicarea acestui principiu ecuaţiei (8.90), ne permite să

scriem estimarea instantanee a lui m mJ n :

* *

1 1ˆ 2 1

m m m m m mJ n f n b n b n f n (8.91)

Notăm prin ˆm n vechea estimare a coeficientului de reflexie m al celulei m a

structurii lattice iar prin ˆ 1m n estimarea actualizată a aceluiaşi coeficient. Adaptăm

Figura 8.9 Celulă de predictor lattice utilizată la definirea

algoritmului GAL.


ecuaţia (7.5) la calculul acestei estimări, însumând la ˆm n un termen de corecţie propor-

ţional cu estimarea gradientului m mJ n :

1 ˆˆ ˆ12 mm m m mn n J n (8.92)

unde m este pasul algoritmului asociat celulei m a structurii lattice. Înlocuind ecuaţia

(8.91) în (8.92), se obţine:

* *

1 1ˆ ˆ1 1m m m m m m mn n f n b n b n f n (8.93)

Ultima ecuaţie este expresia algoritmului LMS pentru celula m a structurii lattice

(LMS-GAL). Este evident că, pentru a asigura stabilitate, pasul algoritmului m poate avea

o valoare distinctă pentru fiecare celulă a structurii, ceea ce afectează mult aplicabilitatea

practică a algoritmului sub această formă.

O modalitate mai bună de utilizare a algoritmului LMS este de a face apel la varianta

normalizată a algoritmului LMS. În algoritmul NLMS-GAL, parametrul de adaptare depinde

de energia semnalelor de la intrarea celulei:

1

m m

m

nn

E

(8.94)

unde 2 2 2 2

1 1 1 1 1 1

1

1 1 1n

m m m m m m

i

n f i b i n f n b n

E E (8.95)

Pentru ca algoritmul să prezinte o convergenţă robustă, se alege 0,1 (Haykin 1996).

Parametrul 1m nE reprezintă suma totală a energiilor erorilor de predicţie înainte şi înapoi

la intrarea celulei m, măsurate până la momentul curent n.

În practică, de obicei se utilizează o modalitate diferită de (8.95) pentru estimarea ener-

giei semnalului de intrare în celulă (Clarkson 1993, Griffiths 1977):

2 2

1 1 1 11 1 1m m m mn n f n b n E E (8.96)

unde 0 1 . Introducerea parametrului β înzestrează algoritmul NLMS-GAL cu o

memorie finită, ceea ce îi asigură o comportare superioară atunci când funcţionează în regim

nestaţionar.

Studiul convergenţei algoritmului NLMS-GAL este o problemă destul de complexă, din

cauza interacţiunii nelineare dintre comportările celulei a n-a şi a celor de ordin inferior

(Haykin 1996). Comparând algoritmii GAL şi LMS, în general algoritmii GAL converg mai

rapid şi cu o viteză de convergenţă ce este în mare măsură independentă de gradul de

împrăştiere a valorilor proprii de la intrare. Pe de altă parte, s-a arătat că valoarea dezadaptă-

rii este mai mare în cazul structurilor lattice decât al filtrelor transversale (Clarkson 1993).

Algoritmul GAL normalizat are performanţe superioare datorită reducerii dependenţei de

varianţa semnalului de intrare.


8.6.2 Algoritmul LMS-GAL de filtrare adaptivă

Structura lattice de filtrare adaptivă este utilizată în calitate de filtru al erorii de predicţie. În

aplicaţiile de predicţie lineară care fac apel la acest gen de filtre, semnalul dorit reprezintă o

replică deplasată în timp a semnalului de intrare: d n u n N . Pentru a extinde

domeniul de aplicabilitate a algoritmilor GAL la întreaga gamă de aplicaţii adaptive,

structurii lattice i se adaugă o configuraţie în scară de combinator linear ca în Figura 8.10.

Ca în orice aplicaţie de filtrare adaptivă, se urmăreşte ca ieşirea y n a combinatorului

să realizeze cea mai bună estimare a semnalului dorit, d n . Prin urmare, se impune

minimizarea funcţiei de cost

2

, cu: HJ n E e n e n d n n n

h b (8.97)

unde 0 1

T

Mn h n h n h n h este vectorul coeficienţilor structurii în scară iar

vectorul 0 1

T

Mn b n b n b n b înglobează secvenţa erorilor de predicţie

înapoi ale filtrului lattice.

Alegerea pentru intrările structurii în scară din Figura 8.10 a secvenţei erorilor de

predicţie înapoi nb nu este întâmplătoare. Este momentul să reamintim aici una din

proprietăţile fundamentale ale structurii lattice, proprietate care a fost evidenţiată în

Capitolul 5 dedicat predicţiei lineare:

Secvenţa erorilor de predicţie înapoi 0 1, , , Mb n b n b n ale unui filtru lattice

este constituit din elemente ortogonale unul în raport cu celălalt, după cum arată

relaţia:

,

0,

m

m i

P i mE b n b n

i m

(5.108)

unde mP este valoarea medie minimă a erorii de predicţie înapoi a celulei lattice

m.

Prin urmare, dacă coeficienţii filtrului lattice i sunt optimizaţi, acesta prin ieşirile sale

constituite din estimatele erorii de predicţie înapoi realizează operaţia de ortogonalizare a

vectorului de intrare. Din această perspectivă, putem spune că acţiunea structurii de filtrare

din Figura 8.10 este identică cu cea a unui filtru adaptiv cu transformare de domeniu,

Figura 8.10 Filtrul adaptiv FIR cu structură lattice-scară


transformarea de domeniu realizată de celulele lattice prin algoritmul LMS-GAL prezentat

în paragraful precedent fiind şi ortogonală dacă algoritmul e convergent. În aceste condiţii,

cea mai eficientă implementare a algoritmului LMS pe o structură lattice-scară face apel la

ecuaţia (8.65) a algoritmului LMS cu transformare de domeniu:

1 *ˆ ˆ ˆ1 hn n n e n h h D b (8.98)

unde D este un estimat al matricii diagonale D definită prin

2 2 2

0 1 0 1diag , , diag , , ,M ME b n E b n E b n P P P

D (8.99)

Recursia (8.98) scrisă mai sus la nivelul vectorului coeficienţilor poate fi descompusă în

1M ecuaţii scalare de recursie:

*

2ˆ ˆ1 , 0,1, ,

î

i i i

b

h n h n b n e n i Mn

(8.100)

unde 2îb n este o estimare a lui

2

iE b n

. Acest fapt arată că prezenţa lui 1ˆ D în

ecuaţia (8.99) este echivalentă cu utilizarea de paşi diferiţi pentru fiecare din componentele

vectorului ponderilor filtrului ˆ nh .

Pentru implementarea lui (8.98) este necesar să se facă estimarea puterii semnalului de

intrare pe fiecare dintre celulele filtrului adaptiv în domeniu transformat, adică a lui 2îb n .

Se utilizează în acest scop ecuaţia de recursie

22 2ˆ ˆ 1 1 , 0,1, ,

i ib b in n b n i M (8.101)

unde este o constantă pozitivă, apropiată dar mai mică decât unu. Tabelul 8.6 se consti-

tuie într-un rezumat al operaţiunilor algoritmului LMS-GAL.

În ansamblul său, sistemul adaptiv reprezentat în Figura 8.10 este descris prin două

seturi de coeficienţi adaptivi: coeficienţii de reflexie ai structurii lattice ˆ , 0,1, ,i i M şi

coeficienţii structurii de filtru transversal ˆ , 0,1, ,ih i M . Cele două seturi se adaptează

simultan în paralel: prin coeficienţii î se urmăreşte ortogonalizarea intrărilor structurii în

scară, prin coeficienţii îh se realizează adaptarea secvenţei de intrare u n la semnalul dorit

d n . Marele avantaj al acestei structuri adaptive în comparaţie cu filtrele adaptive transver-

sale este că structura lattice furnizează setul ortogonal al erorilor de predicţie înapoi 0 ,b n

1 , , Mb n b n , ceea ce are drept consecinţă faptul că intrările structurii în scară sunt

„decuplate”. În consecinţă, funcţionarea secţiunii în scară a structurii din Figura 8.10 nu este

afectată de problemele cauzate de împrăştierea valorilor proprii ale semnalului de intrare.

Bine înţeles, această comportare se produce numai după ce a fost obţinută convergenţa

coeficienţilor de reflexie î . În practică, pe parcursul procesului de adaptare, există o

anumită dependenţă între erorile de predicţie înapoi, astfel încât structura în scară resimte pe

această perioadă efectul împrăştierii valorilor proprii. De remarcat că adaptarea


coeficienţilor de reflexie se face numai în raport cu u n . Drept urmare, modificările în

statistica lui d n vor afecta coeficienţii ˆih , dar nu şi coeficienţii de reflexie. Pentru semnale

u n staţionare, odată ce predictorul lattice a realizat convergenţa, erorile de predicţie înapoi

vor rămâne ortogonale chiar dacă d n este nestaţionar.

1. Parametri: 1 - ordinul filtrului adaptiv

, - constante în intervalul 0 , 1

, 0,1

M

2. Iniţializare: Pentru 0,1, , 1i M

1 1 1

ˆˆ0 0 0 0 0

ˆ0 0 , - constantă micăi

i i i i

i b

f b h

E

3. Pentru 1,2,n se pune: 0 0f n b n u n

4. Predicţia: Se calculează pentru ordinele de predicţie 1,2, ,m M

*

1 1

*

1 1

2 2

1 1 1 1

* *

1 1

1

22 2

ˆ 1 ,

ˆ1 ,

1 1 1 ,

ˆ ˆ1 1 ,

ˆ ˆ 1 1m m

m m m m

m m m m

m m m m

m m m m m m

m

b b m

f n f n n b n

b n b n n f n

n n f n b n

n n f n b n b n f nn

n n b n

E E

E

5. Se formează vectorul de ieşire al predicţiei:

0 1

T

Mn b n b n b n b

6. Se determină semnalul de ieşire a filtrului:

ˆ Hy n n nh b

7. Se stabileşte eroarea la ieşirea filtrului:

e n d n y n

8. Se calculează elementele vectorului pondere pentru pasul următor:

*

2ˆ ˆ1 , 0,1, ,

ˆi

i i i

b

h n h n b n e n i Mn

9. Se incrementează variabila contor 1n n şi se face salt la 3.

Tabelul 8.6 Algoritmul LMS-GAL de filtrare adaptivă


Exemplul 8.7 Ca şi în exemplele anterioare, urmărim să comparăm

performanţele algoritmului LMS-GAL de filtrare adaptivă cu cele ale algoritmului

LMS standard. Schema de filtrare GAL aleasă este structura lattice-scară din

Figura 8.10 care conduce la un algoritm LMS cu transformare de domeniu, ceea ce

ne-a permis să extindem comparaţia şi la cel mai performant algoritm din această

categorie, şi anume algoritmul LMS-DCT. Ca şi pentru alţi algoritmi LMS

dezvoltaţi în acest Capitol, comparaţia s-a realizat pe experimentul din Exemplul

7.4 şi reprezentat în Figura 7.10. S-a asigurat echivalenţa celor trei algoritmi

testaţi, prin ajustarea cuantelor astfel ca în toate cele trei cazuri, eroarea

minimă minJ să fie identică.

Toate cele trei filtre adaptive au 11M coeficienţi iar paşii algoritmilor au

valorile: 0,06 în cazul LMS standard, 0,08 pentru algoritmul LMS-DCT

respectiv 0,002 pentru ajustarea coeficienţilor de reflexie ai celulelor lattice şi

0,06 pentru ajustarea coeficienţilor structurii în scară în cazul algoritmului

LMS-GAL. Rezultatele prezentate în Figura 8.11 este obţinut în urma medierii a

300 de rulări distincte.

Examinând Figura 8.11, constatăm că performanţele algoritmului LMS-GAL sunt tot

aşa de bune ca performanţele celui mai bun algoritm LMS cu transformare de domeniu,

fiind net superioare performanţelor algoritmului LMS standard. Aceste performanţe bune

sunt obţinute cu preţul unei complexităţi mult mai ridicate a calculelor şi a dificultăţii

evidente de a trebui să controlezi algoritmul prin intermediul a doi parametri distincţi de pas.

Figura 8.11 Compararea performanţelor algoritmilor LMS-GAL,

LMS-DCT şi LMS standard din punctul de vedere al

evoluţiei EPM.


Probleme

P 8.1 Algoritmul LMS cu semnul erorii este utilizat pentru a face predicţia înainte cu un

pas a semnalului sin 3u n n , utilizând un filtru FIR cu trei coeficienţi,

primul coeficient având valoarea fixată la 1, prin minimizarea valorii medii pătra-

tice a lui y n . Calculaţi o valoare adecvată pentru pasul algoritmului , semna-

lul de ieşire al filtrului y n , şi coeficienţii filtrului pentru primele 10 iteraţii.

Valoarea iniţială a coeficienţilor este ˆ 0 1 0 0T w .

P 8.2 Într-o problemă de identificare de sistem, semnalul de intrare este generat de un

proces AR dat de ecuaţia

1,2 1 0,81 2u n u n u n v n

unde v n este zgomot alb gaussian de medie nulă şi varianţă 2 1v . Sistemul

necunoscut are funcţia de transfer

1 2 31 0,9 0,1 0,2H z z z z

Filtrul adaptiv este un filtru transversal cu patru coeficienţi. Utilizând algoritmul

LMS cu semnul erorii implementat în MATLAB:

(a) Să se aleagă o valoare adecvată pentru , apoi să se ruleze un ansamblu de 20 de

experimente şi să se reprezinte curba de învăţare mediată a algoritmului.

(b) Să se măsoare EPM în exces şi să se compare rezultatul cu valoarea teoretică.

P 8.3 Expresia algoritmului LMS cu „pierderi” (leaky-LMS) (Manolakis, ş.a. 2005) este

*ˆ ˆ1 1n n e n n w w u

unde coeficientul de pierderi este 0 1 .

(a) Arătaţi că ecuaţia de recursie a coeficienţilor poate fi obţinută prin minimizarea

funcţiei de cost

2 2

ˆJ n e n n w

unde eroarea se defineşte ca de obicei: ˆ He n d n n n w u .

(b) Utilizând ipoteza de independenţă, arătaţi că

ˆ ˆ 1E n E n w I R I w p

unde HE n n R u u şi *E n e n p u .

(c) Arătaţi că dacă max0 2 , unde max este cea mai mare valoare

proprie a lui R, atunci

ALGORITMI DERIVAŢI DIN ALGORITMUL LMS Probleme 259

1

ˆlimn

E n

w R I p

ceea ce înseamnă că, în regim staţionar, 1ˆoE w w R p .

P 8.4 Repetaţi problema P 8.2 utilizând algoritmul LMS normalizat.

P 8.5 Să considerăm secvenţa sinusoidală înecată în zgomot

sind n a n v n

unde v n este o secvenţă de zgomot. Frecvenţa este cunoscută apriori, ampli-

tudinea a şi faza sunt necunoscute. Pentru a obţine o estimare a acestor parame-

tri, se alege un filtru FIR cu doi coeficienţi la intrarea căruia se aplică semnalul

sinu n n şi ale cărui ponderi sunt astfel adaptate încât diferenţa dintre d n

şi ieşirea filtrului y n să fie minimizată în sensul celor mai mici pătrate. Ieşirea

filtrului y n este, în aceste condiţii, estimarea „nezgomotoasă” a secvenţei

sinusoidale obţinută prin algoritmul LMS.

(a) Utilizând mediile temporale, găsiţi matricea de corelaţie R a semnalului de intrare.

(b) Determinaţi pasul algoritmului LMS care să permită realizarea unei dezadaptări

5%M .

(c) Pentru valoarea pasului determinată la punctul (b), stabiliţi constantele de timp

ale curbei de învăţare a filtrului şi arătaţi că convergenţa algoritmului LMS devine

mai lentă pe măsură ce descreşte.

(d) Arătaţi că problema convergenţei lente a algoritmului LMS poate fi rezolvată dacă

se utilizează un algoritm TDAF cu matricea de transformare

1 11

1 12T

P 8.6 Repetaţi problema P 8.2 utilizând algoritmul cu transformare de domeniu LMS-

DCT. Comparaţi rezultatele cu cele obţinute la P 8.2 şi P 8.4.

P 8.7 Utilizaţi algoritmul de proiecţie afină cu 3K pentru a egaliza un canal de

comunicaţii cu funcţia de transfer

1 20,34 0,27 0,87 0,43 0,34 0,21H z j j z j z

Semnalul de intrare este de tip QAM cu patru simboluri, reprezentând secvenţe

binare generate aleator cu RSZ la receptor 2 2

ˆ 20u v , unde u n este semnalul

util recepţionat fără a lua în considerare zgomotul adiţional de pe canal, v n .

Filtrul adaptiv are 10 coeficienţi. Se va utiliza MATLAB în rezolvare.

(a) Rulaţi algoritmul pentru 0,1 0,4 0,8şi . Faceţi comentarii cu

privire la convergenţă pentru fiecare caz.


(b) Reprezentaţi părţile reale şi părţile imaginare ale semnalului recepţionat înainte şi

după egalizare.

(c) Măriţi numărul de coeficienţi la 20 şi repetaţi experimentul de la punctul (b).

P 8.8 Repetaţi problema P 8.7 în cazul utilizării algoritmului LMS normalizat.

P 8.9 O modificare a algoritmului LMS cunoscută sub numele de MLMS (momentum

LMS) este definită prin:

*1 1 2n n e n n n n w w u u u

unde 1 (Manolakis, ş.a. 2005).

(a) Rescrieţi ecuaţia de mai sus pentru a demonstra că algoritmul are structura unui

filtru trece-jos (0 1 ) sau trece-sus ( 1 0 ).

(b) Explicaţi intuitiv efectul termenului de „moment” 1 2n n u u asupra

convergenţei algoritmului.

(c) Repetaţi experimentul cu egalizorul adaptiv din Exemplul 7.4, utilizând atât LMS

cât şi MLMS pentru a compara performanţele în următoarele cazuri:

i. 3,1 0,01 0,5.LMS MLMSW

ii. 3,1 0,04 0,01 0,5.LMS MLMSW

iii. 3,1 0,04 0,2.LMS MLMSW

iv. 4,0 0,03 0,3.LMS MLMSW

9 Metoda celor mai mici

pătrate

roblema realizării unui filtru care să estimeze un semnal dorit pe baza unui alt semnal

poate fi formulată atât din punct de vedere statistic cât şi determinist. Până acum,

începând cu Capitolul 4 al acestei cărţi, a fost examinat punctul de vedere statistic.

Filtrul Wiener şi versiunea sa adaptivă (algoritmul LMS şi algoritmii derivaţi din acesta)

reprezintă abordarea statistică a acestui proces, întrucât realizarea filtrului se bazează pe

minimizarea unei mărimi statistice, eroarea pătratică medie (EPM). În continuare, vom

examina metoda bazată pe abordarea deterministă şi care conduce la o clasă distinctă de

algoritmi adaptivi. Este vorba de metoda celor mai mici pătrate (LS – Least Squares în lite-

ratura de limbă engleză).

Metoda celor mai mici pătrate se constituie într-o alternativă la teoria filtrării optimale.

În principiu, filtrele Wiener se obţin, pornind de la medii statistice, cu rezultatul că filtrul

este optim din punct de vedere probabilistic în raport cu toate realizările procesului aleator

presupus staţionar în sens larg. Pe de altă parte, abordarea pe care o realizează metoda celor

mai mici pătrate este deterministă, pentru că utilizează medii temporale, ceea ce are drept

consecinţă faptul că filtrul depinde de numărul şi valoarea eşantioanelor luate în considerare.

9.1 Formularea problemei celor mai mici

pătrate

9.1.1 Ecuaţia matricială a erorii

Pornim de la structura generală de combinator linear adaptiv din Figura 9.1. Datele de intra-

re ale problemei care trebuie rezolvată sunt: setul de vectori de valoare complexă ai semna-

lelor de intrare 0 1 1

T

Mn u n u n u n u şi secvenţa de semnal dorit de valoa-

re complexă d n cunoscute pentru momentele de timp 0 1n N . La momentul de

Capitolul

9

P

262 METODA CELOR MAI MICI PĂTRATE - 9

timp curent, coeficienţii filtrului formează vectorul 0 1

T

Mn w n w n w .

Ieşirea filtrului este dată de produsul scalar al vectorilor nw şi nu :

1

*

0

MH

i i

i

y n n n w n u n

w u (9.1)

Trebuie remarcat aici că elementele vectorului de intrare nu au fost specificate în mod

special, ceea ce înseamnă că acestea pot fi atât eşantioane succesive ale unui proces de intra-

re particular, aşa cum se întâmplă în cazul filtrelor FIR cât şi eşantioane ale unui set paralel

de semnale de intrare ca în cazul reţelelor de antene . În cazul uzual al structurii de filtrare cu

filtru FIR, expresia vectorilor de intrare devine 1 ,T

n u n u n M u

0 1n N .

Ca şi în cazul filtrului optimal Wiener-Hopf, problema LS constă în estimarea răspunsu-

lui dorit d n de către semnalul de ieşire al combinatorului linear y n . Eroarea de

estimare este definită prin

He n d n y n d n n n w u (9.2)

iar coeficienţii structurii lineare din Figura 9.1 sunt astfel determinaţi încât să fie minimizată

funcţia de cost, care este în acest caz suma pătratelor erorilor definită prin

1

2

0

N

ń

E e n

(9.3)

Se observă că expresia (9.3) reprezintă energia semnalului de eroare. Pentru ca minimizarea

să fie posibilă, vectorul coeficienţilor nw va fi menţinut constant pe perioada de timp pe

care s-a efectuat măsurătoarea: 0 1n N . Vectorul constant LSw care rezultă în acest

proces de optimizare depinde de setul de valori măsurate şi poartă numele de estimator

linear de eroare LS.

Figura 9.1 Structura de combinator linear utilizată la

formularea problemei celor mai mici pătrate.

9.1 Formularea problemei celor mai mici pătrate 263

Expresia erorii de estimare poate fi scrisă matricial, dacă pornind de la relaţia

* * He n d n n u w , exprimăm semnalul de eroare e n pentru momentele de timp

0,1, , 1n N astfel:

0 0 0

1 1 1

1 1 1

H

H

H

e d

e d

e N d N N

u w

u w

u w

(9.4)

Se introduc vectorii

0 1 1

0 1 1

0 1 1

H

H

H

e e e N

d d d N

y y y N

e

d

y

(9.5)

şi matricea de dimensiune N M

0 0 0

1 1 1

1 1 1

0 1 1

0 1 10 1 1

0 1 1

H

H

M M M

u u u N

u u u NN

u u u N

A u u u (9.6)

Prin urmare, ecuaţiile (9.4) se exprimă matricial astfel

e d y d Aw (9.7)

Matricea de date A poate fi partiţionată atât după coloane cât şi după linii, după cum

urmează

0 1 1

0

1

1

H

H

M

H N

u

uA u u u

u

(9.8)

unde coloanele ku ale lui A

0 1 1 , 0 1H

k k k ku u u N k M u

sunt denumite înregistrări de date iar liniile

0 1 1 , 0 1T

Mn u n u n u n n N u

poartă numele de înregistrări instantanee. Ambele modalităţi de partiţie a matricii de date,

ilustrate în Figura 9.2 sunt utile în deducerea, interpretarea şi calculul estimatorilor metodei

celor mai mici pătrate. Coloanele matricii de date A (înregistrări de date) sunt înregistrări


ale datelor colectate pe fiecare intrare a structurii de filtrare, în timp ce fiecare linie a acesteia

(înregistrare instantanee) conţine eşantioane ale tuturor intrărilor luate la un moment

specificat de timp.

Metoda celor mai mici pătrate definită prin ecuaţia (9.7) operează pe blocuri de date,

ceea ce înseamnă că prelucrează la un moment dat un cadru de N înregistrări instantanee

succesive utilizând etapele prezentate în Figura 9.3. Semnalele de intrare sunt asamblate în

cadre de N înregistrări instantanee, suprapunerea a două cadre succesive fiind de 0N

eşantioane. Valorile lui N şi 0N depind de aplicaţie.

Impunând în ecuaţia (9.7) condiţia e 0 , se ajunge la un sistem de N ecuaţii cu M

necunoscute. Dacă N M , atunci (9.7) are, de obicei, o soluţie unică. Pentru N M ,

avem un sistem de ecuaţii lineare supradeterminat, care, în mod tipic, nu are soluţie. Din

contră, dacă N M , sistemul de ecuaţii este subdeterminat, având o infinitate de soluţii.

Totuşi, indiferent dacă M N sau N M , sistemul (9.7) are prin metoda LS o soluţie

unică, naturală. În continuare, ne vom axa atenţia asupra sistemelor supradeterminate,

pentru că ele joacă un rol foarte important în aplicaţiile practice.

Figura 9.2 Reprezentarea grafică a vectorilor şi matricii care intervin în

ecuaţia matricială a erorii de estimare (9.7).

Figura 9.3 Implementarea la nivel de schemă bloc a metodei celor mai mici pătrate.


9.1.2 Deducerea algebrică a ecuaţiilor normale în

metoda LS

Energia erorii (sau alternativ, funcţia de cost) pentru estimarea după cele mai mici pătrate

efectuată pe structura de filtrare liniară din Figura 9.1 este dată de pătratul normei vectorului

de estimare definit prin ecuaţia (9.7):

2

ˆˆ ˆ

H H H H

H H H H H H

H H H

d

E

E

e e e d w A d Aw

d d w A d d Aw w A Aw

w p p w w Rw

(9.9)

unde: 1

2

0

NH

d

n

E d n

d d (9.10)

1

0

ˆN

H H

n

n n

R A A u u (9.11)

1

*

0

ˆN

H

n

n d n

p A d u (9.12)

Dacă împărţim mărimile definite prin relaţiile (9.10)-(9.12) la numărul de eşantioane de date

N atunci observăm că mărimile ˆ,dE R şi p reprezintă estimări mediate în timp ale puterii

răspunsului dorit 2

d , ale matricii de corelaţie a vectorului de date de intrare R, respectiv ale

vectorului de intercorelaţie dintre răspunsul dorit şi vectorul de date, p.

Concluzia observaţiei de mai sus este evidentă şi se referă la faptul că toate formulele

obţinute prin aplicarea criteriului erorii pătratice medii (EPM) minime în cazul filtrării

optimale Wiener-Hopf rămân valabile şi în cazul metodei celor mai mici pătrate (LS) dacă

se înlocuieşte media statistică E prin operatorul de mediere temporală

1

01

N

nN

(Manolakis, ş.a. 2005). Acest lucru rezultă din faptul că ambele criterii de

minimizare conduc la funcţii de cost pătratice. Având în vedere această echivalenţă dintre

cele două abordări ale problemei filtrării adaptive, vom trece în continuare la deducerea

ecuaţiilor normale ale metodei LS.

Valoarea vectorului LSw al coeficienţilor combinatorului linear din Figura 9.1 care

minimizează expresia energiei erorii din relaţia (9.9) se obţine prin egalarea cu zero a

gradientului complex al lui E calculat în raport cu vectorul coeficienţilor:

ˆˆ2 2 2 2H HE w A d A Aw p Rw 0 (9.13)

Vom concluziona, prin analogie cu cazul filtrului optimal din paragraful 4.3, că coefi-

cienţii estimatorului LS, LSw , sunt daţi de soluţia ecuaţiei normale:

ˆ ˆLS Rw p (9.14)


Înlocuim soluţia (9.14) în expresia sumei pătratelor erorii pentru a stabili valoarea

minimă a acesteia, LSE :

1ˆˆ ˆ ˆH H

LS LS d d LSE E E E w p R p p w (9.15)

În ceea ce priveşte rezolvarea problemei celor mai mici pătrate prin relaţia (9.14),

trebuie subliniat că din punct de vedere a efortului de calcul, acesta este mai mare la forma-

rea ecuaţiilor normale decât în rezolvarea lor. Într-adevăr, în cazul în care R este o matrice

pozitiv definită, soluţia ecuaţiilor normale poate fi obţinută prin descompunerea HLDL sau

prin factorizarea Cholesky ca în paragraful 4.5. În schimb, calculul unui singur element, íjr ,

al estimării mediate în timp a matricii de corelaţie R presupune efectuarea produsului scalar

al doi vectori cu N elemente:

1

*

0

ˆ , 0,1, , 1; 1N

H

ij i j i j

n

r u n u n i M i j M

u u (9.16)

Matricea R fiind hermitică, doar elementele situate în partea superior triunghiulară a aceste-

ia trebuiesc calculate, adică sunt necesare 1 2M M N operaţiuni aritmetice pentru

formarea acesteia. La acestea se adaugă şi efortul necesar pentru calcularea membrului drept

al ecuaţiei (9.14) care constă din M produse scalare de tipul

1

*

0

ˆ , 0,1, 1N

H

i i i

n

p u n y n i M

u y , (9.17)

adică alte MN operaţii aritmetice.

9.1.3 Interpretarea geometrică a estimării prin

metoda celor mai mici pătrate

Pentru a da o interpretare geometrică a acţiunii metodei LS, trebuie să privim mărimile ce

intervin în ecuaţia vectorială a erorii (9.7), ,y d şi A drept vectori şi hiperplane plasate într-

un spaţiu N-dimensional înzestrat cu produs scalar şi lungime (normă), definite prin:

1

*

0

,N

H

i j i j i j

n

u n u n

u u u u (9.18)

şi, respectiv 1

2

0

,N

u

n

u n E

u u u (9.19)

Estimarea prin metoda LS a răspunsului dorit pe intervalul de timp 0, 1N este conţinută

în vectorul semnalului de ieşire

,

1

ˆM

LS LS LS k k

k

w

y w d Aw u (9.20)

care este o combinaţie lineară de înregistrări de date ku .


Cei M vectori ku definesc un subspaţiu M-dimensional, denumit spaţiu de estimare,

care este spaţiul definit de coloanele matricii de date A . Ceea ce este evident este faptul că

orice vector y este plasat în spaţiul de estimare pentru că este combinaţie lineară de ku , în

timp ce vectorul răspunsului dorit d se găseşte în general în afara spaţiului de estimare.

Figura 9.4 ilustrează modul în care are loc estimarea LS pentru cazul 2 şi N=3M .

Vectorul de eroare e uneşte în figură vârful vectorului estimării LS, d cu vârful vectorului

semnalului dorit, d . Pătratul lungimii lui e este minim atunci când e este perpendicular pe

spaţiul de estimare, adică pentru 0 1k k M e u .

Afirmaţia anterioară se constituie în principiul ortogonalităţii a cărui formulare mate-

matică este:

1

0

, 0, 0 1N

H

k k k

n

u n e n k M

u e u e (9.21)

sau, mai compact H H

LS A e A y Aw 0

sau: H H

LS A A w A d (9.22)

în care recunoaştem ecuaţiile normale (9.14) ale estimării optime în sens LS.

O consecinţă imediată a principiului enunţat prin ecuaţia (9.21) este corolarul principiului

ortogonalităţii. Acesta rezultă din observaţia că vectorul e este ortogonal pe orice vector din

subspaţiul de estimare, deci, în particular, şi pe vectorul eşantioanelor ieşirii structurii de

filtrare ce are ponderile optimizate în sens LS:

1

0

ˆˆ ˆ, 0N

H

n

d n e n

d e d e (9.23)

Soluţia problemei celor mai mici pătrate separă vectorul de răspuns dorit d în două

componente ortogonale, şi anume vectorul semnalului de ieşire optimizat în sens LS

ˆLS y w d şi vectorul de eroare LSe . Prin urmare:

22 2ˆ

LS d d e (9.24)

0u 1u

,0 0LSw u ,1 1LSw u

d

d

ˆLS e d d

Figura 9.4 Interpretarea geometrică a estimării prin metoda LS pentru

cazul 3N (dimensiunea spaţiului datelor) şi 2M (dimen-

siunea subspaţiului de estimare).


şi, utilizând relaţiile (9.18) şi (9.19), avem

H H H H

LS d LS LS d LSE E E w A Aw w A d (9.25)

ceea ce este identic cu relaţia (9.15).

9.1.4 Proprietăţi ale soluţiei problemei celor mai mici

pătrate

Soluţia unui sistem de ecuaţii normale în sens LS există şi este unică. Condiţia ca aceste

afirmaţii să fie corecte este ca matricea de corelaţie mediată în timp definită prin ˆ HR A A

să fie inversabilă. Vom arăta în continuare că pentru ca condiţia enunţată să fie îndeplinită

trebuie ca vectorii coloană ku ai matricii A să fie linear independenţi sau echivalent, matri-

cea R să fie pozitiv definită.

Condiţiile enunţate mai sus sunt atât necesare cât şi suficiente. Pentru a demonstra

acestea, vom considera pentru început că coloanele lui A sunt liniar independente, ceea ce

are drept consecinţă că pentru orice vector z 0 , produsul Az 0 . Consecinţa este că

pentru orice z 0 ,

2

0HH H z A A z Az Az Az

cu alte cuvinte, matricea este pozitiv definită şi, în consecinţă nesingulară. În schimb, dacă

coloanele lui A sunt linear dependente atunci există cel puţin un vector 0 z 0 astfel încât

0 Az 0 . Prin urmare, 0

H A Az 0 , ceea ce înseamnă că matricea ˆ HR A A este

singulară.

Pentru ca o matrice să aibă coloane liniar independente, numărul de linii trebuie să fie

mai mare sau egal cu numărul de coloane; altfel spus, trebuie să existe mai multe ecuaţii

decât necunoscute. În concluzie, o problemă LS supradeterminată ( N M ) are soluţia

unică (9.14) dacă matricea de corelaţie mediată în timp R este pozitiv definită sau echi-

valent, dacă coloanele matricii de date A sunt liniar independente (Manolakis, ş.a. 2005).

În condiţiile de mai sus, soluţia problemei celor mai mici pătrate se exprimă sub forma

1

1ˆ ˆ H H

LS

w R p A A A d A d (9.26)

unde: 1

H H

A A A A (9.27)

este o matrice de dimensiune M N cunoscută sub numele de pseudo-inversa matricii A

(Golub şi Van_Loan 1996).

Estimarea lui d prin metoda celor mai mici pătrate pe care ieşirea structurii de filtrare

din Figura 9.1, ˆLS y w d , o furnizează, poate fi exprimată prin

ˆ d Pd (9.28)

unde: 1

H H

P A A A A (9.29)


poartă numele de matrice de proiecţie pentru că aceasta realizează proiecţia vectorului de

răspuns dorit d pe subspaţiul coloanelor matricii A pentru a forma estimarea LS d a lui

d . În mod similar, vectorul de eroare al estimării LS LSe poate fi exprimat sub forma

LS e I P d (9.30)

unde I este matricea identitate de dimensiune N N . Matricea de proiecţie P este

hermitică. şi idempotentă, adică

HP P (9.31)

şi, respectiv 2 H P P P P (9.32)

9.1.5 Ecuaţiile LS normale ponderate

Rezultatele din paragraful precedent au fost obţinute prin utilizarea unei forme a criteriului

LS care acordă fiecărui eşantion a semnalului de eroare e n o pondere egală. Sunt situaţii

în care bazându-ne pe informaţii apriori, am putea dori să acordăm o pondere mai mare unor

anumite eşantioane ale semnalului de eroare prin utilizarea variantei ponderate a criteriului

LS:

1

2

0

NH

n

E n e n

e Λe (9.33)

unde diag 0 , 1 , , 1N Λ (9.34)

este o matrice de ponderare diagonală ce are elemente pozitive. De obicei, se aleg ponderi

reduse acolo unde erorile sunt mari şi viceversa. Minimizarea funcţiei de cost E în raport

cu coeficienţii structurii de filtrare w , conduce la definirea soluţiei ponderate a problemei

celor mai mici pătrate (Weighted LS ~ WLS)

1

H H

LS

w A ΛA A Λd (9.35)

în ipoteza că inversa lui HA ΛA există. De remarcat că dacă Λ I , atunci LS LS w w .

Exemplul 9.1 Se cere estimarea prin metoda celor mai mici pătrate a secvenţei

de semnal dorit 0 1 2T

d pe baza înregistrărilor de date 0 2 2 0T

u ,

1 1 4 3T

u . Să se determine coeficienţii filtrului optimal LS, estimarea LS d ,

vectorul de eroare minimă LSe şi valoarea minimă a energiei erorii LSE .

Soluţie: Pentru început, calculăm

2 1 02 2 0 8 10 2 2 0 2

ˆ ˆ2 4 , 11 4 3 10 26 1 4 3 10

0 3 2

T T

R A A p A d

iar apoi rezolvăm ecuaţia normală (9.14) pentru vectorul coeficienţilor LSw


113 54 5 54 2 4 9

ˆ ˆ5 54 2 27 10 5 9

LS

w R p ,

şi secvenţele de ieşire ale filtrului d şi de eroare LSe :

2 1 1 3 1 34 9

ˆ ˆ2 4 4 3 , 1 35 9

0 3 5 3 1 3

LS LS

d Aw e d d

Valoarea funcţiei de cost pentru această estimare LS poate fi obţinută şi direct,

având în vedere că 2

LS LSE e dar şi din (9.15):

4 9 1

ˆ 5 2 105 9 3

T H

LS LSE

d d p w

Calculele pot fi realizate alternativ, utilizând matricea de proiecţie:

1

2 3 1 3 1 3

1 3 2 3 1 3

1 3 1 3 2 3

H H

P A A A A

De exemplu: ˆ 1 3 4 3 5 3T

d Pd .

În sfârşit, soluţia obţinută verifică principiul de ortogonalitate împreună cu

corolarul său: 0 1ˆ 0T T T

LS LS LS u e u e d e .

Pachetul de programe MATLAB oferă multiple posibilităţi de rezolvare a problemei

celor mai mici pătrate. Operaţiunea de divizare la stânga X\y este soluţia în sensul celor mai

mici pătrate a unui sistem de ecuaţii supradeterminat unde X este o matrice pătrată M N

iar y vector coloană de lungime , N M N . În acelaşi scop este folosită şi funcţia w =

lscov(X,y). De exemplu, soluţia în Exemplul 9.1, se obţine prin comanda w =

lscov(A,d), unde A este matricea de date iar d vectorul răspunsului dorit.

9.1.6 Proprietăţile statistice ale estimatorilor LS

Studiul proprietăţilor statistice ale estimării prin metoda celor mai mici pătrate ne permite să

evaluăm calitatea acesteia. Pentru a efectua acest studiu, vom presupune că semnalul dorit

d este generat de procesul aleator

o o d Aw e (9.36)

unde oe este vectorul aleator al erorilor de măsurare iar ow poate fi privit drept valoarea

„corectă” a vectorului coeficienţilor. Dacă se înlocuieşte relaţia (9.36) în ecuaţia normală

(9.22), coeficienţii estimatorului LS, LSw , se exprimă în funcţie de parametrii lui d :

1

H H

LS o o

w w A A A e (9.37)


Pentru analiza efectuată vom considera că A este o matrice de constante iar pentru

vectorul de zgomot oe , vom admite următoarele:

1. este de medie nulă: oE e 0 , (9.38)

2. are componente necorelate de varianţă constantă 2

o . Expresia matricii de corelaţie

a vectorului oe este:

2H

o o o oE R e e I , (9.39)

3. nu este corelat cu matricea de date A .

Pentru început, vom calcula media statistică a coeficienţilor filtrului LS. Aplicând

operatorul de mediere relaţiei (9.37), obţinem:

1

H H

LS o o oE E E

w w A A A e w (9.40)

pentru că A este deterministă iar oE e 0 . Concluzia este că estimatorul în sensul celor

mai mici pătrate LSw realizează o estimare „nedeplasată” a vectorului

ow (Haykin 1996).

Evaluăm în continuare matricea de covarianţă a coeficienţilor estimatorului LS, LSΓ ,

utilizând relaţiile (9.37) şi (9.39):

1 1 1

2 2 1ˆ

H

LS LS o LS o

H H H H H

o o o o

E

E

Γ w w w w

A A A e e A A A A A R

(9.41)

Este interesant de remarcat că în cazul estimării în sensul celor mai mici pătrate a para-

metrilor semnalului, energia erorii de estimare LSE poate servi pentru a face o estimare

nedeplasată a varianţei vectorului erorii de măsurare 2

o . În acest sens, vom nota prin N

numărul de observaţii efectuate şi prin M numărul de coeficienţi ai filtrului LS de estimare.

Utilizând relaţiile (9.30) şi (9.36), se scrie:

1

H H

LS o o o o

e I P d Aw A A A A A w I P e I P e (9.42)

ceea ce, având în vedere relaţia (9.32), conduce la

HH H H

LS LS LS o o o oE e e e I P I P e e I P e (9.43)

Pentru că LSE depinde de oe , ea este o variabilă aleatoare ce are valoarea medie:

2

tr

tr tr

H H

LS o o o o

H

o o o

E E E E

E

e I P e I P e e

I P e e I P (9.44)

În relaţia anterioară s-a avut în vedere că tr trAB BA , tr fiind funcţia matricială

urmă. De asemenea,


1 1

1

tr tr tr

tr tr tr tr

H H H H

N

H H

N N M N M

I P I A A A A I A A A A

I A A A A I I

(9.45)

Rezultă prin urmare: 2 LS

o

E E

N M

(9.46)

Relaţia (9.46) dovedeşte că energia erorii de estimare în sens LS, LSE , reprezintă un

estimator „nedeplasat” al varianţei vectorului erorii de măsurare, 2

o (Manolakis, ş.a.

2005).

9.2 Filtre FIR realizate prin metoda celor

mai mici pătrate

În paragraful precedent am prezentat teoria generală a estimatorilor LS. În continuare, vom

aplica aceste rezultate la definirea şi proiectarea prin metoda celor mai mici pătrate a filtrelor

FIR lineare. Configuraţia de filtrare adaptivă din Figura 9.5 constituie o adaptare a structurii

generale din Figura 9.1 la cazul particular considerat. Ieşirea filtrului y n realizează esti-

marea în sens LS d n a răspunsului dorit d n folosind eşantioanele semnalului de intrare

u n . Reamintim că expresia secvenţei de eroare este

1

*

0

MH

k

k

e n d n n n d n w u n k

w u (9.47)

unde 1 1T

n u n u n u n M u iar 0 1 1

T

Mw w w w este

vectorul coeficienţilor filtrului FIR.

Figura 9.5 Configuraţie de filtru transversal linear utilizat la

ilustrarea estimării LS în cazul filtrării FIR.

9.2 Filtre FIR realizate prin metoda celor mai mici pătrate 273

Vom face presupunerea că estimarea LS se face prin utilizarea înregistrărilor semnalului

de intrare u n şi ale răspunsului dorit d n efectuate pe intervalul de timp 0 1n N .

Pe toată această perioadă, coeficienţii filtrului kw , 0 1k M , sunt menţinuţi constanţi

iar orice eşantioane de date situate în afara intervalului stabilit sunt considerate nule. De

exemplu la momentul 0n , adică atunci când se efectuează prima măsurătoare, 0u ,

pentru a calcula 0y , filtrul are nevoie de eşantioanele 0 , 1 , , 1u u u M .

Întrucât eşantioanele 1 , , 1u u M nu sunt disponibile, pentru ca filtrul să funcţio-

neze, va trebui ori să se atribuie valori arbitrare acestor eşantioane ori operaţia de filtrare să

debuteze cu momentul 1n M . Într-adevăr, pentru 1 1M n N sunt disponibile

toate eşantioanele u n şi d n necesare pentru calcularea semnalelor de ieşire şi eroare

y n şi , 1 1e n M n N . Pe de altă parte, dacă am dori ca filtrul să continue să

calculeze semnalul de ieşire până în momentul în care ultimul eşantion memorat 1u N

ar părăsi memoria filtrului, ar trebui ca operaţia de filtrare să continue până la momentul

2n N M . Şi în această situaţie ar trebui să se atribuie valori arbitrare eşantioanelor

de care nu se dispune: , 2u N u N M . Cel mai frecvent se atribuie valoarea zero

eşantioanelor care lipsesc din înregistrări, operaţie care poate fi privită drept decupare cu o

fereastră dreptunghiulară a secvenţelor u n şi d n . Pentru simplificarea argumentării,

vom ilustra operaţiunea de filtrare pentru cazul 7N şi 3M , scriind ecuaţia (9.47)

pentru 0,1, , 2n N M şi aranjând rezultatul în formă matricială:

sau, în general: e d Aw (9.48)

Forma generală a mărimilor ,e d şi A depinde de domeniul i fN n N pe care se măsoa-

ră în criteriul LS energia erorii:

2

f

i

N

H

n N

E e n

e e (9.49)


Filtrul FIR optimizat în sensul celor mai mici pătrate se determină prin rezolvarea

ecuaţiilor normale ale estimatorului LS

ˆ ˆsauH H

LS LS A A w A d Rw p (9.50)

Valoarea minimă a energiei erorii are expresia

ˆ H

LS d LSE E p w (9.15)

unde dE este energia semnalului de răspuns dorit.

Spre deosebire de cazul general de estimator LS tratat în paragraful precedent, există o

serie de diferenţe în cazul descrierii filtrului FIR LS datorate faptului că în acest ultim caz,

coloanele matricii A sunt replici deplasate ale primei coloane. Astfel, elementele matricii

de corelaţie mediate în timp R sunt date de

*ˆ 1 1 , 1 ,f

i

N

H

ij i j

n N

r u n i u n j i j M

u u (9.51)

unde iu sunt coloane ale matricii de date A . O simplă manipulare a expresiei (9.51)

conduce la o relaţie care stabileşte o legătură între elementele matricii R ce sunt localizate

pe aceiaşi diagonală:

* *

1, 1ˆ ˆ 1 1 , 1 ,i j ij i i f fr r u N i u N j u N i u N j i j M

(9.52)

Utilizarea recursiei (9.52) permite reducerea semnificativă a volumului de calcul pe care îl

necesită calcularea matricii R (Manolakis, ş.a. 2005).

Există patru modalităţi de alegere a intervalului de timp i fN n N pe care se fac

însumările pentru filtrele FIR cu estimare LS:

Fără decupare (No windowing): Limitele de sumare sunt 1iN M şi

1fN N . În acest caz, se utilizează numai datele disponibile şi nu există

distorsiuni datorate includerii în calcul a unor date cu valori artificiale.

Cu predecupare (Prewindowing): Limitele de sumare sunt 0iN şi 1fN N ,

ceea ce înseamnă forţarea 1 1 0u u M . Drept urmare, termenul

*u M i u M j dispare din relaţia (9.52). Este o metodă utilizată pe larg în

filtrarea adaptivă LS.

Cu postdecupare (Postwindowing): Însumarea se face între 1iN M şi

2fN N M , cu consecinţa că 2 0u N u N M . Drept urmare,

termenul *u M i u M j dispare din relaţia (9.52). Metoda este puţin utilizată

în practică.

Cu decupare completă (Full windowing): Metoda combină cele două proceduri

anterioare, domeniul de sumare fiind cuprins între 0iN şi 2fN N M şi are

9.3 Tehnici de ortogonalizare utilizate în calculul estimării LS 275

drept consecinţă reducerea ecuaţiei (9.52) la egalitatea 1, 1ˆ ˆi j ijr r . Drept urmare,

elementele ijr depind doar de diferenţa i j iar matricea R este Toeplitz.

Este evident că pentru N M , diferenţele dintre performanţele diverselor metode

devin nesemnificative. Metodele no-windowing şi full-windowing sunt cunoscute în literatu-

ră sub numele de metoda de autocorelaţie respectiv metoda de covarianţă (Makhoul 1975).

Evităm utilizarea acestor termeni pentru că pot conduce la confuzii.

9.3 Tehnici de ortogonalizare utilizate în

calculul estimării LS

9.3.1 Factorizarea QR

Rezolvarea problemei celor mai mici pătrate presupune rezolvarea ecuaţiei normale (9.14)

care necesită mai întâi calcularea matricii de corelaţie mediată în timp ˆ ˆˆ HR A A şi a vecto-

rului de intercorelaţie mediat în timp ˆ Hp A d din datele A şi d . Deşi această abordare

este larg utilizată în practică, există unele aplicaţii care necesită metode de rezolvare cu

proprietăţi numerice mai bune. Atunci când consideraţiile privind precizia numerică prezintă

un interes major, tehnicile de ortogonalizare discutate în acest paragraf şi descompunerea în

valori singulare ce constituie obiectul următorului paragraf sunt metode care oferă perfor-

manţe superioare în rezolvarea problemei LS.

Transformarea ortogonală este o schimbare liniară de variabilă care nu modifică

lungimea vectorului:

y Qx (9.53)

unde şi y x sunt doi vectori oarecare iar Q o matrice ortogonală, adică

1 H H Q Q QQ I (9.54)

Din această proprietate, se poate vedea simplu că multiplicarea unui vector cu o matrice

ortogonală nu schimbă lungimea vectorului:

2 2H H H H y y y x Q Qx x x x (9.55)

Drept urmare, utilizarea transformărilor ortogonale nu amplifică erorile de rotunjire în

calcule, conducând la algoritmi care sunt numeric mai precişi. Există două căi de folosire a

tehnicilor de ortogonalizare în rezolvarea problemei LS:

Utilizarea matricilor ortogonale pentru a transforma matricea de date A într-o

formă care simplifică soluţia ecuaţiilor normale fără a afecta matricea ˆ ˆˆ HR A A .

Oricare ar fi matricea ortogonală Q , se scrie:

ˆ ˆ ˆ ˆ ˆ ˆˆH

H H H H H R A A A QQ A Q A Q A (9.56)


Evident, această operaţie poate fi repetată de câte ori se doreşte, până când matricea

1 2

HA Q Q ajunge într-o formă care să simplifice problema LS.

Având în vedere că transformările ortogonale conservă lungimea unui vector,

multiplicând vectorul de eroare e d Aw printr-o matrice ortogonală nu se

modifică suma pătratelor erorii. Drept urmare, se poate scrie:

min min min H w w w

e d Aw Q d Aw (9.57)

Astfel, scopul în această abordare este găsirea unei matrici Q care să simplifice

rezolvarea problemei LS.

În cazul factorizării QR se găseşte o matrice ortogonală Q de dimensiune N N care

satisface relaţia

A Q0

R (9.58)

unde, în practică, matricea Q este astfel concepută încât matricea R de dimensiune

M M să fie superior triunghiulară. Utilizând relaţia (9.57), se obţine:

H H H e Q e Q d Q Aw (9.59)

Utilizând partiţionarea 1 2Q Q Q (9.60)

unde 1Q are M coloane, se obţine descompunerea

1A Q R (9.61)

ce este cunoscută sub numele de factorizare QR redusă. Similar şi vectorul de răspuns dorit

d se poate descompune în două componente:

11

22

H

H

H

zQ dz Q d

zQ d (9.62)

unde 1z are M componente iar

2z are N M componente. Înlocuirea relaţiilor (9.61) şi

(9.62) în (9.59) conduce la

11

22

H

H

w zw Q de

z0 Q d

RR (9.63)

Pentru că termenul 2 2

Hz Q d nu depinde de vectorul coeficienţilor w , lungimea lui e

devine minimă dacă se alege LSw w , adică:

1LS w zR (9.64)

şi 2 2

2 2

H

LSE Q d z (9.65)

unde sistemul de ecuaţii superior triunghiular din (9.64) poate fi rezolvat prin substituţie în

ordine inversă (vezi Capitolul 4, paragraful 4.5).


Tabelul 9.1 rezumă etapele rezolvării problemei celor mai mici pătrate prin factorizare

QR.

Exemplul 9.2 Să se rezolve problema LS din Exemplul 9.1 prin metoda factori-

zării QR.

2 2 0

, 0 1 21 4 3

T

T

A d

Soluţie: Se calculează factorizarea QR cu funcţia MATLAB

[Q,R]=qr(A):

0,7071 0,4082 0,5774 2,8284 3,5355

0,7071 0,4082 0,5774 , 0 3,6742

0 0,8165 0,5774 0 0

Q R

Se parcurg în continuare etapele de rezolvare din Tabelul 9.1 utilizând secvenţă de

comenzi MATLAB:

z=Q’*d;

wls=R(1:2,1:2)\z(1:2);

Els=sum(z(3).^2);

Soluţia problemei celor mai mici pătrate este:

0,4444 0,5556 , 0,3333T

LS LSE w

În aplicaţiile care necesită doar calculul vectorului de eroare LSe , nu este necesar să se

rezolve sistemul de ecuaţii triunghiular 1LS w zR . În loc de aceasta, se poate calcula

1. Factorizarea QR

A Q

0

R

2. Transformarea şi partiţionarea lui d

1

2

H

zz Q d

z

3. Substituţie în ordine inversă LSw

1LS w zR

4. Calculul energiei erorii în sens LS 2

2LSE z

5. Calculul erorii prin transformare inversă

2

LS

0e Q

z

Tabelul 9.1 Rezolvarea problemei estimării LS prin metoda factorizării

QR.


direct vectorul de eroare prin 2

H

LS e Q 0 z sau comanda MATLAB

e=Q*[zeros(1,M) z2’]’. Această abordare poartă numele de extracţie directă a

erorii (Manolakis, ş.a. 2005) şi joacă un rol important în algoritmii şi structurile de filtrare

adaptivă LS.

Ori de câte ori stabilitatea numerică este importantă (Golub şi Van_Loan 1996), aplica-

rea directă matricii A a metodelor de descompunere ortogonală este de preferat procedurii

de rezolvare a ecuaţiilor normale ce presupune calculul lui R în primă instanţă. Sensibilita-

tea soluţiei LSw la perturbaţii în A şi d depinde de raportul dintre cea mare şi cea mai mică

valoare proprie a lui R , şi nu depinde de algoritmul utilizat la calculul soluţiei.

Există două clase de algoritmi care realizează factorizarea ortogonală:

1. metode care calculează matricea Q (factorizare QR completă): reflexii

Householder şi rotaţii Givens,

2. metode care calculează matricea 1Q (factorizare QR redusă): ortogonalizarea

Gram-Schmidt clasică sau modificată.

Costul unei descompuneri QR prin rotaţii Givens este dublu faţă de costul utilizării reflexii-

lor Householder sau ortogonalizării Gram-Schmidt. Metoda standard pentru calculul factori-

zării QR şi rezolvare a problemei celor mai mici pătrate utilizează transformarea Househol-

der. În schimb, rotaţiile Givens sunt preferate în implementarea filtrelor LS adaptive.

9.3.2 Transformarea (reflexia) Householder

Fie în plan un vector x şi o linie fixă l (vezi Figura 9.6). Dacă x se reflectă în raport cu linia

l, se obţine vectorul y , care este imaginea reflectată a lui x în raport cu l. Este evident că

vectorul x şi reflexia sa y au lungimi egale. Presupunând că x şi y sunt de lungime

nenulă, definim vectorul unitate z situat pe direcţia x y , prin

1

z x yx y

(9.66)

Figura 9.6 Vectorul de reflexie al lui Householder.


Având în vedere că expresia proiecţiei lui x pe z este Hz x z , examinând Figura 9.6,

se obţine:

2 2 2H H H y x z x z x zz x I zz x Hx (9.67)

unde 2 HH I zz (9.68)

În general, orice matrice H de forma (9.68) cu 1z este cunoscută sub numele de refle-

xie Householder sau transformare Householder (Ciochină şi Negrescu 1999) şi are urmă-

toarele proprietăţi:

1H H H H H H H I H H (9.69)

cu alte cuvinte, matricea H este unitară.

Se poate realiza o matrice Householder kH care să lase neschimbate primele 1k

componente ale unui vector dat x , tot odată să modifice componenta k a vectorului şi, în

sfârşit, să anuleze restul de componente, adică să satisfacă relaţia

, 1,2, , 1

,

0, 1, ,

i

i ki

x i k

y y i k

i k N

Hx (9.70)

unde componenta ky urmează să fie determinată. Alegând

1 2

2k

Nj

k i

i k

y x e

(9.71)

unde k este direcţia unghiulară a lui

kx (în caz că kx este o mărime complexă), atât x cât

şi y au aceiaşi lungime. În ceea ce priveşte alegerea semnului lui ky , există două posibili-

tăţi. Având în vedere că calculul lui z prin relaţia (9.66) implică o scădere (ceea ce poate

conduce la probleme numerice serioase atunci când cele două numere au valori apropiate),

se alege semnul negativ, astfel încât întotdeauna ky şi

kx să aibă semne contrare. Aşadar,

k ky x nu este niciodată diferenţa a două numere aproape egale. Prin urmare, utilizând

relaţia (9.66), z se calculează prin expresia

1

0

01

2

kj

k k

k k kk

N

x s es s x

x

x

z (9.72)


unde:

1 2

2N

k i

i k

s x

(9.73)

În general, o matrice A de dimensiune N M cu N M , poate fi diagonalizată

printr-o secvenţă de M transformări Householder

2 1M H H H A R (9.74)

sau A QR (9.75)

unde 1 2 MQ H H H (9.76)

Trebuie remarcat că pentru M N sunt necesare doar 1M reflexii.

Exemplul 9.3: Să se calculeze, utilizând reflexiile Householder, factorizarea QR

a matricii A din Exemplul 9.1:

2 2 0

1 4 3

T

A

Soluţie: Calculăm vectorul 1 0,9239 0,3827 0T

z şi matricea de

reflexie Householder 1H pentru prima coloană a lui A cu relaţiile (9.72) şi

(9.68). Matricea A modificată este:

1

2,8284 3,5355

0 2,1213

0 3

H A

Similar, se efectuează calculele pentru coloana a doua a matricii 1H A . Se obţine

2 0 0,881 0,4597T

z şi, în continuare, rezultatele finale:

1 2 1 2

2,8284 3,5355 0,7071 0,4082 0,5774

0 3,6742 , 0,7071 0,4082 0,5774

0 0 0 0,8165 0,5774

H H A H H QR

Funcţia MATLAB [Q,R]=qr(A) utilizează reflexii Householder pentru a calcula

factorizarea QR a matricii A .

9.3.3 Transformarea (rotaţia) Givens

A doua transformare elementară care nu modifică lungimea unui vector se face prin rotaţia

acestuia în jurul unei axe (vezi Figura 9.7). Pentru a descrie metoda lui Givens, vom

presupune pentru simplitate că vectorii sunt reali. Valoarea componentelor vectorului rotit y

se exprimă în funcţie de componentele vectorului original x astfel:


1 1 2

2 1 2

cos cos sin

sin sin cos

y r x x

y r x x

sau, sub formă matricială

1 1 1

2 2 2

cos sin

sin cos

y x x

y x x

G (9.77)

unde este unghiul de rotaţie. Se poate demonstra uşor că matricea de rotaţie G din

ecuaţia (9.77) este ortogonală şi are determinantul det 1 G .

Orice matrice pătrată de forma

1 0 0 0

0 0

0 0

0 0 0 1

ij

c s i

s c j

i j

G

(9.78)

cu 2 2 1c s (9.79)

este cunoscută sub numele de rotaţie Givens. Când această matrice se aplică unui vector x ,

ea roteşte componentele ix şi jx cu unghiul arctg s c , lăsând, în schimb, toate cele-

lalte componente neschimbate (Manolakis, ş.a. 2005). Comparând definiţia (9.78) cu (9.77),

se poate scrie cosc şi sins pentru un unghi dat. Se arată uşor că matricea

ij G este ortogonală.

Figura 9.7 Transformarea prin rotaţie Givens.


Rotaţiile Givens au două caracteristici atractive. În primul rând, realizarea rotaţiei

ij y G x prin operaţiile

, ,

i i j

j i j

k k

y cx sx

y sx cx

y x k i j

(9.80)

necesită doar patru înmulţiri şi două adunări. În al doilea rând, c şi s pot fi alese astfel

încât să determine anularea componentei j a unui vector. Într-adevăr, este suficient ca în

(9.78) să se aleagă

2 2 2 2

,ji

i j i j

xxc s

x x x x

(9.81)

pentru ca să se obţină 2 2 şi 0i i j jy x x y (9.82)

Utilizând o secvenţă de rotaţii Givens, pot fi anulate succesiv toate elementele situate

sub diagonala principală a unei matrici A , furnizând astfel matricea superior triunghiulară

din factorizarea QR. Produsul tuturor matricilor de rotaţie Givens dă matricea Q a factori-

zării. Trebuie subliniat că ordinea în care se efectuează rotaţiile nu este arbitrară, întrucât

rotaţii ulterioare pot anihila zerouri introduse anterior.

Exemplul 9.4: Să se realizeze factorizarea QR a lui A din Exemplul 9.1:

2 2 0

1 4 3

T

A

utilizând metoda rotaţiilor Givens.

Soluţie: Ultimul element al primei coloane a lui A fiind nul, pentru

factorizarea QR a matricii sunt necesare două rotaţii Givens. Se începe cu anula-

rea elementului (2,1) pentru care calculăm matricea de rotaţie 21G cu 0,7071c

şi 0,7071s . Matricea 21G şi rezultatul primei rotaţii sunt:

21 21

0,7071 0,7071 0 2,8284 3,5355

0,7071 0,7071 0 , 0 2,1213

0 0 1 0 3

G G A

După eliminarea elementului (3,2) prin rotaţia Givens 32G dată de parametrii

0,5774c şi 0,8165s , se obţine factorizarea QR a matricii A :

32 21 21 32

2,8284 3,5355 0,7071 0,4082 0,5774

0 3,6742 , 0,7071 0,4082 0,5774

0 0 0 0,8165 0,5774

T T

G G A Q G GR

În cazul rotirii unui vector x complex, componentele vectorului rezultant y din (9.77)

sunt calculate cu relaţia


1 1

2 2

cos sin

sin cos

j

j

y xe

y xe

(9.83)

unde cosc şi sinjs e . Elementul s al matricii de rotaţie ij G din relaţia

(9.78) este înlocuit de *s iar relaţia (9.79) devine 22 1c s .

9.3.4 Ortogonalizarea Gram-Schmidt

Fiind dat setul de M vectori linear independenţi 1 2, , , Mu u u , se poate crea o bază orto-

normală de vectori 1 2, , , Mq q q , care să definească acelaşi spaţiu ca şi setul de vectori

iniţial, printr-o procedură sistematică denumită metoda de ortogonalizare Gram-Schmidt

clasică (GS). Metoda GS porneşte prin alegerea vectorului

11

1

u

qu

(9.84)

drept primul vector al bazei ortonormale. Pentru a obţine pe 2q , se exprimă

2u ca sumă a

două componente: proiecţia 1 2 1

Hq x q a lui

2u pe 1u şi un vector

2p care este perpendicular

pe 1q . În consecinţă,

2 2 1 2 1

H p u q u q (9.85)

iar 2q se obţine prin normalizarea lui 2p , adică:

22

2

p

qp

(9.86)

Vectorii 1q şi 2q au lungime unitară, sunt ortonormali şi subîntind acelaşi spaţiu ca şi

1u şi 2u . În general, baza de vectori jq este obţinută prin scăderea din ju a proiecţiilor sale

pe vectorii deja calculaţi 1q până la 1jq . Avem, prin urmare

1

1

şij

jH

j j i j i j

i j

p

p u q u q qp

(9.87)

pentru orice 1 j M .

Algoritmul GS poate fi utilizat pentru a furniza factorizarea redusă 1Q R . Într-adevăr,

pornind de la vectorii de date 0 1 1, , , M u u u , definim

şiH

ij i j jj jr r q u p (9.88)

şi avem: 1

0

j

j jj j j ij i

i

r r

p q u q (9.89)

sau echivalent, dacă dorim să exprimăm pe ju :


0

, 0,1, , 1j

j ij i

i

r j M

u q (9.90)

Utilizând notaţia matricială, putem exprima această ultimă relaţie ca 1A Q R , unde

0 1 1M A u u u ceea ce este exact definiţia factorizării QR reduse din ecuaţia

(9.61).

Principalele neajunsuri ale procedurii GS sunt date de faptul că aceasta nu produce

rezultate precise iar baza de vectori rezultată poate să nu mai fie ortogonală atunci când este

implementată într-o aritmetică de precizie finită. O comportare aritmetică mai bună se poate

obţine dacă calculele sunt făcute în forma cunoscută sub numele de algoritmul Gram-

Schmidt modificat (Modified Gram-Schmidt ~ MGS) (Dahlquist şi Bjorck 1974). Ca şi în

metoda GS clasică, primul pas al algoritmului MGS constă în definirea lui 1q :

11

1

u

qu

(9.84)

Spre deosebire de metoda originală, în continuare toţi ceilalţi vectori 2 , , Mu u sunt

modificaţi astfel încât să devină ortogonali pe 1q . În acest scop, din fiecare vector rămas se

scade proiecţia sa pe 1q :

1

1 1, 2, ,H

i i i i M u u q u q (9.91)

În pasul al doilea se defineşte vectorul

1

22 1

2

u

qu

(9.92)

care este deja ortogonal pe 1q . Apoi, se modifică restul vectorilor rămaşi pentru a-i face

ortogonali pe 2q :

2 1 1

2 2 , 3, ,H

i i i i M u x q u q (9.93)

Continuând într-o manieră similară, expresiile lui mq şi ale vectorilor imx sunt:

1

1

m

mm m

m

uq

u (9.94)

şi 1 1

, 1, ,m m mH

i i m i m i m M

u u q u q (9.95)

Implementarea algoritmului Gram-Schmidt modificat este prezentată în Tabelul 9.2.

Proprietăţile numerice superioare ale algoritmului modificat rezidă din faptul că vectorii

succesivi m

iu generaţi prin ecuaţia (9.95) au dimensiuni descrescătoare iar produsul scalar

1mH

m i

q u poate fi calculat mai precis decât produsul H

m iq u .

9.4 Rezolvarea problemei LS prin descompunerea în valori singulare 285

9.4 Rezolvarea problemei LS prin

descompunerea în valori singulare

Metoda descompunerii în valori singulare (Singular Value Decomposition ~ SVD) ocupă

un loc însemnat în rezolvarea teoretică şi practică a problemei celor mai mici pătrate pentru

că, pe de o parte furnizează un cadru unificator pentru rezolvarea sistemelor de ecuaţii

supra- şi subdeterminate de rang maxim sau redus, iar pe de altă parte reprezintă cea mai

precisă metodă numerică de rezolvare în practică a problemelor LS. În acest paragraf, vom

discuta despre existenţa şi proprietăţile fundamentale ale SVD, arătând cum se utilizează

metoda la rezolvarea problemei LS.

9.4.1 Teorema descompunerii în valori singulare

Descompunerea în valori proprii a unei matrici pătrate hermitice o transformă pe aceasta

într-o matrice diagonală prin pre- şi postmultiplicare cu o unică matrice unitară (vezi

Proprietatea 5 din paragraful 3.6 referitor la valori şi vectori proprii). Descompunerea în

valori singulare generalizează prima transformare la cazul unei matrici oarecare care,

pentru a da o matrice diagonală, este multiplicată pre- şi post- cu două matrici unitare

distincte. Posibilitatea efectuării acestei operaţiuni, de maximă importanţă în algebra lineară,

este afirmată de teorema descompunerii în valori singulare, ce enunţă următoarele:

Orice matrice reală A de dimensiune N M şi de rang r (r este numărul de

coloane linear independente ale matricii) poate fi descompusă astfel:

HA UΣV (9.96)

unde U este o matrice unitară N N , V este o matrice unitară M M iar Σ

este o matrice N M cu 0, şi 0, 1,2, ,iij iii j i r Σ Σ . Numerele

i poartă numele de valori singulare ale lui A şi sunt, de obicei, aranjate în

ordine descrescătoare: 1 2 0r .

For 1,2, ,m M

2

mm mr u

m m mmrq u

For , 1, , ,i m m M

H

mi m ir q u

1i i mi mr u u q

next i next m

Tabelul 9.2 Ortogonalizarea unui set de vectori prin

algoritmul Gram-Schmidt modificat.


Demonstraţia teoremei, pe care o dăm în continuare, urmăreşte raţionamentele făcute de

Stewart (1973) şi reluate de Manolakis, ş.a. (2005). Se porneşte de la observaţia că matricea

pătrată HA A este pozitiv semidefinită, având valorile proprii nenegative 2 2 2

1 2, , , M ,

ordonate astfel încât 1 2 r

10 pentru 0r M r M . Fie

1 2, , , Mv v v vectorii proprii care corespund valorilor proprii 2 2 2

1 2, , , M şi luăm în

considerare partiţia 1 2V V V , unde 1V este alcătuit din primele r coloane ale lui V .

Dacă 1 2diag , , ,r r Σ , atunci se poate scrie 2

1 1

H H

rV A AV Σ şi:

1 1

1 1

H H

r r

Σ V A AVΣ I (9.97)

Pe de altă parte, 2 2

H H V A AV 0 , cu consecinţa că

2 AV 0 (9.98)

Dacă se defineşte 1

1 1 r

U AVΣ (9.99)

atunci relaţia (9.97) devine 1 1

H U U I , cu alte cuvinte, coloanele matricii 1U sunt unitare.

În consecinţă, poate fi formată matricea unitară 1 2U U U printr-o alegere convenabilă

a componentelor matricii 2U , astfel încât aceasta să îndeplinească condiţiile 2 1

H U U 0 şi

2 2

H U U I . Atunci:

1 1 1 21

1 2

2 1 2 22

H HHrH

H HH

Σ 0U AV U AVUU AV A V V

0 0U AV U AVU (9.100)

În deducerea lui (9.100) s-au avut în vedere relaţiile (9.97), (9.98) şi egalitatea

2 1 2 1

H H

r U AV U U Σ 0 , care derivă din definiţia (9.99).

Figura 9.8 face o descriere grafică a descompunerii SVD a matricii A .

9.4.2 Proprietăţi şi interpretări ale descompunerii în

valori singulare

Vom face în acest paragraf o prezentare succintă a consecinţelor pe care le are SVD, fără a

insista excesiv asupra demonstrării lor. Cititorul interesat le poate găsi în lucrările de algebră

Figura 9.8 Reprezentarea grafică a operaţiei de descompunere în valori proprii

a matricii de date A .


lineară menţionate în bibliografia ataşată (Golub şi Van_Loan 1996, Stewart 1973).

1. Multiplicarea la dreapta (post-) a relaţiei (9.96) cu V , conduce la

AV UΣ (9.101)

Vom nota prin iv coloanele matricii V , 1 2 MV v v v şi prin

iu coloanele

matricii U , 1 2 NU u u u . Egalând coloanele celor două matrici care

intervin în relaţia (9.101), se obţine:

, 1,2, ,

0, 1, ,

i i

i

i r

i r M

uAv (9.102)

În concluzie, coloanele lui V (vectorii iv ) sunt vectorii singulari dreapta ai matricii A .

2. Multiplicând la stânga (pre-) relaţia (9.96) cu HU se obţine H HU A ΣV . Egalarea

liniilor celor doi termeni ai ultimei egalităţi, conduce la

, 1,2, ,

0, 1, ,

i iH

i

i r

i r N

uu A (9.103)

Prin urmare, coloanele lui U (vectorii iu ) sunt vectorii singulari stânga ai matricii A .

3. Vom nota prin i şi prin i , valoarea proprie numărul i în ordine descrescătoare

respectiv valoarea singulară numărul i în ordine descrescătoare a unei matrici date. Dacă

vectorii 1, , Mv v sunt vectorii proprii ai lui HA A , iar vectorii

1, , Nu u sunt vectorii

proprii ai lui HAA , atunci pătratele valorilor singulare 2 2 2

1 2, , , r ale matricii A

sunt primele r valori proprii nenule ale produselor HA A şi H

AA , adică

2H H

i i i A A AA A (9.104)

4. În produsul HA UΣV , ultimele N r coloane ale matricii U şi ultimele M r

coloane ale matricii V sunt superfluu pentru că ele interacţionează doar cu blocuri de

zerouri ale matricii Σ . Această observaţie conduce la aşa-numita descompunere SVD

redusă a matricii A :

H

r r rA U Σ V (9.105)

unde rU şi rV constau din primele r coloane ale matricilor U respectiv V iar

1 2diag , , ,r r Σ .

5. Descompunerea în valori singulare se poate exprima astfel:

1

rH

i i i

i

A u v (9.106)

Matricea A este suma produselor vectorilor singulari ponderată de valorile singulare.

6. Dacă matricea A are rangul r, atunci:


a. Primele r coloane ale lui U formează o bază ortonormală pentru spaţiul definit de

coloanele lui A (spaţiul de coloane al lui A ).

b. Primele r coloane ale lui V formează o bază ortonormală pentru spaţiul definit de

liniile lui A (spaţiul de linii al lui A ).

c. Ultimele M r coloane ale lui V formează o bază ortonormală pentru spaţiul de

vectori ortogonal la liniile lui A (spaţiul nul al lui A ).

d. Ultimele N r coloane ale lui V formează o bază ortonormală pentru spaţiul nul

al lui HA .

Descompunerea SVD a unei matrici A poate fi calculată prin formarea matricilor

pătrate HA A şi H

AA urmat de calculul valorilor şi vectorilor lor proprii. Totuşi, această

abordare este, în general evitată din din cauză că „ridicarea la pătrat” a lui A pentru a forma

aceste matrici de corelaţie, conduce la o pierdere de informaţie (Manolakis, ş.a. 2005). În

practică se folosesc algoritmi performanţi ca de exemplu algoritmul R-SVD descris în Chan

(1982). Pachetele de programe matematice LA-PACK şi LINPACK includ algoritmi nume-

rici performanţi de calcul al SVD (Press, ş.a. 1992).

9.4.3 Soluţia de normă minimă a problemei LS

Până acum, în acest Capitol, problema LS a fost identificată cu rezolvarea unui sistem de

ecuaţii supradeterminat ( N M ) ce are o matrice de date de rang maxim ( r M )

utilizând ecuaţiile normale sau factorizarea QR. În continuare, vom prezenta modul în care

descompunerea SVD poate fi utilizată în rezolvarea problemei celor mai mici pătrate fără a

face vreo supoziţie cu privire la dimensiunile N şi M, sau la rangul r al matricii de date A .

Vom presupune cunoscută descompunerea SVD a matricii HA UΣV . Având în

vedere ortogonalitatea matricii U , norma vectorului de eroare se scrie:

H H H d Aw d UΣV w U d ΣV w (9.107)

Definind mărimile şi H H d U d w V w

obţinem valoarea energiei erorii în estimarea LS sub forma:

2 2 2 2

1 1

r N

i i i i

i i r

d w d

d Aw d Σw (9.108)

care este minimizată dacă şi numai dacă pentru 1,2, ,i i iw d i r . Se observă că

atunci când r M , termenii 1, ,r Mw w nu apar în relaţia (9.108). Drept urmare, aceştia

nu au nici un efect asupra erorii totale şi pot fi aleşi arbitrar. Pentru a justifica ultima

afirmaţie se poate utiliza interpretarea geometrică a problemei LS din Figura 9.4. Există

numai o unică combinaţie lineară a vectorilor lineari independenţi 0 1 şi u u care să conducă

la estimarea LS optimă. Dacă matricea de date are încă o coloană 2u aşezată în acelaşi plan

cu celelalte două, atunci există o infinitate de combinaţii lineare 0 0 1 1 2 2w w w u u u care să

satisfacă criteriul erorii LS minime. Pentru a obţine o unică soluţie LS, dintre toate soluţiile

care minimizează norma d Aw , se alege soluţia cu w de lungime minimă. Matricea


V fiind unitară, avem w Vw w , iar dacă se minimizează w , atunci şi w este

minim. Prin urmare, alegerea 1rw

0Mw furnizează soluţia de normă minimă a

problemei LS. În concluzie, soluţia unică de normă minimă a problemei celor mai mici

pătrate este

1

Hri

LS i

i i

u d

w v (9.109)

unde , 1, ,

0 1, ,

H

i i

i i i

di r

w

i r M

u d

(9.110)

iar 22 2

1 1

N NH

LS i i

i r i r

E d

d Aw u d (9.111)

este energia erorii LS.

Să exprimăm soluţia de normă minimă a problemei celor mai mici pătrate prin

intermediul pseudoinversei matricii de date, determinată prin descompunerea SVD a

acesteia.. În acest scop, trebuie observat că relaţia (9.110) poate fi scrisă matricial astfel:

w Σ d (9.112)

unde 1

r

Σ 0Σ

0 0 (9.113)

este o matrice pătrată N N cu 1

1 2diag 1 ,1 , ,1r r Σ . Prin urmare, utilizând

relaţiile (9.109) şi (9.113), se obţine

H

LS

w VΣ U d A d (9.114)

unde 1

1rH H

i i

i i

A VΣ U v u (9.115)

este pseudoinversa matricii A . Dacă matricea de date este de rang maxim, r M ,

pseudoinversa se defineşte prin 1

H H

A A A A (Golub şi Van_Loan 1996), astfel încât

utilizarea soluţiei din (9.115) conduce la ecuaţiile normale din (9.22). Dacă

rangN M A atunci 1 A A . Prin urmare, relaţia (9.115) are un caracter general,

indiferent dacă matricea A este pătrată sau dreptunghiulară, indiferent dacă este de rang

maxim sau nu. Formal, A poate fi definită independent de problema LS ca fiind unica

matrice X care satisface cele patru condiţii Moore-Penrose:

H

H

AXA A AX AX

XAX X XA XA (9.116)


În concluzie, calculul unui estimator LS prin descompunere în valori singulare

presupune parcurgerea etapelor din Tabelul 9.3. Vectorul LSw obţinut este unic şi satisface

două condiţii:

1. minimizează suma erorilor,

2. are cea mai mică normă euclidiană.

Comparând din punctul de vedere a complexităţii calculelor aritmetice, diversele

metode de rezolvare a problemei celor mai mici pătrate, Golub şi Van_Loan (1996) arată că,

în cazul matricilor de date de rang maxim, toate celelalte metode sunt mai simple decât

metoda SVD. Totuşi, aceste metode sunt imprecise atunci când rangul lui A este redus

(aproape singular). În asemenea situaţii, SVD dezvăluie singularitatea matricii de date, fiind

metoda care asigură rezultate sigure chiar şi în aceste condiţii limită.

Exemplul 9.5: Utilizând procedura SVD detailată în Tabelul 9.3 se cere

rezolvarea problemei celor mai mici pătrate pentru matricea de date şi vectorul de

răspuns dorit specificate mai jos:

1 1 1 1

2 2 1 2,

3 1 3 4

1 0 1 3

A d

Soluţie: În pasul întâi al procedurii SVD se calculează descompunerea HA UΣV , utilizând comanda MATLAB [U,S,V]=svd(A). Se obţine:

0,3041 0,2170 0,8329 0,4082

0,4983 0,7771 0,3844 0,0000,

0,7768 0,4778 0,0409 0,4082

0,2363 0,3474 0,3960 0,8165

U

1. Se calculează descompunerea SVD HA UΣV 2. Se determină rangul r al matricii de date A

3. Se calculează , 1, ,H

i id i N u d

4. Se calculează 1

ri

LS i

i i

d

w v

5. Se calculează 2

1

N

LS i

i r

E d

Tabelul 9.3 Etapele rezolvării problemei celor mai mici pătrate prin

metoda descompunerii în valori singulare.

METODA CELOR MAI MICI PĂTRATE Probleme 291

5,5338 0 00,6989 0,0063 0,7152

0 1,5139 0, 0,3754 0,8544 0,3593

0 0 0,29240,6088 0,5196 0,5994

0 0 0

Σ V

Se observă direct că rangul matricei A este 3r , ceea ce este şi rezultatul

funcţiei MATLAB r=rank(A). Paşii 3, 4 şi 5 din Tabelul 9.3. dau:

5,11673,0

1,1821, 1,5 , 1,5

0,96021,0

1,2247

T

LS LSE

d U d w

Probleme

P 9.1 La intrarea unui combinator linear cu trei coeficienţi ce implementează metoda

celor mai mici pătrate, sunt furnizate următoarele înregistrări instantanee:

0 1 1 0 , 1 2 1 1 ,

2 1 1 1 , 3 0 1 1

T T

T T

u u

u u

(a) Determinaţi valorile matricii de proiecţie pe subspaţiul A , P şi ale matricii

complement ortogonal de proiecţie I P pentru setul de date de intrare.

(b) Utilizând rezultatele de la punctul (a), stabiliţi estimarea LS d a vectorului

1 2 1 1T

d . De asemenea, stabiliţi vectorul erorii minime asociat LSe .

Pentru a controla acurateţea rezultatului obţinut, evaluaţi ˆ H

LSd e şi arătaţi că

rezultatul este nul. Care este explicaţia acestui fapt?

P 9.2 La intrarea filtrului FIR din Figura 9.9 semnalul de intrare are valorile:

0 3, 1 2, 2 1, 3 1u u u u cu 0 0 3u n pentru n şi n .

Semnalul dorit este 0 1, 1 2, 2 1, 3 1 34d d d d şi zero în rest.

u k

d k

y k

1z

e k 1w 0w

Figura 9.9 Filtrul FIR din problema

P 9.2.


Utilizând metoda „prewindowing” (vezi paragraful 9.2), să se calculeze:

(a) Estimarea LS a coeficienţilor filtrului, LSw şi a vectorului de eroare

LSe .

(b) Energia minimă a erorii de estimare LSE .

(c) Să se reia punctele (a) şi (b) prin metoda „no windowing”.

(d) Să se reia punctele (a) şi (b) prin metoda „postwindowing”.

(e) Să se reia punctele (a) şi (b) prin metoda „full windowing”.

P 9.3 Diferenţiind ecuaţia (9.9) în raport cu vectorul coeficienţilor w , arătaţi că

estimarea în sens LS a acestuia, LSw , este dată de soluţia ecuaţiei normale (9.14).

P 9.4 Fie varianta ponderată a criteriului LS definită prin HE e We , unde W este o

matrice hermitică definită pozitiv.

(a) Minimizând energia de eroare E în raport cu vectorul w, arătaţi că expresia

estimatorului ponderat în sens LS este dată de relaţia

1

H H

wls

w A WA A Wd

(b) Utilizând descompunerea HW LDL , arătaţi că varianta ponderată a criteriului

LS corespunde unei „prefiltrări” a erorii sau a datelor.

P 9.5 Consideraţi un sistem linear descris prin ecuaţia cu diferenţe finite

0,9 1 0,1 1y n y n x n v n

unde x n este semnalul de intrare, y n este semnalul de ieşire iar v n este o

perturbaţie la ieşire. Presupunem că s-au colectat 1000N eşantioane din datele

de intrare-ieşire şi că dorim să estimăm coeficienţii sistemului utilizând criteriul LS

în varianta „no windowing”. Utilizând MATLAB, determinaţi coeficienţii

modelului 1 1y n ay n dx n şi estimata matricei ei de covarianţă

2 1ˆˆe

R pentru

(a) x n şi v n sunt secvenţe gaussiene necorelate între ele de medie nulă şi

varianţă unitară.

(b) x n şi v n sunt secvenţe gaussiene între ele de medie nulă cu 2 1x şi

0,8 1v n v n w n este un proces AR(1) cu w n zgomot alb de medie

nulă şi varianţă unitară. Comentaţi asupra calităţii estimărilor realizate,

comparând valorile matricilor 2 1ˆˆe

R obţinute în fiecare caz în parte.

P 9.6 Se dă un set oarecare de date experimentale , 1d n n N şi se urmăreşte să se

stabilească prin metoda celor mai mici pătrate parametrii a şi b ai unui model

linear y n a bn , care să reprezinte cel mai bun model linear pentru datele

experimentale.

METODA CELOR MAI MICI PĂTRATE Probleme 293

(a) Enunţaţi problema ca o problemă de filtrare în sens LS, stabilind expresii pentru

matricea de date de intrare A, vectorul semnalului dorit d , vectorul de eroare e,

funcţia de cost E şi vectorul coeficienţilor filtrului, w.

(b) Calculaţi soluţia de la punctul (a) care minimizează funcţia de cost LSE şi

stabileşte valorile optime pentru vectorul coeficienţilor, LSw .

(c) Implementaţi în MATLAB rezolvarea cazului practic în care

1,5 0,035 pentru 0,1, ,d n n v n n N

unde v n este zgomot alb gaussian de medie nulă şi varianţă unitară şi 100N .

P 9.7 Determinaţi a şi b astfel încât funcţia bf x ax să realizeze cea mai bună

aproximare în sensul celor mai mici pătrate a următorului set de date

experimentale:

x 0,5 1,0 1,5 2,0 2,5

y 0,49 1,60 3,36 6,44 10,16

P 9.8 Pentru setul de date:

x 1,0 2,5 3,5 4,0 1,1 1,8 2,2 3,7

y 6,008 15,722 27,130 33,772 5,257 9,549 11,098 28,828

(a) să se stabilească cea mai bună aproximare în sens LS printr-o funcţie lineară.

(b) să se stabilească cea mai bună aproximare în sens LS printr-o funcţie pătratică.

P 9.9 Rezolvaţi, utilizând transformarea Householder, problema de estimare LS de mai

jos:

1 1 1 1

, 3 10 3 62 3 2 1

T

T

A d

P 9.10 Reluaţi rezolvarea problemei P 9.8 Pentru setul de date:

x 1,0 2,5 3,5 4,0 1,1 1,8 2,2 3,7

y 6,008 15,722 27,130 33,772 5,257 9,549 11,098 28,828

(c) să se stabilească cea mai bună aproximare în sens LS printr-o funcţie lineară.

(d) să se stabilească cea mai bună aproximare în sens LS printr-o funcţie pătratică.

P 9.9, utilizând transformarea Givens.

P 9.11 Calculaţi prin metodele GS şi MGS factorizarea QR a matricii de date

4 2 1

2 0 1

2 0 1

1 2 1

A


Comparaţi rezultatele obţinute.

P 9.12 Să se calculeze descompunerea SVD, calculând valorile proprii şi vectorii proprii

ai produselor HA A respectiv H

AA . Controlaţi rezultatele obţinute cu funcţia

svd din MATLAB.

6 2 0 1 1

7 6 1 1 0a şi b

A A

Să se determine pseudoinversa matricii A.

P 9.13 Se consideră matricea de dimensiune 2 2 cu valori complexe:

1 1 0.5

0.5 1

j j

j j

A

Să se calculeze valorile singulare şi vectorii singulari ai matricii A , parcurgând

următorii paşi:

(a) Să se construiască matricea HA A , iar apoi să se evalueze valorile proprii şi

vectorii proprii asociaţi ai lui HA A .

(b) Să se construiască matricea HAA apoi să se evalueze valorile proprii şi vectorii

proprii asociaţi ai lui HAA .

(c) Să se stabilească legătura dintre valorile proprii şi vectorii proprii asociaţi obţinuti

la (a) şi (b), şi valorile singulare şi vectorii singulari ai lui A .

10 Soluţii recursive ale

problemei LS

copul algoritmilor celor mai mici pătrate este să minimizeze suma pătratelor

diferenţei dintre semnalul dorit şi semnalul de la ieşirea structurii de filtrare (Diniz

2008). Atunci când la fiecare nouă iteraţie a algoritmului, sunt recepţionate eşantioane

noi ale datelor procesate, soluţia problemei LS poate fi calculată într-o manieră recursivă

(Haykin 1996), ceea ce a condus la dezvoltarea algoritmilor recursivi de estimare a soluţiei

LS, cunoscuţi sub numele de algoritmi RLS (Recursive Least Squares). Studiul acestei

familii de algoritmi întreprinse în Capitolul de faţă porneşte cu algoritmul RLS standard şi

continuă cu algoritmii RLS ce se bazează pe factorizarea QR, algoritmii RLS QR. Aceşti

algoritmi nu impun restricţii asupra tipului operaţiei pe care structura de filtrare o realizează:

filtru FIR sau combinator linear.

Algoritmii RLS au o convergenţă mai rapidă decât algoritmii LMS şi păstrează, practic,

o viteză de convergenţă constantă, chiar şi în condiţiile în care gradul de împrăştiere a

valorilor proprii ale matricii de date este foarte mare (Manolakis, ş.a. 2005). De asemenea au

o comportare mai bună decât algoritmii LMS în cazul în care datele de intrare sunt nestaţio-

nare. Toate aceste avantaje ale algoritmilor RLS sunt obţinute cu costul unei complexităţi de

calcul mai mare şi a unor oarecare probleme de stabilitate, care nu sunt, totuşi atât de critice

ca în cazul algoritmilor LMS.

În Capitol sunt discutate câteva din proprietăţile algoritmilor RLS, printre care dezadap-

tarea şi rata de convergenţă, proprietăţi care sunt verificate în simulări sugestive pentru

acţiunea algoritmilor.

10.1 Filtre LS adaptive

Implementarea filtrelor adaptive LS urmăreşte obiectivul, ca la fiecare actualizare a

coeficienţilor, să se realizeze minimizarea sumei pătratelor erorii de la momentul de timp la

care a fost iniţiată acţiunea filtrului până la momentul de timp curent. Prin urmare,

coeficienţii filtrului la momentul n sunt astfel calculaţi încât să fie minimizată funcţia de cost

LS ponderată, definită în Capitolul 9 prin relaţia (9.33)

Capitolul

10

S

296 SOLUŢII RECURSIVE ALE PROBLEMEI LS - 10

22

0 0

n nn j n j H

j j

E n e j d j j

w u (10.1)

unde e j este valoarea instantanee a erorii iar constanta , 0 1 poartă numele de

factor de uitare. Datorită faptului că ponderile filtrului sunt menţinute constante pe parcursul

intervalului de observare 0 j n , erorile de observaţie apriori şi aposteriori sunt identice.

Vectorul coeficienţilor obţinut prin minimizarea relaţiei (10.1) este notat prin nw şi

asigură, din punct de vedere a criteriului LS, filtrarea optimală la momentul n. Atunci când

1 , se spune că algoritmul are memorie cumulativă pentru că valorile coeficienţilor

filtrului sunt funcţie de toate valorile de intrare trecute. Se utilizează un factor de uitare sub-

unitar (vezi Figura 10.1) pentru a asigura că datelor aflate în trecutul mai îndepărtat li se

acordă o atenţie mai redusă, sunt „uitate” pentru a da filtrului posibilitatea de a urmări

variaţia semnalelor de intrare, atunci când acestea sunt nestaţionare.

10.1.1 Ecuaţiile de recursie ale matricii de corelaţie

şi vectorului de intercorelaţie

Reluăm din paragraful 9.1, expresiile care caracterizează filtrul adaptiv în sens LS ce

minimizează suma pătratelor erorii din (10.1). Coeficienţii optimali ai filtrului sunt

specificaţi prin ecuaţiile normale:

ˆ ˆn n nR w p (10.2)

unde 0

ˆn

n j H

j

n j j

R u u (10.3)

şi *

0

ˆn

n j

j

n j d j

p u (10.4)

caracterizează estimările ponderate exponenţial ale matricii de corelaţie a semnalului de

intrare respectiv ale vectorului de intercorelaţie dintre intrare şi răspunsul dorit. Apariţia în

ultimele două expresii a termenului n j se datorează prezenţei acestuia în funcţia de cost

(10.1). Valoarea minimă a acesteia este:

minˆ H

dE n E n n n p e (10.5)

Figura 10.1 Ponderarea „exponenţială” a observaţiilor la momentele de

timp n şi n + 1. Datele mai „vechi” sunt neglijate mai

puternic de algoritm

10.1 Filtre LS adaptive 297

unde 2

0

nn j

d

j

E n d j

(10.6)

este energia ponderată exponenţial a semnalului de răspuns dorit.

Vom presupune acum că ne situăm la un anumit moment de timp n M , şi că ˆ nR

este o matrice nesingulară. În acest moment se calculează ˆ nR şi ˆ np pentru a rezolva

ecuaţiile normale (10.2) în scopul determinării coeficienţilor filtrului nw . Această

operaţiune, mare consumatoare de timp şi resurse de calcul, trebuie repetată pentru fiecare

observaţie nouă ,n d nu , adică, la momentele de timp 1, 2,n n etc.

O primă reducere a efortului de calcul poate fi obţinută în urma observaţiei că relaţia

(10.3) se poate exprima recursiv astfel:

ˆ ˆ 1 Hn n n n R R u u (10.7)

ceea ce arată că „noua” matrice de corelaţie ˆ nR poate fi actualizată, prin însumarea

„vechii” matrici de corelaţie ponderată ˆ 1n R cu informaţia „nouă” Hn nu u . Simi-

lar, utilizând relaţia (10.4), se poate arăta că recursia temporală a vectorului de intercorelaţie

se face conform relaţiei

*ˆ ˆ 1n n n d n p p u (10.8)

Vom arăta în cele ce urmează că prin utilizarea recursiilor temporale (10.7) şi (10.8),

noul vector al coeficienţilor nw poate fi determinat din vechiul vector 1n w şi noua

pereche de observaţii ,n d nu , fără a rezolva efectiv ecuaţiile normale (10.2).

10.1.2 Algoritmul adaptiv LS apriori

Dacă rezolvăm ecuaţiile (10.7) şi (10.8) pentru a extrage ˆ 1n R , respectiv ˆ 1n p , iar

apoi se face apel la ecuaţiile normale (10.2), se obţine

*ˆ ˆ1Hn n n n n n d n R u u w p u

sau, după câteva calcule simple se obţine:

*ˆ ˆ1n n n e n n R w u p (10.9)

unde 1He n n n n d w u (10.10)

este eroarea de estimare apriori. Dacă matricea ˆ nR este inversabilă, prin multiplicarea

ambilor termeni ai relaţiei (10.9) cu 1ˆ nR şi utilizarea ecuaţiilor normale (10.2) se obţine

1 * 1ˆ ˆ ˆ1n n n e n n n n w R u R p w (10.11)

Definind vectorul câştigului de adaptare ng prin relaţia:


ˆ n n nR g u (10.12)

ecuaţia (10.11) se poate scrie astfel

*1n n n e n w w g (10.13)

Ultima ecuaţie dezvăluie modul în care apare câştigul de adaptare ng în ecuaţia de

recursie a vectorului coeficienţilor.

Exemplul 10.1 Vom determina în cele ce urmează ecuaţiile care guvernează

funcţionarea unui filtru LS adaptiv cu un singur coeficient. În acest caz particular,

1M , estimarea matricii de corelaţie ˆ nR devine scalarul uE n . În sfârşit,

ecuaţiile care descriu funcţionarea estimatorului recursiv LS cu un coeficient se

obţin prin particularizarea ecuaţiilor (10.7), (10.10) şi (10.11):

2

*

*

1

1

11

u u

u

E n E n u n

e n d n w n u n

w n w n u n e nE n

Ultima ecuaţie este similară cu ecuaţia unui algoritm LMS normalizat, pentru

că pasul LMS al algoritmului este 1 un E n . Pe de altă parte, ecuaţia

descrie un algoritm optim în sens LS.

10.1.3 Algoritmul adaptiv LS aposteriori

Înlocuind relaţiile (10.7) şi (10.8) în ecuaţiile normale (10.2) şi efectuând câteva calcule

matematice elementare, se obţine

*ˆ ˆ1 1n n n n n R w u p (10.14)

unde Hn d n n n w u (10.15)

este eroarea de estimare aposteriori. Dacă matricea ˆ 1n R este inversabilă, din relaţia

(10.14) se obţine

1 1 * 1ˆ ˆ ˆ1 1 1 1n n n n n n n w R u R p w

sau *1n n n n w w g (10.16)

unde: ˆ 1n n n R g u (10.17)

defineşte vectorul de câştig adaptiv alternativ ng .

Având în vedere faptul că ecuaţiile de recursie (10.15) şi (10.16) sunt cuplate,

algoritmul LS aposteriori nu este aplicabil. Totuşi, dacă se înlocuieşte ecuaţia (10.16) în

(10.15), se obţine:

10.1 Filtre LS adaptive 299

1H H

H

n d n n n n n

e n n n n

w g u

g u

sau

e nn

n

(10.18)

unde 1 1ˆ1 1 1H Hn n n n n n g u u R u (10.19)

este cunoscut sub numele de factor de conversie. Prin urmare, pentru a calcula eroarea

aposteriori n înainte de a realiza actualizarea vectorului coeficienţilor filtrului se pot

utiliza ecuaţiile (10.19) şi (10.18). Acest artificiu de calcul face posibilă implementarea

algoritmului adaptiv LS aposteriori. Dacă ˆ 1n R este o matrice inversabilă, 1n şi

,n e n n .

Pentru a dezvolta o relaţie între vectorii de câştig adaptiv apriori şi aposteriori, se

compară relaţiile (10.13) şi (10.16), şi se face apel la definiţia factorului de conversie din

(10.18). Rezultatul:

nn

n

gg (10.20)

demonstrează că cele două câştiguri de adaptare sunt vectori ce au o direcţie unică dar

lungimi diferite. Totuşi, întrucât ecuaţiile (10.13) şi (10.16) descriu o unică realitate,

termenii de corecţie *n e ng şi *n ng sunt egali.

Un alt factor de conversie, ce se defineşte în funcţie de vectorul de câştig ng este

1ˆ1 1H Hn n n n n n u R u u g (10.21)

Acesta are câteva interpretări interesante. Astfel, folosim relaţia (10.20) şi avem:

1 ,

1 1 1

H

H

n nn

n

n n n n n

u g

u g

sau 1

nn

(10.22)

ceea ce arată că cei doi factori de conversie sunt unul inversul celuilalt. Având în vedere că

estimarea matricii de corelaţie este pozitiv semidefinită, adică îndeplineşte condiţia

1ˆH n n n u R u 0 , relaţia (10.21) implică

0 1n (10.23)


Prin urmare, factorul de conversie n este cuprins între 0 şi 1. Această limitare permite

interpretarea factorului ca fiind o variabilă unghiulară (Lee, ş.a. 1981) iar monitorizarea lui

n oferă informaţii despre modul în care acţionează algoritmul RLS. Se poate arăta (vezi

problema P 10.4) că

ˆdet 1

ˆdet

Mn

nn

R

R (10.24)

ceea ce demonstrează importanţa lui n sau n pentru inversabilitatea estimatei

matricii de corelaţie.

Tabelul 10.1 recapitulează operaţiunile matematice care definesc algoritmii LS adaptivi

apriori şi aposteriori, iar Figura 10.2 face o reprezentare grafică a procesului de filtrare

Filtrul adaptiv LS apriori Filtrul adaptiv LS aposteriori

Matricea de corelaţie ˆ ˆ 1 Hn n n n R R u u ˆ ˆ 1 Hn n n n R R u u

Vectorul de câştig ˆ n n nR g u ˆ 1n n n R g u

Eroarea apriori 1He n n n n d w u 1He n n n n d w u

Factorul de conversie 1 Hn n n g u 1 Hn n n g u

Eroarea aposteriori n n e n n e n n

Ecuaţia de recursie *1n n n e n w w g *1n n n n w w g

Tabelul 10.1 Operaţiuni matematice utilizate în implementarea filtrelor adaptive LS

apriori şi aposteriori.

Figura 10.2 Reprezentarea grafică a elementelor de bază a

filtrului adaptiv LS apriori. Trebuie observat că

procesul de filtrare nu influenţează calculul

vectorului de câştig.

10.2 Algoritmul RLS standard 301

adaptivă în cazul filtrului adaptiv LS apriori. În legătură cu acestea, se pot face două

observaţii importante (Manolakis, ş.a. 2005, Sayed 2008):

Câştigul de adaptare depinde strict numai de semnalul de intrare. Răspunsul dorit

afectează doar amplitudinea şi semnul termenului de corecţie a coeficienţilor prin

intermediul semnalului de eroare.

Cel mai mare efort de calcul în filtrarea adaptivă LS este reprezentat de calculul

vectorului de câştig adaptiv. Acest calcul presupune rezolvarea unui sistem de ecuaţii

lineare, care necesită un număr de 3O M operaţii la fiecare iteraţie a algoritmului.

10.2 Algoritmul RLS standard

10.2.1 Deducerea algoritmului

Punctul de pornire a algoritmului recursiv al celor mai mici pătrate (RLS – Recursive Least

Squares) sunt relaţiile de calcul al filtrelor adaptive LS (vezi Tabelul 10.1) dezvoltate în

paragraful precedent. RLS reduce efortul de calcul pe care implementarea relaţiilor din tabel

le presupune, prin utilizarea unei formule recursive de calcul al inversei matricii de corelaţie

ˆ nR din expresia câştigului de conversie (vezi relaţiile (10.12) şi (10.17)):

1ˆn n ng R u (10.25)

sau 1 1ˆ 1n n n g R u (10.26)

Pentru a deduce algoritmul recursiv, începem prin a utiliza pentru inversa matricii de

corelaţie notaţia consacrată în literatură:

1ˆn nP R (10.27)

În aceste condiţii, expresia relaţiei de calcul recursiv (10.7) devine

1 1 1 Hn n n n P P u u (10.28)

În continuare, facem apel la lema de inversare matricială a cărei enunţ este (Ciochină şi

Negrescu 1999, Sayed 2008):

Fie matricile , , ,X A B C şi D de dimensiuni , , ,M M M M M N N N

respectiv N M , dintre care ,X A şi C sunt nesingulare, care satisfac relaţia

X A BCD (10.29)

În aceste condiţii, inversa matricii X este dată de:

1

1 1 1 1 1 1

X A A B C DA B DA (10.30)

Pentru a aplica lema (10.30) relaţiei de recursie (10.28), facem identificările:

1 1, 1 , , , Hn n n n X P A P B u C 1 D u

şi înlocuind în (10.28), obţinem:


1 1

1

1

1 11

1 1

H

H

n n n nn n

n n n

P u P uP P

u P u (10.31)

Recunoaştem în numitorul membrului drept al ecuaţiei (10.31) definiţia factorului de

conversie n din (10.19) în timp ce la numărător în paranteze putem identifica expresia

vectorului de câştig alternativ ng din (10.26). Dacă facem apel şi la relaţia (10.20) care

face conversia dintre şi n ng g , ecuaţia (10.31) se scrie

1 1n n n n P P g g (10.32)

Ultima relaţie ne dă formula de recurenţă dorită. Într-adevăr, fiind dată vechea matrice

1n P şi „noile” observaţii ,n d nu , „noua” matrice nP se calculează prin

următoarea procedură (Manolakis, ş.a. 2005):

1

1

1

1

1

H

H

n n n

n n n

nn

n

n n n n

g P u

g u

gg

P P g g

(10.33)

Ecuaţiile (10.33) descriu algoritmul RLS standard. Algoritmul este aplicabil indiferent de

tipul structurii de filtrare utilizate: combinator linear sau filtru FIR, pentru că nu este făcută

nici un fel de restricţie relativ la natura vectorului de date de la intrare. Totuşi, pentru filtrele

FIR se presupune că acestea sunt cu predecupare (pentru termen vezi paragraful 9.2), adică

0u n pentru 1M n . O trecere în revistă a operaţiunilor ce constituie o

implementare practică a algoritmului RLS standard este făcută în Tabelul 10.2.

10.2.2 Ecuaţia de recursie a minimului funcţiei de

cost

Pentru a stabili ecuaţia de recursie pentru minimul funcţiei de cost descris prin relaţia (10.5),

vom observa pentru început că energia semnalului de răspuns dorit definită prin (10.6) poate

fi exprimată într-un format recursiv astfel:

*1d dE n E n d n d n (10.34)

Înlocuind (10.34) şi (10.13) în (10.5), avem

* *

minˆ ˆ1 1H H

dE n E n d n d n n n n n e n p w p g

În continuare, se înlocuieşte ˆ H np din recursia (10.8):

10.2 Algoritmul RLS standard 303

* *

minˆ1

ˆ1 1 1

H

d

H H

E n E n d n d n n n e n

d n n n n n

p g

u w p w

Rearanjăm termenii din ultima ecuaţie şi facem din nou apel la (10.5) pentru a scrie

*

min

1 *

min

*

min

ˆ ˆ1 1 1

ˆ ˆˆ1

1

H H

d

H

H

LS

E n E n n n d n n n e n

E n d n n n n n e n

E n d n n n e n

p w p g

p R R g

w u

unde pentru ultima ecuaţie se are în vedere că matricea ˆ nR şi inversa sa sunt hermitice.

Ultima expresie conduce la ecuaţiile de recursie dorite

*

min min

2

min

1

1

E n E n n e n

E n n n

(10.35)

2

min min 1e n

E n E nn

(10.36)

1. Iniţializare:

11 , 1 ,

constantă mică pozitivă

w 0 P I

2. Pentru fiecare 0,1,2,n se calculează:

a. Calculul vectorului câştigului de adaptare:

1

1

1

H

H

n n n

n n

nn

n n n n

g P u

g u

gg

P P g g

b. Filtrare şi calculul erorii:

1He n d n w n n u

c. Ecuaţia de recursie a coeficienţilor

*1n n n e n w w g

3. Se incrementează contorul 1n n şi se execută salt la 2.

Tabelul 10.2 Implementarea practică a algoritmului RLS standard


Pentru că produsul *n e n este real, are loc egalitatea * * .n e n n e n Valoarea

energiei minime de eroare minE n creşte odată cu trecerea timpului şi atinge o limită finită

numai în cazurile în care 1 .

10.2.3 Particularităţi ale algoritmului RLS standard

În acest paragraf vom discuta despre complexitatea aritmetică şi iniţializarea algoritmului

RLS, aşa cum este el descris de Tabelul 10.2.

O măsură a complexităţii aritmetice a algoritmului standard este reprezentată de numă-

rul de operaţii (o operaţie constă într-o înmulţire şi o adunare) necesare pentru a realiza o

recursie a algoritmului. În calcule se poate avea în vedere că matricea nP este hermitică

şi, prin urmare, pentru a o actualiza este suficient să determinăm doar jumătatea sa

triunghiulară superioară (inferioară), ceea ce permite reducerea la jumătate a efortului de

calcul pe care îl presupune calculul ei. În aceste condiţii, o recursie necesită 22 4M M

operaţii (Manolakis, ş.a. 2005).

Calculul lui ng şi actualizarea lui nP se fac cu 2O M operaţii. Faţă de aceste

operaţiuni, toate celelalte formule din Tabelul 10.2, care presupun produse scalare sau multi-

plicări ale unor vectori cu scalari necesită O M operaţii. Prin urmare, datorită faptului că

în RLS, inversarea matricii ˆ nR este înlocuită, în esenţă, prin împărţire cu un scalar, algo-

ritmul RLS reduce efortul computaţional al metodelor LS de la 3O M la 2O M

operaţii.

Iniţializarea algoritmului constă în impunerea unor valori iniţiale mărimilor nP şi

nw . O alegere uzuală este 1 0 w , dar în ceea ce priveşte matricea de corelaţie

ˆ 1R , valoarea ei nu poate fi nulă pentru că în primele iteraţii ale algoritmului ecuaţia de

recursie (10.32) ar fi neaplicabilă întrucât 1 P I (Sayed 2008).

Există două abordări în ceea ce priveşte fixarea valorii iniţiale 1P . În primul rând, se

poate colecta un bloc de date iniţial 0

1

0, ,n

n d n n M

u pe baza căruia să se calculeze

valorile iniţiale ale algoritmului: 1P şi 1w .

Abordarea utilizată în practică este să se stabilească 11 P I , unde este o

constantă mică pozitivă. Drept urmare, oricare ar fi n M , expresia ˆn n I R ia locul

matricii de corelaţie, ceea ce face ca soluţiile nw să fie deplasate. Totuşi, pentru valori

mari ale lui n, alegerea constantei nu este importantă întrucât algoritmul are capacitatea

de „a uita” pentru 1 .

Se poate arăta (Sayed 2008) că procedura practică de iniţializare conduce la un set de

coeficienţi care minimizează funcţia de cost modificată

10.3 Analiza convergenţei şi performanţelor algoritmului RLS 305

22

0

nn n j H

j

E n d j j

w w u (10.37)

care ia locul expresiei (10.1). Dacă în aceste condiţii, semnalul de intrare este anulat, adică

n u 0 , atunci relaţia (10.32) devine 1 1n n P P , o recursie instabilă în condiţiile

în care 1 .

10.3 Analiza convergenţei şi

performanţelor algoritmului RLS

Scopul oricărui filtru adaptiv LS, ce operează asupra unor semnale staţionare, este să identi-

fice filtrul optimal 1

o

w R p din observaţiile făcute asupra vectorului de intrare nu şi a

semnalului de răspuns dorit

H

o od n n e n w u (10.38)

În scopul simplificării analizei vom utiliza în continuare ipoteza de independenţă introdusă

în paragraful 7.2.2. Rezultatele analizei pe care o întreprindem sunt valabile pentru orice

filtru adaptiv LS indiferent de tipul algoritmului recursiv utilizat la implementarea lui. Anali-

za este separată în două situaţii distincte: 1 (memorie infinită) şi 1 (memorie cu

„uitare”, memorie finită).

10.3.1 Analiza algoritmului cu memorie infinită

Pentru 1 , toate valorile semnalului de eroare, începând cu momentul iniţial, 0n ,

influenţează într-o măsură identică funcţia de cost. Drept urmare, filtrul adaptiv îşi pierde

capacitatea de a urmări variaţiile semnalelor de intrare, ceea ce nu are vreun efect asupra

studiului nostru pe care îl efectuăm cu semnale de intrare staţionare.

În privinţa mediei statistice a vectorului coeficienţilor, E n w , pentru n M ,

putem prelua direct soluţia LS din Capitolul 9, paragraful 9.1.6 pentru că cele două situaţii

sunt identice. Prin urmare:

pentru oE n n M w w (10.39)

ceea ce înseamnă că algoritmul RLS converge în medie pentru n M , unde M este numă-

rul de coeficienţi ai filtrului adaptiv.

Un alt rezultat important din Capitolul 9 şi care rămâne valabil pentru algoritmul RLS

cu 1 , se referă la matricea de covarianţă nK a vectorului coeficienţilor. Pentru

n M , avem

2 1ˆH

o o on E n n E n

K w w w w R (10.40)

unde 2

o este varianţa zgomotului oe n . Matricea de corelaţie ˆ nR este descrisă printr-o

distribuţie Wishart complexă iar media inversei sale este dată de (Haykin 1996):


1 11ˆ ,E n n Mn M

R R (10.41)

Drept urmare: 2

1,on n Mn M

K R (10.42)

Deviaţia pătratică medie (DPM) este o măsură a mediei pătratului distanţei dintre coefi-

cienţii filtrului adaptiv şi cei ai filtrului optimal corespunzător. Deşi DPM nu este măsurabilă

în practică, ea este utilă în studiul pe care îl realizăm. Definiţia DPM este:

2

on E n

w wD (10.43)

Având în vedere definiţia matricii nK din (10.40), este simplu de remarcat că nD este

urma acestei matrici şi, prin urmare

2

1

1tr

Mo

i i

n nn M

KD (10.44)

unde i sunt valorile proprii ale lui R , care nu trebuie să fie confundate cu factorul de

„uitare” . Ultima ecuaţie indică, pe de o parte că DPM este amplificat de cea mai mică

valoare proprie a lui R , iar pe de altă parte că DPM descreşte aproape linear cu timpul.

Parametrul eroare pătratică medie în exces, notată prin excP n , defineşte mărimea cu

care EPM a filtrului adaptiv 2

E e n

depăşeşte valoarea minimă a EPM a unui filtru

adaptiv, valoare realizată de filtrul Wiener. Pentru a calcula acest parametru în cazul studiat,

avem în vedere că formula (7.48) stabilită pentru algoritmul LMS sub ipoteza de

independenţă îşi păstrează valabilitarea pentru orice algoritm apriori:

tr 1excP n n RK (10.45)

Particularizând pentru algoritmul RLS, vom substitui pe (10.42) în (10.45) pentru a obţine:

2

1exc o

MP n

n M

(10.46)

ceea ce arată că excP n tinde către zero atunci când n .

10.3.2 Analiza algoritmului cu memorie finită

În cazul 0 1 , cele mai recente valori ale observaţiilor au cea mai mare influenţă asupra

estimării în sens LS a coeficienţilor filtrului.

În primul rând vom stabili tipul evoluţiei în medie statistică a vectorului coeficienţilor.

Înmulţim în acest scop ecuaţia de recursie a coeficienţilor (10.11) cu ˆ nR şi facem apel la

(10.7) şi (10.10) pentru a obţine

*ˆ ˆ 1 1n n n n n d n R w R w u (10.47)


Dacă multiplicăm (10.7) cu ow şi scădem rezultatul obţinut din (10.48), rezultă

*ˆ ˆ 1 1 on n n n n e n R c R c u (10.48)

unde on n c w w este vectorul de eroare a coeficienţilor. Rezolvarea ecuaţiei (10.48)

prin recursii succesive conduce la

1 1 1 *

0

ˆ ˆ ˆ1 1n

n n j

o

j

n n n j e j

c R R c R u (10.49)

Ultima expresie indică faptul că nc depinde de condiţiile iniţiale şi de eroarea optimă

*

oe n . În ipoteza că ˆ ,n jR u şi oe j sunt independente, aplicarea operatorului de

mediere statistică ecuaţiei (10.49) dă

1 1ˆ 1nE n E n c R c (10.50)

unde, conform paragrafului 10.2.3, am fixat 11 , 0 P I . Dacă matricea ˆ nR este

pozitiv definită iar 0 1 , atunci , când E n n c 0 . Prin urmare, algoritmul

RLS cu factor de uitare exponenţial converge asimptotic în medie statistică către filtrul

optimal.

Vom evalua, în cele ce urmează, matricea de covarianţă a coeficienţilor filtrului. În

ecuaţia de recursie (10.48) efectuăm operaţiunile matematice:

1 1 *

1 *

ˆ ˆ ˆ1 1

ˆ1

o

o

n n n n n n e n

n n n e n

c R R c R u

c R u

pentru că 1ˆ ˆ 1n n R R I pentru n mare. Dacă neglijăm dependenţa dintre

ˆ1 , ,n n nc R u şi oe n , calculăm:

2 2 1 1ˆ ˆ1H H

on E n n n E n n n n K c c K R u u R (10.51)

Pentru a simplifica calculele, este necesară aproximarea convenabilă a matricii 1ˆ nR .

În acest scop, din definiţia (10.3) avem

1

0

1 1ˆ1 1

nnn j H

j

E n E n n

R u u R R (10.52)

unde ultima egalitate este justificată pentru 1n . Acceptând aproximarea

ˆ ˆE n n R R , putem scrie:

1 1ˆ 1n R R (10.53)

Cu ultima aproximare obţinută înlocuim în (10.51) care devine astfel

22 2 11 1 on n K K R (10.54)


o expresie care converge pentru că 2 1 . Atunci, în regim staţionar, scriem

22 2 11 1 o K R

deoarece 1 pentru 1n n nK K . Deci:

2 11

1o

K R (10.55)

ceea ce ne permite să stabilim o expresie pentru deviaţia pătratică medie (DPM) sub forma

2

1

1 1tr

1

M

o

i i

KD (10.56)

Prin contrast cu expresia (10.44), se constată din (10.56) că DPM a algoritmului cu

1 nu tinde la zero atunci când n . Explicaţia se găseşte în observaţia că algoritmul

RLS cu memorie finită nu utilizează la formarea estimatului de totalitatea datelor de care

dispune

Determinarea erorii pătratice în exces excP în cazul examinat presupune să facem

apel la relaţiile (10.45) şi (10.55). Avem:

21tr

1exc oP M

RK (10.57)

ceea ce arată că, urmare a memoriei finite a algoritmului există o eroare în exces de regim

permanent care poate fi redusă pe măsură ce 1 , cu alte cuvinte, pe măsură ce memoria

efectivă a algoritmului creşte.

10.3.3 Simularea pe calculator

Sunt câteva concluzii care pot fi desprinse din analiza efectuată în acest paragraf .

Astfel, vom sublinia că toţi algoritmii RLS, indiferent de modul în care sunt implementaţi au

performanţe identice, dacă precizia numerică este suficientă. Din punctul de vedere a perfor-

manţelor algoritmului, algoritmii RLS sunt optimi pentru că la fiecare moment de timp,

aceştia minimizează energia ponderată a erorii (Tsypkin 1971). Aceste proprietăţi pot fi puse

mai bine în evidenţă de simularea pe calculator din exemplul care urmează.

Exemplul 10.2: Se consideră egalizorul adaptiv din Exemplul 7.4 prezentat în

schema bloc din Figura 7.10, în care se înlocuieşte blocul LMS printr-un bloc RLS.

Ne propunem să studiem performanţele algoritmului RLS şi să le comparăm cu

cele ale algoritmului LMS. Sursa de date de la intrarea canalului este o secvenţă

Bernoulli cu simboluri +1 şi -1, de medie nulă şi varianţă unitate. Canalul este

modelat de răspunsul la impuls de tip cosinus ridicat (7.72):

20,5 1 cos 2 , 1,2,3

0, în rest

n nh n W


unde parametrul W controlează nivelul distorsiunilor introduse de canal (sau

împrăştierea valorilor proprii R ) introduse de canal. Zgomotul pe canal este

alb gaussian cu 2 0,001v . Egalizorul adaptiv are 11M coeficienţi, iar

semnalul dorit este obţinut prin întârzierea intrării cu 7 eşantioane. Pentru

implementarea algoritmului RLS se utilizează semnalul de eroare

e n d n y n împreună cu semnalul de intrare u n , condiţiile iniţiale fiind

1 şi 0,001 w 0 . Rezultatele au fost obţinute prin metoda Monte-Carlo în

urma a 100 de realizări pentru factorii de canal 2,9W şi 3,5W respectiv de

„uitare” 1 şi 0,8 . Rezultatele sunt prezentate în Figura 10.3.

Efectul împrăştierii valorilor proprii. Curbele de învăţare ale erorii pătratice medii ale

algoritmului RLS pentru 2,9W şi 3,5W împreună cu valorile minime ale erorii

pătratice medii sunt prezentate în Figura 10.3 (a). Se observă că rata de convergenţă a EPM

a algoritmului RLS, spre deosebire de algoritmul LMS, nu depinde de valoarea parametrului

W (sau, în mod echivalent de gradul de împrăştiere a valorilor proprii R ). Pe de altă

parte, nivelul de regim permanent al EPM creşte odată cu creşterea lui R .

Efectul factorului de uitare λ. Figura 10.3 (b) prezintă curbele de învăţare ale EPM

obţinute pentru algoritmul RLS în condiţiile utilizării a două valori diferite pentru λ, 1 şi 0,8.

Pentru 1 , după cum s-a explicat anterior, algoritmul are memorie infinită iar eroarea

EPM este nulă, lucru care este certificat şi de grafic. În cazul 0,8 memoria este finită,

ceea ce conduce la apariţia unei erori suplimentare, fapt relevat de graficul corespunzător.

Să ne referim la alegerea în practică a lui λ. Deşi λ poate lua orice valoare în intervalul

0 1 , pentru că λ influenţează mărimea memoriei efective a algoritmului, se va alege

pentru λ o valoare apropiată de 1. Această valoare este determinată de numărul parametrilor

care trebuie determinaţi şi de mărimea dorită a memoriei efective. Valori tipice pentru λ sunt

cuprinse între 0,99 şi 1.

Figura 10.3 Graficele de analiză a performanţelor algoritmului RLS în problema de egalizare

adaptivă.


Compararea performanţelor algoritmilor RLS şi LMS. Pentru a face diferenţa între

ratele de convergenţă ale celor doi algoritmi, în Figura 10.3 (b) sunt reprezentate curbele lor

de învăţare în condiţii comparabile, adică pentru valori egale ale EPM de regim staţionar.

Este evident că RLS are performanţe mai bune, dar acestea sunt obţinute printr-o creştere

semnificativă a efortului de calcul.

10.4 Algoritmi RLS cu factorizare QR

Algoritmii RLS bazaţi pe descompunerea QR a matricii de date au o serie de avantaje care îi

recomandă atât în filtrarea FIR adaptivă cît şi în prelucrarea adaptivă a semnalelor într-un

combinator linear. Avantajele sunt:

1. algoritmii QR-RLS sunt echivalent algebric cu algoritmul RLS standard.

2. algoritmii au proprietăţi numerice mai bune decât algoritmul standard.

3. algoritmii sunt modulari şi pot fi implementaţi prin structuri de calcul paralel.

În funcţie de aplicaţia implementată, se utilizează algoritmul QR-RLS cu rotaţii Givens

în situaţiile în care este nevoie numai de secvenţele de eroare apriori e n sau aposteriori

n . Atunci când sunt necesare şi valorile coeficienţilor filtrului adaptiv nw , se preferă

utilizarea algoritmului QR-RLS invers bazat pe rotaţii Givens.

10.4.1 Calcule LS prin descompunere Cholesky sau

QR

Începem prin a reformula problema filtrării celor mai mici pătrate ponderate exponenţial în

termeni de matrici de date, după cum s-a discutat în paragraful 9.1. Dacă nw este vectorul

coeficienţilor filtrului LS la momentul de timp n, se poate scrie

, 0Hj d j n j j n w u (10.58)

unde 1 2

T

Mj u j u j u j u (10.59)

în cazul în care se utilizează un combinator linear şi

1 1T

j u j u j u j M u (10.60)

dacă se face filtrare FIR. Trebuie subliniat că nw este menţinut constant pe intervalul de

optimizare 0 j n . Utilizând matricea de dimensiune 1n M

1 1 1

2 2 2

0 1

0 10 1

0 1

H

M M M

u u u n

u u u nn M

u u u n

A u u u , (10.61)

vectorul de răspuns dorit de dimensiune 1 1n

10.4 Algoritmi RLS cu factorizare QR 311

0 1H

n d d d n d (10.62)

şi vectorul de eroare aposteriori de dimensiune 1 1n

0 1H

n n ε (10.63)

putem combina cele 1n ecuaţii (10.58) într-o singură ecuaţie matricială, astfel

n n n n ε d A w (10.64)

Pentru a exprima eroarea pătratică totală din (10.1) şi ecuaţiile normale din (10.2) într-un

format adecvat aplicării tehnicilor de factorizare ortogonală din paragraful 9.3, definim

matricea 1 1n n de ponderare exponenţială

2 1diag , , ,1n nn Λ (10.65)

În aceste condiţii, energia totală a erorii se exprimă astfel

2 2

0

nn j

j

E n j n n

Λ ε (10.66)

iar coeficienţii filtrului LS reprezintă soluţia ecuaţiilor normale

ˆ ˆn n nR w p (10.67)

unde 0

ˆn

Hn j H

j

n j j n n n n

R u u Λ A Λ A (10.68)

iar *

0

ˆn

Hn j

j

n j d j n n n n

d u Λ A Λ d (10.69)

se exprimă drept funcţii de matricea de date ponderată n nΛ A şi vectorul de răspuns

dorit ponderat n nΛ d .

În Capitolul 4 este prezentată o modalitate de rezolvare a ecuaţiile normale (10.66) prin

utilizarea descompunerii Cholesky

ˆ Hn n nR L L (10.70)

sau a descompunerii H

LDL

ˆ Hn n n nR L D L (10.71)

unde 1 2n n nL D L .

Matricea Cholesky nL poate fi calculată atât din matricea ˆ nR utilizând algoritmul

de descompunere triunghiulară (vezi paragraful 4.5) sau din matricea de date n nΛ A

utilizând una dintre metodele de descompunere (Givens, Householder sau MGS) discutate

în Capitolul 9.


Vom presupune acum că descompunerea QR1 este

n

n n n

RQ Λ A

0 (10.72)

unde nR este o matrice superior triunghiulară cu elemente diagonale pozitive iar nQ

este o matrice unitară. Din ecuaţiile (10.68) şi (10.72) se poate scrie:

ˆ Hn n nR R R (10.73)

ceea ce implică, datorită unicităţii factorizării Choleski, faptul că Hn nL R . Deşi cele

două abordări sunt echivalente din punct de vedere algebric metodele de descompunere QR

au proprietăţi numerice superioare pentru că ele evită operaţia de ridicare la pătrat din

(10.68). Având în vedere că matricea nR poate fi privită drept rădăcină pătrată a matricii

de corelaţie ˆ nR , algoritmii bazaţi pe descompunerea Choleski a acesteia sunt denumiţi

algoritmi de rădacină pătrată.

Fiind dat factorul Cholesky nR , vom rezolva pentru început sistemul de ecuaţii

inferior triunghiular

ˆH n n nR k p (10.74)

pentru a obţine vectorul de corelaţie parţială nk prin eliminare directă. În cazul

descompunerii QR vectorul nk este obţinut prin transformarea vectorului n nΛ d şi

reţinerea primelor sale M componente, adică

2

nn n n n

n

kQ Λ d z

z (10.75)

unde Mn n k z (vezi ecuaţia (9.62) din paragraful 9.3.1). Expresia energiei minime a

erorii în sens LS dată de

22

ˆ H

dE n E n n n n n p w d k (10.76)

a fost de asemenea demonstrată în paragraful 9.3.1.

Pentru a calcula coeficienţii filtrului, trebuie rezolvat prin eliminare înapoi sistemul de

ecuaţii superior triunghiular

n n nR w k (10.77)

După cum s-a arătat în paragraful 9.3.1, soluţia ecuaţiei (10.77) nu este recursivă după

ordinul filtrului.

1 Spre deosebire de Capitolul 9 unde pentru descompunerea QR s-a scris

H Q A R , în acest capitol

vom utiliza notaţia utilizată în literatura tehnică, nu matematică: H Q A R .


În cazul aplicaţiilor care necesită doar valorile erorilor apriori şi aposteriori, rezolvarea

ecuaţiei (10.77) poate fi evitată. Într-adevăr, dacă se defineşte vectorul de inovaţie2 LS nw

prin relaţia

H n n nR w u (10.78)

se obţine H Hn d n n n d n n n w u k w (10.79)

şi 1 1H He n d n n n d n n n w u k w , (10.80)

ecuaţii care pot fi folosite pentru a calcula erorile fără a se cunoaşte vectorul coeficienţilor

nw . Mai mult, întrucât ambele sisteme de ecuaţii (10.74) şi (10.78) sunt inferior triun-

ghiulare, determinarea erorilor n şi e n se face recursiv după ordinul filtrului de la 1 la

M.

Din discuţia efectuată în paragraful 10.1 a rezultat că partea centrală a algoritmului RLS

este reprezentată de calculul vectorului de câştig

ˆ n n nR g u (10.81)

sau, al vectorului de câştig alternativ ˆ 1n n n R g u . Utilizând ecuaţiile (10.73),

(10.78) şi (10.81), se obţine

n n nR g w (10.82)

Ultima ecuaţie exprimă vectorul de câştig prin intermediul matricii Cholesky nR şi al

vectorului de inovaţie nw . Similar cu relaţia (10.77), ecuaţia (10.82) pierde avantajul de a

putea fi rezolvată prin eliminare înainte, deci nu este recursivă după ordinul filtrului.

În concluzie, dacă pentru matricea Cholesky a lui ˆ nR sau a lui 1ˆ nR ar putea fi

găsită o relaţie de recursie, atunci s-ar putea dezvolta algoritmi exacţi RLS care să furnizeze

atât valorile erorilor de filtrare şi vectorul coeficienţilor sau numai erorile de filtrare.

Relaţiile importante pentru dezvoltarea acestor algoritmi sunt rezumate în Tabelul 10.3.

Vom sublinia că dacă metoda de descompunere Cholesky determină factorii nR şi nk

prin factorizarea matricii 2H

n n n n n A d Λ A d , atunci metodele de

descompunere QR factorizează matricea de date n n n Λ A d . Indiferent de metoda

de factorizare utilizată, algoritmii cu descompunere triunghiulară calculează prin recursie

matricile rădăcini pătrate nR şi 1 nR , ceea ce asigură că matricile

ˆ Hn n nR R R şi 1 1ˆ Hn n n R R R sunt în mod garantat hermitice şi îşi

păstrează astfel caracterul pozitiv definit. În consecinţă, aceşti algoritmi au proprietăţi mai

bune decât algoritmul RLS standard.

2 O explicaţie completă a noţiunii de inovaţie în contextul filtrării adaptive este dată în Capitolul 11.


10.4.2 Leme de factorizare matricială

Deducerea variantelor QR ale algoritmului RLS se bazează pe două rezultate matriciale

foarte utile şi care îşi găsesc aplicaţiile atât în algoritmii QR-RLS cât şi în alţi algoritmi de

acest gen (Manolakis, ş.a. 2005, Sayed şi Kailath 1998). Din acest motiv, nu ne vom rezuma

la enunţarea lemelor ci vom face şi demonstrarea lor succintă. Prima lemă pe care o prezen-

tăm rezultă din echivalenţa algebrică care există între metodele de factorizare Cholesky şi

QR.

Lema 10.1 Descompunerea QR a matricii de date n nΛ A de dimensiune

1n M este echivalentă cu factorizarea QR a matricii de dimensiune

1M M

1H

n

n

R

u (10.83)

Demonstraţie Considerăm următoarea partiţie a matricii n nΛ A

1 1H

n nn n

n

Λ AΛ A

u (10.84)

şi definim o matrice 1

11H

nn

Q 0Q

0 (10.85)

pentru a obţine, prin utilizarea relaţiei (10.72):

1

1H

n

n n n

n

R

Q Λ A 0

u

(10.86)

Dacă se poate construi o matrice ˆ nQ care să realizeze factorizarea QR a

membrului drept al ecuaţiei (10.86), atunci matricea unitară nQ

ˆ 1n n Q Q realizează descompunerea QR a lui n nΛ A . Întrucât blocul

Recursie erori şi coeficienţi Recursie numai pentru erori

H n n nR w u ˆH n n nR k p

n n nR g w H n n nR w u

1He n n n n d w u 1e n d n n n k w

*1n n n e n w w g

Tabelul 10.3 Algoritmii RLS cu descompunere triunghiulară realizează sau

recursia erorii şi a vectorului coeficienţilor sau numai recursia

directă a erorii.


de zerouri din (10.86) nu are vreun efect asupra asupra construcţiei matricii

ˆ nQ , construcţia lui ˆ nQ este echivalentă cu găsirea unei matrici unitare

care să realizeze factorizarea QR a matricii din (10.83).

Cea de a doua lemă este cunoscută sub numele de lema de factorizare matricială

(Golub şi Van_Loan 1996, Sayed şi Kailath 1998). Lema este un mijloc elegant de imple-

mentare a algoritmilor QR-RLS.

Lema 10.2 Dacă X şi Y sunt două matrici N M N M , atunci

H HX X Y Y (10.87)

dacă şi numai dacă există o matrice unitară Q ( H Q Q I ) de dimensiune

N N , care să realizeze transformarea

QX Y (10.88)

Demonstraţie Din (10.88) avem H H H H Y Y X Q QX X X , ceea ce

demonstrează condiţia necesară din relaţia (10.87). Pentru a justifica suficien-

ţa, facem apel la descompunerea în valori singulare (SVD) a matricilor X şi

Y :

,H H X X X Y Y YX U Σ V Y U Σ V (10.89)

unde XU şi

YU sunt matrici unitare de dimensiune N N , XV şi

YV matrici

unitare M M iar XΣ şi

YΣ sunt matrici N M ce constau din valorile

singulare nenegative ale lui X şi Y . Utilizând (10.87) împreună cu (10.89),

se obţine:

şi X Y X YV V Σ Σ (10.90)

Pentru a demonstra suficienţa lemei, definim matricea

H

Y XQ U U (10.91)

şi utilizăm relaţiile din (10.90) pentru a obţine

. q.e.d.H H H Y X X X X Y Y YQX U U U Σ V U Σ V Y

10.4.3 Algoritmul QR-RLS

Vom stabili, în cele ce urmează, modalitatea de actualizare a factorilor nR şi nk , a

matricii de date extinse n n n Λ A d , iar apoi vom calcula erorile apriori e n sau

aposteriori n . Constatările la care vom ajunge sunt independente de metoda pe care o

vom utiliza la construcţia matricii de ortogonalizare nQ .

Vom presupune că la momentul n sunt cunoscute vechile valori ale factorilor 1n R

şi 1n k şi sunt recepţionate noile date ,n d n u . Ceea ce se doreşte este să se

determine factorii noi nR şi nk , fără să se reia la fiecare iteraţie toate calculele deja


efectuate. În acest scop, vom arăta că dacă există o matrice unitară nQ care să anuleze

vectorul H nu din ultima linie a matricii din membrul stâng al relaţiei

**

1 1

1HH

n n nn nn

e n nn d n

R k wR k 0Q

0u (10.92)

atunci matricea din membrul drept al relaţiei furnizează actualizările factorilor nR şi

nk precum şi valoarea nouă a erorii. Scalarul n are o valoare reală pentru că este egal

cu ultimul element diagonal al lui nQ . Semnificaţia şi utilitatea lui n şi nw vor fi

explicate în continuare.

Pentru a aplica Lema 10.2 matricilor

**

1 1 şi

1HH

n n nn n

e n nn d n

R k wR k 0X Y

0u

vom face verificarea3

11 11

1 1H H H H Hn n n n n n Y Y R R R R u u X X (10.93)

*

12 121 1H H H H Hn n n n n d n Y Y R k R k u X X (10.94)

13 13

H H Hn n n Y Y R w u X X (10.95)

23 23

H H Hn n e n n d n Y Y k w X X (10.96)

2

33 331H H Hn n n Y Y w w X X (10.97)

În primul rând, trebuie observat că (10.93) este identic cu ecuaţia de recursie (10.7) a

matricii de corelaţie. Prin urmare, nR este factorul Cholesky al lui ˆ nR . De asemenea,

(10.94) este identic, datorită lui (10.74), cu relaţia de recursie a vectorului de intercorelaţie

ˆ np , iar (10.95) este identic cu definiţia din (10.78) a vectorului de inovaţie. Pentru a

dezvălui semnificaţia fizică a mărimilor e n şi n , vom remarca că prin compararea

relaţiilor (10.96) şi (10.79) se obţine

n e n n (10.98)

ceea ce arată că e n este o versiune scalată a erorii aposteriori. Pornind de la (10.97) şi

utilizând (10.77), (10.73) şi (10.21), obţinem

2 1ˆ1 1H Hn n n n n n n w w u R u (10.99)

sau n n (10.100)

3

ijdenotă elementul ij al unei matrici bloc.


ceea ce arată că n este un factor de conversie normalizat. Pentru că

2n n e n n e n (10.101)

din relaţia (10.98) se obţine

e n e n n (10.102)

Prin urmare e n este media geometrică a erorilor LS apriori şi aposteriori. În plus, (10.98)

şi (10.101) dau

e ne n

n (10.103)

o relaţie care poate fi de asemenea demonstrată direct din ecuaţia (10.92).

În concluzie, pentru a determina recursiile factorilor Cholesky nR şi nk şi eroarea

apriori e n este nevoie să se determine o matrice unitară nQ care să anuleze vectorul

H nu în relaţia (10.92). Construcţia matricii nQ este prezentată în paragraful 10.4.6.

10.4.4 Algoritmul QR-RLS extins

Algoritmul introdus în paragraful precedent nu furnizează vectorul coeficienţilor, care se

poate obţine în urma rezolvării prin substituţie a sistemului de ecuaţii superior triunghiular

n n nR w k . Substituţia în ordine inversă nu este recursivă după ordinul coeficienţi-

lor şi nu poate fi implementată printr-o structură de calcul paralel. Se poate alege o abordare

alternativă prin adăugarea a încă unei coloane la matricile algoritmului QR-RLS din (10.92).

Vom justifica algoritmul extins pe un model simplificat alcătuit din prima coloană a matricii

din (10.92) şi coloana cea „nouă”:

1 1H

H HH H

n nn nn

nn

R DR RQ

0 gu 0 (10.104)

unde nD şi ng vor trebui determinaţi. În conformitate cu Lema 10.2 obţinem:

12 12

H H Hn n Y Y R D I X X (10.105)

ceea ce are drept rezultat că Hn nD R este factorul Cholesky al lui 1ˆ nR şi poate fi

actualizat prin aceiaşi transformare ortogonală nQ . În plus, avem

1 1

22 22

1H H H H Hn n n n n n

Y Y R R g g R R X X (10.106)

Dacă în ultima ecuaţie utilizăm relaţia (10.73) rezultă

1 1ˆ 1 Hn n n n n

R P P g g


Comparaţia ultimei ecuaţii cu (10.32) dă

n nn

nn

g gg (10.107)

Prin urmare, vom spune că ng este versiunea scalată a vectorului de câştig RLS. Ecuaţia

de recursie în timp pentru calculul vectorului coeficienţilor se poate scrie, înlocuind

rezultatul găsit în (10.13):

*1n n n e n w w g (10.108)

Metoda de recursie a vectorului nw prezentată mai sus poartă numele de algoritmul

RLS extins (Sayed şi Kailath 1994, Yang şi Böhme 1992). Acest algoritm nu este larg utili-

zat pentru că recursia simultană a matricilor şi Hn nR R poate conduce la probleme

numerice, în special în implementările de precizie finită. Această problemă este evitată de

algoritmul QR-RLS invers ce este discutat în continuare.

10.4.5 Algoritmul QR-RLS invers

Introducerea algoritmului invers porneşte ca şi în situaţiile prezentate în paragrafele 10.4.3 şi

10.4.4 de la Lema 10.2. Pentru a aplica lema, se exprimă matricial unele dintre ecuaţiile ce

definesc filtrarea adaptivă LS din paragraful 10.1. Începem prin a face apel la (10.22) pentru

a rescrie ecuaţia (10.19):

1 11 1H n n n

n u P u (10.109)

Din relaţiile (10.17), (10.20) şi (10.22) se scrie

11

nn n

n

gP u (10.110)

iar ecuaţia de recursie (10.32) dă:

11

Hn nn n

n n

g gP P (10.111)

A patra ecuaţie utilizată este factorizarea Cholesky a inversei matricii de corelaţie nP :

1 1ˆ Hn n n n P R R R (10.112)

Cele patru ecuaţii pot fi rescrise grupat sub forma identităţii matriciale


1

1

1

11 1 1 1

1 1

11 1

1

1

H

H H

H

HH

H

n nn n n

n

nn

nn

n n nn

u RR u R

R 0 0

0 0 R

gg

R

(10.113)

unde 1 nR este o matrice superior triunghiulară. Din (10.113) şi Lema 10.2 rezultă că

există o matrice unitară nQ astfel încât egalitatea de mai jos să fie satisfăcută.

1 11 1

1

1

H

H H

H

H

nn n n

nn

n n

0 RR u R

gQ

0

(10.114)

Se demonstrează astfel că, prin anularea lui 1H n n n R u w , se

realizează actualizarea factorului Cholesky H nR , a vectorului de câştig normalizat

n ng şi a factorului de conversie n . Ca şi în cazul celorlalţi algoritmi QR,

singura cerinţă pe care trebuie să o îndeplinească matricea nQ este să anuleze vectorul

linie 1 1H n n u R . Acest algoritm ca şi algoritmul RLS standard se iniţializează

prin impunerea condiţiei 1H R 1 I , unde este un număr pozitiv foarte mic.

10.4.6 Implementarea algoritmului QR-RLS prin

utilizarea rotaţiilor Givens

Pentru a dezvolta un algoritm RLS bazat pe descompunerea QR, este nevoie să construim

matricea nQ care să anuleze vectorul H nu din membrul drept al ecuaţiei (10.92).

Întrucât calculul vectorului nw nu este necesar în dezvoltarea algoritmului iar n

poate fi calculat din matricea nQ , după cum vom vedea mai târziu, pentru deducerea

algoritmului vom utiliza o formă redusă a ecuaţiei (10.92)

1 1

**

n nn nn

HH e nn d n

n

R kR kQ

0u

R

(10.115)


şi vom arăta cum pot fi anulate elementele lui H nu unu câte unu, utilizând o secvenţă de

M rotaţii Givens. Să reamintim aici că matricea 1n R este superior triunghiulară. În

primul pas se construieşte matricea de rotaţie Givens 1nG care operează asupra primei şi

ultimei linii a lui nR în scopul anulării primului element al lui H nu . Pentru a stabili

parametrii rotaţiei 1c şi

1s se utilizează primul element din prima linie şi primul element din

ultima linie a matricii, iar apoi se aplică rotaţia restului de M perechi de pe cele două linii.

Mai exact, dorim să găsim o rotaţie Givens care să realizeze operaţia:

*

1 1 11 12 1 1

* * * *

1 1 1 2

11 12 1 1

2 2 2

2

1 1 1 1

1 1 1 1

0

H

M

H

M

M

M

c s r n r n r n k n

s c u n u n u n d n

r n r n r n k n

u n u n d n

0

0 I 0 0

0

0

Elementele matricii 1n R sunt 1ijr n . Pentru a asigura compatibilitatea notaţiilor,

vom defini 1

k ku n u n şi 1d n d n .

În continuare, utilizând termenii 22 1r n şi 2

2u n , se determină matricea

2nG şi se anulează cel de al doilea element de pe ultima linie prin rotaţiile a 1M

perechi de termeni de pe a doua linie şi de pe ultima linie a matricii 2n nG R .

Generalizând acum, se utilizează termenii 1iir n şi i

iu n pentru a stabili matri-

cea de rotaţie Givens inG care operează asupra liniei i şi a ultimei linii a matricii rotite

1 1in n n

G G R în scopul anulării elementului i

iu n :

*

, 1

1 1 1

1

0 0 1 1 1

0 0

0 0

0 0 0

Hii iM ii i

H i i ii i i M

ii i i iM i

i i i

i M

r n r n k nc s

s c u n u n d n

r n r n r n k n

u n u n d n

0

0 (10.116)

unde

1i

ii i

i i

ii ii

r n u nc s

r n r n

(10.117)

şi 1 2

22 1

i

ii ii ir n r n u n (10.118)


În concluzie, dacă cele 1M i perechi de rotaţii elementare din (10.116) sunt realiza-

te pentru 1,2, ,i M se realizează anularea primelor M elemente de pe ultima linie a

matricii nR , aceasta fiind convertită în forma triunghiulară din relaţia (10.115). Acest

proces necesită un număr total de 1 2M M perechi de rotaţii elementare. Matricea de

ortogonalizare este:

2 1Mn n n nQ G G G (10.119)

unde

*

1

1

1

1

i ii

i i

c n s nn

s n c n

G (10.120)

sunt matricile de rotaţie de dimensiune 1 1M M ce au toate elementele diagonale

nule, cu excepţia celor plasate în locaţiile , 1i M şi 1,M i .

Relaţia (10.92) evidenţiază faptul că n este egal cu ultimul element de pe diagonala

matricii nQ . În plus, dacă luăm în considerare structura specială a lui inG precum şi

relaţia (10.119), obţinem:

1

M

i

i

n c n

(10.121)

adică, n este produsul termenilor cosinus din cele M rotaţii Givens. Ultima observaţie

explică interpretarea de variabile unghiulare care se dă factorilor de conversie n şi

2n n .

Chiar dacă soluţia unei probleme LS nu este definită atunci când n M , algoritmul de

rotaţie Givens se poate iniţializa cu 1 şi 1 0 R 0 k . Tabelul 10.4 prezintă

algoritmul QR-RLS cu rotaţii Givens. Pentru fiecare iteraţie, algoritmul operează 22M

multiplicări, 2M divizări şi M rădăcini pătrate.

Algoritmul din Tabelul 10.4 poate fi implementat printr-o structură de calcul paralel

care utilizează o reţea triunghiulară de procesoare după cum ilustrează Figura 10.4 pentru

3M . Întreaga reţea funcţionează cu un tact unic, ccea ce face ca în reţea să se producă

transferul de date în mod regulat. Datorită gradului ridicat de paralelism, se pot realiza viteze

foarte mari de prelucrare a datelor. Modul de funcţionare regulat şi paralel a făcut ca aceste


structuri specializate de prelucrare digitală să primească numele de structuri (sau reţele)

sistolice (Ciochină şi Negrescu 1999).

Pentru a descrie funcţionarea structurii din Figura 10.4, vom remarca că la momentul de

timp 1n , termenii matricii 1n R şi ale vectorului 1n k sunt memoraţi în

elementele reţelei. Cele mai noi date de intrare achiziţionate la momentul n,

*H n d n u sunt introduse în paralel prin partea superioară a reţelei şi se propagă

descendent. Parametrii de rotaţie Givens sunt calculaţi în celulele marginale şi se propagă de

la stânga spre dreapta. Celulele interne primesc parametrii de rotaţie din stânga, realizează

rotaţia datelor pe care le primesc de sus şi transmit rezultatele rotaţiei celulelor vecine situate

la dreapta respectiv sub celula considerată. Factorul de conversie n este calculat în celu-

lele marginale iar valoarea erorii apriori sau aposteriori se calculează în ultima celulă a

reţelei. Această procedură de recursie este repetată la fiecare moment de timp odată cu

achiziţionarea noului pachet de date.

1. Iniţializare: 1 0, 1 0, , 1, ,ij ir k i j M

2. Recursie temporală: n = 0,1,....

, 1e n d n n

For 1,2, ,i M

1 2

22 1

i

ii ii ir n r n u n

1i

ii i

i i

ii ii

r n u nc s

r n r n

(dacă 0 1 şi 0iir n c s )

For 1, 2, ,j i i M

1j iju cu n sr n

*1ij ij jr n cr n s u n

ju n u

next j

1ie ce n sk n

*1i ik n ck n s e n

,e n e n c n

next i

sau e n

n e n n e nn

Tabelul 10.4 Algoritmul QR-RLS bazat pe rotaţii Givens


Este evident că reţeaua de procesare din Figura 10.4 realizează două funcţii distincte: pe

de o parte în reţea sunt propagate matricea nR şi vectorul nk care definesc procesorul

LS în reţea iar, pe de altă parte ea realizează, într-un mod nu foarte evident, operaţia de

filtrare, furnizând la ieşire eroarea e n sau n . Figura 10.4 furnizează o descriere

funcţională numai a elementelor de prelucrare numerică a reţelei. În practică, există imple-

mentări diverse ale algoritmilor LS care utilizează reţele sistolice, reţele de undă sau proce-

soare CORDIC. Structura sistolică a fost propusă în 1983 de McWhirter (Haykin 1996,

McWhirter şi Proudler 1993).

10.4.7 Implementarea algoritmului QR-RLS invers

prin utilizarea rotaţiilor Givens

Punctul de pornire a implementării este ecuaţia de factorizare QR (10.114) din paragraful

10.4.5. Aici, definim vectorul

Figura 10.4 Implementarea printr-o reţea de calcul sistolic a algo-

ritmului QR-RLS şi descrierea funcţională a elemente-

lor sale componente.


1

1Hn n n

w R u (10.122)

şi scalarul

2 1ˆ 1 Hn n n

n

w w (10.123)

pentru a rescrie ecuaţia (10.114) astfel

11

1

H H

H

H

n n nn

n n

w R 0 RQ

g0

(10.124)

unde ng este vectorul de câştig normalizat (10.107). Matricea nQ este aleasă ca o

secvenţă de matrici de rotaţie inG definite prin (10.120).

Vom arăta pentru început că parametrii unghiulari şi i ic n s n ai lui inG pot fi

determinaţi utilizând numai elementele vectorului nw . În acest scop, se aleg astfel

parametrii unghiulari ai matricii de rotaţie 1nG încât să se anuleze primul element

1w n din ecuaţia

1

22

1

1

0

ˆ1

MM

w n

w nw n

n

w nw n

n

G (10.125)

Trebuie remarcat că, datorită structurii lui 1nG , restul elementelor vectorului nw nu

sunt afectate de această rotaţie. După cum s-a arătat în Capitolele 3 şi 9, o transformare

unitară nu modifică norma euclideană a unui vector, astfel că:

22

1 1ˆ 1n w n

exprimă pe 1ˆ n în funcţie de 1w n . Pentru a calcula parametrii rotaţiei se utilizează

prima şi ultima ecuaţie din relaţia (10.125):

*

1 1 1

1 1 1 1

0

ˆ

c n w n s n

s n w n c n n

Soluţia sistemului:

*

1

1 1

1 1

1,

ˆ ˆ

w nc n s n

n n


furnizează parametrii primei matrici de rotaţie 1nG . Similar, poate fi determinată rotaţia

2nG care urmăreşte să anuleze elementul 2w n al vectorului din membrul drept al

ecuaţiei (10.125). Parametrii rotaţiei sunt acum

*

2

2 2

2 2

1,

ˆ ˆ

w nc n s n

n n

unde 2 2 22 2

2 1 2 1 2ˆ ˆ1n w n w n n w n

reprezintă formula de calcul recursiv al lui ˆi n . Restul elementelor vectorului nw se

pot anula, dacă se continuă similar procedura descrisă. În general, pentru 1,2, ,i M se

calculează:

1 222

1 0

*

1

ˆ ˆ ˆ, 1

ˆ,

ˆ ˆ

i i i

i i

i i

i i

n w n n

n w nc n s n

n n

(10.126)

şi ˆ ˆMn n .

Vom nota elementele matricii H nR prin ijp n iar prin

i

jg n elementele vecto-

rului H ng după rotaţia i. Prima rotaţie actualizează primul element al matricii

1H n R şi modifică primul element al lui H ng . În consecinţă, din

11

1

1

1

0 011

0 0

H

H

p nn

n

g n

RG

0

(10.127)

se obţine 11 1 11

11p n c n p n

1

1 1 11

11g n s n p n

Multiplicarea lui (10.127) cu 2

nG actualizează cea de a doua linie a matricii

1H n R şi modifică primele două elemente ale lui H ng . În general, rotaţia i

actualizează linia i a lui 1H n R şi modifică primele i elemente ale lui H ng

conform formulelor:

1*11

i

ij i ij i jp n c n p n s n g n

(10.128)


1 1

1i i

j i j i ijg n c n g n s n p n

(10.129)

pentru 1 şi 1i M j i . Aceste recursii se iniţializează cu 0,i

jg n 1 j M şi

furnizează mărimile calculate după M rotaţii. Algoritmul invers QR-RLS este rezumat în

Tabelul 10.5, o implementare a sa într-o reţea de calcul sistolic fiind prezentată în Pan şi

Plemmons (1989).

3. Iniţializare: 1 1 , 1 1ijp w u 0

4. Recursie temporală: n = 0,1,....

0

1

0, 1 ,

ˆ 1

H

i

j

e n d n n n

g n j M i j

n

w u

For 1,2, ,i M

1

1 222

1

*

1

11

ˆ ˆ

ˆ,

ˆ ˆ

i

i ij i

j

i i i

i i

i i

i i

w n p n u n

n w n

n w nc n s n

n n

For 1,2, ,j i

1*

1

11

11

i

ij i ij i j

i i

j i j i ij

p n c n p n s n g n

g n c n g n s n p n

next j

next i

ˆ

M

e ne n

n

For 1,2, ,m M

* *1i

m m jw n w n g n e n

next m

Tabelul 10.5 Algoritmul QR-RLS invers cu rotaţii Givens.

10.5 Clasificarea algoritmilor RLS 327

10.5 Clasificarea algoritmilor RLS

Dacă algoritmul RLS standard furnizează baza pentru introducerea şi evaluarea performan-

ţelor metodei adaptive LS ce se utilizează atât în filtrele adaptive FIR cât şi în combinatoare

lineare, algoritmii QR-RLS bazaţi pe rotaţii Givens constituie cea mai bună implementare a

algoritmului atât din punctul de vedere a comportării numerice cât şi a uşurinţei implemen-

tării în structuri de tip hardware. Pe lângă algoritmii prezentaţi în acest Capitol, mai sunt

mulţi alţi algoritmi care au interpretări teoretice interesante sau satisfac, în cele mai bune

condiţii, necesităţile unor aplicaţii particulare (Manolakis, ş.a. 2005). Algoritmii RLS pot fi

clasificaţi în trei categorii distincte:

1. Algoritmul RLS standard. Algoritmul calculează prin recursie inversa matricii de

corelaţie 1ˆn nP R , după care se calculează vectorul de câştig prin înmulţirea

unei matrici cu un vector. Algoritmul nu permite recursia după ordinul filtrului

adaptiv, acesta fiind fix.

2. Algoritmi de rădăcină pătrată în domeniul putere ce calculează prin recursie ori

nR ori inversa sa 1n nP R , utilizând formule obţinute din descompunerea

Choleski a lui ˆ nR sau a inversei acesteia nP . Din această categorie pot fi

separate două tipuri distincte:

a. Algoritmi ce calculează prin recursie ,n nR k (abordare cu filtrare de

informaţie) sau 1 ,n nR k (abordare cu filtrare de covarianţă4) şi

furnizează numai erorile apriori sau aposteriori.

b. Algoritmi ce calculează prin recursie nR şi calculează pe ng prin

rezolvarea ecuaţiei (10.82) sau fac recursia lui 1 nR şi calculează pe

ng prin înmulţirea unei matrici cu un vector. Ambii algoritmi calculează

vectorul coeficienţilor nw şi erorile şi e n n .

3. Algoritmi de rădăcină pătrată în domeniul amplitudine ce calculează prin recursie

ori matricea nR (algoritmul QR-RLS) sau inversa sa 1n nP R (algoritmul

QR-RLS invers) prin acţiune directă asupra matricii de date n n n Λ A d .

În ambele cazuri, pot fi dezvoltaţi algoritmi care să furnizeze numai erorile

şi e n n sau atât erorile cât şi vectorul coeficienţilor nw .

Algoritmii care calculează recursiv factorul Choleski nR evită problemele provocate

de pierderea simetriei care apar în cazul recursiei lui ˆ nR şi au proprietăţi numerice mai

bune pentru că numărul de condiţionare a lui nR este egal cu rădăcina pătrată a număru-

4 Termenii algoritmi cu filtrare de informaţie sau covarianţă sunt utilizaţi în contextul teoriei

filtrului Kalman (Kailath 1981). Vezi şi Capitolul 11.


lui de condiţionare a matricii ˆ nR . În această carte am prezentat algoritmii RLS bazaţi pe

descompunerea QR prin rotaţii Givens ale setului de date n n n Λ A d pentru că

această factorizare are proprietăţi numerice superioare în raport cu celelalte metode de facto-

rizare Cholesky. În literatură se cunosc alţi algoritmi RLS ce se bazează pe descompunerea

QR prin transformări MGS sau Householder (Ling, ş.a. 1986, Liu, ş.a. 1992) dar aceştia nu

sunt utilizaţi pe scară largă.

O idee general acceptată este că descompunerea QR conduce la cele mai bune metode

de rezolvare a problemei celor mai mici pătrate (Golub şi Van_Loan 1996). S-a arătat prin

simulare că algoritmul QR-RLS cu rotaţii Givens este stabil numeric pentru 1 şi diverge

pentru 1 (Haykin 1996). Acest algoritm este ideal pentru aplicaţiile care necesită doar

erorile apriori sau aposteriori. Dacă sunt necesari şi coeficienţii filtrului adaptiv, o posibilă

soluţie ar putea fi reprezentată de algoritmul QR-RLS extins. Acesta calculează prin recursie

simultan atât pe nR cât şi pe H nR independent unul de celălalt, ceea ce face ca în

implementările de precizie finită valorile calculate ale lui nR şi H nR să devieze una

faţă de inversa hermitică a celeilalte. Urmarea acestei inconsistenţe numerice este că algorit-

mul devine numeric instabil (Haykin 1996). Pentru a evita această problemă, se poate face

apel sau la algoritmul QR-RLS cu substituţie în ordine inversă sau algoritmul QR-RLS

invers (Pan şi Plemmons 1989). Recursia lui nw cu acest din urmă algoritm poate fi

implementată într-o reţea sistolică fără să întrerupă procesul de adaptare.

Dacă se face factorizarea elementelor diagonale ale matricii nR obţinută prin

descompunere QR, aceasta se poate exprima astfel

1 2

1n n nR D R (10.130)

unde 1 nR este o matrice superior triunghiulară cu elemente diagonale unitare, iar

2 2 2

11 22diag , , , MMn r n r n r nD (10.131)

este o matrice diagonală cu elemente pozitive. Se poate vedea uşor că 1

H nR şi nD

constituie factorii descompunerii HLDL descrisă prin (10.71). Rezultă că ecuaţia (10.130)

constituie o bază pentru diverşi algoritmi RLS bazaţi pe factorizarea QR care nu necesită

operaţii de rădăcină pătrată. Într-o manieră similară, factorizarea HLDL face posibilă triun-

ghiularizarea lui nR fără extragerea rădăcinii pătrate. Totuşi, algoritmii care utilizează

factorizarea HLDL au proprietăţi numerice inferioare în raport cu algoritmii de rădăcină

pătrată echivalenţi şi sunt mult mai predispuşi la probleme de depăşire a capacităţii de repre-

zentare numerică, astfel încât sunt mai puţin utilizaţi decât algoritmii de rădăcină pătrată. Cu

toate acestea, algoritmii RLS fără extragere de rădăcină pătrată sunt foarte interesanţi din

punct de vedere a implementărilor VLSI (Hsieh, ş.a. 1993). O abordare unificată a diverşilor

algoritmi RLS utilizând o formulare în spaţiul stărilor şi corespondenţa lor cu algoritmii de

filtrare Kalman asociaţi se dă în Sayed şi Kailath (1998) şi în Haykin (1996).

SOLUŢII RECURSIVE ALE PROBLEMEI LS Probleme 329

Toţi algoritmii la care ne-am referit înainte sunt aplicabili, indiferent de tipul vectorilor

de intrare şi necesită un număr de 2O M operaţii aritmetice pentru fiecare recursie de

timp. Totuşi, dacă vectorul de date de intrare are o structură invariantă la deplasarea în timp,

toţi algoritmii conduc la versiuni simplificate care execută un număr de O M operaţii arit-

metice pe recursie. Aceşti algoritmi care pot fi utilizaţi în aplicaţii de filtrare şi predicţie LS

sunt discutaţi în Capitolul 12.

Probleme

P 10.1 Verificaţi valabilitatea lemei de inversare matricială.

P 10.2 Consideraţi că matricea de corelaţie ˆ nR este definită prin ecuaţia

ˆ Hn n n R I u u

unde nu este vectorul de date de intrare iar este o constantă pozitivă de

valoare mică. Să se calculeze 1ˆn nP R , utilizând lema de inversare

matricială.

P 10.3 Să considerăm definiţia (10.10) a erorii de estimare apriori:

1He n n n n d w u

unde nd este răspunsul dorit, nu este vectorul de date iar 1n w este

vechea estimare a vectorului coeficienţilor. Pe de altă parte, eroarea de estimare

aposteriori este definită de (10.15):

Hn d n n n w u

unde nw este estimarea curentă a vectorului coeficienţilor. Pentru semnale de

intrare având valori numere complexe, atât e n cât şi n au valori numere

complexe. În aceste condiţii, demonstraţi că produsul *e n n este întotdeauna

un număr real.

P 10.4 Demonstraţi ecuaţia (10.24) utilizând identitatea

1 2det det I AB I BA

unde matricile unitate 1I şi 2I şi matricile A şi B au dimensiuni compatibile.

Pentru demonstraţie se pune ecuaţia (10.7) sub forma 1 I AB .

P 10.5 Consideraţi problema de identificare de sistem în care sunt disponibile semnalul de

intrare u n şi ieşirea sistemului necunoscut afectată de zgomot

od n d n v n pentru 0 1n N . Funcţia de transfer a sistemului

necunoscut este


1 2

1 2

0,0675 0,1349 0,0675

1 1,1430 0,4128o

z zH z

z z

unde u n şi v n sunt semnale necorelate de zgomot alb de medie nulă şi

varianţe 2 1u respectiv 2 0,01v iar 300N .

(a) Modelaţi sistemul necunoscut utilizând un filtru LS cu 15M coeficienţi, prin

metoda „no windowing”. Calculaţi energia minimă de eroare LS LSE pe intervalul

0 1n n N pentru 0 20n .

(b) Repetaţi punctul (a) pentru 00 1n n , fără a calcula

LSE . Utilizaţi vectorul

0nw şi matricea 1

0 0ˆn nP R pentru a iniţializa algoritmul RLS standard.

Calculaţi erorile totale 0

1 2N

apr n nE e n

şi apostE

0

1 2N

n nn

, rulând

algoritmul RLS pentru 0 1n n N .

(c) Ordonaţi după mărime cantităţile , ,LS apr postE E E şi justificaţi rezultatul obţinut.

P 10.6 Deduceţi ecuaţiile normale ce corespund minimizării funcţiei de cost (10.37) şi

arătaţi că pentru 0 acestea se reduc la setul standard de ecuaţii normale

(10.2). Pentru situaţia descrisă în problema P 10.5, rulaţi algoritmul RLS standard

pentru diferite valori ale lui şi determină gama de valori care asigură

performanţe acceptabile.

P 10.7 Modificaţi algoritmul RLS standard din Tabelul 10.2 astfel încât filtrul adaptiv să

aibă coeficienţi simetrici, adică să satisfacă constrângerea de fază lineară

*n nw Jw , unde

0 0 1

,0 1 0

1 0 0

H H

J J J JJ I

este aşa-numita matrice de schimb. Pentru simplificare, vom presupune că

2M L ; cu alte cuvinte, filtrul are un număr par de coeficienţi.

11 Filtrul Kalman

cest capitol completează studiul filtrelor optimale lineare prin trecerea în revistă a

fundamentelor filtrării Kalman. O caracteristică deosebită a unui filtru Kalman este

faptul că pentru descrierea sa matematică se utilizează conceptul de spaţiu al

stărilor. O altă trăsătură care deosebeşte filtrul Kalman de filtrul optimal linear este faptul că

soluţia sa se calculează recursiv. În particular, fiecare nouă estimare a stării se calculează pe

baza estimării anterioare şi a noii valori a mărimii de intrare, astfel încât numai ultima esti-

mare trebuie memorată. Pe lângă faptul că elimină necesitatea de a memora toate datele de

intrare anterioare, un filtru Kalman este mai eficient din punctul de vedere a efortului de

calcul decât algoritmii care realizează la fiecare recursie estimarea direct din toate datele

observate anterior. Aceste caracteristici reduc volumul de calcul necesar implementării

filtrului Kalman pe un calculator electronic. În consecinţă, filtrele Kalman au fost imple-

mentate cu succes în multe aplicaţii practice, în particular în industria aeronautică şi spaţială.

Atenţia pe care o acordăm filtrelor Kalman se justifică prin aceea că ele oferă un cadru

unitar pentru fundamentarea matematică a filtrelor adaptive ce se bazează pe algoritmii de

calcul recursiv RLS, aşa cum vom demonstra în ultimul paragraf al Capitolului. În ceea ce

priveşte reprezentarea prin spaţiul stărilor, pe lângă numeroase aspecte favorabile care vor fi

evidenţiate în continuare, aceasta se bucură de avantajele utilizării metodelor algebrei lineare

ceea ce permite punerea în evidenţă a unor proprietăţi remarcabile.

11.1 Ecuaţii de stare pentru sisteme

lineare în timp discret

Se consideră un sistem dinamic linear în timp discret descris de graful de semnal din Figura

11.1. Reprezentarea sistemului în domeniul timp utilizată aici oferă următoarele avantaje

(Haykin 1996):

este convenabilă din punct de vedere matematic şi a notaţiilor utilizate,

are o puternică legătură cu realitatea fizică,

constituie o bază utilă pentru evidenţierea comportării statistice a sistemului.

Capitolul

11

A

332 FILTRUL KALMAN - 11

Noţiunea de stare joacă un rol esenţial în această reprezentare. Vectorul de stare de dimen-

siune 1M desemnat prin nx în Figura 11.1 se defineşte ca orice ansamblu de mărimi

suficiente pentru a descrie comportarea dinamică neforţată a sistemului la momente de timp

n i n . Cu alte cuvinte, starea unui sistem reprezintă un rezumat de informaţii suficiente

ce permit descrierea evoluţiei sistemului. Vectorul de stare nx nu este în mod necesar

direct accesibil pentru a fi măsurat, astfel încât pentru a fi evaluat se utilizează un set de date

observabile, descrise în Figura 11.1 prin vectorul ny de dimensiune 1N .

În termeni matematici, graful de semnal din Figura 11.1 încorporează următoarea pereche de

ecuaţii:

1. O ecuaţie de proces

11 1,n n n n n x F x v (11.1)

unde 1,n nF este o matrice de tranziţie a stărilor de dimensiune M M ce este

cunoscută şi care exprimă legătura dintre stările sistemului la momentele 1n şi

n . Vectorul 1 nv de dimensiune 1M reprezintă semnalul de intrare al procesu-

lui. De obicei, în cazul abordării statistice a modelării sistemului, el este zgomotul

de proces, un proces de zgomot alb cu media nulă, şi are matricea de corelaţie

1

1 1

,

,

H n n kE n k

n k

Qv v

0 (11.2)

2. O ecuaţie de măsurare, ce descrie vectorul de observaţie prin relaţia:

2n n n n y C x v (11.3)

unde nC este o matrice de măsurare de dimensiune N M cunoscută. Vectorul

2 nv de dimensiune 1N este denumit zgomot de măsurare. Este, de obicei,

modelat printr-un proces de zgomot alb ce are matricea de corelaţie

2

2 2

,

,

H n n kE n k

n k

Qv v

0 (11.4)

Figura 11.1 Reprezentarea prin graf de semnal a unui sistem în timp discret linear şi

dinamic

11.2 Procesul de inovaţii 333

Se presupune că valoarea stării iniţiale, 0x , este necorelată atât cu 1 nv cât şi

cu 2 nv pentru 0n . Vectorii de zgomot 1 nv şi 2 nv

sunt statistic indepen-

denţi, astfel că se poate scrie

1 2 , ,HE n k n k v v 0 (11.5)

Problema filtrării Kalman poate fi acum formulată după cum urmează: Să se utilizeze

toate datele observate, ce constau din vectorii 1 , 2 , , ,ny y y pentru a stabili pentru

fiecare moment 1n estimarea de medie pătratică minimă a componentelor stării ix . Ea

este denumită problemă de filtrare dacă i n , problemă de predicţie dacă i n şi, în

sfârşit, problemă de mediere dacă 1 i n . În continuare ne vom concentra asupra

problemelor de filtrare şi predicţie care sunt strâns legate, făcând apel la o abordare bazată

pe procesul de inovaţii (Kailath 1968, Tretter 1976).

11.2 Procesul de inovaţii

11.2.1 Definirea procesului de inovaţii

Desemnăm prin vectorul 1ˆ

nn y Y estimarea de medie pătratică minimă a datelor obser-

vate ny la momentul n . Estimarea se face pe baza tuturor valorilor anterioare ale datelor

de observaţie, începând cu momentul 1n şi până la, inclusiv momentul 1n . Aceste

valori anterioare sunt reprezentate prin vectorii 1 , 2 , , ,ny y y care subîntind spaţiul

vectorial 1nY . Se defineşte procesul de inovaţii asociat vectorului de observaţie ny prin:

1ˆ , 1,2,nn n n n α y y Y (11.6)

Vectorul nα de dimensiune 1N reprezintă informaţia nouă din datele observate ny .

Pe baza caracteristicilor generale ale semnalului de eroare în cazul filtrului optimal, se

demonstrează (Haykin 1996, Manolakis, ş.a. 2005) că procesul de inovaţii are următoarele

proprietăţi:

1. Procesul de inovaţii nα asociat vectorului de date observate ny la momentul

n, este ortogonal pe toate observaţiile anterioare, după cum evidenţiază ecuaţia de

mai jos:

, 1 1HE n k k n α y 0 (11.7)

2. Procesul de inovaţii este alcătuit dintr-o secvenţă de vectori variabile aleatoare,

ortogonali unul pe celălalt, fapt evidenţiat prin:

, 1 1HE n k k n α α 0 (11.8)


3. Există o corespondenţă biunivocă între secvenţa de vectori variabile aleatoare ce

reprezintă datele observate, 1 , 2 , , ny y y şi secvenţa de vectori variabile

aleatoare 1 , 2 , , nα α α care reprezintă procesul de inovaţii, în sensul că o

secvenţă poate fi obţinută din cealaltă prin intermediul unor operatori lineari stabili

fără pierdere de informaţie. Această ultimă afirmaţie este descrisă matematic prin:

1 , 2 , , 1 , 2 , ,n ny y y α α α (11.9)

Pentru a forma secvenţa de vectori variabile aleatoare ce defineşte procesul de inovaţii, se

pot utiliza tehnici specifice calculului matricial, de exemplu o tehnică similară procedurii de

ortogonalizare Gram-Schmidt descrisă în Capitolul 9.

11.2.2 Matricea de corelaţie a procesului de inovaţii

Pentru a determina matricea de corelaţie a procesului de inovaţii nα , se începe prin a

rezolva recursiv ecuaţia de stare (11.1), ceea ce conduce la relaţia

1

1

1

,0 0 , 1k

i

k k k i i

x F x F v (11.10)

Pentru deducerea relaţiei (11.10) s-au utilizat următoarele presupuneri şi proprietăţi:

1. Valoarea iniţială a vectorului de stare este 0x .

2. Se presupune că datele observate, şi prin urmare vectorul de zgomot de stare 1 nv

sunt nule pentru 0n .

3. Matricea de tranziţie a stărilor are proprietăţile

, 1 1, 2 1, ,k k k k i i k i F F F F

şi: ,k k F I

unde I este matricea unitate. De observat că pentru un sistem invariant în timp se

scrie

1, 1 1 constantn n n n F F F

Ecuaţia (11.10) arată faptul că kx este o combinaţie lineară de 0x şi 1 11 , 2 , ,v v

1 1k v .

Prin ipoteză, vectorul zgomotului de măsurare 2 nv este necorelat atât cu vectorul de

stare iniţial 0x cât şi cu vectorul de zgomot al procesului 1 nv . În consecinţă, multipli-

când ambii termeni ai ecuaţiei (11.10) cu 2

H nv şi mediind statistic, se deduce că:

2 , , 0HE k n k n x v 0 (11.11)

Corespunzător, din ecuaţia de măsurare se poate deduce:

11.2 Procesul de inovaţii 335

2 , 0 1HE k n k n y v 0 (11.12)

Mai mult, se poate scrie

1 , 0HE k n k n y v 0 (11.13)

Fiind date observaţiile anterioare 1 , 2 , , 1ny y y ce definesc spaţiul vectorial

1nY , putem de asemenea evidenţia din ecuaţia de măsurare (11.3) faptul că estimarea de

medie pătratică minimă a valorii curente a vectorului de observare ny este dată de:

1 1 2 1ˆ ˆ ˆ

n n nn n n n y C x vY Y Y

Totuşi, estimarea 2 1ˆ

nn v Y a vectorului de zgomot de măsurare este nulă, întrucât 2 nv

este ortogonal pe observaţiile anterioare 1 , 2 , , 1ny y y : vezi ecuaţia (11.12). În

consecinţă, se scrie pur şi simplu

1 1ˆ ˆ

n nn n n y C xY Y (11.14)

Prin urmare, utilizând ecuaţiile (11.6) şi (11.14), putem exprima procesul de inovaţii sub

forma

1ˆ

nn n n n α y C x Y (11.15)

Înlocuind ecuaţia de măsurare, se obţine:

2, 1n n n n n α C vє (11.16)

unde , 1n n є este vectorul de eroare a predicţiei de stare la momentul n , pe baza

datelor disponibile până la momentul 1n . Prin urmare, , 1n n є este diferenţa dintre

vectorul de stare nx şi vectorul de predicţie înainte cu un pas 1ˆ

nn x Y :

1ˆ, 1 nn n n n x x Yє (11.17)

Se poate arăta (Haykin 1996) că vectorul de predicţie a erorii de stare este ortogonal atât pe

vectorul de zgomot de proces 1 nv cât şi pe vectorul de zgomot de măsurare 2 nv .

Matricea de corelaţie a procesului de inovaţii nα se defineşte prin

Hn E n n R α α (11.18)

Înlocuim în continuare ecuaţia (11.16) în (11.18), dezvoltăm expresia obţinută şi, având în

vedere faptul că vectorii , 1n n є şi 2 nv sunt ortogonali se obţine rezultatul:

2, 1 Hn n n n n n R C K C Q (11.19)


unde 2 nQ este matricea de corelaţie a vectorului de zgomot 2 nv . Matricea , 1n n K

de dimensiune M M poartă numele de matrice de corelaţie a erorii făcute prin predicţia

de stare , 1ˆ

nn x Y , fiind definită de

, 1 , 1 , 1Hn n E n n n n K є є (11.20)

unde , 1n n є este vectorul de eroare a predicţiei de stare. Matricea , 1n n K se folo-

seşte pentru descrierea statistică a erorii care este făcută atunci când se utilizează estimarea

de stare 1ˆ

nn x Y în locul „adevăratei” valori a acesteia nx .

11.3 Estimarea predicţiei de stare în

filtrarea Kalman

11.3.1 Calculul recursiv al estimării de stare

În continuare vom lua în considerare problema determinării estimării de medie pătratică

minimă a stării ix pe baza procesului de inovaţii. În Haykin (1996) şi Manolakis, ş.a.

(2005) se demonstrează faptul că această estimare poate fi exprimată ca o combinaţie lineară

a secvenţei de procese de inovaţii 1 , 2 , , nα α α :

1

ˆn

n i

k

i k k

x B αY (11.21)

unde , 1,2, ,i k k nB , este un set de matrici de dimensiune M N ce urmează a fi

determinate. În conformitate cu principiul ortogonalităţii, vectorul de eroare a predicţiei de

stare este ortogonal pe procesul de inovaţii, aşa cum exprimă ecuaţia care urmează

ˆ, , 1,2, ,H H

nE i n m E i i m m n α x x α 0Yє (11.22)

Înlocuind ecuaţia (11.21) în (11.22) şi apelând la principiul ortogonalităţii pentru procesul de

inovaţii, în particular la ecuaţia (11.8), se obţine

H H

i iE i m m E m m m m x α B α α B R (11.23)

În consecinţă, înmulţind la dreapta ambii membri ai ecuaţiei (11.23) cu matricea inversă

1 mR , găsim pentru matricea i mB expresia

1H

i m E i m m B x α R (11.24)

În final, prin înlocuirea ecuaţiei (11.24) în (11.21) se obţine estimarea de medie pătratică

minimă

11.3 Estimarea predicţiei de stare în filtrarea Kalman 337

1

1

11 1

1

ˆn

H

n

k

nH H

k

i E i k k k

E i k k k E i n n n

x x α R α

x α R α x α R α

Y

Vom particulariza relaţia pentru 1i n :

11

1

1

ˆ 1 1

1

nH

n

k

H

n E n k k k

E n n n n

x x α R α

x α R α

Y (11.25)

În ceea ce priveşte starea 1n x de la momentul 1n , ea este legată de starea nx de la

momentul n prin ecuaţia de proces (11.1). Drept urmare, utilizând această relaţie, putem

scrie pentru 0 k n :

21 1,

1,

H H

H

E n k E n n n n k

n n E n k

x α F x v α

F x α (11.26)

În ultima relaţie s-a folosit faptul că kα depinde numai de datele observate 1 , 2 ,y y

, ky , şi prin urmare din ecuaţia (11.13) se observă că ny şi kα sunt ortogonali

pentru 0 k n . Putem atunci rescrie suma din membrul drept al ecuaţiei (11.25) după

cum urmează:

1 11 1

1 1

1

1 1,

ˆ1,

n nH H

k k

n

E n k k k n n E n k k k

n n n

x α R α F x α R α

F x Y (11.27)

Vom introduce în continuare câteva definiţii fundamentale, necesare pentru formularea

problemei filtrării Kalman.

11.3.2 Matricea de câştig Kalman

Se introduce matricea nG de dimensiune M N , definită prin:

11 Hn E n n n G x α R (11.28)

Utilizăm în continuare această definiţie şi rezultatul ecuaţiei (11.27), pentru a rescrie ecuaţia

(11.25) astfel:

1ˆ ˆ1 1,n nn n n n n n x F x G αY Y (11.29)

Ecuaţia (11.29) are o importanţă fundamentală, pentru că reprezintă formula de calcul

recursiv utilizată în cazul filtrului adaptiv Kalman. Ea evidenţiază faptul că estimarea de

medie pătratică minimă ˆ 1 nn x Y a stării unui sistem dinamic linear, poate fi calculată

prin adăugarea la estimarea stării anterioare a sistemului 1ˆ

nn x Y multiplicată cu matricea


de tranziţie a stării 1,n nF , a unui termen de corecţie egal cu n nG α . Termenul de

corecţie este egal cu vectorul procesului de inovaţii nα premultiplicat cu matricea nG .

Drept urmare, şi în semn de recunoaştere a meritelor de pionierat ale lui Kalman, matricea

nG este numită matricea de câştig a lui Kalman.

Rămâne problema exprimării matricii de câştig a lui Kalman nG într-o formă conve-

nabilă calculului. Pentru a ajunge la rezultat, vom face apel la ecuaţiile (11.16) şi (11.26)

pentru a exprima media produsului lui 1n x cu H nα după cum urmează:

2

1 1,

1, , 1

1, , 1

H H

H

H H

E n k n n E n k

n n E n n n n n

n n E n n n n

x α F x α

F x C v

F x C

є

є

(11.30)

unde s-a utilizat constatarea că starea nx şi vectorul de zgomot 2 nv sunt necorelate

(vezi ecuaţia (11.11)). Mai mult, în conformitate cu principiul ortogonalităţii, să notăm că

vectorul de predicţie a erorii de stare , 1H n n є este ortogonal pe estimarea 1ˆ

nn x Y .

Prin urmare, media statistică a produsului 1ˆ , 1H

nn n n x Y є este nulă, astfel încât

putem rescrie ecuaţia (11.30) înlocuind pe nx din membrul drept al ecuaţiei prin vectorul

de predicţie a erorii de stare , 1n n є , ca mai jos:

1 1, , 1 , 1H H HE n k n n E n n n n n x α F Cє є (11.31)

Facem apel în continuare la ecuaţia (11.20) pentru a evidenţia faptul că media statistică din

membrul drept al ecuaţiei (11.31) este egală cu matricea de corelaţie a erorii de predicţie a

stării. Drept urmare, ecuaţia (11.31) se rescrie astfel:

1 1, , 1H HE n k n n n n n x α F K C (11.32)

Acum, poate fi redefinită matricea de câştig a lui Kalman. În particular, înlocuim relaţia

(11.32) în (11.28) pentru a obţine

11, , 1 Hn n n n n n n G F K C R (11.33)

unde matricea de corelaţie nR este ea însăşi definită prin ecuaţia (11.19).

Schema bloc din Figura 11.2 ilustrează graful de semnal al ecuaţiei (11.33) ce calculea-

ză matricea de câştig Kalman nG . Odată calculată matricea de câştig Kalman nG , se

poate utiliza ecuaţia (11.29) pentru a face noua predicţie ˆ 1 nn x Y . Cu alte cuvinte, fiind

dată vechea predicţie 1ˆ

nn x Y , se calculează predicţia curentă ˆ 1 nn x Y , proces

ilustrat prin graful de semnal din Figura 11.3. În această figură, s-a utilizat de asemenea

ecuaţia (11.15) pentru determinarea vectorului procesului de inovaţii nα .

11.3 Estimarea predicţiei de stare în filtrarea Kalman 339

11.3.3 Ecuaţia Ricatti

Ecuaţia de calcul al matricii de câştig Kalman (11.33) aşa cum este acum formulată, nu este

utilă, întrucât pentru determinarea lui nG este nevoie de cunoaşterea valorii matricii de

corelaţie a erorii de predicţie a stării , 1n n K . Pentru a depăşi această dificultate, vom

deduce în continuare o formulă de calcul recursiv pentru matricea , 1n n K .

Vectorul de eroare a predicţiei de stare 1,n nє este egal cu diferenţa dintre vectorul

de stare 1n x şi predicţia înainte într-un pas a acestuia ˆ 1 nn x Y (vezi ecuaţia

(11.17):

ˆ1, 1 1 nn n n n x x Yє (11.34)

Înlocuind ecuaţiile (11.1) şi (11.29) în (11.34), şi utilizând pentru vectorul procesului de

inovaţii nα ecuaţia (11.15), obţinem:

1

1 1

ˆ1, 1,

ˆ

n

n

n n n n n n

n n n n n

F x x

G y C x v

Y

Y

є (11.35)

În continuare, folosim ecuaţia (11.3) pentru a elimina vectorul ny din ecuaţia (11.35). Se

obţine ecuaţia cu diferenţe finite de mai jos, care se utilizează la calculul recursiv al vectoru-

lui de predicţie al erorii de stare:

1 21, 1, , 1n n n n n n n n n n n F G C v G vє є (11.36)

Figura 11.2 Diagrama de calcul a matricii de câştig Kalman.

Figura 11.3 Predictorul Kalman înainte într-un pas.


Matricea de corelaţie a vectorului de predicţie a erorii de stare 1,n nє este dată în

conformitate cu ecuaţia (11.20) de relaţia:

1, 1, 1,Hn n E n n n n K є є (11.37)

Înlocuind ecuaţia (11.36) în (11.37), şi acceptând ipoteza că vectorul de eroare , 1n n є şi

vectorii de zgomot 1 nv şi 2 nv sunt mutual necorelaţi, putem exprima matricea de

corelaţie a vectorului de predicţie a erorii de stare după cum urmează:

1 2

1, 1, , 1 1,H

H

n n n n n n n n n n n n

n n n n

K F G C K F G C

Q G Q G (11.38)

unde 1 nQ şi 2 nQ sunt matricile de corelaţie ale lui 1 nv respectiv 2 nv . Dezvol-

tăm, în continuare, membrul drept al ecuaţiei (11.38) şi apoi utilizăm ecuaţiile (11.33) şi

(11.16) pentru matricea de câştig Kalman. Se obţine ecuaţia cu diferenţe finite Riccati ce

permite calculul recursiv al matricii de corelaţie a predicţiei erorii de stare:

11, 1, 1,Hn n n n n n n n K F K F Q (11.39)

unde matricea pătrată nK de dimensiune M M este definită prin ecuaţia de recursie:

, 1 , 1 , 1

, 1 , 1

n n n n n n n n n

n n n n n n

K K F G C K

I F G C K (11.40)

S-a utilizat aici proprietatea: 1, , 1n n n n F F I (11.41)

unde I este matricea uniitate. Această proprietate este o consecinţă a definiţiei matricii de

tranziţie. Semnificaţia matematică a matricii nK din ecuaţia (11.40) va fi lămurită în

paragraful următor.

Figura 11.4 este reprezentarea prin graf de semnal al ecuaţiilor (11.40) şi (11.39),

reprezentare făcută chiar în această ordine. Acest graf poate fi văzut ca o reprezentare a

Figura 11.4 Graful de semnal al rezolvării ecuaţiei Riccati (Calculatorul

ecuaţiei Riccati)

11.4 Estimarea de stare prin filtrare 341

calculatorului ecuaţiei Riccati, prin aceea că fiind dată vechea valoare , 1n n K , el calcu-

lează valoarea curentă 1,n nK .

Ecuaţiile (11.33), (11.19), (11.15), (11.29), (11.40) şi (11.39), în ordinea enunţată,

definesc algoritmul Kalman de predicţie înainte într-un pas.

11.4 Estimarea de stare prin filtrare

Vom considera, în continuare, operaţia de estimare a stării sistemului prin filtrare. În

particular, dorim să calculăm estimarea filtrată ˆnn x Y pornind de la algoritmul de

predicţie într-un pas descris în paragraful precedent.

Să notăm, pentru început faptul că vectorul de stare nx şi vectorul de zgomot 1 nv

sunt independenţi unul faţă de celălalt. Prin urmare, stabilim din ecuaţia de stare (11.1) că

estimarea de eroare medie pătratică minimă a stării 1n x de la momentul de timp 1n ,

fiind date observaţiile făcute pâna inclusiv la momentul n (adică, se cunosc 1 , 2 ,y y

, ny ) este

1ˆ ˆ1 1,n n nn n n n n x F x vY Y Y (11.42)

Având în vedere că vectorul de zgomot 1 nv este independent de observaţiile 1 , 2 ,y y

, ny , rezultă că estimarea de medie pătratică minimă a zgomotului de stare 1 nn v Y

este nulă. În consecinţă, ecuaţia (11.42) se simplifică astfel:

ˆ ˆ1 1,n nn n n n x F xY Y (11.43)

Pentru a stabili estimarea filtrată ˆnn x Y , premultiplicăm ambii termeni ai ecuaţiei

(11.43) cu inversa matricii de tranziţie 1,n nF :

1ˆ ˆ1, 1n nn n n n x F xY Y (11.44)

Utilizând proprietatea matricii de tranziţie a stărilor, dată în (11.41), putem scrie

1 1, , 1n n n n F F (11.45)

şi reluăm ecuaţia (11.44) în forma echivalentă:

ˆ ˆ, 1 1n nn n n n x F xY Y (11.46)

Ultima relaţie arată că, pornind de la soluţia problemei predicţiei într-un pas, care este

estimarea de medie pătratică minimă ˆ 1 nn x Y , putem determina estimarea filtrată

corespunzătoare ˆnn x Y prin multiplicarea lui ˆ 1 nn x Y cu matricea de tranziţie a

stărilor , 1n n F .


11.4.1 Eroarea de estimare filtrată şi factorul de

conversie

În contextul discutării operaţiunii de filtrare, este normală introducerea unui vector de

eroare a estimării filtrate a ieşirii sistemului. El se defineşte astfel:

ˆnn n n n e y C x Y (11.47)

Această definiţie este similară definiţiei vectorului de inovaţii nα din (11.15), cu excepţia

faptului că estimarea stării prin filtrare ˆnn x Y a înlocuit estimarea stării prin predicţie

1ˆ

nn x Y . Înlocuind relaţiile (11.29) şi (11.46) în (11.47), se obţine

1ˆ , 1

, 1

, 1

nn n n n n n n n n

n n n n n n

n n n n n

e y C x C F G α

α C F G α

I C F G α

Y

(11.48)

Mărimea matricială din interiorul parantezei rotunde a ecuaţiei (11.48) este numită factor de

conversie, furnizând o formulă pentru conversia vectorului de inovaţii nα în vectorul de

eroare a estimării filtrate ne . Facem apel la ecuaţia (11.33) pentru a elimina matricea de

câştig Kalman nG din această definiţie, şi îndepărtând termenii comuni, putem rescrie

relaţia (11.48) în forma echivalentă:

1

2n n n ne Q R α (11.49)

unde 2 nQ este matricea de corelaţie a procesului de zgomot de măsurare 2 nv , iar

matricea nR se defineşte prin relaţia (11.19) ca matricea de corelaţie a procesului de

inovaţii nα . Astfel, cu excepţia premultiplicării cu matricea 2 nQ , relaţia (11.49) arată

că matricea inversă 1 nR joacă rolul unui factor de conversie în teoria filtrării Kalman.

Într-adevăr, în cazul special în care 2 nQ este egală cu matricea unitate, matricea inversă

1 nR reprezintă exact factorul de conversie care face obiectul acestui paragraf.

11.4.2 Matricea de corelaţie a erorii de filtrare a

stării

S-a introdus anterior enunţării ecuaţiei cu diferenţe Riccati (11.39), matricea nK de

dimensiune M M . Vom trage concluziile în discuţia despre teoria filtrării Kalman prin

demonstrarea faptului că această matrice este egală cu matricea de corelaţie a erorii cu care

se face estimarea prin filtrare a stării ˆnn x Y .

11.4 Estimarea de stare prin filtrare 343

Se defineşte vectorul erorii de filtrare a stării nє ca diferenţa dintre starea nx şi

estimarea filtrată a acesteia ˆnn x Y :

ˆnn n n x x Yє (11.50)

Înlocuind ecuaţiile (11.29) şi (11.46) în (11.50) şi recunoscând faptul că produsul

, 1 1,n n n n F F este egal cu matricea unitate, se obţine

1ˆ , 1

, 1 , 1

nn n n n n n n

n n n n n n

x x F G α

F G α

Yє

є (11.51)

unde , 1n n є este vectorul erorii de predicţie a stării la momentul de timp n pe baza

datelor existente până la momentul 1n iar nα este vectorul procesului de inovaţii.

Prin definiţie, matricea de corelaţie a vectorului erorii de filtrare a stării nє este egală

cu media statistică HE n n є є . În consecinţă, utilizând ecuaţia (11.51), se poate

exprima această medie după cum urmează:

, 1 , 1

, 1 , 1

2 , 1 , 1

H H

H H H

H H H

E n n E n n n n

n n n E n n n n n

E n n n n n n

F G α α G F

α G F

є є є є

є

(11.52)

În urma examinării membrului drept al ecuaţiei (11.52) se poate stabili faptul că cele trei

medii statistice din componenţa sa pot fi interpretate individual după cum urmează:

1. Prima medie este egală cu matricea de corelaţie a erorii de predicţie a stării:

, 1 , 1 , 1Hn n E n n n n K є є

2. Media statistică din cel de al doilea termen este egală cu matricea de corelaţie a

procesului de inovaţii nα :

Hn E n n R α α

3. Media din cel de-al treilea termen poate fi exprimată după cum urmează:

1ˆ, 1 H H H

nE n n n E n n n E n n

α x x α x αYє

unde, ultima expresie s-a obţinut în urma observaţiei că estimarea 1ˆ

nn x Y este

ortogonală pe procesul de inovaţii nα , ce reprezintă intrarea filtrului Kalman. În

continuare din ecuaţia (11.26) se observă că, punând k n şi premultiplicând apoi

ambii membri ai relaţiei cu matricea inversă 1 1, , 1n n n n F F se obţine

, 1 1 , 1H HE n n n n E n n n n n n x α F x α F G R


unde în ultima relaţie s-a făcut apel la ecuaţia (11.28). Prin urmare:

, 1 , 1HE n n n n n n n α F G Rє

În continuare, putem utiliza aceste relaţii în ecuaţia (11.52) pentru a obţine

, 1 , 1 , 1H H HE n n n n n n n n n n n K F G R G Fє є (11.53)

Ultima relaţie poate fi simplificată în continuare observând din (11.33) că:

1, , 1 Hn n n n n n n G R F K C (11.54)

Drept urmare, utilizând relaţiile (11.53) şi (11.54) şi având în vedere faptul că produsul

, 1 1,n n n n F F este egal cu matricea unitate, obţinem rezultatul dorit pentru matricea

de corelaţie a erorii filtrate de stare:

, 1 , 1 , 1H H H HE n n n n n n n n n n K K C G Fє є

Echivalent, prin utilizarea proprietăţii matricilor HE n n є є şi , 1n n K de a fi

hermitice, putem scrie:

, 1 , 1 , 1HE n n n n n n n n n n K F G C Kє є (11.55)

Dacă comparăm relaţia (11.55) cu (11.40), rezultă

HE n n n Kє є

Aceasta demonstrează că matricea nK utilizată în ecuaţia Riccati cu diferenţe finite

(11.39) este de fapt matricea de corelaţie a erorii de filtrare a stării. Matricea nK este

folosită la descrierea statistică a erorii estimării obţinute prin filtrare ˆnn x Y .

11.5 Algoritmul de filtrare Kalman

11.5.1 Condiţii iniţiale

Pentru a pune în funcţiune algoritmii de predicţie şi de filtrare descrişi în paragrafele 11.3 şi

11.4, este obligatorie specificarea condiţiilor iniţiale. Vom prezenta în continuare

modalitatea de rezolvare a acestei probleme.

Starea iniţială a procesului descris prin ecuaţia (11.1) nu se cunoaşte cu precizie. Ea se

descrie de obicei prin medie şi matrice sa de corelaţie. În absenţa oricărei date observate la

momentul 0n , putem alege drept estimare de predicţie iniţială valoarea:

0ˆ 1 1E x xY (11.56)

iar drept matrice de corelaţie

01,0 1 1 1 1H

E E E K x x x x Π (11.57)

11.5 Algoritmul de filtrare Kalman 345

Această modalitate de selectare a condiţiilor iniţiale nu numai că satisface intuitiv dar are de

asemenea avantajul de a furniza o estimare filtrată a stării ˆnn x Y care este nedeplasată.

Presupunând că vectorul de stare nx este de medie nulă, putem simplifica relaţiile (11.56)

şi (11.57), impunând

0ˆ 1 x 0Y

şi: 01,0 1 1HE K x x Π

11.5.2 Formularea algoritmului Kalman standard

Tabelul 11.1 prezintă un rezumat al variabilelor utilizate la formularea soluţiei problemei de

filtrare Kalman. Intrarea filtrului este vectorul de proces ny , reprezentat prin spaţiul

Variabila Definiţii Dimensiuni

nx Vector de stare la momentul n 1M

ny Vector de observaţie la momentul n 1N

, 1n n F Matrice de tranziţie de stare de la momentul n la 1n

M M

nC Matrice de măsurare la momentul n N M

1 nQ Matricea de corelaţie a vectorului de proces

de zgomot 1 nv

M M

2 nQ Matricea de corelaţie a vectorului de zgomot

de măsurare 2 nv

N N

ˆ 1 nn x Y Estimarea de predicţie a vectorului de stare la momentul n, pe baza vectorilor de observaţie

1 , 2 , , ny y y

1M

ˆnn x Y Estimarea filtrată a vectorului de stare la

momentul n, pe baza vectorilor de observaţie

1 , 2 , , ny y y

1M

nG Matricea de câştig Kalman la momentul n M N

nα Vectorul de inovaţii la momentul n 1N

nR Matricea de corelaţie a vectorului de inovaţii

nα

N N

1,n nK Matricea de corelaţie a erorii lui ˆ 1 nn x Y M M

nK Matricea de corelaţie a erorii lui ˆnn x Y M M

Tabelul 11.1 Trecerea în revistă a variabilelor care definesc filtrarea Kalman.


vectorial nY , iar ieşirea este estimarea filtrată ˆ

nn x Y a vectorului de stare. Tabelul 11.2

face un rezumat al operaţiunilor matematice ce definesc filtrul Kalman (inclusiv condiţiile

iniţiale) care implementează algoritmul de predicţie într-un pas.

Figura 11.5 face o reprezentare grafică a funcţionării filtrului Kalman de predicţie

într-un pas. Acesta este alcătuit din trei blocuri funcţionale:

Blocul de calcul al matricii de câştig Kalman, descris prin schema din Figura 11.2,

Blocul care realizează predicţia Kalman descris prin diagrama din Figura 11.3,

Blocul care rezolvă ecuaţiile Riccati (11.39) şi (11.40) reprezentat prin diagrama

din Figura 11.4.

Exemplul 11.1 Se dă procesul AR(2) (autoregresiv de ordinul doi) x n descris

prin ecuaţia cu diferenţe finite

11,8 1 0,81 2x n x n x n v n (11.58)

unde zgomotul de stare 1v n este un zgomot alb de medie nulă şi varianţă unitară,

iar 1 2 0x x . Să se determine prin filtrarea Kalman a semnalului

observat

2y n x n v n (11.59)

Vectorul procesului de intrare

Observaţii = 1 , 2 , , ny y y

Parametri cunoscuţi

Matricea de tranziţie a stărilor = 1,n nF

Matricea de măsurare = nC

Matricea de corelaţie a vectorului de zgomot de proces = 1 nQ

Matricea de corelaţie a zgomotului de măsurare = 2 nQ

Algoritm de calcul 1,2,3,n

1

21, , 1 , 1H Hn n n n n n n n n n n

G F K C C K C Q

1ˆ

nn n n n α y C x Y

1ˆ ˆ1 1,n nn n n n n n x F x G αY Y

, 1 , 1 , 1n n n n n n n n n K K F G C K

11, 1, 1,Hn n n n n n n n K F K F Q

Condiţii iniţiale

0ˆ 1 1E x xY

01,0 1 1 1 1H

E E E K x x x x Π

Tabelul 11.2 Algoritmul de filtrare Kalman cu predicţie într-un pas.

11.5 Algoritmul de filtrare Kalman 347

estimatul de eroare medie pătratică minimă a lui , 0x n n . Zgomotul de măsurare,

2v n este alb de medie nulă şi 2

2 10 şi ortogonal pe 1v n .

Soluţie Din ecuaţiile (11.58) şi (11.59) pot fi formulate vectorul de stare şi

ecuaţia de măsurare a modelului de stare adoptat:

111,8 0,81

1 21 0 0

x n x n v nn

x n x n

x (11.60)

şi

21 01

x ny n v n

x n

(11.61)

Prin urmare mărimile matriciale care intervin în algoritm sunt

1

1 1

1,8 0,81 0,1 01 0

1 0 0 00

v nn n n n

F v Q C

Pentru rezolvare s-a implementat în MATLAB algoritmul de filtrare Kalman din

Tabelul 11.2. Apoi, s-au procesat prin filtrare Kalman 100 de eşantioane ale

semnalelor x n şi y n generate cu (11.58) şi (11.59) în scopul calculării esti-

mării filtrate a vectorului de stare ˆnn x Y . Rezultatul este prezentat în Figura

11.6. Având în vedere că zgomotul de măsurare are varianţa 2

2 foarte mare,

semnalul măsurat y n are o evoluţie în timp „zgomotoasă” în jurul valorilor lui

Figura 11.5 Reprezentarea prin blocuri de calcul a filtrului Kalman de

predicţie într-un pas.


x n . Totuşi filtrul Kalman reuşeşte să urmărească „strâns” evoluţia lui x n şi

să reducă degradarea datorată zgomotului 2v n .

Figura 11.7 prezintă evoluţia componentelor vectorului de câştig Kalman

1 2

T

n G n G n G precum şi a varianţei erorii de estimare HE n n є є .

Se observă că regimul tranzitoriu al filtrului Kalman durează aproximativ 20 de

eşantioane, după care filtrul devine staţionar, după cum era de aşteptat. În regim

staţionar, ecuaţiile de calcul al lui nG şi nK devin independente de datele de

intrare, ceea ce permite înlocuirea lor cu nişte constante şi reducerea importantă a

efortului de calcul.

11.6 Variante de filtre Kalman

Principalul motiv al interesului pe care îl arătăm teoriei filtrelor Kalman se datorează

faptului că aceasta furnizează un cadru general pentru deducerea algoritmilor de filtrare ce

se încadrează în categoriile algoritmilor RLS (vezi Capitolul 10) şi RLS rapizi (Capitolul

12).

Primele aplicaţii ale teoriei filtrării Kalman în domeniul filtrării adaptive raportate în

literatură au fost făcute de Lawrence şi Kaufman (1971). În particular, Godard (1974) a

formulat problema filtrării adaptive cu un filtru FIR ca fiind estimarea unui vector de stare

înecat în zgomot gaussian, ceea ce reprezintă o problemă clasică de filtrare Kalman.

Totuşi abia odată cu Sayed şi Kailath (1994) s-a demonstrat că algoritmul de filtrare

Kalman bazat pe rezolvarea ecuaţiei Ricatti poate fi complet echivalat cu oricare dintre algo-

ritmii cunoscuţi ai familiei RLS. În acest Capitol, vom prezenta elementele comune celor

două metode. În acest scop, foarte important în abordarea comună a celor două metode este

modelul dinamic pe care îl prezentăm în continuare.

Figura 11.6 Estimarea prin filtrare Kalman a procesului

AR(2) din Exemplul 11.1.

11.6 Variante de filtre Kalman 349

11.6.1 Modelul sistemului dinamic neforţat

Considerăm un sistem dinamic linear al cărui model în spaţiul stărilor este descris de urmă-

toarea pereche de ecuaţii de stare (Sayed şi Kailath 1994) :

1 21n n x x (11.62)

Hy n n n v n u x (11.63)

unde este un scalar real pozitiv. Conform acestui model, zgomotul de proces este nul iar

zgomotul de măsurare, reprezentat prin scalarul v n , este un proces de zgomot alb de

varianţă unitară, după cum rezultă din relaţia de mai jos

*1,

0,

n kE v n v k

n k

(11.64)

În urma comparării modelului descris prin ecuaţiile (11.62), (11.63) şi (11.64) cu modelul

general descris prin ecuaţiile (11.1) până la (11.4), notăm următoarele:

1 21,n n F I (11.65)

1 n Q 0 (11.66)

Hn nC u (11.67)

2 1n Q (11.68)

Modelul în spaţiul stărilor descris prin ecuaţiile (11.62) până la (11.64) este numit model

dinamic neforţat datorită faptului că în ecuaţia de proces (11.62) lipseşte vreo forţă externă.

Mai important, matricea de tranziţie a stărilor modelului este egală cu matricea identitate I

Figura 11.7 Evoluţia componentelor vectorului de câştig

Kalman nG şi a erorii pătratice medii de esti-

mare HE n n є є .


scalată cu constanta 1 2 . În consecinţă, matricea de corelaţie a erorii de predicţie a stării

1,n nK şi matricea de corelaţie a erorii de filtrare a stării nK iau o valoare comună

(vezi relaţia (11.39)).

Acest model special constituie cheia formulării unui cadru general pentru dezvoltarea

familiei de algoritmi adaptivi de filtrare RLS. După cum se va arăta mai departe, constanta

are un rol semnificativ în funcţionarea acestor algoritmi. Vom considera în continuare,

câteva variante ale algoritmului de filtrare Kalman bazate pe modelul dinamic neforţat.

11.6.2 Algoritmul de filtrare de covarianţă (Kalman)

Algoritmul de filtrare Kalman rezumat în Tabelul 11.2 este astfel conceput încât să propage

matricea de corelaţie (covarianţă) 1,n nK ce se referă la eroarea de estimare a stării

ˆ 1 nn x Y . Acest algoritm este denumit, prin urmare, algoritmul de filtrare de covarianţă

(Kalman). Pentru modelul dinamic neforţat pe de altă parte, găsim că înlocuind ecuaţiile

(11.65)-(11.68) în Tabelul 11.2 se obţine algoritmul simplificat de filtrare de covarianţă, ce

este rezumat în Tabelul 11.3. Din tabel se observă că matricea Kalman de câştig nG

devine în acest caz special vectorul ng .

11.6.3 Algoritmul de filtrare informaţională

O altă modalitate de implementare a filtrului Kalman se poate obţine dacă se face apel la

calculul recursiv al matricii inverse 1 nK . În această abordare se poate spune că se accen-

tuează caracterul de algoritm RLS al procesului de filtrare Kalman. Inversa matricii de

corelaţie a erorii de stare 1 nK este legată de matricea de informaţie a lui Fisher, fapt

care permite să se dea operaţiunii de filtrare o interpretare din punctul de vedere a teoriei

informaţiei (Haykin 1996). Din acest motiv, implementarea algoritmului de filtrare Kalman,

care se bazează pe 1 nK , poartă numele de algoritm de filtrare informaţională.

Pentru a deduce algoritmul de filtrare informaţională, procedăm în maniera pe care o

descriem în continuare.

Pasul 1. Se porneşte de la ecuaţia cu diferenţe finite Riccati care, în cazul special al

modelului dinamic neforţat, capătă forma (vezi ultima linie din Tabelul 11.3):

1 1 21 1Hn n n n n K K g u K (11.69)

Exprimăm din ultima ecuaţie valoarea produsului matricial 1Hn n n g u K :

1 2 1 21 1Hn n n n n g u K K K (11.70)

În continuare exprimăm, ca în prima linie a algoritmului din Tabelul 11.3, valoarea

vectorului de câştig Kalman pentru modelul dinamic neforţat:

1 2 1

1 1H

n nn

n n n

K ug

u K u (11.71)


Înmulţind şi rearanjând termenii din ecuaţia (11.71), o rescriem sub forma:

1 2 1 1Hn n n n n n n g K u g u K u (11.72)

Obţinem o nouă definiţie a vectorului de câştig Kalman dacă substituim relaţia (11.70) în

(11.72) iar apoi simplificăm termenii comuni:

1 2n n ng K u (11.73)

Continuăm, eliminând pe ng între ecuaţiile (11.70) şi (11.73), şi multiplicând apoi

rezultatul cu 1 2 pentru a obţine

1 1Hn n n n n n K K u u K K (11.74)

În sfârşit, se premultiplică ecuaţia (11.74) cu matricea inversă 1 nK iar apoi se postmulti-

plică cu 1 1n K . Rezultatul care se obţine este prima ecuaţie de recursie a algoritmului

de filtrare informaţională:

1 1 1 Hn n n n K K u u (11.75)

Pasul 2. Conform liniilor doi şi trei ale algoritmului prezentat în Tabelul 11.3 se scrie:

1ˆH

nn y n n n u x Y (11.76)

şi: 1 2

1ˆ ˆ1 n nn n n n

x x gY Y (11.77)

Procesul scalar de intrare

Observaţii = 1 , 2 , ,y y y n


Matricea de tranziţie a stărilor = 1 2 ,I I = matricea identitate

Matricea de măsurare = H nu

Varianţa zgomotului de măsurare 1v n

Condiţii iniţiale

0

ˆ 1 1E x xY

01,0 1 1 1 1

H

E E E K x x x x Π


1 2 1

1 1H

n nn

n n n

K ug

u K u

1ˆH

nn y n n n u x Y

1 2

1ˆ ˆ1 n nn n n n

x x gY Y

1 1 21 1Hn n n n n K K g u K

Tabelul 11.3 Algoritmul de filtrare de covarianţă ce se aplică pe modelul de sistem dinamic

neforţat.


În consecinţă, înlocuind ecuaţia (11.73) în (11.77), se obţine

1 2 1 2

1ˆ ˆ1 n nn n n n n

x x K uY Y (11.78)

Apoi, eliminarea lui n între ecuaţiile (11.76) şi (11.78), conduce la

1 2 1 2

1

1 2

ˆ ˆ1 H

n nn n n n n

n n y n

x I K u u x

K u

Y Y (11.79)

Dar, din ecuaţia (11.74), se poate deduce cu uşurinţă următoarea relaţie:

1 2 1 2 1 2 1 1Hn n n n n I K u u K K (11.80)

Conform ultimei relaţii, ecuaţia (11.79) se poate simplifica astfel:

1 2 1 1 2

1ˆ ˆ1 1n nn n n n n n y n

x K K x K uY Y

Premultiplicăm această ultimă ecuaţie cu matricea inversă 1 nK şi obţinem cea de a doua

relaţie de recursie a algoritmului de filtrare informaţională:

1 1 2 1

1ˆ ˆ1 1 1n nn n n n n y n

K x K x uY Y (11.81)

Se poate observa faptul că prin ecuaţia (11.81), algoritmul propagă mai degrabă produsul

1 ˆ1 1 nn n K x Y decât estimarea ˆ 1 nn x Y , care de fapt prezintă interes.

Pasul 3. În final, prin combinarea rezultatelor paşilor 1 şi 2, se calculează valoarea

actualizată a estimării vectorului de stare astfel:

1

11 1

ˆ ˆ1 1

ˆ 1

n n

n

n n n n

n n n

x K K x

K K x

Y Y

Y (11.82)

Ecuaţiile (11.75), (11.81) şi (11.82), în această ordine, reprezintă algoritmul de filtrare

informaţională pentru modelul de sistem dinamic neforţat definit prin relaţiile (11.62) până

la (11.64). Un rezumat al algoritmului este prezentat în Tabelul 11.4.

11.6.4 Algoritmi de filtrare Kalman cu

descompunere matricială

Implementarea standard a algoritmului de filtrare de covarianţă Kalman din Tabelul 11.2

reprezintă soluţia optimă a problemei de filtrare lineară enunţată în paragraful 11.1. Totuşi

acest algoritm poate prezenta dificultăţi numerice serioase, bine documentate în literatura de

specialitate (Kaminski, ş.a. 1971). De exemplu, conform ecuaţiei (11.40) matricea nK

este definită ca fiind diferenţa dintre două matrici pozitiv definite; prin urmare, dacă precizia

numerică utilizată la implementarea algoritmului nu este suficient de mare, matricea nK

care rezultă din acest calcul repetat la fiecare iteraţie poate să-şi piardă caracterul pozitiv

definit. O asemenea situaţie este evident neacceptabilă, deoarece nK reprezintă o matrice

de corelaţie. Această comportare instabilă a filtrului Kalman ce se datorează impreciziilor


numerice ce apar atunci când valorile numerice sunt reprezentate în calculator prin cuvinte

de lungime finită, poartă numele de fenomen de divergenţă.

Divergenţa filtrului Kalman poate fi depăşită prin utilizarea de transformări matriciale

unitare numeric stabile la fiecare iteraţie a algoritmului de filtrare Kalman (Kaminski, ş.a.

1971, Morf şi Kailath 1975). În particular, locul matricii de corelaţie nK este luat în

algoritmul Kalman de rădăcina pătrată a acesteia, obţinută prin factorizare Cholesky:

Hn n nK K K (11.83)

unde nK reprezintă o matrice inferior triunghiulară iar H nK este transpusa ei hermitică.

Subiectul descompunerii triunghiulare a unei matrici hermitice a fost introdus în paragraful

4.6 şi utilizat în Capitolele 9 şi 10. În algebra lineară, factorul Cholesky nK este în mod

obişnuit denumit rădăcină pătrată a matricii nK . Drept urmare, orice variantă de

algoritm de filtrare Kalman bazată pe factorizarea Cholesky poartă numele de filtrare de

rădăcină pătrată. Ceea ce trebuie subliniat aici este că produsul matricial Hn nK K nu

poate deveni negativ definit, întrucât produsul oricărei matrici pătrate cu transpusa ei hermi-

tică este întotdeauna pozitiv definit. Într-adevăr, în ciuda erorilor de rotunjire, condiţionarea

numerică a factorului Cholesky nK este mult mai bună decât cea a lui nK .

Algoritmul de filtrare informaţională poate fi de asemenea implementat prin metode de

rădăcină pătrată, cu diferenţa că în acest caz recursia se face pe rădăcina pătrată 1 nK şi

Procesul scalar de intrare

Observaţii = 1 , 2 , ,y y y n


Matricea de tranziţie a stărilor = 1 2 ,I I = matricea identitate

Matricea de măsurare = H nu

Varianţa zgomotului de măsurare 1v n

Condiţii iniţiale

0

ˆ 1 1E x xY

01,0 1 1 1 1

H

E E E K x x x x Π


1 1 1 Hn n n n K K u u

1 1 2 1

1ˆ ˆ1 1 1n nn n n n n y n

K x K x uY Y

1

1 1ˆ ˆ1 1n nn n n n

x K K xY Y

Tabelul 11.4 Algoritmul de filtrare informaţională ce se aplică pe modelul de sistem dinamic

neforţat.


nu pe matricea inversă 1 nK (Kaminski, ş.a. 1971). În această variantă a filtrului Kalman,

factorizarea Cholesky exprimă matricea inversă 1 nK astfel:

1 1Hn n n K K K (11.84)

unde 1 nK este o matrice inferior triunghiulară iar H n

K este transpusa ei hermitică.

11.7 Filtrul Kalman extins (EKF)

Până în acest moment al discuţiei noastre asupra filtrelor Kalman, s-a tratat doar problema

estimării vectorului de stare în cazurile în care sistemul dinamic este reprezentat printr-un

model linear. Vom arăta în prezentul paragraf că şi în cazul în care modelul sistemului este

nelinear, se poate aplica filtrarea Kalman prin utilizarea unei proceduri de linearizare. Vom

denumi în mod natural filtrul rezultat în urma acestei operaţiuni, filtru Kalman extins

(Extended Kalman Filter - EKF). O asemenea extindere este fezabilă datorită faptului că

filtrul Kalman este descris, în cazul unui model de stare, prin ecuaţii cu diferenţe finite.

Trebuie subliniat faptul că o asemenea extindere nu este posibilă în cazul filtrului Wiener,

întrucât noţiunea de răspuns la impuls (pe care se bazează filtrul Wiener) are sens doar în

cazul sistemelor lineare. Această observaţie reprezintă un avantaj major al filtrării Kalman în

raport cu filtrul Wiener.

Vom porni în dezvoltarea filtrului Kalman extins de la modelul linear standard al unui

sistem dinamic în spaţiul stărilor introdus în prima parte a capitolului (ecuaţiile (11.1) şi

(11.3)), pe care le reproducem în continuare:

11 1,n n n n n x F x v (11.1)

2n n n n y C x v (11.3)

unde 1 nv şi 2 nv sunt procese de zgomot alb de medie nulă şi necorelate cu matricile

de corelaţie 1 nQ respectiv 2 nQ , definite prin relaţiile (11.2), (11.4) şi (11.5). Ecuaţiile

de definiţie a algoritmului Kalman de filtrare corespunzător sunt rezumate în Tabelul 11.2.

Vom rescrie aceste ecuaţii într-o formă uşor modificată, mai convenabilă scopului propus.

În particular, vom realiza recursia pentru estimarea stării sistemului în doi paşi. În primul

pas se recalculează ˆ 1 nn x Y pornind de la ˆnn x Y conform ecuaţiei (11.43). În al

doilea pas, pornind de la 1ˆ

nn x Y se obţine ˆnn x Y . Această recursie face apel la înlo-

cuirea ecuaţiei (11.29) în (11.44) şi definirea unei noi matrici de câştig Kalman:

1 1,f n n n n G F G (11.85)

În aceste condiţii, algoritmul de filtrare Kalman este descris prin următoarele ecuaţii

ˆ ˆ1 1,n nn n n n x F xY Y (11.86)

1ˆ ˆ

n n fn n n n x x G αY Y (11.87)

11.7 Filtrul Kalman extins (EKF) 355

1ˆ

nn n n n α y C x Y (11.88)

1

2, 1 , 1H H

f n n n n n n n n n

G K C C K C Q (11.89)

11, 1, 1,Hn n n n n n n n K F K F Q (11.90)

, 1fn n n n n K I G C K (11.91)

În continuare, vom face apel la un model mai elaborat al sistemului dinamic. În loc de

ecuaţiile de stare (11.1) şi (11.3), vom utiliza modelul alternativ:

11 1,n n n n n n x F x v d (11.92)

2n n n n y C x v (11.93)

unde nd este un vector cunoscut (adică nealeator). Se verifică uşor în acest caz că ecuaţii-

le Kalman (11.87) până la (11.91) rămân nemodificate, excepţie făcând prima ecuaţie

(11.86) care devine:

ˆ ˆ1 1,n nn n n n n x F x dY Y (11.94)

Această modificare va fi utilizată la deducerea filtrului Kalman extins ce va fi efectuată în

continuare.

După cum a fost menţionat anterior, filtrul Kalman extins (EKF) este o soluţie aproxi-

mativă care oferă posibilitatea extinderii principiului filtrării Kalman la modele nelineare în

spaţiul stărilor (Ljung şi Söderström 1983). În particular, modelul nelinear, pe care îl vom

considera în continuare, are următoarea formă:

11 ,n n n n x F x v (11.95)

2,n n n n y C x v (11.96)

unde, ca şi mai sus, 1 nv şi 2 nv sunt procese de zgomot alb de medie nulă şi necorelate

cu matrici de corelaţie 1 nQ respectiv 2 nQ . În schimb, aici, funcţionala ,n nF x

reprezintă o matrice de tranziţie nelineară, posibil variabilă în timp. În cazul linear, ea se

reduce pur şi simplu la situaţia tratată anterior:

, 1,n n n n n F x F x

În schimb, în cazul general nelinear, prin acţiunea funcţionalei ,n nF x componentele

vectorului de stare nx pot fi combinate nelinear. Mai mult, această dependenţă nelineară

poate fi şi variabilă în timp. Similar, funcţionala ,n nC x reprezintă o matrice de măsu-

rare nelineară care, de asemenea, poate fi variabilă în timp.

Drept exemplu, să considerăm pentru relaţiile (11.95) şi (11.96) modelul bidimensional

în spaţiul stărilor de mai jos descris în continuare:


2

1,11 1 2

1,22 1 1 2

2

1 2 2

1

1 1

v nx n x n x n

v nx n nx n x n x n

y n x n x n v n

În acest exemplu avem

2

1 2

1 1 2

,1

x n x nn n

nx n x n x n

F x

şi 2

1 2,n n x n x nC x

Ideea fundamentală a filtrului Kalman extins constă în linearizarea modelului în spaţiul

stărilor din ecuaţiile (11.95) şi (11.96) la fiecare moment de timp în jurul celei mai recente

estimări de stare, care poate fi atât ˆnn x Y cât şi 1

ˆnn x Y , în funcţie de forma

particulară a funcţionalei utilizate. Odată obţinut modelul linear, se aplică ecuaţiile standard

ale filtrului Kalman.

Mai explicit, aproximarea se face în doi paşi.

Pasul 1. Se construiesc următoarele două matrici

ˆ

,1,

nn

n nn n

x x

F xF

xY

(11.97)

şi

1ˆ

,

nn

nn

x x

C xC

xY

(11.98)

Drept urmare, componenta ij a lui 1,n nF este egală cu derivata parţială a componentei i

a lui ,nF x în raport cu componenta j a lui x . Similar, componenta ij a lui nC este

egală cu derivata parţială a componentei i a lui ,nC x în raport cu componenta j a lui x .

În primul caz, derivatele sunt evaluate în ˆnn x Y , în timp ce în al doilea caz, derivatele se

evaluează la 1ˆ

nn x Y . Toate componentele matricilor 1,n nF şi nC sunt cunoscute

(adică sunt calculabile), pentru că ˆnn x Y şi 1

ˆnn x Y sunt cunoscute aşa cum se arată

în continuare.

Aplicăm definiţiile (11.97) şi (11.98) la exemplul ales şi obţinem

2 2

2 1 2

2 1

1 2, , şi 2

xn n xx x x

n x x

F x C

x x

ceea ce conduce la: 2

2 1

ˆ1 21,

ˆ ˆ

n

n n

x nn n

n x n x n

FY

Y Y

11.7 Filtrul Kalman extins (EKF) 357

şi 2

2 1 1 2 1ˆ ˆ ˆ2n nn x n x x n C Y Y

Pasul 2. Odată făcută evaluarea matricilor 1,n nF şi nC , acestea sunt utilizate în

continuare la stabilirea aproximaţiei Taylor de ordinul întâi a funcţionalelor nelineare

,n nF x şi ,n nC x în jurul valorilor ˆnn x Y şi 1

ˆnn x Y . În particular,

,n nF x şi ,n nC x se aproximează după cum urmează:

ˆ ˆ, , 1,n nn n n n n n n n F x F x F x xY Y (11.99)

1 1ˆ ˆ, , n nn n n n n n n C x C x C x xY Y (11.100)

Pe baza ultimelor două relaţii, se poate acum trece la aproximarea ecuaţiilor de stare

nelineare (11.95) şi (11.96) prin expresiile care urmează:

11 1,n n n n n n x F x v d (11.101)

şi 2n n n ny C x v (11.102)

În (11.101) şi (11.102) s-au introdus două noi mărimi:

1 1ˆ ˆ, n nn n n n n n y y C x C xY Y (11.103)

şi ˆ ˆ, 1,n nn n n n n n d F x F xY Y (11.104)

Componentele vectorului ny sunt toate cunoscute la momentul de timp n, şi prin urmare,

ny poate fi privit ca un vector de observaţie la momentul n. Similar, toate componentele

vectorului nd se cunosc la momentul n.

Modelul de stare aproximativ descris de ecuaţiile (11.101) şi (11.102) este linear şi are o

formă matematică identică cu modelul descris prin ecuaţiile (11.92) şi (11.93); de fapt, cu

acest obiectiv în vedere s-a formulat mai devreme modelul din ecuaţiile (11.92) şi (11.93).

Ecuaţiile filtrului Kalman extins sunt, prin urmare, şi în acest caz, ecuaţiile Kalman standard

(11.87) până la (11.91) şi (11.94) aplicate modelului linear definit mai sus. Se ajunge la

următorul set de ecuaţii:

1

1

1 1 1

1

ˆ ˆ1 1,

ˆ ˆ ˆ1, , 1,

ˆ,

ˆ ˆ

ˆ

ˆ ˆ ˆ,

ˆ,

n n

n n n

n

n n f

n

n n n

n

n n n n n

n n n n n n n n

n n

n n n n

n n n n

n n n n n n n

n n n

x F x d

F x F x F x

F x

x x G α

α y C x

y C x C x C x

y C x

Y Y

Y Y Y

Y

Y Y

Y

Y Y Y

Y

(11.105)


Pe baza ecuaţiilor (11.105) reprezentăm în Figura 11.8 graful de semnal al operaţiei de

actualizare a filtrului Kalman extins de predicţie într-un pas.

Tabelul 11.5 prezintă un rezumat al algoritmului de filtrare Kalman extins, în care

matricile linearizate 1,n nF şi nC sunt calculate din omoloagele lor nelineare pe

baza ecuaţiilor (11.97) şi (11.98). Fiind dat un model de sistem în spaţiul stărilor descris prin

ecuaţiile (11.95) şi (11.96), se poate utiliza acest algoritm pentru a calcula estimarea de stare

recursiv. Comparând ecuaţiile filtrului Kalman extins rezumate aici cu ecuaţiile filtrului

Kalman standard date prin relaţiile (11.86) până la (11.91), observăm faptul că singurele

diferenţe dintre ele apar la calculul vectorului de inovaţii nα şi al estimării vectorului de

stare ˆ 1 nn x Y . În detaliu, termenii lineari ˆ1, nn n n F x Y şi 1ˆ

nn n C x Y care

apar la filtrul Kalman standard sunt înlocuiţi prin termenii aproximaţi ˆ, nn n F x Y şi

respectiv 1ˆ, nn n C x Y care sunt specifici filtrului Kalman extins. Aceste diferenţe sunt

de asemenea puse în evidenţă la compararea grafului de semnal din Figura 11.3 pentru

predicţia într-un pas făcută cu filtrul Kalman standard şi cel din Figura 11.8 pentru predicţia

într-un pas făcută cu filtrul Kalman extins.

11.8 Filtrul Kalman şi algoritmul RLS

Există o strânsă legătură între problema filtrării recursive prin metoda celor mai mici pătrate

(RLS) dezvoltată pe larg în Capitolul 10 şi cea a filtrării lineare optimale recursive aşa cum

este aceasta realizată prin algoritmul Kalman, prezentat în acest Capitol. Deşi, natura

algoritmilor RLS este deterministă iar metodele de filtrare Kalman sunt de natură stochas-

tică, ambele clase de aplicaţii se dovedesc a fi echivalente în sensul că rezolvând o problemă

dintr-o clasă rezolvăm implicit o problemă din cealaltă clasă şi viceversa (Sayed 2008).

Algoritmul RLS cu ponderare exponenţială a fost dedus pe baza unor principii

deterministe enunţate în Capitolul 10. Modelul matematic ce serveşte drept fundament

acestei deduceri este determinist, întrucât singura sa sursă de incertitudine rezidă în

caracterul aleator al erorii de măsurare 0e n din expresia (10.37) a semnalului de răspuns

dorit:

H

o od n n e n w u (11.106)

Figura 11.8 Graful de semnal al algoritmului de filtrare Kalman extins (EKF) cu

predicţie într-un pas.

11.8 Filtrul Kalman şi algoritmul RLS 359

unde ow sunt parametrii parametrii procesului de regresie ce sunt identificaţi prin filtrare

(coeficienţii optimali ai filtrului adaptiv) iar nu este semnalul la intrarea filtrului adaptiv.

Vom arăta în cele ce urmează că algoritmul RLS poate fi dedus exact direct din

algoritmul de filtrare Kalman de covarianţă prezentat în paragraful 11.6.2, utilizând un

model în spaţiul stărilor care se adaptează perfect problemei RLS (Sayed şi Kailath 1994).

Modelul de stare utilizat în acest caz este prin formularea sa natural stochastic. Această

abordare alternativă a soluţiei problemei RLS este deosebit de importantă întrucât ne permi-

te să stabilim o listă de corespondenţe unu la unu între variabilele RLS şi variabilele Kalman

bazate pe modelul de stare. Cu o asemenea listă la dispoziţie, putem utiliza vasta literatură

consacrată filtrelor Kalman pentru a rezolva problema algoritmilor RLS într-o manieră

unificată, ceea ce reprezintă obiectivul nostru final.

Vectorul procesului de intrare

Observaţii = 1 , 2 , , ny y y


Matricea nelineară de tranziţie a stărilor = ,n nF x

Matricea nelineară de măsurare = ,n nC x

Matricea de corelaţie a vectorului de zgomot de proces = 1 nQ

Matricea de corelaţie a zgomotului de măsurare = 2 nQ


1

2, 1 , 1H H

f n n n n n n n n n

G K C C K C Q

1ˆ, nn n n n α y C x Y

1ˆ ˆ

n n fn n n n x x G αY Y

ˆ ˆ1 ,n nn n n x F xY Y

, 1fn n n n n K I G C K

11, 1, 1,Hn n n n n n n n K F K F Q

Observaţie: Matricile linearizate 1,n nF şi nC sunt calculate din

omoloagele lor nelineare ,n nF x şi ,n n C x prin

utilizarea relaţiilor (11.97) şi, respectiv, (11.98). Condiţii iniţiale

0ˆ 1 1E x xY

01,0 1 1 1 1H

E E E K x x x x Π

Tabelul 11.5 Algoritmul de filtrare Kalman extins (EKF).


11.8.1 O comparare a metodelor aleatoare şi

deterministe

Pentru început, vom considera modelul dinamic neforţat descris prin ecuaţiile (11.62) până

la (11.64), pe care îl reproducem în continuare

1 21n n x x (11.107)

Hy n n n v n u x (11.108)

unde nx este vectorul de stare al modelului, y n este mărimea scalară de observaţie sau

semnalul de referinţă, iar v n este un proces scalar aleator de zgomot alb de medie nulă şi

varianţă unitară. Parametrul modelului este o constantă reală şi pozitivă. Din relaţia

(11.107) se vede uşor că:

2 0nn x x (11.109)

unde 0x este valoarea iniţială a vectorului de stare. Evaluând în consecinţă ecuaţia

(11.108) la momentele 0,1,n , şi utilizând în continuare ecuaţia (11.109) pentru a expri-

ma vectorii de stare la momente distincte în funcţie de valoarea iniţială 0x , se obţine

următorul sistem de ecuaţii lineare:

1 2

2

0 0 0 0

1 1 1 1

H

H

n H

y v

y v

y n n n v n

u x

u x

u x

(11.110)

Echivalent, se poate scrie

1 2 1 2

2 2

0 0 0 0

1 1 1 1

H

H

n H n

y v

y v

y n n n v n

u x

u x

u x

(11.111)

Sistemul de ecuaţii (11.111) reprezintă o caracterizare stochastică a modelului dinamic

neforţat, corespunzând astfel la o abordare din punct de vedere Kalman a problemei.

Vom considera în continuare formularea deterministă a problemei, adică vom încerca să

o privim din punctul de vedere a algoritmului RLS. Adaptăm în acest scop la problema

examinată modelul de regresie lineară din ecuaţia (11.106):

11.8 Filtrul Kalman şi algoritmul RLS 361

* *

* *

* *

0 0 0

1 1 1

H

o o

H

o o

H

o o

d e

d e

d n n e n

u w

u w

u w

(11.112)

Avem astfel două sisteme de ecuaţii lineare simultane pentru rezolvarea în esenţă a

aceleiaşi probleme. Un sistem, (11.111), este stochastic, bazat pe teoria filtrării Kalman;

celălalt sistem, (11.112), este determinist, bazat pe teoria estimării după cele mai mici pătra-

te. Intuitiv, ne-am aştepta ca ambele abordări să conducă exact la aceiaşi soluţie pentru

problema examinată. Mai mult, recunoscând că aceste două sisteme de ecuaţii au aceiaşi

formă matematică, pare rezonabil pentru noi să stabilim

0 ox w (11.113)

şi, în consecinţă 2

1ˆ 1n

nn n

x wY (11.114)

Pe această bază, o comparaţie între ecuaţiile stochastice (11.111) şi ecuaţiile deterministe

(11.112) dezvăluie imediat corespondenţele unu la unu:

2 *ny n d n (11.115)

2 *n

ov n e n (11.116)

unde asteriscul reprezintă operaţia de conjugare complexă. Variabilele care apar în membrii

din partea stângă a ultimelor două ecuaţii se referă la modelul din spaţiul stărilor, iar cele

situate în partea dreaptă a ecuaţiilor se referă la modelul de regresie lineară.

11.8.2 Comparaţie între filtrul Kalman de covarianţă

şi algoritmul RLS

După cum a devenit evident în paragraful anterior, legătura dintre algoritmul RLS cu ponde-

rare exponenţială şi filtrarea Kalman se datorează aplicării filtrului Kalman modelului

special în spaţiul stărilor descris de (11.107) şi (11.108). Vom utiliza un pas mai departe

acest argument pentru a arăta că soluţia recursivă a algoritmului RLS standard descrisă prin

ecuaţiile (10.32) şi Tabelul 10.2 reprezintă o formulare alternativă a algoritmului de filtrare

Kalman de covarianţă din Tabelul 11.3 ce se aplică modelului mai sus-menţionat. Ecuaţiile

de mai jos reformulează algoritmul RLS standard într-un format echivalent celui utilizat în

Tabelul 11.31:

1

1

1

1RLS H

n nn

n n n

P ug

u P u (11.117)

1He n d n n n w u (11.118)

1 Pentru a face distincţia dintre vectorii de câştig RLS şi Kalman, desemnaţi anterior prin ng , vom

indica vectorul de câştig RLS prin RLS ng iar vectorul de câştig Kalman prin K ng .


*1 RLSn n n e n w w g (11.119)

1 11 1H

RLSn n n n n P P g u P (11.120)

Semnificaţiile mărimilor utilizate în ecuaţiile de mai sus este următoarea: RLS ng este

vectorul câştigului de adaptare, nP este inversa estimatei matricii de corelaţie a procesului

de intrare calculată la momentul n, e n este eroarea apriori de la ieşirea filtrului la acelaşi

moment de timp, iar este factorul de uitare, 0 1 .

Comparăm ecuaţia (11.119) cu relaţia echivalentă de calcul recursiv al algoritmului

Kalman (11.29) adaptată la modelul special utilizat:

1 2

1 1ˆ ˆ ˆ1 H

n n K nn n n y n n n

x x g u xY Y Y (11.121)

Rescriem relaţia de mai sus în termenii algoritmului RLS, făcând substituţiile (11.114) şi

(11.115):

1 2 1 2 2 2 * 21n n n n H

Kn n n d n n n w w g u w

Continuăm, multiplicând ambii termeni ai ultimei relaţii cu 1 2n

:

1 2 * *1 1 1H

K RLSn n n d n n n n e n w w g u w w g

Rezultă relaţia dintre vectorul câştigului de adaptare RLS şi vectorul de câştig Kalman:

1 2

K RLSn ng g (11.122)

Comparând recursia lui nP din (11.120) cu ecuaţia de recursie a matricii de corelaţie

nK din Tabelul 11.3 se obţine, în acelaşi mod cu (11.122):

1n nK P (11.123)

Pe lângă echivalările dintre cei doi algoritmi, evidenţiate de relaţiile (11.113) până la

(11.116) şi (11.122)-(11.123) pot fi realizate şi alte identificări între variabilele Kalman şi

variabilele RLS. Să reamintim, de exemplu, că problemei RLS i se asociază la fiecare

moment de timp n două semnale de eroare:

eroarea apriori: 1He n n n n d w u

şi eroarea aposteriori: Hn d n n n w u

Aceste erori pot fi exprimate în funcţie de variabila de inovaţii a filtrului Kalman K n ,

astfel

2 *

1

2 *

ˆ 1n H

K n

n

n y n n d n n n

e n

x u wY (11.124)

FILTRUL KALMAN Probleme 363

* * 1 2

* 1 2 1 2

1

* 1 2 *

1 2 *

* 1 *

ˆ 1

ˆ

1

1

11

1 1

n H

n

n H

n K K

H H

K

H

K

H

H

n d n n n

d n n n n n

d n n n n n e n

n n e n

n n ne n r n e n

n n n

u x

u x g

u w u g

u g

u K u

u K u

Y

Y

(11.125)

Conform ultimei ecuaţii, factorul de conversie RLS RLS n 2, care transformă eroarea RLS

apriori e n în eroarea RLS aposteriori n , este egal cu factorul de conversie Kalman

(inversa varianţei variabilei de inovaţii), 1r n , definit prin relaţia (11.49).

În concluzie, calculele efectuate mai sus demonstrează că filtrul RLS standard este

echivalent cu filtrarea Kalman de covarianţă ce se aplică modelului unui sistem dinamic

neforţat atunci când între cele două proceduri se utilizează echivalenţele descrise de Tabelul

11.6 (Haykin 1996, Sayed 2008). Această legătură strânsă care există între filtrul Kalman şi

algoritmii RLS permite ca literatura de specialitate foarte bogată în ceea ce priveşte

diversele variante de algoritmi Kalman să fie utilizată nemijlocit la dezvoltarea şi

fundamentarea matematică a filtrelor RLS.

Probleme

P 11.1 Vectorul de eroare a predicţiei de stare se defineşte prin

1ˆ, 1 nn n n n x xє Y

unde 1ˆ

nn x Y este estimarea de medie pătratică minimă a stării nx , pe

spaţiul 1nY subîntins de observaţiile 1 , , 1ny y . Se notează prin 1 nv şi

2 nv vectorii de zgomot de proces respectivde zgomot de măsurare. Arătaţi că

, 1n n є este ortogonal atât pe 1 nv cât şi pe 2 nv ; adică:

1 2, 1 , 1H HE n n n şi E n n n v 0 v 0є є

P 11.2 Expresia matricii de câştig Kalman definit prin relaţia (11.33) include matricea

inversă 1 nR . Matricea nR este la rândul său definită prin ecuaţia (11.19), pe

care o reproducem mai jos

2, 1 Hn n n n n n R C K C Q

2 Pentru a evita confuziile, s-a notat variabila de inovaţii Kalman prin K n iar factorul de

conversie RLS prin RLS n .


Matricea nC este definită nenegativ, dar nu este în mod necesar nesingulară

(a) De ce este nR o matrice nesingulară?

(b) Ce condiţie iniţială trebuie impusă matricii 2 nQ pentru a asigura existenţa

matricii inverse 1 nR .

P 11.3 Pentru situaţia în care matricea de tranziţie 1,n nF este matricea unitate iar

vectorul zgomotului de stare este nul, arătaţi că matricea de corelaţie a erorii de

predicţie a stării 1,n nK şi matricea de corelaţie a erorii de stare filtrate

nK sunt egale

P 11.4 Utilizând condiţiile iniţiale descrise prin ecuaţiile (11.56) şi (11.57), arătaţi că

estimarea filtrată ˆnn x Y produsă de filtrul Kalman este nedeplasată; adică:

1ˆ

nE n n x xY

Kalman RLS

Descriere Variabilă Variabilă Descriere

Valoare iniţială a vectorului de stare

0x ow Vector necunoscut al coeficienţilor de regresie

Vector de stare nx 2n

ow Versiune ponderată

exponenţial a vectorului coeficienţilor coeficienţilor

Semnalul de referinţă (măsurat)

y n 2 *n d n Răspunsul dorit

Zgomot de măsurare v n 2 *n e n Eroarea de măsurare

Vector de stare a predicţiei într-un pas

ˆ 1 nn x Y 1 2ˆ

nn

w Estimare vectorului

coeficienţilor Matrice de corelaţie a erorii de predicţia de stare

nK 1 nP Inversă a matricii de

corelaţie a vectorului de intrare

Vector de câştig Kalman K ng 1 2

RLS ng Vector de câştig

Inovaţii K n 2 *n e n Eroare de estimare apriori

Inovaţii K n

2 *n r n e n Eroare de estimare aposteriori

Varianţă a inovaţiilor r n 1

RLS n Inversă a factorului de conversie

Condiţii iniţiale

0ˆ 1 x 0

K 0

Y

1

ˆ 0

0

w 0

P

Condiţii iniţiale

Tabelul 11.6 Corespondenţe între variabilele filtrului Kalman şi variabilele algoritmului RLS

echivalent.

12 Algoritmi RLS rapizi

Capitolul de faţă este dedicat dezvoltării unei clase importante de filtre adaptive, alcătuite

din algoritmi care sunt recurenţi atât în timp cât şi după ordinul filtrului. Originea algoritmi-

lor se găseşte în teoria estimării recursive în sensul celor mai mici pătrate (RLS) şi prin

urmare păstrează cele două caracteristici importante ale acesteia: viteză mare de convergenţă

şi lipsa de sensibilitate la variaţiile gradului de împrăştiere a valorilor proprii ale matricii de

corelaţie a datelor de intrare. Al doilea punct de pornire a algoritmilor RLS rapizi se găseşte

în filtrele de predicţie lineară studiate în Capitolul 5 care, datorită invarianţei pe care o

prezintă faţă de deplasarea semnalului de intrare sunt alcătuite din structuri modulare după

ordin (lattice) de filtrare.

Diferenţa faţă de algoritmii RLS studiaţi până acum este dată de reducerea complexităţii

matematice de la 2O M la O M , M fiind numărul de celule ale filtrelor. Recurenţa

după ordin oferă filtrelor adaptive implementate prin aceste metode eficienţă computaţiona-

lă şi modularitate, justificând pe lângă motivul menţionat anterior, denumirea de algoritmi

rapizi (Ciochină şi Negrescu 1999, Haykin 1996) pe care o poartă această categorie de filtre.

În particular, reducerea volumului de calcul se datorează recurenţei după ordin ceea ce face

ca, odată cu creşterea ordinului filtrului de la m la 1m , o parte din informaţia acumulată

pentru filtrul de ordinul m să fie transferată filtrului de ordinul 1m .

Pentru că algoritmii RLS combină conceptele de predicţie şi filtrare într-un mod elegant

care oferă implementări eficiente din punctul de vedere a efortului de calcul, vom porni

studiul lor de la abordarea predicţiei lineare în contextul metodei celor mai mici pătrate.

12.1 Predicţie liniară în context LS

12.1.1 Recursia după ordinul filtrului

Vom deschide subiectul prin introducerea unor notaţii şi observaţii utile în discutarea algo-

ritmilor recurenţi după ordin. Vom considera în acest scop secvenţa de date de intrare

, 1 , , 1 , ,u n u n u n m u n m Atunci când ordinul de predicţie creşte de la m

Capitolul

12

366 ALGORITMI RLS RAPIZI - 12

la 1m , vectorului de date 1T

m n u n u n m u i se adaugă observaţia

suplimentară u n M , devenind 1m nu . Vom nota prin 1

m

m mn n u u primele m

componente iar prin 1 1m

m mn n u u ultimele m componente ale lui 1m nu . Similar,

matricea de corelaţie 1

m

m n R de ordin m m este determinată de de intersecţia primelor m

linii cu primele m coloane ale lui 1m nR iar matricea 1

m

m n R se obţine din intersecţia

ultimelor m linii şi ultimelor m coloane. De exemplu, dacă 3m şi dacă se face abstracţie

de variabila timp, se scrie:

ceea ce ilustrează partiţionările superior-stânga şi inferior-dreapta ale matricii 4R .

Dezvoltarea algoritmilor de predicţie lineară optimală din Capitolul 5 s-a făcut pe baza

proprietăţii de invarianţă la deplasare a vectorului de date de intrare

1

1

m

m

m

n u nn

u n m n

uu

u (12.1)

Elementul cheie în dezvoltarea acestor algoritmi cu recursie de ordin se află în următoarele

partiţionări după ordin ale matricii de corelaţie (vezi relaţiile (5.14) şi (5.42)):

1

1

b fH

m m m m

m bH f

m m m m

n r n P n r nn

n P n m n n

RR

r r R (12.2)

care reprezintă un rezultat al proprietăţii (12.1). S-au utilizat notaţiile:

* *, 1b f

m m m mn E n u n m n E n u n r u r u (12.3)

şi *P n E u n u n (12.4)

Aceleaşi partiţii pot fi obţinute dacă se calculează matricea de corelaţie în sensul celor mai

mici pătrate (LS), ˆm nR

1 1 1

0

ˆ

ˆ ˆˆ

ˆˆ ˆ 1

nn j H

m m m

j

fHbm mm m

bH fm m m m

n j j

E n r nn r n

n E n m n n

R u u

R

r r R

(12.5)

12.1 Predicţie liniară în context LS 367

în ipoteza că estimarea LS este cu predecupare (prewindowing), 1m u 0 (vezi

paragraful 9.3). Condiţia este necesară pentru a asigura prezenţa termenului ˆ 1m n R în

partiţia inferior-dreapta a lui 1ˆ

m nR .

Formele identice ale relaţiilor (12.2) şi (12.5) implică faptul că relaţiile recurente după

ordin precum şi structurile modulare de predicţie dezvoltate în Capitolul 5 pentru filtrele de

predicţie în sens optimal pot fi utilizate şi pentru predicţia în sens LS cu predecupare. Pentru

a face trecerea de la filtrarea optimală la filtrarea LS, se înlocuieşte, pur şi simplu, operatorul

de medie statistică E cu operatorul de medie temporală 0

n n j

j

, iar termenul

putere mP se înlocuieşte cu termenul energie mE .

Vom relua în cele ce urmează, în contextul estimării LS, problema definirii operaţiei de

predicţie lineară, pentru că apar diferenţe majore în raport cu cazul optimal, ce trebuie

evidenţiate în acest punct al lucrării.

12.1.2 Ecuaţiile erorii de predicţie LS

Predicţia lineară constituie un caz special al filtrării adaptive în care, după cum s-a arătat în

Capitolul 5, semnalul dorit d n este reprezentat chiar de semnalul de intrare: d n u n

în cazul predicţiei înainte respectiv d n u n m în cazul predicţiei înapoi de ordinul m.

Eroarea de predicţie este dată de diferenţa dintre eşantionul specificat al semnalului de intra-

re şi ieşirea predictorului adaptiv.

Astfel, pentru predicţia înainte se defineşte eroarea de predicţie înainte aposteriori

f

m n prin

1f fH

m m mn u n n n w u (12.6)

unde vectorii de lungime m ai secvenţei de intrare 1m n u şi ai coeficienţilor predictorului

adaptiv f

m nw sunt, respectiv

1 1 2T

m n u n u n u n m u

şi: ,1 ,2 ,

Tf f f f

m m m m mn w n w n w n w

Ca şi în cazul filtrării RLS, eroarea aposteriori se calculează pe baza valorii de la momentul

de timp curent n a ponderilor filtrului predictor. Dacă calculul erorii utilizează valorile

„trecute” ale vectorului coeficienţilor, atunci se obţine eroarea de predicţie înainte apriori,

f

me n :

1 1f fH

m m me n u n n n w u (12.7)

Variabilele care definesc operaţia de predicţie înapoi sunt vectorii de lungime m ai

secvenţei de intrare m nu şi ai coeficienţilor predictorului adaptiv b

m nw definiţi prin


1 1T

m n u n u n u n m u

respectiv: ,1 ,2 ,

Tb b b b

m m m m mn w n w n w n w

Eroarea de predicţie înapoi aposteriori b

m n se calculează pe baza valorilor actualizate la

momentul curent ale coeficienţilor filtrului:

b bH

m m mn u n m n n w u (12.8)

iar calculul erorii de predicţie înapoi apriori b

me n utilizează valorile anterioare ale

vectorului coeficienţilor:

1b bH

m m me n u n m n n w u (12.9)

Trebuie remarcat că notaţiile care desemnează în Capitolul 5 erorile de predicţie înainte

şi înapoi, mf n respectiv mb n , diferă de cele utilizate aici, pentru că erorile de predicţie

LS aposteriori şi apriori nu pot fi echivalate direct cu eroarea predicţiei optimale folosită

anterior.

O modalitate echivalentă de descriere a procesului de predicţie utilizează filtrul erorii de

predicţie înainte respectiv filtrul erorii de predicţie înapoi reprezentate în Figura 12.1.

Relaţia dintre coeficienţii filtrului erorii de predicţie m na respectiv m nc (vezi Figura

12.1) şi coeficienţii predictorului este evidentă, dacă se are în vedere faptul că eroarea de la

ieşirea predictorului este semnalul de ieşire al filtrului de eroare:

respectivf b

m m m mn n n n a w c w (12.10)

Prin urmare, vectorii de lungime m ai coeficienţilor filtrelor erorii de predicţie înainte şi

Figura 12.1 (a) Filtrul erorii de predicţie înainte de

ordinul m şi (b) filtrul erorii de predicţie

înapoi de ordinul m.

12.1 Predicţie liniară în context LS 369

înapoi sunt

,1 ,2 ,

T

m m m m mn a n a n a n a

respectiv ,0 ,1 , 1

T

m m m m mn c n c n c n c .

Rescriem ecuaţiile predicţiei LS (12.6)-(12.9) pentru setul de coeficienţi utilizat în filtrele

erorii de predicţie:

1. Eroarea de predicţie înainte aposteriori

1f H

m m mn u n n n a u (12.11)

2. Eroarea de predicţie înainte apriori

1 1f H

m m me n u n n n a u (12.12)

3. Eroarea de predicţie înapoi aposteriori

b H

m m mn u n m n n c u (12.13)

4. Eroarea de predicţie înapoi apriori

1b H

m m me n u n m n n c u (12.14)

Şi în ceea ce priveşte vectorii coeficienţilor filtrelor erorii de predicţie există o diferenţă

faţă de notaţiile utilizate în Capitolul 5. Anterior, notaţiile m na respectiv m nc desem-

nau vectori de lungime 1m , întrucât şi coeficienţii unitari ,0 1ma respectiv , 1m mc (vezi

Figura 12.1) erau consideraţi ca făcând parte din filtrele erorii de predicţie. Notaţia utilizată

aici are scopul de fi coerentă cu semnificaţia ei.

12.1.3 Ecuaţiile de recursie ale predicţiei RLS

Algoritmii RLS rapizi exploatează invarianţa la deplasare a vectorului de date (12.1) precum

şi ecuaţia de recursie în timp a matricii de corelaţie ˆm nR enunţată prin ecuaţia (10.7), în

scopul dezvoltării de algoritmi rapizi de complexitate O M . Reluăm aici, ecuaţia de

recursie a matricii de corelaţie:

ˆ ˆ 1 H

m m m mn n n n R R u u (12.15)

Principalele categorii de algoritmi care pot fi încadrate sub apelativul de algoritmi RLS

rapizi sunt enumerate în continuare (Manolakis, ş.a. 2005):

1. Algoritmi RLS rapizi fără recursie de ordin pentru filtre FIR cu structură directă

ce calculează recursiv în mod explicit vectorii de câştig RLS ng şi ng .

2. Algoritmi RLS rapizi cu recursie după ordin pentru filtre FIR cu structură lattice-

scară ce-şi actualizează indirect sau direct coeficienţii.

3. Algoritmi RLS cu descompunere QR pentru filtre FIR cu structură lattice-scară ce

utilizează rotaţii Givens.


Vom studia în continuare cei mai reprezentativi algoritmi din fiecare categorie menţionată

anterior.

Toate relaţiile stabilite în Capitolul 5 rămân valabile în cazul predicţiei liniare în sens LS

cu predecupare, cu diferenţa că variabila P este înlocuită cu variabila E, pentru a sublinia

faptul că în predicţia LS interpretarea funcţiei de cost este de energie şi nu de putere ca în

cazul predicţiei optimale. Tabelul 12.1 prezintă corespondenţele care există la nivelul ecua-

ţiilor de funcţionare între filtrarea FIR generală şi predictoarele liniare înainte şi înapoi.

Utilizând aceste corespondenţe şi ecuaţiile normale care definesc filtrarea în sens LS, se pot

obţine uşor atât ecuaţiile normale cât şi expresiile funcţiei de cost minime, rezumate de

asemenea în Tabelul 12.1. Expresiile din tabel sunt corecte, atâta vreme cât parametrii

filtrelor erorii de predicţie m na şi m nb sunt menţinuţi constanţi pe parcursul întregului

interval de optimizare.

Tabelul 12.2 face o trecere în revistă a ecuaţiilor de recursie apriori şi aposteriori în

sensul celor mai mici pătrate deduse în Capitolul 10 al acestei lucrări. Dacă se utilizează

corespondenţele relevate în Tabelul 12.1 dintre filtrarea FIR generală şi filtrarea de predicţie

lineară LS, atunci pot fi deduse uşor ecuaţii de recursie similare pentru predicţia lineară

înainte respectiv pentru predicţia lineară înapoi. Rezultatele obţinute pentru predicţie sunt de

asemenea trecute în revistă în Tabelul 12.2.

12.2 Filtre FIR rapide fără recursie de

ordin

Principalul efort de calcul în filtrele RLS este reprezentat de calcularea vectorului de câştig

ng sau ng . Algoritmul RLS standard, pentru început, determină matricea inversă

Tabelul 12.1 Corespondenţe în sens LS între filtrarea FIR, predicţia lineară înainte şi predicţia

lineară înapoi

12.2 Filtre FIR rapide fără recursie de ordin 371

1ˆ nR , iar apoi calculează vectorul de câştig printr-o multiplicare matrice-vector ceea ce

face ca complexitatea de calcul să fie de ordinul a 2O M operaţii pe recursie. Singura cale

de reducere a complexităţii de la 2O M la O M este de a actualiza direct vectorii de

câştig. Algoritmii care realizează acest lucru, exploatează structura invariantă la deplasare a

vectorului datelor de intrare evidenţiată prin ecuaţia (12.1), după cum se va vedea pe parcur-

sul acestui paragraf.

La baza dezvoltării acestor algoritmi stă operaţia de calcul prin recursie după timp şi

ordin a inversei matricii de corelaţie pe baza partiţionării acesteia. Vom trece la introducerea

algoritmilor, prezentând pentru început utilizarea lemei de partiţionare în operaţia de

inversare matricială.

12.2.1 Inversarea matricilor hermitice partiţionate

Fie vectorul 1 1 1

T

m m mu u u u de dimensiune 1 1M , unde se notează

1

m

m m

u u . Matricea de corelaţie a acestuia este 1mR , a cărei partiţie definită prin (12.2), se

calculează astfel:

*

1 1

1

bm H m m

m m m bH bm m m

rE u

u

u RR u

r (12.16)

Ecuaţie Recursie temporală

apriori Recursie temporală aposteriori

Câştig (a) ˆm m mn n nR g u ˆ 1m m mn n n R g u

Filtru

adaptiv (b) 1H

m m me n d n n n w u H

m m mn d n n n w u

(c) *1m m m mn n n e n w w g *1m m m mn n n n w w g

(d) 2

1m m m mE n E n n e n

2

1m

m m

m

nE n E n

n

Predictor

linear

înainte

(e) 1 1f H

m m me n u n n n a u 1f H

m m mn u n n n a u

(f) *1 1 f

m m m mn n n e n a a g *1 1 f

m m m mn n n n a a g

(g) 2

1 1f f f

m m m mE n E n n e n

2

11

f

mf f

m m

m

nE n E n

n

Predictor

linear

înapoi

(h) 1b H

m m me n u n m n n c u b H

m m mn u n m n n c u

(i) *1 b

m m m mn n n e n c c g *1 b

m m m mn n n n c c g

(j) 2

1b b b


2

1

b

mb b

m m

m

nE n E n

n

Tabelul 12.2 Rezumat al ecuaţiilor de recursie temporală în sens LS ce utilizează erorile apriori

şi aposteriori în cazul general al filtrării FIR precum şi pentru predicţiile lineare

înainte şi înapoi.


unde termenul b

mr este dat prin (12.3) iar relaţia (12.4) defineşte pe 2

1

b

m mE u

.

Vom presupune, în continuare, că inversa 1

m

R a submatricii principale

1

m

m m

R R a

matricii 1mR este cunoscută şi că se doreşte să se calculeze 1

1m

R utilizând valorile deja

cunoscute. Având în vedere că inversa 1mQ a matricii hermitice

1mR este tot hermitică, ea

poate fi partiţionată astfel:

1

m m

m H

m mq

Q qQ

q (12.17)

Facem apel la (12.16) pentru a calcula componentele lui 1mQ :

1 11

bm m m mm m

m m H HbH bm m mm m

r

q

Q q I 0RR Q

q 0r (12.18)

După multiplicarea matricială, se obţin ecuaţiile

b H

m m m m m R Q r q I (12.19)

bH b H H

m m m m m r Q q 0 (12.20)

b

m m m m mq R q r 0 (12.21)

1bH b

m m m mq r q (12.22)

unde m0 este vectorul nul de dimensiune 1m . Dacă matricea

mR este inversabilă,

expresia (12.21) permite, în prima instanţă, calculul lui mq :

1 b

m m m mq q R r (12.23)

iar în continuare, prin înlocuire în (12.22), în ipoteza că 1 0b bH b

m m m m r R r , stabilirea

valorii lui mq

1

1m b bH b

m m m m

q

r R r

(12.24)

.Continuăm, înlocuind acum pe (12.24) în (12.23), şi avem:

1

1

b

m mm b bH b

m m m m

R rq

r R r (12.25)

Ultima ecuaţie, coroborată cu relaţia (12.19), conduce la

1 1

1 1 1

1

Hb b

m m m mb H

m m m m m m b bH b

m m m m

R r R rQ R R r q R

r R r (12.26)

Trebuie observat că relaţiile (12.24), (12.25) şi (12.26) exprimă părţile matricii inverse

1mQ în funcţie de mărimi cunoscute. Având în vedere scopurile noastre, vom exprima

ecuaţiile de mai sus într-o modalitate mai convenabilă, utilizând variabilele


1

,1 ,2 ,

T b

m m m m m m mc c c c R r (12.27)

şi 1b b bH b b bH

m m m m m m m m r R r r c (12.28)

În contextul predicţiei lineare, semnificaţiile celor două mărimi sunt evidente: relaţia

(12.27) constituie o soluţie a ecuaţiei normale, reprezentând vectorul coeficienţilor filtrului

erorii de predicţie înapoi iar b

m în (12.28) reprezintă puterea în sens optimal (sau energia în

sens LS) minimă a erorii de predicţie înapoi.

Drept urmare, dacă matricea mR este inversabilă iar 0b

m , combinând (12.18) cu

(12.24)-(12.28), se obţine

11

1

1

11

10

bm Hm m m m

m mbbH b H

mm m m

r

cR R 0R c

r 0 (12.29)

Ecuaţia determină 1

1m

R din 1

m

R prin utilizarea unei recursii de ordin cunoscută sub numele

de inversare de matrice prin lema de partiţionare (Noble şi Daniel 1988).

O altă expresie utilă pentru b

m este (Manolakis, ş.a. 2005):

1det

det

b mm

m

R

R (12.30)

ceea ce justifică importanţa mărimii b

m pentru inversabilitatea matricii 1mR .

Urmând o procedură similară cu cea dezvoltată în acest paragraf, se poate arăta

(Manolakis, ş.a. 2005) că inversa matricii 1mR partiţionată inferior-dreapta ( 1

mf

m m

R R ) se

calculează astfel:

1

111

0 111

Hf fH

mHm m

m mff f fmmm m m m

0rR a

ar R 0 R (12.31)

unde 1

,1 ,2 ,

T f f

m m m m m m ma a a

a R r (12.32)

şi: 1

1det

det

f f fH f f fH mm m m m m m m f

m

R

r r r aR

(12.33)

Ca şi în cazul relaţiilor (12.27) şi (12.28), mărimile definite prin (12.32) şi (12.33) au

semnificaţii similare în contextul predicţiei lineare. Astfel, vectorul ma conţine coeficienţii

filtrului erorii de predicţie înainte, ecuaţia sa de definiţie reprezentând soluţia unei ecuaţii

normale iar f

m reprezintă puterea în sens optimal (sau energia în sens LS) minimă a erorii

de predicţie înainte.

12.2.2 Algoritmul Kalman rapid

Vom presupune că se cunoaşte valoarea vectorului de câştig la momentul 1n :


1ˆ1 1 1m m mn n n g R u (12.34)

Se doreşte determinarea valorii acestuia la următorul moment

1ˆm m mn n ng R u (12.35)

prin ajustarea lui 1m n g pe baza noilor valori disponibile ,m n d nu .

Pentru a calcula recursiv vectorul de câştig, vom utiliza pentru 1

1ˆ

m n

R formulele de

inversarea matricială prin partiţionare (12.29) şi (12.31) actualizate la cazul filtrării LS:

1

1

1

ˆ 1ˆ 110

Hmm mm mbH

mm

nnn n

E n

cR 0R c

0 (12.36)

şi:

1

1 1

0 11ˆ 1ˆ

H

m H

m mfmmm m

n nnE nn

0R a

a0 R (12.37)

Se începe cu prima formulă de partiţionare din (12.36), prima partiţie a vectorului de

date din (12.1) precum şi definiţia erorii de predicţie aposteriori b

m n din Tabelul 12.2. Se

obţine:

10 1

b

mm m

m b

m

nn nn

E n

g cg (12.38)

ceea ce constituie o recursie „pură” după ordin a vectorului de câştig m ng . Similar, se

face apel la ecuaţia (12.37), la cea de a doua partiţie a vectorului de date din (12.1) şi la defi-

niţia erorii de predicţie aposteriori f

m n din Tabelul 12.2 pentru a avea

1

0 1

1

f

m

m fm mm

nn

n nE n

g

g a (12.39)

ceea ce reprezintă o recursie „combinată” de timp şi ordin a vectorului de câştig m ng . În

aceste două ultime ecuaţii se găseşte „cheia” dezvoltării de algoritmi RLS rapizi prin recur-

sia vectorului de câştig.

Pentru a realiza recursia temporală a vectorului de câştig, se porneşte de la 1m n g şi

se face pentru început recursia de timp şi ordin (12.39) ceea ce dă pe 1m ng . În continuare,

se aplică recursia de ordin (12.38) din ale cărei prime m ecuaţii poate fi extras vectorul

m ng astfel:

1 1, 1

m

m m m m mn n g n n g g c (12.40)

întrucât, din (12.38): 1, 1

b

m

m m b

m

ng n

E n

(12.41)


Pentru a efectua recursiile (12.38) şi (12.39) este nevoie să se efectueze recursiilor temporale

ale coeficienţilor filtrelor erorii de predicţie m na şi m nc precum şi ale valorilor minime

ale funcţiilor de cost f

mE n respectiv b

mE n , care sunt calculate în Tabelul 12.2. Singura

problemă rămasă în suspans este rezolvarea „cuplajului” care există între m ng din ecuaţia

(12.40) şi vectorul coeficienţilor m nc din relaţia

*1 b

m m m mn n n e n c c g (12.42)

Problema poate fi evitată prin eliminarea lui m nc , în urma înlocuirii recursiei (12.42) în

ecuaţia (12.40):

1 1, 1

*

1, 1

1

1

m

m m m m

m b

m m m

n g n nn

g n e n

g cg (12.43)

ceea ce contribuie cu un ultim pas la realizarea recursiei.

Procedura de calcul prezentată este cunoscută sub numele de algoritmul Kalman rapid.

Ea a fost dezvoltată de Falconer şi Ljung (1978) pornind de la ideile enunţate de Morf

(1974). Pentru a sublinia faptul că algoritmul nu face recursie de ordin, vom nota în

continuare m M şi vom renunţa la indicii de ordin pentru toate mărimile care sunt de

Ecuaţie Calcule

Vechile estimări: 1 , 1 , 1 , 1 , 1fn n n n E n a c g w

Date noi: ,n d nu

Recursia câştigului şi a filtrelor erorii de predicţie

(a) 1 1f He n u n n n a u

(b) *1 1 fn n n e n a a g

(c) 1f Hn u n n n a u

(d) *1f f f fE n E n n e n

(e)

1

0 1

1

f

M f

nn

n nE n

g

g a

(f) 1b He n u n m n n c u

(g)

1 1, 1

*

1, 1

1

1

M

M M M

b

M M

n g n nn

g n e n

g cg

(h) *1 bn n n e n c c g

Recursia filtrului adaptiv

(i) 1He n d n n n w u

(j) *1n n n e n w w g

Tabelul 12.3 Algoritmul Kalman rapid cu recursie în timp pentru filtre FIR în sens LS.


ordinul M. Organizarea calculelor algoritmului, care necesită 9M operaţii aritmetice pe

fiecare recursie de timp este prezentată în Tabelul 12.3.

12.2.3 Algoritmul FAEST

Algoritmul FAEST (Fast Aposteriori Error Sequential Technique – Tehnică secvenţială

rapidă cu erori aposteriori) a fost introdus de Carayannis, ş.a. (1983). El operează într-un

mod similar cu algoritmul Kalman rapid dar utilizează vectorul de câştig alternativ m ng în

locul lui m ng . Pentru a obţine recursia se porneşte de la ecuaţia:

1 1ˆm m mn n n g R u (12.44)

şi se utilizează în ordine ecuaţiile (12.36) şi (12.37). Într-adevăr, utilizând ecuaţia (12.37)

împreună cu partiţia inferioară din (12.1) şi ecuaţia (12.36) împreună cu partiţia superioară

din (12.1), se obţine

1

0 1

1 11

f

m

m fm mm

e nn

n nE n

g

g a (12.45)

şi:

1

1

0 1

b

mm m

m b

m

e nn nn

E n

g cg (12.46)

ceea ce asigură o conexiune între 1m n g şi m ng . Din (12.46) se obţine:

1 1, 1 1m

m m m m mn n g n n g g c (12.47)

întrucât din ultima linie a relaţiei (12.46) rezultă:

1, 1

1

b

m

m m b

m

e ng n

E n

(12.48)

Diferenţa fundamentală dintre relaţiile (12.38) şi (12.46) este faptul că prezenţa lui

1m n c în cea de a doua întrerupe legătura dintre vectorul de câştig şi filtrul erorii de

predicţie înapoi. Mai mult, relaţia (12.48) poate fi utilizată pentru a calcula eroarea b

me n

prin numai două multiplicări

1, 11b b

m m m me n E n g n (12.49)

Pentru a aplica recursiile în timp ale filtrelor erorii de predicţie cu ajutorul vectorului de

câştig m ng conform formulelor din Tabelul 12.2, este necesar ca erorile aposteriori să fie

calculate din erorile apriori prin utilizarea factorului de conversie

1 H

m m mn n n g u (12.50)

care trebuie la rândul lui să fie actualizat în timp. Acest lucru poate fi îndeplinit printr-o

procedură în doi paşi, pe care o prezentăm în cele ce urmează. În primul pas, prin utilizarea

relaţiei (12.45) şi a partiţiei inferioare din (12.1), se obţine:


2

1 11

f

m

m m f

m

e nn n

E n

(12.51)

care este o recursie combinată de timp şi ordin. În continuare se utilizează relaţia (12.46) şi

partiţia superioară din (12.1) pentru a obţine

*

1 1, 1

b

m m m m mn n g n e n (12.52)

sau:

2

11

b

m

m m b

m

e nn n

E n

(12.53)

relaţie care împreună cu (12.51) asigură recursia de timp necesară 11m mn n

m n .

Tabelul 12.4 prezintă operaţiunile matematice care definesc algoritmul FAEST.

Algoritmul FAEST necesită numai 7M operaţiuni pe recursie de timp şi este, din acest punct

de vedere, cel mai eficient algoritm din familia filtrelor RLS cu predecupare.

12.2.4 Algoritmul FTF

Algoritmul FTF (Fast Transversal Filter – Filtrul rapid transversal) este un algoritm de tip

aposteriori obţinut din algoritmul FAEST prin utilizarea factorului de conversie

1 H

m m mn n n g u (12.54)

în locul factorului de conversie 1m mn n . Utilizând ecuaţiile de recursie (12.38) şi

(12.39) împreună cu partiţiile superioară respectiv inferioară ale vectorului de date din (12.1)

, obţinem:

2

1

b

m

m m b

m

nn n

E n

(12.55)

şi, respectiv

2

1 1

f

m

m m f

m

nn n

E n

(12.56)

Algoritmul FTF înlocuieşte pe m din Tabelul 12.4 prin 1 m n şi ecuaţia (h) din

acelaşi tabel prin relaţia (12.56). Pentru a obţine pe m n din 1m n , nu poate fi folosită

ecuaţia (12.55) pentru că aceasta utilizează mărimi dependente de m n . Pentru a evita

această problemă, se înlocuieşte ecuaţia (i) din tabel prin următoarea relaţie

1

*

1 1, 11

m

m b

m m m m

nn

n g n e n

(12.57)

ce este obţinută în urma combinării ecuaţiilor (12.53), (12.48) şi a schimbării de variabilă

1m mn n . În mod similar, se poate arăta că


1

1 11

f b

m m

m m mf b

m m

E n E nn n n

E n E n

(12.58)

În concluzie, algoritmul FTF are o complexitate de calcul echivalentă cu algoritmul

FAEST, în literatură fiind întâlnit în mai multe variante (Manolakis, ş.a. 2005). El a fost

introdus printr-un raţionament geometric de Cioffi şi Kailath (1984).

Ecuaţie Calcule

Vechile estimări:

1 , 1 , 1 , 1 , 1 , 1 , 1f bn n n n E n E n n a c w g

Date noi: ,n d nu

Recursia câştigului şi a filtrelor erorii de predicţie

(a) 1 1f He n u n n n a u

(b)

1

f

fe n

nn

(c) *1 1 fn n n n a a g

(d) *1f f f fE n E n n e n

(e)

1

0 1

1 11

f

M f

nn

n nE n

g

g a

(f) 1, 11b b

M Me n E n g n

(g) 1 1, 1 1M

M M Mn n g n n g g c

(h)

2

1 11

f

M f

e nn n

E n

(i) *

1 1, 1

b

M M Mn n g n e n

(j) *1 bn n n n c c g

(k)

b

be n

nn

(l) *1b b b bE n E n n e n

Recursia filtrului adaptiv

(m) 1He n d n n n w u

(n)

e nn

n

(o) *1n n n e n w w g

Tabelul 12.4 Algoritmul FAEST cu recursie în timp pentru filtre FIR în sens LS.

12.3 Algoritmi LS rapizi pentru structuri lattice 379

12.2.5 Iniţializarea şi stabilitatea algoritmilor rapizi

fără recursie de ordin

Algoritmii RLS rapizi fără recursie de ordin sunt implementaţi în structuri de filtrare FIR

directe, fiind iniţializaţi la 0n cu valorile

1 1 0

1 1 sau 1 1

f bE E

(12.59)

Pentru restul mărimilor utilizate, valoarea iniţială este nulă. Pentru constanta se alege o

valoare pozitivă mică de ordinul a 20,01 u . În cazul unei variabile de „uitare” 1 , efectul

condiţiilor iniţiale este „uitat” rapid.

Principalul neajuns al algoritmilor din această categorie constă în instabilitatea

numerică pe care o prezintă toţi atunci când 1 . Dacă implementarea algoritmilor se face

cu precizie finită, relaţiile matematice exacte utilizate în descrierea lor pot conduce la

apariţia de probleme numerice.

Există doi căi de a obţine stabilizarea algoritmilor RLS rapizi în formă directă. Într-o

primă abordare, se încearcă identificarea precursorilor comportării nesatisfăcătoare a algorit-

mului şi utilizarea de operaţiuni de salvare adecvate pentru restabilirea funcţionării normale

a algoritmului (Cioffi şi Kailath 1984). O variabilă utilizată la salvare este

1 1b

m m

m b

m m

n E nn

n E n

care satisface condiţia 0 1m n .

În cea de a doua abordare, este exploatat faptul că unele mărimi utilizate de algoritm pot

fi calculate în două moduri distincte. De exemplu, atât b

me n cât şi m n se pot calcula

atât conform definiţiei cât şi prin recursii de ordin. În aceste situaţii, diferenţa dintre valorile

obţinute furnizează o măsură a erorilor numerice, ce permite schimbarea dinamicii sistemu-

lui de propagare a erorilor şi stabilizarea algoritmului.

12.3 Algoritmi LS rapizi pentru structuri

lattice

12.3.1 Recursii după ordin în predictoare LS

Vom deduce în contextul metodei celor mai mici pătrate ecuaţiile de recursie după ordin ale

predicţiei lineare. Problema a fost rezolvată în contextul predicţiei optimale în Capitolul 5

prin algoritmul Levinson-Durbin, reluată apoi în algoritmului LMS-GAL din Capitolul 8,

dar în estimarea LS, soluţia ei capătă accente particulare.

În cazul filtrului erorii de predicţie înapoi, pentru a dezvolta o ecuaţie de recursie după

ordin se porneşte de la ecuaţiile normale ale predicţiei înapoi (12.27):


1 1 1

ˆ ˆ

ˆ ˆ

bH

m m m

bH

m m m

n n n

n n n

R c r

R c r (12.60)

Întrucât ˆm nR este conţinută în partiţionarea lui 1

ˆm nR , vom verifica dacă şi vectorii din

partea dreaptă a ecuaţiilor (12.60) se bucură de aceiaşi proprietate. Utilizând partiţia infe-

rioară a vectorului 1m nu din (12.1), se poate scrie

1*

1

1

ˆˆ 1

ˆ1 1

bnmb n i

m bi m m

u i r nu i m

i n

r

u r (12.61)

ceea ce determină o partiţie ce include vectorul dorit ˆb

m nr întârziat cu un eşantion ca

urmare a invarianţei la deplasare a lui m nu . Vom exploata această partiţionare, utilizând

inversarea matricii 1ˆ

mR partiţionată inferior-dreapta prin lema de partiţionare (12.37)

1

1 1

0 11ˆ 1ˆ

H

m H

m mfmmm m

n nnE nn

0R a

a0 R (12.62)

unde din (12.32): 1ˆ ˆ1 f

m m mn n n a R r (12.63)

sunt coeficienţii filtrului erorii de predicţie înainte optim în sens LS iar valoarea minimă a

sumei pătratelor erorii f

mE n este extrasă din Tabelul 12.1:

1

ˆdetˆ

ˆdet 1

mf fH

m u m m

m

nE n E n n n

n

Rr a

R (12.64)

Înlocuind (12.62) şi (12.63) în

1

1 1 1ˆ ˆb

m m mn n n

c R r

se obţine ecuaţia de recursie

1

0 1

1

b

m m

m m

n nn n

c

c a (12.65)

unde

b

mb

m f

m

nn

E n

(12.66)

şi 1ˆˆ 1b b H b

m m m mn r n n n a r (12.67)

sunt, în condiţiile utilizării unor notaţii similare celor utilizate în Capitolul 5, coeficientul de

reflexie înapoi ( m ), respectiv coeficientul de corelaţie parţială înapoi ( 0 ).

Ecuaţia de recursie după ordin a filtrului erorii de predicţie înainte se obţine printr-o

procedură similară celei utilizate anterior. În acest caz se foloseşte partiţia inferioara a vecto-

rului 1m nu din (12.1), astfel că:


*

1

0 1

ˆ1ˆ

ˆ1

fnm mf n i

m fi m

i nn u i

u i m r n

u rr (12.68)

Pentru a scrie ecuaţia de recursie de ordin a coeficienţilor m na , utilizăm ultima relaţie

împreună cu formula de inversare matricială (12.36) şi soluţia ecuaţiilor normale (12.63). Se

obţine:

1

1

0 1

fm m

m m

n nn

a ca (12.69)

unde

1

f

mf

m b

m

nn

E n

(12.70)

şi 1ˆˆ 1f f H f

m m m mn r n n n c r (12.71)

au semnificaţii similare parametrilor din ecuaţiile (12.66) şi (12.67).

Lema Burg (Burg 1975) utilizează egalitatea *

1 1ˆ ˆf b

m mr n r n pentru a face următoarea

simplificare

1

1

* *

1

ˆ ˆ ˆˆ 1 1 1

ˆ ˆ1

f f H f

m m m m m m

bH b b

m m m m

n r n n n n n

n n r n n

c R R r

r a

Pentru simplificarea notaţiilor, vom defini coeficientul de corelaţie parţială prin:

*f b

m m mn n n (12.72)

Ecuaţiile de recursie de ordin Levinson-Durbin (12.65) şi (12.69) permit definirea struc-

turii lattice a filtrelor erorii de predicţie care, în raport cu configuraţia de filtru FIR adaptiv,

are avantajul de a fi modulară, recursivă după ordin şi furnizează simultan estimări ale erorii

de predicţie înainte şi înapoi. Într-o structură de filtrare FIR expresiile erorilor de predicţie

aposteriori sunt (vezi Tabelul 12.2)

1f H

m m m

b H

m m m

n u n n n

n u n m n n

a u

c u (12.73)

Utilizăm (12.1), (12.69) şi (12.73) pentru a scrie:

1

*

11

10 1

1 1 1 1

H

mf fm m

m m

H f H

m m m m m

nn nn u n

u n m

u n n n n n u n m

ua c

a u c u

sau *

1 1f f f b

m m m mn n n n (12.74)

Similar, utilizând (12.1), (12.65) şi (12.73) se obţine:

*

1 1 1b b b f

m m m mn n n n (12.75)


Relaţiile (12.74) şi (12.75) sunt executate pentru 0,1, , 2m M pornind de la valorile

iniţiale 0 0

f bn n u n şi sunt efectuate de structura lattice din Figura 12.2 care

furnizează erorile de predicţie înainte şi înapoi pentru semnalul de intrare u n .

Relaţii de recursie după ordin pot fi stabilite şi pentru ceilalţi parametri ce intervin în

ecuaţiile Levinson-Durbin. Pentru a calcula valoarea minimă a funcţiei de cost (energia

minimă a erorii) pentru predicţia liniară înainte, f

mE n făcând apel la ecuaţiile (12.64),

(12.68), (12.69) şi (12.71) se obţine

1 1 1

*

1

*

1

ˆ

1ˆ ˆ

0 1

ˆ ˆ ˆ1

f fH

m u m m

fH f fm m

u m m m

fH f fH f

u m m m m m m

E n E n n n

n nE n n r n n

E n n n n n n r n

r a

a cr

r a r c

sau:

2

*

11

mf f f f

m m m m m b

m

nE n E n n n E n

E n

(12.76)

Procedând de manieră similară, se obţine:

2

1 1 1mb b b b

m m m m m f

m

nE n E n n n E n

E n

(12.77)

12.3.2 Algoritmi rapizi de predicţie lattice

Algoritmul LRLS (Lattice RLS) aposteriori (Ciochină şi Negrescu 1999) este conceput pe

baza schemei modulare din Figura 12.2 care calculează simultan valorile erorilor de predic-

ţie înainte şi înapoi aposteriori f

m n şi b

m n prin recursiile de ordin şi timp (12.74) şi

(12.75). Ecuaţiile (12.70) şi (12.66) definesc coeficienţii de reflexie ai structurii lattice

*

,1 1

m mf b

m mb f

m m

n nn n

E n E n

unde coeficientul de corelaţie parţială m n se calculează cu relaţia (12.71):

1ˆ ˆ1H f f

m m m mn n n r n c r (12.78)

Figura 12.2 Structura lattice a filtrului erorii de predicţie în sens LS.


Pentru a completa definirea algoritmului sunt necesare ecuaţii de recursie de timp ale

energiilor minime de eroare f

mE n şi b

mE n precum şi ale coeficientului de corelaţie parţi-

ală m n . Ecuaţiile de recursie pentru primii doi parametri pot fi extrase din Tabelul 12.2:

*

*

1

1

f f f f

m m m m

b b b b

m m m m

E n E n e n n

E n E n e n n

(12.79)

Pentru a stabili o recursie de timp pentru m n se porneşte de la relaţia de definiţie

(12.78) şi se folosesc în continuare pentru toate mărimile implicate formule de recurenţă în

timp. Se rearanjează şi se recombină termenii astfel:

1

* *

1

*

1

*

1

*

* 1

ˆ ˆ1 1 1

ˆ ˆ1 1

ˆ ˆ1

ˆ ˆ1 1

ˆ1

ˆ ˆ1 1

H f f

m m m m

H f f

m m m m

H f b f

m m m m

H H b f f b

m m m m m m

b H f

m m m m

b H f

m m m m m

m

n n n r n

n n n u n r n u n m u n

n n n u n r n

n n n n r n n u n

n n u n n n

n n u n n n n

c r

c r u

c r

c g r

g r

u R r

*

*

1

1

b H

m m

b f

m m m

n n u n n n

n n e n

u a

Ultima relaţie reprezintă recursia dorită, pentru că implementarea ecuaţiei

*

*

1 1

11 1

1

b f

m m m m

b f

m m m

m

n n n e n

n n nn

(12.80)

este fezabilă, în membrul drept al acesteia găsindu-se mărimi deja cunoscute.

Pentru completarea algoritmului aposteriori este nevoie de o relaţie de recursie după

ordin pentru factorul de conversie M n . Se foloseşte în acest scop ecuaţia (12.55) stabilită

pentru algoritmul FTF. O organizare detailată a algoritmului lattice RLS aposteriori, de

complexitate a 17M operaţiuni aritmetice pe recursie de timp (Ciochină şi Negrescu 1999)

este prezentată în Tabelul 12.5. Iniţializarea algoritmului se face pornind de la definiţiile

mărimilor corespunzătoare. Condiţia 0 1 1n rezultă din relaţia (12.54) iar constanta

pozitivă trebuie să asigure inversabilitatea matricii de corelaţie ˆ nR .

Dacă în locul erorilor aposteriori se folosesc erori apriori, se obţin următoarele

recursii

0 0

f be n e n u n


*

1 1 1f f f b

m m m me n e n n e n (12.81)

*

1 1 1b b b f

m m m me n e n n e n (12.82)

După cum este de aşteptat, structura predictorului apriori utilizează vechile estimări LS ale

parametrilor filtrului lattice. Pornind de la recursii, poate fi dezvoltat algoritmul lattice RLS

apriori prezentat în Tabelul 12.6, cu o complexitate aritmetică echivalentă cu cea a algorit-

mului aposteriori (Manolakis, ş.a. 2005).

12.4 Algoritmi LS rapizi pentru structuri

lattice-scară

12.4.1 Filtre FIR cu recursie după ordin

În acest paragraf vom încerca să extindem rezultatele obţinute în cazul filtrelor erorii de

predicţie lineară şi care au condus la structura lattice la cazul mai general al filtrelor FIR

adaptive. În primul rând vom stabili un mecanism de calcul recursiv după ordin al parame-

trilor unui filtru FIR adaptiv în sens LS. Se presupune că la momentul de timp n au fost deja

calculaţi parametrii filtrulul FIR în sens LS m nw specificaţi prin ecuaţia normală

1ˆ ˆm m mn n nw R p (12.83)

şi expresia minimului energiei de eroare la ieşirea filtrului

ˆ H

m d m mE n E n n n p w (12.84)

În ultimele două expresii, dE n reprezintă energia semnalului dorit d n iar ˆm np este

vectorul de intercorelaţie

*

0

ˆn

n j

m m

j

n j d j

p u (12.85)

Scopul pe care îl avem în vedere este să calculăm filtrul adaptiv în sens LS

1

1 1 1ˆ ˆ

m m mn n n

w R p (12.86)

pornind de la valoarea cunoscută m nw prin utilizarea unei proceduri de calcul recursive

după ordin. Vom utiliza pentru început ca şi în paragraful 12.3.1 proprietăţile de invarianţă

la deplasare ale vectorului de date m nu ce conduc la stabilirea unei partiţii convenabile

pentru vectorul 1ˆ

m np :

*

1

0 1

ˆˆ

ˆ

nm mn j

m

j m

j nn d j

u j m p n

u pp (12.87)

În aceste condiţii, pentru rezolvarea recursivă a ecuaţiei (12.86) vom face apel la inversarea

matricii de corelaţie 1

1ˆ

m n

R prin lema de partiţionare (12.36):

12.4 Algoritmi LS rapizi pentru structuri lattice-scară 385

1

1

1

ˆ 1ˆ 110

Hmm mm mbH

mm

nnn n

E n

cR 0R c

0 (12.88)

unde 1ˆ ˆb

m m mn n n c R r (12.89)

reprezintă soluţia în sens LS a predicţiei liniare înapoi iar

1

ˆdetˆ

ˆdet

mb cH

m u m m

m

nE n E n m n n

n

Rr c

R (12.90)

este valoarea minimă a energiei erorii de predicţie înapoi. Trebuie remarcat că m nc este

estimatorul optim în sens LS pentru observaţia suplimentară u n m ce este utilizată de

filtrul adaptiv de ordin 1m , 1m nw . Înlocuind relaţiile (12.87) şi (12.88) în ecuaţia

normală (12.86), se obţine:

Ecuaţie Calcule Iniţializare de timp ( 0n )

1 1 0 0 1

1 0, 1 0 0 1

f b

m m

b

m m

E E m M

m M

Iniţializare de ordin

(a) 0 0 0, 1 1f bn n u n n

Elemente lattice: 0,1, , 1m M

(b)

*11

1

b f

m m

m m

m

n nn n

n

(c)

2*

11

f

mf f

m m

m

nE n E n

n

(d)

2

11

b

mb b

m m

m

nE n E n

n

(e)

1mf

m b

m

nn

E n

(f)

*

1

mb

m f

m

nn

E n

(g) *

1 1f f f b

m m m mn n n n

(h) *

1 1b b b f

m m m mn n n n

(i)

2

1

b

m

m m b

m

nn n

E n

Tabelul 12.5 Organizarea calculelor algoritmului RLS lattice aposteriori.


10 1

wm m

m m

n nn n

w cw (12.91)

unde

w

mw

m b

m

nn

E n

(12.92)

şi 1ˆ ˆw H

m m m mn n n p n c p (12.93)

În concluzie, dacă coeficienţii filtrului erorii de predicţie înapoi m nc sunt cunoscuţi,

se pot determina coeficienţii filtrului adaptiv 1m nw prin recursia de ordin (12.91).

12.4.2 Structura de filtrare lattice-scară

Continuăm demersul început în paragraful anterior prin stabilirea unei recursii după ordin

pentru eroarea aposteriori a filtrului FIR definit prin relaţia (12.86):

1 1 1

H

m m mn d n n n w u (12.94)

Pentru a calcula eroarea prin recursie, înlocuim relaţiile (12.1), (12.91) în (12.94) şi scriem


1 1 0 0 1

1 0, 1 0 0 1

f b

m m

b

m m

E E m M

e m M


(a) 0 0 0, 1 1f be n e n u n n


(b) *

1 1 1f f f b

m m m me n e n n e n

(c) *

1 1 1b b b f


(d) *1 1 1b f

m m m m mn n n e n e n

(e) 2

*1 1f f f


(f) 2

1 1b b b


(g)

1mf

m b

m

nn

E n

(h)

*

1

mb

m f

m

nn

E n

(i)

2

1

1

1

b

m

m m b

m

e nn n

E n

Tabelul 12.6 Organizarea calculelor algoritmului RLS lattice apriori.


1

*

0 1

H

mwm m

m m

H w H

m m m m m

nn nn d n n

u n m

d n n n n u n m n n

uw c

w u c u

În ultima paranteză a expresiei de mai sus poate fi identificată eroarea aposteriori a predicto-

rului linear înapoi de ordinul m, b

m n astfel că recursia după ordin a erorii aposteriori în

sens LS a filtrului FIR poate fi calculată prin ecuaţia

*

1

w b

m m m mn n n (12.95)

care este executată pentru 0,1, , 1m M cu 0 n d n .

Ecuaţia (12.95) împreună cu ecuaţiile de recursie după ordin ale erorilor de predicţie

lineară (12.74) şi (12.75) permite implementarea completă a unui filtru adaptiv în sens LS

sub forma structurii lattice-scară din Figura 12.3. Partea lattice a filtrului furnizează eroarea

aposteriori de predicţie înapoi ,b

m n 0, 1m M implementând ecuaţiile (12.74) şi

(12.75) în timp ce partea scară a filtrului implementează recursiv după ordin relaţia (12.95),

furnizând erorile optime în sens LS ale filtrului FIR (12.86), , 0,1, , 1m n m M . De

remarcat că setul de coeficienţi ai structurii trebuie recalculat la fiecare moment de timp n.

12.4.3 Algoritmi RLS lattice-scară

Algoritmul rapid lattice-scară aposteriori este conceput pe structura de filtrare din Figura

12.3. La fiecare moment de timp n algoritmul calculează recursiv după ordin elementele

celor două componente ale structurii: partea lattice care realizează predicţiile lineare înainte

şi înapoi în sens LS ale semnalului de intrare u n şi partea scară care acţionează în sensul

minimizării energiei erorii ,m n 1,2, ,m M de la ieşirea filtrului adaptiv.

Partea lattice a algoritmului lattice-scară aposteriori care se referă la calculul erorilor de

predicţie înainte şi înapoi aposteriori f

m n şi b

m n constituie algoritmul LRLS aposte-

riori dezvoltat în paragraful 12.3.2 şi care este prezentat în Tabelul 12.5. Ecuaţiile care

Figura 12.3 Structura lattice-scară de predicţie liniară şi filtrare în sens LS.


corespund părţii scară a algoritmului sunt în primul rând recursia după ordin (12.95) a erorii

de filtrare aposteriori 1m n cu condiţia iniţială 0 n u n . Apoi sunt necesari parame-

trii reţelei în scară, w

m n care sunt definiţi prin relaţia (12.92)

w

mw

m b

m

nn

E n

Valoarea energiei erorii de predicţie înapoi b

mE n din (12.92) este stabilită de algorit-

mul LRLS prin recursia de timp (12.79), în schimb pentru coeficientul de corelaţie parţială

w

m n definit prin (12.93) se dezvoltă recursia de timp astfel:

1

* *

1

*

1

*

1

*

*

ˆ ˆ1 1 1 1

ˆ ˆ1 1 1 1

ˆ ˆ1 1

ˆ ˆ1 1 1 1

ˆ1 1 1

ˆ1 1 1

w H

m m m m

H

m m m m

H b

m m m m

H H b b

m m m m m m

w b H

m m m m

w b H

m m m m

n n n p n

n n n d n p n u n m d n

n n n d n p n

n n n n p n n d n

n n d n n n

n n d n n

c p

c p u

c p

c g p

g p

u R

1

*

*

ˆ

1 1 1

1 1

m

w b H

m m m m

b

m m m

n n

n n d n n n

n n e n

p

u w

Drept urmare, ecuaţia de calcul prin recursie temporală al coeficientului de corelaţie parţială

a filtrului adaptiv este

*

*

1

11

w w b

m m m m

w b

m m m

m

n n n e n

n n nn

(12.96)

În concluzie, algoritmul rapid RLS lattice-scară aposteriori constă din algoritmul LRLS

prezentat în Tabelul 12.5 completat cu ecuaţiile suplimentare din Tabelul 12.7. Complexita-

tea algoritmului este de aproximativ 20M operaţii aritmetice pe fiecare recursie de timp

(Manolakis, ş.a. 2005).

Există şi pentru structura de filtrare adaptivă lattice-scară ca şi în cazul predicţiei lineare

lattice o variantă apriori a algoritmului LRLS. În acest ultim caz structura calculează la

fiecare recursie de timp eroarea apriori de filtrare me n definită prin ecuaţia de recursie

după ordin:

*

1 1 , 1w b

m m m me n e n n e n m M (12.97)

şi 0e n d n . Tabelul 12.8 prezintă ecuaţiile suplimentare care sunt adăugate

algoritmului lattice RLS apriori din Tabelul 12.6 pentru a-l transforma în algoritmul rapid

RLS lattice-scară apriori.


12.4.4 Algoritmi RLS lattice-scară cu reacţie pe

eroare

Algoritmi rapizi lattice-scară care au făcut obiectul paragrafului precedent actualizează în

primă instanţa coeficienţii de corelaţie parţială m n şi w

m n şi valorile energiei de

eroare minimă f

mE n respectiv b

mE n iar apoi calculează coeficienţii filtrului LS lattice-

scară prin împărţire. Vom dezvolta în cele ce urmează doi algoritmi echivalenţi din punct de

vedere algebric care rezolvă aceiaşi problemă LS prin calculul recursiv direct al coeficienţi-


1 0, 0 1w

m m M


(a’) 0e n d n


(b) - (i)

Elemente scară: 0,1, , 2m M

(j) *1w w b

m m m m mn n n e n e n

(i)

w

mw

m b

m

nn

E n

(k) *

1 1w b


Tabelul 12.8 Completările la algoritmul LRLS din Tabelul 12.6 care

definesc algoritmul rapid RLS lattice-scară apriori.


1 0, 0 1w

m m M


(a’) 0 n d n


(b) - (i)


(j) *1w w b

m m m m mn n n n n

(i)

w

mw

m b

m

nn

E n

(k) *

1

w b

m m m mn n n n

Tabelul 12.7 Completările la algoritmul LRLS din Tabelul 12.5 care

definesc algoritmul rapid RLS lattice-scară aposteriori.


lor lattice-scară. Algoritmii introduşi în Ling, ş.a. (1986), au proprietăţi numerice mai bune

decât algoritmii lattice-scară original atunci când implementarea se face cu precizie

numerică finită. Vom examina pentru început varianta apriori a algoritmului.

Stabilim relaţia de actualizare a coeficientului w

m n , pornind de la ecuaţiile (12.92) şi

(12.96):

*

*

1 1

1

11 1

w w b b

m m m M m mw

m b b b b

m m m m

w b b

m m M m mb

m

n n E n n e n e nn

E n E n E n E n

n E n n e n e nE n

(12.98)

şi înlocuim *1b b b b

m m M m mE n E n n e n e n

pentru a obţine

* *1 1

b

M mw w w b

m m m m mb

m

n e nn n e n n e n

E n

sau, prin substituţie din (12.97):

*

11

b

M m mw w

m m b

m

n e n e nn n

E n

(12.99)

Ecuaţia (12.99) permite calculul recursiv direct al coeficienţilor reţelei în scară. Formule

similare directe se scriu şi pentru coeficienţii de reflexie ai părţii lattice a structurii

(Manolakis, ş.a. 2005). Aceste ecuaţii de recursie constituie elementul distinct al algoritmu-

lui RLS lattice-scară apriori cu reacţie pe eroare prezentat în detaliu în Tabelul 12.9.

Trebuie remarcat că, în primul rând, pentru a calcula eroarea de ordin 1m , 1me n

este utilizat coeficientul 1w

m n conform relaţiei (12.97), iar apoi se utilizează această

eroare pentru a actualiza valoarea coeficienţilor prin relaţia (12.99). Această actualizare are

o structură de tip reacţie negativă, ceea ce explică denumirea de algoritm cu reacţie pe

eroare.

Algoritmul RLS lattice-scară cu reacţie pe eroare are şi o variantă aposteriori, care

poate fi dedusă uşor (Manolakis, ş.a. 2005). Simulările efectuate de Ling, ş.a. (1986) au

arătat că în condiţiile utilizării unei precizii numerice finite, algoritmii cu actualizare directă

a coeficienţilor structurii lattice-scară au proprietăţi numerice superioare algoritmilor ce

realizează indirect actualizarea acestora.

12.4.5 Algoritmi RLS lattice-scară cu rotaţii Givens

Obiectul paragrafului de faţă este studiul implementării rotaţiilor Givens (vezi paragraful

9.3.3), cu sau fără extragere de rădăcină pătrată, la realizarea algoritmilor RLS rapizi lattice-

scară. Ca şi ceilalţi algoritmi din această categorie, algoritmii bazaţi pe rotaţiile Givens utili-


zează invarianţa la deplasare a datelor de intrare în scopul reducerii complexităţii de la

2O M calcule pe iteraţie de timp la O M calcule (Ling 1991).

Începem, definind pentru structura lattice-scară din Figura 12.3 erorile normalizate

unghiular prin

m m m m me n e n n e n n (12.100)

1f f f f

m m m m me n e n n e n n (12.101)

b b b b

m m m m me n e n n e n n (12.102)

Aceste erori sunt media geometrică a erorilor corespunzătoare apriori şi aposteriori, iar


1 1 0 0 1

1 1 0

1 0 1 0

f b

m m

f b

m m

b w

m m

E E m M

e


(a) 0 0 0 0, , 1f be n e n u n e n d n n


(b) *

1 1 1f f f b


(c) *

1 1 1b b b f


(d) 2

1 1f f f


(e) 2

1 1b b b


(f)

*

11 11

1

b f

M m mf f

m m b

m

n e n e nn n

E n

(g)

*

111

f b

M m mb b

m m f

m

n e n e nn n

E n

(h)

2

1

b

m m

m m b

m

n e nn n

E n


(i) *

1 1w b


(j)

*

11

b

m m mw w

m m b

m

n e n e nn n

E n

Tabelul 12.9 Organizarea calculelor algoritmului RLS lattice-scară apriori

cu actualizare directă a coeficienţilor prin reacţie pe eroare.


denumirea lor face referire la comentariul pe care-l facem asupra relaţiei (10.23) din Capito-

lul 10 asupra interpretării lui m n drept variabilă unghiulară. De fapt nu este nevoie să

facem distincţie între algoritmi apriori sau aposteriori dacă vom formula problema estimării

în sens LS în funcţie de aceste variabile.

Pentru a stabili ecuaţiile de recursie după ordin pentru aceste variabile, considerăm

ecuaţia lattice a erorii de predicţie înainte apriori (12.81) şi definiţiile erorilor normalizate

unghiular, pentru a scrie

*

1 1

1

1 1 1 1

1 12 2

b

m m m mf f

m mb b

m mm m

n n n e ne n e n

n nE n E n

sau, utilizând relaţia (12.58):

*

1

2 1 1

1 2 1

b b

m m mf f

m mb b bm m m

E n n e ne n e n

E n E n E n

(12.103)

Definind următoarele mărimi

1b

mb

m b

m

E nc n

E n

(12.104)

b

mb

mb

m

e ns n

E n (12.105)

şi

*

11

mf f b

m m mb

m

nn n E n

E n

(12.106)

ecuaţia (12.103) se rescrie astfel:

1 1 1 1f b f b f

m m m m me n c n e n s n n (12.107)

Ultima ecuaţie face recursia de ordin pentru eroarea de predicţie înainte normalizată

unghiular.

Pentru a deduce în continuare ecuaţia de recursie după ordin a coeficientului de reflexie

normalizat f

m n , pornim de la ecuaţia (d) din Tabelul 12.6:

*1 1 1b f

m m m m mn n n e n e n (12.108)

şi utilizând (12.106), (12.101) şi (12.102), se poate scrie

*2 11

1 1

b b

m mf f f

m m mb bm m

E n e nn n e n

E n E n

sau, în final cu ajutorul ecuaţiilor (12.104) şi (12.105):

*1 1 1f b f b f

m m m m mn c n n s n e n (12.109)


Reluăm, în continuare, pentru eroarea de predicţie înapoi normalizată, procedura de mai

sus. Se utilizează ecuaţia de recursie a erorii apriori (12.82) şi ecuaţiile de definiţie ale erori-

lor normalizate unghiular:

1 1

1

11

1 11 1

f

m m m mb b

m mf f

m mm m

n n n e ne n e n

n nE n E n

sau, dacă facem apel la (12.58)

1

1 11

1

f f

m m mb b

m mf f fm m m

E n n e ne n e n

E n E n E n

(12.110)

Apoi, definim următoarele mărimi

1f

mf

m f

m

E nc n

E n

(12.111)

f

mf

mf

m

e ns n

E n (12.112)

şi

mb b f

m m mb

m

nn n E n

E n

(12.113)

pentru a obţine din ecuaţia (12.110) recursia de ordin a erorii de predicţie înapoi normalizată

unghiular 1

b

me n :

*

1 1 1b f b f b


În acelaşi timp, pentru recursia lui b

m n , ca şi în cazul ecuaţiei (12.109), prin combinarea

relaţiilor (12.108) şi (12.111) până la (12.113) se poate scrie:

* * *1 1b f b f b

m m m m mn c n n s n e n (12.115)

Ecuaţii de recursie similare pot fi deduse în acelaşi mod pentru partea scară a filtrului

adaptiv. În acest caz, utilizând expresia erorii de filtrare apriori (12.97), definiţiile erorilor

normalizate unghiular şi relaţia (12.58), vom scrie:

*

1

1

1 1

1

b w b

m m m

m mb b bm m m

E n n e ne n e n

E n E n E n

sau *

1 1b b w


unde

w

mw w b

m m mb

m

nn n E n

E n

(12.117)

este coeficientul normalizat al părţii în scară a reţelei. Coeficientul poate fi recalculat cu:


*1w b w b

m m m m mn c n n s n e n (12.118)

care poate fi obţinută ca şi (12.109) sau (12.115) prin utilizarea relaţiei (12.96) şi a

definiţiilor aferente.

Următorul pas în enunţarea algoritmului bazat pe rotaţii Givens constă în normalizarea

energiilor de eroare de predicţie minime:

şi f f b b

m m m mE n E n E n E n (12.119)

Ecuaţiile de recursie în timp a variabilelor de energie normalizate sunt deduse din ecuaţiile

(12.79):

*

*

1

1

f f f f f

m m m m m

b b b b b

m m m m m

E n c n E n s n e n

E n c n E n s n e n

(12.120)

dar ecuaţiile de mai jos, deduse tot din (12.79), sunt mai convenabile pentru realizarea

recursiei în timp:

1 22 2

1 22 2

1

1

f f f

m m m

b b b

m m m

E n E n e n

E n E n e n

(12.121)

În acest moment, avem la dispoziţie formularea completă prin erori normalizate unghiu-

lar a ecuaţiilor de recursie în sens LS pentru o structură lattice-scară. Pentru a pune în evi-

denţă mai bine sensul şi semnificaţia acestor recursii, vom exprima aceste ecuaţii sub formă

matricială astfel:

1

*

1 1

1 1 1

ff b bmm m m

f b b fm m m m

e ne n c n s n

n s n c n n

(12.122)

1

* * *

1

1

bb f fmm m m

b f f bm m m m

e ne n c n s n

n s n c n n

(12.123)

1

*1

b bmm m m

w b b wm m m m

e ne n c n s n

n s n c n n

(12.124)

Din ecuaţiile matriciale de mai sus trebuie remarcat că recursiile parametrilor predictorului

înainte şi ale parametrilor reţelei în scară se fac cu aceiaşi matrice pătrată întârziată cu un

pas. Faptul că în matricile din ecuaţii semnul minus are poziţii diferite, datorită utilizării de

semne diferite în definiţiile lui f

m n şi b

m n , nu este relevant. În plus, se poate arăta

imediat că:

2 2

2 2

1

şi 1

f f

m m

b b

m m

c n s n

c n s n

(12.125)


ceea ce conduce la observaţia că matricile pătrate din setul de ecuaţii (12.122)-(12.124) sunt

matrici de rotaţie Givens. În concluzie, s-a obţinut o formulare a algoritmului LS lattice-

scară care actualizează erorile normalizate unghiular şi setul de coeficienţi de reflexie

normalizaţi ai structurii lattice-scară prin rotaţii Givens. O ecuaţie de rotaţie Givens poate fi

scrisă şi pentru minimul energiei de eroare înapoi normalizate b

mE n . Astfel, dacă pornim

de la (12.121) şi definiţiile lui b

mc n şi b

ms n , vom scrie:

*1

0

b b bbm m mm

b b bm m m

c n s n E nE n

s n c n e n

(12.126)

Ultima ecuaţie ne arată faptul că putem utiliza rotaţia Givens în predictorul linear înapoi

pentru a actualiza valoarea energiei normalizate b

mE n . O transformare similară poate fi

scrisă şi pentru f

mE n . Totuşi, recursiile pentru valorile energiilor sunt, de obicei, realizate

cu ecuaţiile (12.121).

Versiunea fără extragere de rădăcină pătrată a algoritmului RLS lattice-scară cu rotaţii

Givens constă într-o modificare simplă a algoritmului apriori RLS lattice-scară cu reacţie pe

eroare. În acest scop, utilizând ecuaţia (12.98), avem

*

*1

1

b b

m M m mw w

m m mb b

m m

E n n e n e nn n e n

E n E n

În continuare, se definesc mărimile:

21b

mb b

m mb

m

E nc n c n

E n

(12.127)

şi

b

m mb

m b

m

n e ns n

E n

(12.128)

pentru a obţine ecuaţia de actualizare a parametrilor părţii scară a structurii lattice-scară sub

forma unei rotaţii Givens:

*1w b w b

m m m m mn c n n s n e n (12.129)

Similar, utilizând ecuaţiile de recursie pentru parametrii lattice ai algoritmului apriori cu

reacţie pe eroare, se obţin ecuaţiile de actualizare:

*1 1 1f b f b f

m m m m mn c n n s n e n (12.130)

şi *1 1b f b f b

m m m m mn c n n s n e n (12.131)

unde

21f

mf f

m mf

m

E nc n c n

E n

(12.132)

şi

1 f

m mf

m f

m

n e ns n

E n

(12.133)


Tab

elu

l 1

2.1

0 O

rgan

izar

ea c

alcu

lelo

r al

go

ritm

ulu

i d

e fi

ltra

re a

dap

tiv

ă R

LS

lat

tice

-sca

ră c

u r

ota

ţii

Giv

ens.

ALGORITMI RLS RAPIZI Probleme 397

sunt parametrii de rotaţie a predictorului înainte. Aceste recursii reprezintă baza algoritmului

LS lattice-scară cu rotaţii Givens fără extragere de rădăcină pătrată.

Tabelul 12.10 prezintă organizarea calculelor în cazul algoritmului LS lattice-scară cu şi

fără extragere de rădăcină pătrată. Varianta cu rădăcină pătrată se iniţializează ca de obicei

cu 1 1 0f b

m mE E , 0 0

f be n e n u n , 0 0, 1e n d n n şi toate

celelalte variabile au valori initiale nule. Algoritmul fara extragere de rădăcină pătrată se

iniţializează ca şi algoritmul apriori cu reacţie pe eroare. Figura 12.4 prezintă o celulă a

filtrului LS lattice-scară cu rotaţii Givens şi extragere de rădăcină pătrată.

Probleme

P 12.1 Arătaţi că partiţionarea lui 1ˆ

m nR din relaţia (12.5) ce conduce la o structură de

partiţie similară cu cea din relaţia (12.2), este posibilă numai dacă estimarea LS se

face cu „prewindowing”, adică 1m u 0 . Ce formă ia partiţionarea dacă se

renunţă la condiţia de „prewindowing”?

P 12.2 Demonstraţi identitatea (12.31) referitoare la calculul recursiv după ordin al

inversei matricii 1mR partiţionate inferior-dreapta:

1

111

0 111

Hf fH

mHm m

m mff f fmmm m m m

0rR a

ar R 0 R

P 12.3 Deduceţi formulele ecuaţiilor normale şi ale energiei minime a erorii LS date în

Tabelul 12.1 pentru filtrul erorii de predicţie înainte şi filtrul erorii de predicţie

înapoi.

P 12.4 Deduceţi formulele de recursie apriori şi aposteriori din Tabelul 12.2 referitoare la

filtrul erorii de predicţie înainte şi la filtrul erorii de predicţie înapoi.

Figura 12.4 Schema bloc a celulei RLS lattice-scară cu rotaţii Givens.

Cercurile reprezintă elementele ce calculează parametrii

de rotaţie iar pătratele elementele care execută rotaţiile.


P 12.5 Modificaţi ordinograma algortimului FAEST din Tabelul 12.4 pentru a obţine

algoritmul FTF. Scrieţi funcţia MATLAB care implementează algoritmul FTF.

P 12.6 Algoritmii RLS lattice-scară aposteriori şi apriori utilizează factorul de conversie

m n în calculul recursiv al mărimilor , ,f b

m m mE n E n n şi w

m n , calcul

care are nevoie atât de erorile apriori cât şi de erorile aposteriori. Deduceţi un

filtru dublu RLS lattice-scară ( atât apriori cât şi aposteriori) care să evite

utilizarea factorului de conversie prin actualizarea simultană a erorilor de

predicţie şi filtrare atât aposteriori cât şi apriori.

P 12.7 În această problemă vom discuta despre câteva mărimi care pot servi la avertizare

în privinţa unei comportări incorecte a algoritmilor RLS rapizi.

(a) Arătaţi că variabila

1 *

1, 1

11

b

m m b

m m m mb

m m

n E nn g n e n

n E n

satisface condiţia 0 1m n .

(b) Demonstraţi relaţiile

1 1

ˆ ˆ ˆdet 1 det det, ,

ˆ ˆ ˆdet det 1 det

m m mm f b

m m m

m m m

n n nn E n E n

n n n

R R R

R R R

(c) Arătaţi că:

b

mm

m f

m

E nn

E n

şi utilizaţi rezultatul pentru a explica de ce mărimea f m b

m m mn E n E n

este folosită ca variabilă de avertizare.

(d) Explicaţi de ce mărimile următoare sunt utilizate în calitate de variabile de

avertizare.

1, 1 1, 1, 11

b

b b

g M M b M Mb

e ni n g n ii n e n E n g n

E n

Bibliografie

F. Albu, M. Bouchard, şi Y. Zakharov, "Pseudo-affine projection algorithms for multichannel

active noise control," IEEE Trans. Audio, Speech and Language Processing, vol. 15, pp.

1044–1052, March, 2007.

S. T. Alexander, Adaptive Signal Processing. Theory and Applications. New York, NY, U.S.A.:

Springer-Verlag, 1986.

J. A. Apolinário_Jr, S. Werner, T. I. Laakso, şi P. S. R. Diniz, "Constrained normalized adaptive

filtering for CDMA mobile communications," în Proc. EUSIPCO - European Signal

Processing Conference, Rhodos, Grecia, 63, 1998, pp. 2053-2056.

K. J. Ǻström şi B. Wittenmark, Adaptive Control. Reading, Mass., U.S.A.: Adison-Wesley, 1989.

M. Bellanger, Analyse des signaux et filtrage numérique adaptatif. Paris: Masson, 1989.

M. Bellanger, Adaptive Digital Filters, 2nd ed. New York, NY, U.S.A.: Marcel Dekker, Inc.,

2001.

J. Benesty, "Adaptive Filtering and Spectral Analysis," INRS-EMT, Ed.: Université du Québec,

2004. http://externe.emt.inrs.ca/users/benesty/course.html

J. P. Burg, "A New Analysis Technique for Time Series Data," NATO Advanced Study Institute

on Signal Processing, Enschede, Olanda 1968.

J. P. Burg, "Maximum Entropy Spectral Analysis." vol. Ph.D. thesis Stanford, CA.: Stanford

University, 1975.

G. Carayannis, D. G. Manolakis, şi N. Kalouptsidis, "A fast sequential algorithm for least-squares

filtering and prediction," IEEE Trans. Acoustics, Speech and Signal Processing, vol. 31(6),

pp. 1394–1402, 1983.

A. Carusone şi D. A. Johns, "Analogue adaptive filters: past and present," IEE Proc.-Circuits

Devices Syst., vol. 147, pp. 83-90, No. 1, February, 2000.

T. F. Chan, "An improved algorithm for computing the SVD,".ACMTrans. Mathematical

Software, pp. 72–88, 8, 1982.

S. Ciochină, "Sisteme adaptive, Note de curs," Bucureşti: Universitatea Politehnică, 2008.

http://www.comm.pub.ro/master/sa/

S. Ciochină şi C. Negrescu, Sisteme adaptive. Bucureşti: Editura Tehnică, 1999.

J. M. Cioffi, "Limited-precision effects in adaptive filtering," IEEE Trans. on circuits and

systems, vol. CAS-34(7) pp. 821–833, 1987.

J. M. Cioffi şi T. Kailath, "Fast, recursive-least-squares transversal filters for adaptive filtering,"

IEEE Trans. Acoustics, Speech and Signal Processing, vol. 32(2), pp. 304–337, 1984.

P. M. Clarkson, Optimal and Adaptive Signal Processing: CRC Press, 1993.

G. Dahlquist şi A. Bjorck, Numerical Methods. Englewood Cliffs, NJ.: Prentice Hall, 1974.

P. S. R. Diniz, Adaptive Filtering: Algorithms and Practical Implementation, 3rd revised ed.:

Springer, 2008.

S. C. Douglas, "Introduction to Adaptive Filters," în The Digital Signal Processing Handbook, V.

K. Madisetti şi D. B. Williams, Eds. Boca Raton, FLA, U.S.A.: CRC Press, 1998.

S. C. Douglas şi R. Losada, "Adaptive filters in MATLAB: from novice to expert," în Proc. 2nd

Signal Processing Education Workshop, Callaway Gardens, GA, 73, October 2002, pp. 1-6,

paper 4.9.

S. J. Elliott, Signal processing for active control. London, UK: Academic Press, 2001.

S. J. Elliott şi P. A. Nelson, "Active noise control," IEEE Signal Processing Magazine, pp. 12-35,

October, 1993.

D. D. Falconer şi L. Ljung, "Application of fast Kalman estimation to adaptive equalization,"

IEEE Trans. Communications, vol. 26(10), pp. 1439–1446, 1978.

400 BIBLIOGRAFIE

B. Farhang-Boroujeny, "Channel equalization via channel identification: algorithms and

simulation results for rapidly fading HF channel," IEEE Trans. Commun., vol. Vol. 44, pp.

1409-1412, no. 11, 1996.

B. Farhang-Boroujeny, Adaptive Filters. Theory and Applications. Chichester, England: J. Wiley

& Sons, 1998.

S. A. Fechtel şi H. Meyr, "Optimal feedforward estimation of frequency-selective fading radio

channels using statistical channel information," în ICC'92 Conference Record, Chicago, IL, 7,

June 14-18, 1992, pp. 677-681.

A. Feuer şi E. Weinstein, "Convergence analysis of LMS filters with uncorrelated Gaussian data,"

IEEE Trans. Acoust. Speech Signal Process, vol. ASSP-33, pp. 222-230, 1, 1985.

O. L. Frost_III, "An algorithm for linearly constrained adaptive array processing," Proceedings of

IEEE, vol. 60, pp. 926-935, Aug., 1972.

W. A. Gardner, "Learning characteristics of stochastic-gradient-descent algorithm: A general

study, analysis and critique.," Signal Processing, vol. 6, pp. 113-133, 1984.

D. N. Godard, "Channel equalization using a Kalman filter for fast data transmission," IBM J.

Res. Dev., vol. 18, pp. 267-273, 1974.

G. H. Golub şi C. F. Van_Loan, Matrix Computations, 3rd ed. Baltimore, MD, U.S.A.: The John

Hopkins University Press, 1996.

G. C. Goodwin şi K. S. Sin, Adaptive Filtering, Prediction and Control. Englewood Cliffs, N.J.:

Prentice-Hall, 1984.

L. J. Griffiths, "A continously adaptive filter implemented as a lattice structure," în Proc. ICASSP,

Hartford, Conn., USA, 71, 1977, pp. 683-686.

L. Håkansson, "Limited Numerical Precision and The LMS Algorithm, and The Leaky LMS -

Solution," în Adaptive Signal Processing Course Ronneby, Suedia: Blekinge Institute of

Technology, 2004. http://www.its.bth.se/courses/etc004/

L. Håkansson, "The Filtered-x LMS Algorithm," în Adaptive Signal Processing Course Ronneby,

Suedia: Blekinge Institute of Technology, 2006. http://www.its.bth.se/courses/etc004/

S. Haykin, Adaptive Filter Theory, 3rd ed. Englewood Cliffs, NJ, U.S.A: Prentice Hall, 1996.

S. Hsieh, K. Liu, şi K. Yao, "A unified square-root-free approach for QRD-based recursive least-

squares estimation," IEEE Trans. Signal Processing, vol. 41(3), pp. 1405–1409 March, 1993.

M. Iosifescu, G. Mihoc, şi R. Teodorescu, Teoria probabilităţilor şi statistică matematică.

Bucureşti: Editura Tehnică, 1966.

N. S. Jayant şi P. Noll, Digital Coding of Waveforms: Principles and Applications to Speech and

Video. Englewood Cliffs, NJ, U.S.A.: Prentice-Hall, 1984.

D. H. Johnson şi D. E. Dudgeon, Array Signal Processing: Concepts and Techniques. Englewood

Cliffs, NJ, U.S.A.: Prentice Hall, 1993.

T. Kailath, "An innovations approach to least-squares estimation: Part 1. Linear filtering in

additive white noise," IEEE Trans. Autom. Control, vol. AC-13, pp. 646-655, 1968.

T. Kailath, Lectures on Linear Least-Squares Estimation. New York: Springer-Verlag, 1981.

P. G. Kaminski, A. E. Bryson, şi S. F. Schmidt, "Discrete square root filtering: A survey of

current techniques," IEE Trans. Autom. Control, vol. AC-16, pp. 727-735, 1971.

S. Kay, "Spectral Estimation," în Advanced Topics in Signal Processing, J. S. Lim şi A. V.

Oppenheim, Eds. Englewood Cliffs, NJ., U.S.A.: Prentice-Hall, 1988.

W. Kenneth_Jenkins şi D.F. Marshall, "Transform Domain Adaptive Filtering," în Digital Signal

Processing Handbook, V. K. Madisetti şi D. B. Williams, Eds.: CRC Press LLC, 1999.

H. J. Kushner, Stochastic Approximation Methods for Constrained and Unconstrained Systems.

Cambridge, Mass., USA: MIT Press, 1984.

R. E. Lawrence şi H. Kaufman, "The Kalman filter for the equalization of a digital

communication channel," IEEE Trans. Commun. Technol., vol. COM-19, pp. 1137-1141,

1971.

D. T. L. Lee, M. Morf, şi B. Friedlander, "Recursive least-squares ladder estimation algorithms,"

IEEE Trans. Circuits and Systems, vol. 28(6), pp. 467–481, 1981.

F. Ling, "Givens rotation based least-squares lattice and related algorithms," IEEE Trans. Signal

Processing, vol. 39, pp. 1541–1551, 1991.

BIBLIOGRAFIE 401

F. Ling, D. Manolakis, şi J. G. Proakis, "Numerically robust least-squares lattice-ladder algorithm

with direct updating of the reflection coefficients," IEEE Trans. Acoustics, Speech and Signal

Processing, vol. 34(4), pp. 837–845, 1986.

K. J. R. Liu, S. F. Hsieh, şi K. Yao, "Systolic block Householder transformation for RLS

algorithm with two-level pipelined implementation," IEEE Trans. Signal Processing, vol. 40,

946–958, 1992.

L. Ljung şi T. Söderström, Theory and practice of recursive identification. Cambridge, Mass.

USA: MIT Press, 1983.

R. W. Lucky, "Automatic equalization for digital communications,". Bell System Tech. J., vol.

44, pp. 547–588, April., 1965.

R. W. Lucky, J. Salz, şi E. J.Weldon, Principles of Data Communications. New York: McGraw-

Hill, 1968.

D. G. Luenberger, Linear and Nonlinear Programming, 2nd ed. Reading, MA, U.S.A.: Addison-

Wesley 1984

J. Makhoul, "Linear prediction: A tutorial review," Proceedings of IEEE, vol. 63(4), pp. 561-580,

1975.

J. Makhoul, "On the eigenvectors of symmetric Toeplitz matrices," IEEE Trans. Acoust. Speech

Signal Process, vol. ASSP-29, pp. 868-872, 1981.

D. G. Manolakis, V. K. Ingle, şi S. M. Kogon, Statistical and Adaptive Signal Processing.

Norwood, MA, U.S.A: Artech House, 2005.

A. Mateescu, S. Ciochină, N. Dumitriu, A. Şerbănescu, şi L. Stanciu, Prelucrarea numerică a

semnalelor. Bucureşti: Editura Tehnică, 1997.

J. H. McClellan, "Parametric Signal Modeling," în Advanced Topics in Signal Processing, J. S.

Lim şi A. V. Oppenheim, Eds. Englewood Cliffs, NJ., U.S.A., 1988.

J. G. McWhirter şi I. K. Proudler, "The QR family," în Adaptive System Identification and Signal

Processing Algorithms, N. Kalouptsidis şi S. Theodoridis, Eds. Englewood Cliffs, NJ.:

Prentice Hall, 1993, pp. 260–321.

F. Michaut, Méthodes adaptives pour le signal. Paris: Ed. Hermés, 1992.

M. Morf, "Fast Algorithms for Multivariable Systems." vol. Ph.D. dissertation, Stanford, CA.:

Stanford University, 1974.

M. Morf şi T. Kailath, "Square-root algorithms for least-squares estimation," IEEE Trans. Autom.

Control, vol. AC-20, pp. 487-497, 1975.

D. R. Morgan, "An analysis of multiple correlation cancellation loops with a filter in the auxiliary

path," IEEE Trans. Acoust. Speech Signal Process, vol. ASSP-28(4), pp. 454-467, August,

1980.

I. Naforniţă, A. Câmpeanu, şi A. Isar, Semnale, circuite şi sisteme vol. 1. Timişoara: Litografia

U.T.T., 1995.

S. S. Narayan, A. M. Peterson, şi M. J. Narasimha, "Transform domain LMS algorithm," IEEE

Trans. Acoust. Speech Signal Process, vol. ASSP-31, pp. 609-615, June, 1983.

B. Noble şi J. W. Daniel, Applied Linear Algebra, 3rd ed. Englewood Cliffs, NJ.: Prentice Hall,

1988.

A. V. Oppenheim, R. W. Schafer, şi J. R. Buck, Discrete-Time Signal Processing, 2nd Illustrated

ed. Englewood Cliffs, NJ, U.S.A: Prentice Hall, 1998.

K. Ozeki şi T. Umeda, "An adaptive filtering algorithm using an orthogonal projection to an

affine subspace and its properties," Electronics and Communications in Japan, vol. 67-A, pp.

19-27, 1984.

C. T. Pan şi R. J. Plemmons, "Least-squares modifications with inverse factorizations: Parallel

implications," Comput. Appl. Math., vol. 27, pp. 109–127, 1989.

A. Papoulis, Probability, Random Variables and Stochastic Processes, 3rd ed. New York:

McGraw-Hill, 1991.

E. Petrişor, Probabilităţi şi statistică Timişoara,: Editura Politehnica, 2005.

A. D. Poularikas şi Z. M. Ramadan, Adaptive Filtering Primer with MATLAB. Boca Raton, FL,

U.S.A.: CRC Press, 2006.

402 BIBLIOGRAFIE

W. H. Press, B. P. Flannery, S. A. Teukolsky, şi W. T. Vetterling, Numerical Recipes in C: The

Art of Scientific Computing. Cambridge, UK: Cambridge University Press, 1992.

A. Quinquis, A. Şerbănescu, şi E. Rădoi, Semnale şi sisteme. Aplicaţii în MATLAB. Bucureşti:

Editura Academiei Tehnice Militare, 1998.

S. Qureshi, "Adaptive equalization,". Proc. IEEE, vol. 73(9), pp. 1349–1387, September, 1985.

K. R. Rao şi P. Yip, Discrete Cosine Transform. Algorithms, Advantages, Applications. Boston,

Mass. U.S.A.: Academic Press, 1990.

M. Rupp, "The behavior of LMS and NLMS algorithms in the presence of spherically invariant

processes," IEEE Trans. Signal Processing, vol. 41(3), pp. 1149-1160, March, 1993.

A. H. Sayed, Adaptive Filters. Hoboken, NJ: John Willey & Sons Inc., 2008.

A. H. Sayed şi T. Kailath, "A state-space approach to adaptive RLS filtering," IEEE Signal

Processing Magazine, vol. 11, pp. 18–60, 1994.

A. H. Sayed şi T. Kailath, "Recursive Least-Squares Adaptive Filters," în The Digital Signal

Processing Handbook, V. K. Madisetti şi D. B. Williams, Eds. Boca Raton, FLA, U.S.A.:

CRC Press, 1998, pp. 486-524.

D. T. M. Slock, "On the convergence behavior of the LMS and the normalized LMS algorithms,"

IEEE Trans. Signal Processing, vol. 45(12), pp. 2811–2825, September, 1993.

M. Soumekh, Fourier Array Imaging. Englewood Cliffs, NJ, U.S.A.: Prentice Hall, 1994.

A. Spătaru, Teoria transmisiunii informaţiei. Bucureşti: Editura Tehnică, 1968.

S. D. Stearns, "Fundamentals of Adaptive Signal Processing," în Advanced Topics in Signal

Processing, J. S. Lim şi A. V. Oppenheim, Eds. Englewood Cliffs, NJ, U.S.A.: Prentice Hall,

1988, pp. 246-288.

G. W. Stewart, Introduction to Matrix Computations. New York.: Academic Press, 1973.

G. Strang, "The Discrete Cosine Transform," SIAM Review, vol. 41, pp. 135-147, No. 1, 1999.

A. Ştefănescu şi C. Zidăroiu, Cercetări operaţionale. Bucureşti: Editura Didactică şi Pedagogică,

1981.

J. R. Treichler, C. R. Johnson, şi M. G. Larimore, Theory and Design of Adaptive Filters. New-

York: John Wiley and Sons, 1986.

S. A. Tretter, Introduction to Discrete-Time Signal Processing. New-York, U.S.A.: Wiley, 1976.

J. Z. Tsypkin, "Adaptation and Learning in Automatic Systems," în Mathematics in Science and

Engineering. vol. 73 New York: Academic Press, 1971.

P. Vaidyanathan, J. Tugan, şi A. Kirac., "On the minimum phase property of prediction-error

polynomials," IEEE Signal Processing Letters, vol. 4(5), pp. 126–127, May, 1997.

N. A. M. Verkhoecx şi T. A. C. M. Claasen, "Some considerations on the design of adaptive

digital filters equipped with the sign algorithm," IEEE Trans. on Communications, vol. COM-

32, pp. 258-266, March, 1984.

E. A. Wan, "Adjoint LMS: An Efficient Alternative to the Filtered-X LMS and Multiple Error

LMS Algorithms," în Proc. of ICASSP96, 65, 1996, pp. 1842-1845.

G. Weiss, "Time-reversibility of linear stochastic processes," J. Appl. Probability, vol. 12, pp.

831–836, 1975.

B. Widrow şi M. E. Hoff Jr., "Adaptive switching circuits," în. IRE WESCON Conv. Rec., 44,

1960, pp. 96–104.

B. Widrow şi S. D. Stearns, Adaptive Signal Processing. Englewood Cliffs, NJ. U.S.A.: Prentice-

Hall, 1985.

B. Yang şi J. F. Böhme, "Rotation-based RLS algorithms: Unified derivations, numerical

properties and parallel implementations," IEEE Trans. Signal Processing, vol. 40, pp. 1151–

1167, 1992.

INDEX

Algoritmi LMS cu semn 224 algoritmul LMS cu semnul datelor 226 algoritmul LMS cu semnul erorii 224 algoritmul LMS semn-semn 226

Algoritmi LMS cu transformare de domeniu 235 algoritm LMS cu pas normalizat 241 formularea algoritmului 241 principiul TDAF 235 proprietatea de separare în benzi 238 transformare de similaritate 239

Algoritmi LMS-GAL 251 algoritmul LMS-GAL de filtrare adaptivă

254 algoritmul NLMS-GAL 253 filtrul erorii de predicţie lattice 251

Algoritmi RLS 295, 348 algoritmul adaptiv LS aposteriori 298 algoritmul adaptiv LS apriori 297 algoritmul RLS standard 302 analiza algoritmului cu memorie finită

306 analiza algoritmului cu memorie infinită

305 ecuaţii de recursie 296 factor de conversie 299 iniţializarea algoritmului 304 vectorul câştigului de adaptare 297 vectorul de câştig adaptiv alternativ 298

Algoritmi RLS cu factorizare QR 310 algoritmul QR-RLS 315 algoritmul QR-RLS cu rotaţii Givens 321 algoritmul QR-RLS extins 317 algoritmul QR-RLS invers 318 algoritmul QR-RLS invers cu rotaţii

Givens 323 descompunerea Cholesky 312

Algoritmi RLS rapizi 348, 365 algoritmi lattice-scară cu reacţie pe

eroare 391

algoritmi lattice-scară cu rotaţii Givens 398

algoritmul FAEST 378 algoritmul FTF 378 algoritmul Kalman rapid 376 algoritmul lattice RLS aposteriori 384 algoritmul lattice RLS apriori 385 algoritmul lattice-scară aposteriori 388 algoritmul lattice-scară apriori 389 algoritmul LRLS 383 cu descompunere QR 370 cu recursie după ordin 370 ecuaţiile erorii de predicţie LS 367 fără recursie de ordin 370 instabilitate numerică 380 proprietatea de invarianţă la deplasare

a vectorului de date 366 recursia după ordinul filtrului 365 recursie în timp 365

Algoritmul de proiecţie afină (APA) 244 algoritm cu reutilizarea datelor 247 formularea algoritmului APA 245 interpretarea proiecţiei afine 249

Algoritmul Gram-Schmidt 144 Algoritmul Kalman

filtrare de rădăcină pătrată 353 Algoritmul Levinson-Durbin 129

implementare 133 invers 135

Algoritmul LMS 177 analiza performanţelor 180 convergenţa în medie 183 curba de învăţare 185, 187 deducerea algoritmului 177 dezadaptare 190 egalizare adaptivă 200 EPM în exces 190 EPM minimă 186 erori de cuantizare 217 ipoteza de independenţă 181, 184

404 INDEX

matricea de corelaţie a erorii coeficienţilor 187

modelare de sistem 198 predicţia lineară 195 relaţie de recursie 178 stabilitatea algoritmului 192

Algoritmul LMS cu „pierderi” 183 Algoritmul LMS cu constrângeri 213 Algoritmul LMS cu filtrarea erorii 207

algoritm LMS adjunct 209 Algoritmul LMS cu filtrarea referinţei 205 Algoritmul LMS normalizat 227

calculul pasului variabil 229 stabilitatea algoritmului 230

Algoritmul LMS-Newton 232 Algoritmul Schür 136

implementare 138 Anularea ecoului acustic 17 Anularea ecoului pe liniile telefonice 15 Aproximarea Taylor 357 Beamformer 18, 107, 211 Codarea predictivă lineară 12 Codarea vorbirii 12 Coeficient de corelaţie parţială (PARCOR)

133 LS 381, 382

Coeficient Rayleigh 63 Coeficienţi de reflexie 132, 255

estimatorul Burg 149 înapoi LS 381 normalizaţi 396

Combinator linear 3 Convoluţia circulară 28 Convoluţia lineară 22 Criteriu statistic 82 Densitate de probabilitate 38 Descompunere în valori singulare 275

descompunerea SVD a unei matrici 288 teorema descompunerii în valori

singulare 285 Deviaţia pătratică medie (DPM) 306 Ecuaţii de recursie LS Levinson-Durbin 381

Ecuaţii Wiener-Hopf (ecuaţii normale) 88 calculul funcţiei de cost 91 forma canonică a suprafeţei de eroare

94 matricea de corelaţie 89 pentru filtre FIR 89 rezolvare prin descompunere

triunghiulară 96 suprafaţa de eroare 91 vectorul de intercorelaţie 89

Ecuaţii Wiener-Hopf extinse 119 pentru predicţia generalizată 127 pentru predicţia înainte 119 pentru predicţia înapoi 125

Egalizor de canal 103 simetric 104 zero-forcing 106

Eroare aposteriori 230, 296, 298, 362 Eroare apriori 296, 297, 362 Eroare pătratică medie (EPM) 83, 155 Erori normalizate unghiular 392 Estimator de varianţă minimă fără

distorsiuni (MVDR) 110 Factorizare QR

redusă 276 Factorizarea QR 276 Filtrare optimală lineară 81

problema filtrării adaptive Wiener 83 Filtre FIR cu estimare LS 272

alegerea intervalului de filtrare 274 Filtru adaptat 67 Filtru all-pole 10, 24 Filtru de „albire” 73, 119, 142, 173 Filtru de fază minimă 141 Filtru de netezire simetric 128 Filtru FIR 2 Filtru IIR 4 Filtru Kalman

ecuaţia Riccati 340 Filtru propriu 67 Filtrul erorii de predicţie 9, 117, 129

generalizate 126 înainte 118 înapoi 124 proprietăţi 140

INDEX 405

Filtrul erorii de predicţie LS 369 înainte 369 înapoi 369

Filtrul Kalman 344 algoritm de filtrare informaţională 350 algoritmul de filtrare de covarianţă 350 algoritmul Kalman standard 346 condiţii iniţiale 344 corespondenţa dintre variabilele

Kalman-RLS 363 corespondenţa Kalman-RLS 361 factor de conversie 342 filtrul Kalman extins (EKF) 354 matricea de autocorelaţie a erorii de

filtrare a stării 344 matricea de câştig Kalman 338 modelul sistemului dinamic neforţat349 problema filtrării Kalman 333 variabila de inovaţii 362 vectorul de eroare a estimării filtrate

342 vectorul de eroare a predicţiei de stare

335 vectorul erorii de filtrare a stării 343

Filtrul Wiener 81 caracterizare în frecvenţă 102

Formula Burg 149 Funcţia de autocorelaţie 39 Funcţia de autocovarianţă 39

varianţa 39 Funcţia de distribuţie 38 Funcţie de corelaţie 40 Funcţie de cost 83, 155

calculul gradientului 228 Gradientul suprafeţei de eroare 157 Interferenţă intersimbol 8, 104 Lema Burg 382 Lema de inversare matricială 233 Leme de factorizare matricială 314 Matrice de corelaţie 51

descompunere LDU 69 descompunere UDL 70

ecuaţie caracteristică 55 inversare de matrice prin lema de

partiţionare 374 în sens LS 367 partiţionare 366 proprietăţi 51 proprietăţile valorilor şi vectorilor

proprii 57 transformarea unitară de similaritate

59, 159 valori proprii 55, 159 vectori proprii 56, 159

Matricea de schimb 123 Matrici ortogonale 159 Media temporală 44 Metoda celor mai mici pătrate (LS) 261

corolarul principiului ortogonalităţii 267 ecuaţia matricială a erorii 261 ecuaţii normale 265 ecuaţii normale ponderate 269 estimator linear de eroare LS 262 funcţia de cost - energia semnalului de

eroare 262 interpretare geometrică 266 înregistrări de date 263 înregistrări instantanee 263 principiul ortogonalităţii 267 proprietăţi statistice 270 soluţia de normă minimă 288

Metoda de ortogonalizare Gram-Schmidt 283, 334 clasică (GS) 283 modificat (MGS) 284

Metoda Newton 169 convergenţă 171

Metoda overlap-add 31 Metoda overlap-save 31 Metoda SD 154

calculul soluţiei 158, 160 condiţii de convergenţă 161 panta descendentă maximă 156 pasul algoritmului 164 recursia SD 157 vectorul coeficienţilor necuplaţi 159 viteza de convergenţă 164

Model ARMA 75

406 INDEX

Model autoregresiv (AR) 10, 72 ecuaţii Yule-Walker 74

Model cu medie alunecătoare (MA) 10, 71 Modelare adaptivă 6

identificarea sistemelor 7 Modelarea inversă 7

egalizarea de canal 7 Operatorul de mediere temporală 265, 367 Operaţie de normare 240 Optimizare cu constrângere 107, 211

algoritmul LMS normalizat 228 metoda multiplicatorilor lui Lagrange

108, 212, 228 Predictor 9, 115

lattice 145 Predicţia lineară 115, 121, 251

eroare de predicţie înainte 116 eroarea de predicţie înapoi 121, 142 generalizată 126

Predicţia lineară LS 366 eroarea aposteriori înainte 367, 369 eroarea aposteriori înapoi 368, 369 eroarea apriori înainte 368, 369 eroarea apriori înapoi 368, 369

Principiul ortogonalităţii 84, 85 corolar 86 interpretarea geometrică 86

Proces aleator în timp discret 37 ansamblu 37 densitate spectrală de putere 46 ergodic 43, 44 independent 40 necorelat 40 ortogonal 40 proces stochastic 38 realizare 37 staţionar 41 staţionar în sens larg 41 variabilă aleatoare 38

Proces de inovaţii 333 matricea de corelaţie 334

Pseudo-inversa unei matrici 268, 289 condiţiile Moore-Penrose 289

Puterea erorii de predicţie 122, 124, 132

înainte 116, 117 înapoi 122

Reţea adaptivă de antene 19 Rotaţie Givens 281, 320 Sisteme lineare invariante în timp (SLIT) 23

sisteme FIR 24 sisteme IIR 24 SLIT cauzal 25 SLIT de fază minimă 26 SLIT stabil 25

Spaţiul stărilor 331 ecuaţie de măsurare 332 ecuaţie de proces 332 matrice de măsurare 332 matrice de măsurare nelineară 355 matrice de tranziţie nelineară 355 matricea de tranziţie a stărilor 332 model nelinear 355 stare 332 zgomot de măsurare 332 zgomot de proces 332

Structura lattice 142, 147, 252, 383 LS 383

Structura lattice-scară 254, 387 Structuri sistolice 322 Tehnici de estimare spectrală

neparametrice 11 Tehnici de ortogonalizare 275 Teorema Wiener-Hincin 47 Transformarea cosinus discretă DCT 32,

237 Transformarea Fourier discretă DFT27, 237 Transformarea Fourier în timp discret 27 Transformarea Fourier rapidă FFT 28 Transformarea Hartley discretă 237 Transformarea Householder 279 Transformarea Karhunen-Loève 63, 172,

243 algoritmi LMS cu transformare de

domeniu 243 algoritmul LMS-Newton 243

Transformarea sinus discretă 237 Transformarea Z 21

INDEX 407

proprietăţile transformării Z 22 Valoare medie 39 Valoare medie pătratică 39

Zero padding 29 Zgomot alb 48, 56

zgomot alb gaussian 48

Metode adaptive de prelucrare a semnalelor Campeanu Gal

Documents

Transcript of Metode adaptive de prelucrare a semnalelor Campeanu Gal