Aa_Carte PAI Integrala

Cristian Grava Vasile Buzuloiu

ELEMENTE DE PRELUCRAREA

ŞI ANALIZA IMAGINILOR

2007

2

EDITURA UNIVERSITĂŢII DIN ORADEA

Descrierea CIP a Bibliotecii Naţionale a României

GRAVA, CRISTIAN Elemente de prelucrarea şi analiza imaginilor /

Cristian Grava, Vasile Buzuloiu. Oradea : Editura Universităţii din Oradea, 2007 ISBN 978-973-759-377-1

I. Buzuloiu, Vasile 621.397.3 (075.8)

EDITURA UNIVERSITĂŢII DIN ORADEA ESTE ACREDITATĂ DE CNCSIS, COD 149.

3

Cuprins:

Prefaţă ………………………………………………………… 7 1. Introducere ………………………………………………………. 9 2. Reprezentarea imaginilor ………………………………………... 12

2.1. Digitizarea imaginilor ………………………………………. 12 2.2. Eşantionarea imaginilor …………………………………….. 15 2.3. Reprezentarea spaţială a imaginilor ………………………… 20 2.4. Proprietăţi ale imaginilor digitale ……………………….….. 25

2.4.1. Proprietăţi metrice ale imaginilor digitale ……….…… 26 2.4.2. Proprietăţi topologice ale imaginilor digitale ………… 27 2.4.3. Relaţii de vecinătate între pixeli ……………………… 28 2.4.4. Paradoxuri de conexitate ..……………………………. 31 2.4.5. Alte proprietăţi topologice şi geometrice ……………... 33

2.5. Reprezentarea spectrală a imaginilor ………………………... 34 2.5.1. Transformata Fourier (TF) bidimensională …………... 36 2.5.2. Proprietăţile transformatei Fourier bidimensionale …... 36 2.5.3. Proprietăţi specifice TF bidimensionale ……………… 43

3. Îmbunătăţirea imaginilor ………………………………………… 52 3.1. Calitatea unei imagini ………………………………………. . 52 3.2. Tehnici de îmbunătăţire a imaginilor ………………………… 55 3.3. Operatori punctuali de îmbunătăţire a imaginilor …………… 57

3.3.1. Operatori punctuali de modificare a contrastului ……… 58 3.3.2. Decuparea intervalelor de niveluri de gri ……………… 62 3.3.3. Modificarea histogramei ………………………………. 64

3.4. Operatori liniari de vecinătate pentru îmbunătăţirea imaginilor. Filtrarea liniară a imaginilor …………………………………. 68

3.5. Efectul în frecvenţă al operatorilor liniari de vecinătate …….. 73 3.6. Filtrarea neliniară a imaginilor ………………………………. 76

3.6.1. Filtre neliniare de ordine ………………………………. 77 3.6.2. Filtre de ordine multi-etaj ……………………………… 79 3.6.3. Proprietăţi ale filtrelor de ordine ………………………. 81

4

3.6.4. Filtre de ordine de domeniu …………………………… 83 3.6.5. L-filtre ………………………………………………… 85

4. Transformări integrale ale imaginilor ……………………………. 87 4.1. Transformări integrale unitare ………………………………. 87 4.2. Matrici unitare ………………………………………………. 93 4.3. Transformări unitare ale unor semnale unidimensionale …… 98 4.4. Transformări unitare ale unor semnale bidimensionale …….. 100 4.5. Transformata Fourier discretă unidimensională (DFT-1D) …. 104 4.6. Proprietăţi ale transformatei DFT-1D ……………………….. 105 4.7. Transformata Fourier discretă bidimensională (DFT-2D) ….... 108 4.8. Proprietăţi ale transformatei DFT-2D ……………………….. 111 4.9. Transformata Cosinus discretă unidimensională ……………. 113 4.10. Transformata Cosinus discretă bidimensională …………… 115 4.11. Transformata Sinus discretă unidimensională …………….. 120 4.12. Transformata Sinus discretă bidimensională ………………. 121

5. Restaurarea imaginilor …………………………………………… 122 5.1. Filtrarea inversă ……………………………………………… 123 5.2. Filtrul invers cu constrângeri ………………………………... 125

6. Morfologie matematică ………………………………..……. …... 130 6.1. Transformarea Hit or Miss ………………………………….. 130 6.2. Erodarea ……………………………………………………. 132 6.3. Dilatarea …………………………………………………….. 134 6.4. Proprietăţile operaţiilor morfologice ………………………... 136 6.5. Transformări morfologice derivate …………………………. 138

6.5.1. Operatori de extragere a conturului ……….…………. 138 6.5.2. Deschiderea şi închiderea …………………………….. 140

6.6. Trierea dimensională a obiectelor …………………………… 142 6.7. Caracterizarea morfologică a formelor ……………………… 143

6.7.1. Reconstrucţia după marker …………………………… 144 6.7.2. Distanţa Haussdorf …………………………………… 145 6.7.3. Extragerea skeletonului morfologic ………………….. 145 6.7.4. Skeletonul generalizat ………………………………… 149

6.8. Extinderea morfologiei matematice la imagini cu niveluri de gri.. 151

5

6.8.1. Trecerea de la mulţime la funcţie ……………………… 152 6.8.2. Trecerea de la funcţie la mulţime ……………………… 153 6.8.3. Operaţii cu funcţii …………………………………….. 154

7. Segmentarea imaginilor ….………………………………………. 157 7.1. Segmentarea orientată pe regiuni …………………………….. 157

7.1.1. Etichetarea componentelor ……………………………. 158 7.1.2. Metoda arborelui cuaternar (quad-tree) ………………. 159

7.2. Segmentarea imaginilor cu niveluri de gri …………………… 161 7.2.1. Segmentarea bazată pe histogramă ……………………. 161 7.2.2. Segmentarea bazată pe creşterea şi fuziunea regiunilor .. 165

7.3. Segmentarea orientată pe contururi …………………………. 168 7.3.1. Operatori de tip gradient ……………………………… 169 7.3.2. Operatori de tip compas ……………………………… 173

8. Compresia imaginilor ……………………………………………. 176 8.1. Compresia imaginilor binare ………………………………… 177

8.1.1. Codarea de nivel înalt …………………………………. 177 8.1.1.1. Aproximări poligonale …………………………. 177 8.1.1.2. Codul Freeman …………………………………. 178 8.1.1.3. Descriptori Fourier ……………………………… 181

8.1.2. Codarea la nivel de bloc ………………………………. 183 8.1.2.1. Metoda arborelui cuaternar (Quad-tree) ………… 183 8.1.2.2. Metoda WBS (White Block Skipping) …………. 184

8.1.3. Codarea la nivel de bit ………………………………… 185 8.1.3.1. Codarea RLE (Run Length Encoding) ………….. 185 8.1.3.2. Codarea entropică (Huffman) …………………… 186

8.2. Compresia imaginilor cu niveluri de gri ……………………… 188 8.2.1. Codarea pe plane ………………………………………. 188 8.2.2. Metode predictive de compresie ………………………. 190 8.2.3. Compresia cu transformate ……………………………. 194

Bibliografie ……………………………………………………….. 204

7

Prefaţă Prelucrarea şi analiza imaginilor ajunge pe zi ce trece, tot mai mult, în categoria „bunurilor de larg consum” ca urmare a aceleiaşi mutaţii suferită de calculatoarele electronice care reprezintă suportul „hard şi soft” al acestui domeniu relativ nou dar devenit indispensabil, al existenţei sociale contemporane. Numai că, fără îndoială, nu se rezumă la „suport”: analiza şi prelucrarea imaginilor – şi prin extensie, a secvenţelor video, a semnalelor multimedia şi, mai general, a semnalelor multidimensionale – înseamnă în primul rând algoritmi; algoritmi de prelucrări şi algoritmi de analiză. Şi, ajungând aici, ne dăm seama că, în fapt, avem de-a face cu „modelare matematică”. Cândva, pe vremea bunicilor bunicilor noştri, adică în zorii epocii moderne din istoria omenirii, cu arta aceasta se ocupau doar genii de prim rang – un Galilei, Newton, Leibnitz – dar numărul celor ocupaţi cu modelarea matematică a crescut vertiginos în secolul XIX şi apoi al XX-lea astfel încât astăzi, cum învăţământul universitar a ajuns „învăţământ de masă”, modelarea matematică a ajuns şi ea în învăţământul de masă; adică s-ar vrea un „bun de larg consum”. Numai că în matematică nu există „cale regală” adică pe care să înaintezi fără efort (asta o ştim încă din antichitate: i-a spus-o mentorul său împăratului Alexandru cel Mare!). Cele de mai sus se vor o justificare a faptului că această carte, care este şi un suport de curs pentru studenţii ingineri ai Universităţii din Oradea dar poate fi şi o lectură utilă pentru toţi cei interesaţi de subiect, conţine pagini întregi de matematică, constituind subiecte alese din nevoile disciplinei. În mod ideal, o carte de prelucrarea şi analiza imaginilor de sine stătătoare ar trebui să aibă un material imagistic ilustrativ, mult mai bogat. Rabatul pe care îl facem de la acest deziderat este justificat prin faptul că materia unui astfel de curs nu se rezumă la teorie ci are drept componentă principală şi partea de aplicaţii, în faţa ecranului: în felul acesta studentul „testează” pe viu ce influenţă au asupra rezultatelor modificările în algoritmi şi vede cum se modifică imaginea. De asemenea, ne-am decis să folosim în titlu un partitiv „Elemente de …” fiindcă de fapt cartea este doar o uşoară introducere într-un domeniu astăzi deja vast, care conţine printre multe altele, tehnicile de restaurare a

8

imaginilor (din care fac parte cele de reconstrucţie a imaginilor din proiecţii care stau la baza imagisticii medicale, a defectoscopiei nedistructive şi a teledetecţiei satelitare), ustensilele software pentru fotografia digitală (ne mărginim la un singur exemplu: corecţia în „timp real” a ochilor roşii) şi tot felul de sisteme de supraveghere a căror componentă principală trebuie să fie una capabilă de recunoaştere a formelor (maşini, feţe etc). În pofida faptului că „prelucrarea şi analiza imaginilor” este, cum se zice azi, un „domeniu de vârf”, noi am fost activi în el de mai bine de 30 de ani datorită cercetărilor de televiziune digitală şi prelucrare în timp real a semnalului digital în colectivul de cercetare al Catedrei de Electronică Aplicată de la Politehnica din Bucureşti; primul sistem digital de analiză a imaginilor a fost terminat în 1981 iar în următorii ani a fost reprodus în câteva exemplare la Fabrica de Calculatoare Electronice. Perioada anilor ’80 n-a fost, din păcate, propice dezvoltărilor tehnologice la noi şi astfel întâietatea şi avantajul pe care apucaserăm să îl avem „în lagărul socialist”, n-a dat roade. După 1990 ne-am trezit într-o lume care între timp progresase mult în acest domeniu. Totuşi, experienţa pe care o avem ne-a permis să reluăm ideile iar astăzi, Laboratorul de Analiza şi Prelucrarea Imaginilor LAPI al Politehnicii din Bucureşti este destul de bine cunoscut şi peste hotare; mai mult, transplantul cunoştinţelor l-am făcut şi spre alte universităţi – Braşov, Oradea – şi aşa se face că astăzi, în Catedra de Electronică a Universităţii din Oradea există un colectiv important de cadre tinere implicate în acest domeniu, cu stagii în străinătate şi colaborări internaţionale. Avem toate condiţiile preliminare pentru un învăţământ responsabil. Cartea de faţă, scrisă aproape în totalitate de Cristian Grava, adună elementele esenţiale ale unui curs introductiv dar presupune că studentul – cititorul – a fost „expus” înainte unor cursuri pregătitoare printre care cel de teoria statistică a semnalelor, cel de sisteme liniare şi cursurile fundamentale de matematică pentru ingineri. Ar mai fi de remarcat că, pentru compactizarea materialului s-a preferat o înşiruire neliniară a subiectelor, care de exemplu în capitolul 2 trimite la capitolul 4 dar, fiind vorba de subiecte reluate de la cursuri anterioare, suntem convinşi că cititorul va putea parcurge textul fără dificultăţi, cel mult eventual cu reluări.

Prof. Vasile Buzuloiu

9

1. Introducere

Dezvoltarea spectaculoasă din ultimii ani a tehnologiei informaţiei

şi a componentelor electronice a condus la impunerea de soluţii inimaginabile până nu demult pentru numeroase probleme tehnice, ca de exemplu în industrie la conducerea proceselor de producţie sau la controlul de calitate. Tehnicile de exploatare a informaţiei vizuale ocupă o poziţie importantă şi de extremă actualitate. Domeniul prelucrării şi analizei imaginilor grupează tehnicile de achiziţie, transformare şi utilizare a informaţiei vizuale din imaginile reprezentate, transmise şi exploatate în formă digitală, în sisteme de calcul de uz general sau calculatoare specializate.

Printre aplicaţiile importante ale prelucrării şi analizei imaginilor se pot aminti aplicaţiile în medicină (investigarea de organe ale corpului uman), aplicaţii în industrie şi în tehnică (cartografierea solului, prospecţiuni geologice, controlul tehnic automat al diverselor produse, robotică etc.) precum şi aplicaţii dedicate unor domenii ca arta, aplicaţiile militare etc.

Principalele probleme ale prelucrării şi analizei de imagini sunt: 1. Reprezentarea şi modelarea imaginilor:

• Eşantionarea şi cuantizarea imaginilor • Reprezentarea spaţială a imaginilor • Reprezentarea spectrală a imaginilor. Transformata Fourier

TransformareImagine discretizată

Imagine transformată

Prelucrarea se face asupra

acestei imagini

Figura 1.1. Transformarea unei imagini.

10

• Modelele imaginilor pot fi: stohastice; deterministe.

2. Îmbunătăţirea imaginilor. Se face prin:

• prelucrări punctuale. Exemple: modificarea contrastului şi luminanţei; modificarea histogramei.

• prelucrări pe vecinătăţi. Exemple: accentuarea contururilor; reducerea zgomotului imaginilor; pseudo-colorarea.

• prelucrări geometrice. • prelucrări integrale.

3. Restaurarea imaginilor. Presupunem că f(x,y) este imaginea originală

care datorită procesului de captare a suferit o transformare (degradare), liniară sau neliniară, obţinându-se imaginea degradată fd(x,y).

f(x,y) fd(x,y)

transformare

transformare-1

Figura 1.2. Transformarea inversă a unei imagini.

Imaginea originală se poate obţine din imaginea degradată prin aplicarea unei transformări inverse celei suferite în procesul de captare. Apar probleme când în procesul de captare intervine şi zgomot, caz în care se impune şi o etapă de restaurare a imaginii, pentru a se obţine o

aproximare a imaginii originale (x,y)f :

11

Transformare + Restaurare

f(x,y)

zg=zgomot

f (x,y) fd(x,y)+zg

Figura 1.3. Restaurarea imaginilor.

• Reconstrucţia imaginilor din proiecţii.

4. Analiza imaginilor, care implică:

• măsurători automate pe imagini; • segmentarea imaginilor (extragerea obiectelor).

5. Compresia imaginilor, care implică reducerea cantităţii de informaţie. Exemplu: Pentru o imagine de 512×512 pixeli (29×29), în care fiecare pixel este reprezentat pe 8 biţi, adică cu 28=256 niveluri de gri, cantitatea de informaţie este: (29×29)pixeli×23biţi/pixel=221 ≈ 2 Mb Prin compresia imaginilor se urmăreşte reducerea acestei cantităţi de informaţie.

Schema bloc a unui lanţ de analiza şi prelucrarea imaginilor este

prezentată în figura 1.4.

senzor CAD

Compresie

Memorie

Îmbunătăţire+ Restaurare

Măsurători date

Segmentare

Listă de obiecte

Măsurători pe obiecte

Clasificare Descrierea scenei

Scenă

CAD = convertor analog-digital

Display Display

Figura 1.4. Schema bloc a unui lanţ de analiza şi prelucrarea imaginilor.

12

2. Reprezentarea imaginilor Sistemele vizuale ale organismelor vii percep mediul înconjurător 3-dimensional, prin intermediul unor latici de senzori de lumină bidimensionale (de exemplu, retina din ochii mamiferelor) şi refac spaţiul 3D prin integrare temporală şi/sau vedere binoculară. În pofida faptului că senzaţia este de câmp continuu al imaginilor percepute, laticea senzorilor este discretă. În sistemele tehnice imaginate de om, aceste proprietăţi se păstrează: informaţia imagistică din mediul înconjurător se proiectează pe latici bidimensionale de senzori de lumină şi astfel se discretizează spaţial, iar semnalele de la fiecare senzor se discretizează în timp şi în valoare astfel încât „imaginile” ajung în sistemele de calcul sub formă digitală, pentru prelucrare şi analiză.

2.1. Digitizarea imaginilor Imaginile pot fi descrise de distribuţia spaţială a intensităţii luminoase într-un plan. Din punct de vedere matematic, distribuţia spaţială a intensităţii luminoase (I) poate fi descrisă printr-o funcţie continuă de două variabile spaţiale continue (x,y)=p:

I(x,y)=I(p)

Calculatoarele existente nu pot trata imaginile ca funcţii definite pe un domeniu continuu ci doar ca matrici discrete de numere. Din acest motiv este necesară transformarea şi reprezentarea imaginilor continue ca matrici bi-dimensionale de puncte, prin discretizare. Un punct al unei astfel de matrice se numeşte pixel (din engleză = picture element). Un pixel reprezintă intensitatea luminoasă sau culoarea corespunzătoare unui anumit punct din matrice. Prin urmare, un pixel este caracterizat prin poziţia şi prin valoarea sa.

13

Pentru tratări teoretice, imaginea bidimensională poate fi reprezentată ca o funcţie continuă (analogică) bidimensională I(x,y)=f(x,y), unde x şi y sunt coordonatele spaţiale. Valoarea funcţiei într-un punct oarecare (x,y) va reprezenta: • luminanţa din punctul respectiv, în cazul în care funcţia f(x,y) este o

funcţie reală. În acest caz avem o imagine cu niveluri de gri, numită impropriu şi imagine alb-negru;

• culoarea din punctul respectiv, în cazul în care funcţia f este o funcţie vectorială, (f1(x,y),f2(x,y),f3(x,y)) = (R,G,B). În acest caz avem o imagine color, cu componentele fundamentale (R, G, B).

Trecerea de la o imagine color la o imagine cu niveluri de gri se face prin adunarea componentelor fundamentale ponderate cu anumiţi coeficienţi, adică printr-o combinaţie liniară a acestor componente.

Pentru prelucrarea digitală a imaginilor analogice (de exemplu cu ajutorul unui calculator) este nevoie de discretizarea imaginilor, proces în urma căruia imaginea este transformată într-o matrice care conţine elementele de imagine (pixel). În practică, camera video de tip CCD (Charge Coupled Device) realizează discretizarea imaginilor chiar în procesul de captare. Pentru afişare, imaginile se pot converti din nou în formă analogică.

Discretizarea imaginilor analogice se realizează în doi paşi: • discretizarea spaţială (eşantionarea), cu ajutorul unei reţele discrete

f(l·∆x,k·∆y), l,k∈Z. În urma acestei operaţii rezultă o imagine (matrice) cu L linii şi K coloane: l≤L, k≤K. Prin urmare, se obţine L×K pixeli, iar imaginea obţinută se va scrie printr-o expresie de forma:

A={a(l,k), 1≤l≤L, 1≤k≤K}, l,k,L,K∈Z;

a11 a12 … a1,K a21 a22 … a2,K … … … … aL,1 aL,2 … aL,K

14

• discretizarea în valoare (cuantizarea): fq(l·∆x,k·∆y) l,k∈Z, l≤L, k≤K, cu: fq(l·∆x,k·∆y)∈{f1,…,fn}, unde n este numărul nivelurilor de cuantizare a imaginii (numărul nivelurilor de gri). De exemplu, pentru n=2 avem o imagine binară.

În acest caz, fiecare eşantion obţinut în pasul anterior (la eşantionare) este cuantizat folosind un număr finit de biţi. Astfel, fiecare pixel va avea un anumit nivel de gri (pentru imagini alb-negru) sau o anumită culoare (pentru imagini color), codificată printr-un număr constant de biţi.

În reprezentare binară, un pixel oarecare al,k este codat: (al,k)binar=bn-1bn-2…b1b0 căruia îi corespunde o valoare zecimală:

(al,k)zecimal=bn-1·2n-1+bn-2·2n-2+…+b1·21+b0·20=q (2.1)

care reprezintă nivelul q din scara de 2n nivele de gri considerate. În mod uzual, negrul este considerat ca având nivelul logic 0 (în binar 00 …00), iar albul ca având nivelul logic 1 (în binar 11…11). De exemplu, în cazul unei imagini reprezentate pe 8 biţi avem un număr de 28 =256 niveluri de gri, în care negrul este codat cu nivelul q=0, iar albul este codat cu nivelul q=255. Pixelul a34 având valoarea codată binar cu octetul 00101001 este pixelul al 4-lea de pe rândul 3 şi are nivelul q=41 în scara de niveluri de gri amintită. În continuare, când se va vorbi despre imagini digitale sau simplu despre “imagini”, se va face referire la imagini eşantionate şi cuantizate, iar când se va vorbi despre discretizarea imaginilor se va face referire la discretizarea spaţială (eşantionarea) şi în valoare (cuantizarea) imaginilor.

15

2.2. Eşantionarea imaginilor Se consideră o matrice de eşantionare, cu pasul (∆x,∆y) care

transformă imaginea dintr-o funcţie (continuă) într-un şir:

( )( ) Zl,kantionaree ∆y∆x,klff(x,y) ∈⋅⋅ → s (2.2)

x

y

∆x

∆y

Figura 2.1. Matricea de eşantionare a unei imagini.

Transformarea inversă (din şir în imagine) este posibilă în condiţiile teoremei eşantionării. Modelul matematic al semnalului eşantionat este:

∆⋅=∆⋅=

=în rest

ykyxlxyxfyxf

note

,0

,),,(),(

. (2.3)

∑ ∑ ⋅=∆⋅−∆⋅−⋅=m n

pe yxyxfynyxmxyxfyxf ),(),(),(),(),( δδ ,

unde: periodic

l kp ykyxlxyx δδδ =∆⋅−∆⋅−= ∑ ∑ ),(),( (2.4)

este impulsul Dirac δ periodic:

=

=δrest î ,0

0 pt. ,1)(

nx

x (2.5)

16

Transformata Fourier a semnalului eşantionat este: { } { }),(),(),(),( yxyxfyxfvuF pee δ⋅ℑ=ℑ= (2.6)

Se ştie că dacă funcţia f(t) este periodică (cu perioada T), seria sa Fourier este:

∑⋅

⋅=k

tkT

jk eCtf

π2

)( , unde coeficienţii: (2.7)

∫⋅−

⋅=T

tkT

jk dtetf

TC

π2

)(1 (2.8)

Din acest motiv, deoarece funcţia δp(x,y) este periodică cu perioada ∆x pe x, respectiv ∆y pe y:

∑ ∑

⋅

∆+⋅

∆⋅=k l

yly

xkx

j

klp eCyx

ππ

δ

22

),( , unde: (2.9)

∫ ∫∆ ∆

⋅

∆+⋅

∆−⋅

∆⋅∆=

)( )(

22exp),(1

x ypkl dxdyyl

yxk

xjyx

yxC ππδ (2.10)

Deoarece se integrează pe un interval ∆x =

∆∆−

2,

2xx , respectiv

∆y =

∆∆−

2,

2yy şi dacă se presupune că într-un dreptunghi cu laturile ∆x,

∆y cade un singur impuls δp şi numai unul (cel din origine):

17

l·∆x

k·∆y

y

z

x

Figura 2.2. Eşantionarea imaginilor.

∫ ∫∞

∞−

∞

∞−

⋅

∆+⋅

∆−⋅

∆⋅∆=⇒ dxdyyl

yxk

xjyx

yxC pkl

ππδ 22exp),(1 (2.11)

Deoarece: )0()()( fdttft =⋅∫∞

∞−δ , iar în cazul de faţă: f(0)=1

yx

C lk ∆⋅∆=⇒

1, (2.12)

∑ ∑

⋅

∆+⋅

∆⋅∆⋅∆

=⇒k l

yly

xkx

j

p eyx

yx

ππ

δ

221),( (2.13)

⋅⋅∆⋅∆

ℑ=⇒ ∑ ∑

⋅

∆+⋅

∆

k l

yly

xkx

j

e eyxfyx

vuF

ππ 22

),(1),( (2.14)

Pe baza proprietăţii de liniaritate a transformatei Fourier:

∑ ∑

⋅ℑ⋅∆⋅∆

=⇒

⋅

∆+⋅

∆

k l

yly

xkx

j

e eyxfyx

vuF

ππ 22

),(1),( (2.15)

18

( )∑ ∑∑ ∑ ∆⋅−∆⋅−ℑ⋅∆⋅∆

=

∆

−∆

−ℑ⋅∆⋅∆

=⇒k lk l

e vlvukuyx

ly

vkx

uyx

vuF ,12,21),( ππ

unde: x

unot

∆=∆

π2.,

yv

not

∆=∆

π2. (2.16)

Spectrul semnalului eşantionat F(u,v) se obţine prin periodizarea (repetarea) spectrului său Fe(u,v):

v

F(u,v)

u

∆v

∆u

FTJ

v

u

Figura 2.3. Spectrul semnalului eşantionat. Recuperarea semnalului original din semnalul eşantionat se poate face cu un filtru trece-jos (FTJ) cu parametri adecvaţi (figura 2.4).

umaxv

u

vmax

∆u

∆v∆v-vmax

∆u-umax

Figura 2.4. Parametrii FTJ.

19

Parametrii umax, respectiv vmax reprezintă frecvenţele spaţiale maxime din spectrul funcţiei f, în direcţia u, respectiv v (ce corespund coordonatelor spaţiale x, respectiv y). Pentru ca semnalul original să fie corect recuperat cu ajutorul unui FTJ, trebuie ca parametrii acestuia să satisfacă condiţiile:

≥−∆≥−∆

maxmax

maxmaxvvvuuu

⋅≥∆⋅≥∆

⇒max

maxvvuu

22

(2.17)

Prin urmare, frecvenţele de tăiere (ξ, η) a FTJ de recuperare a semnalului original în cele două direcţii (u,v), trebuie să îndeplinească condiţiile:

−∆≤≤−∆≤≤

maxmax

maxmaxvvvuuu

ηξ

(2.18)

Astfel, în acest caz, teorema eşantionării se poate enunţa astfel:

dacă x

u∆

=∆π2 ,

yv

∆=∆

π2 adică frecvenţele de eşantionare pe x, respectiv

pe y, sunt mai mari sau cel puţin egale cu dublul frecvenţelor maxime din spectrul lui f pe direcţia u, respectiv v, atunci recuperarea semnalului original de imagine f(x,y) se poate face exact, din eşantioane, cu un filtru ideal trece-jos cu funcţia de transfer:

H(u,v)

fe(x,y) f(x,y)

Figura 2.5. FTJ necesar pentru extragerea semnalului original.

η≤ξ≤

=restîn 0,

si pentru,1),(

vuvuH (2.19)

unde frecvenţele de tăiere (ξ, η) sunt alese în mod corespunzător, adică astfel încât:

20

−∆≤≤−∆≤≤

maxmax

maxmaxvvvuuu

ηξ

(2.20)

Observaţie:

Condiţia de recuperare enunţată de teorema eşantionării este suficientă dar nu şi necesară. Acest lucru este ilustrat de exemplul următor:

∆u

∆v

u

v

vmax

umax

F(u,v)

H(u,v)

∆v-vmax

∆u-umax

Figura 2.6. Caz particular de extragere a semnalului original.

Se observă că deşi condiţia de recuperare nu este îndeplinită, recuperarea se poate face cu un FTJ ideal corespunzător, care să extragă doar zona corespunzătoare spectrului funcţiei.

2.3. Reprezentarea spaţială a imaginilor

Odată digitizate (eşantionate şi cuantizate), imaginile pot fi prelucrate şi analizate cu sisteme de calcul uzuale sau dedicate. Reprezentarea imaginilor se poate face sub diverse forme (spaţială, spectrală etc.), adecvate diverselor aplicaţii.

În cazul cel mai simplu, pixelii sunt localizaţi pe o reţea rectangulară. Poziţia unui pixel este dată în mod analog notaţiei utilizate

21

pentru elementele unei matrice. Primul indice (l) exprimă poziţia pe linie, iar cel de-al doilea indice (k) exprimă poziţia pe coloană (figura 2.1).

Cl,k

0 0 1

1

k

l

K-1

L-1

x

y

coloane

linii

Figura 2.7. Reprezentarea imaginilor digitale ca matrici de pixeli dispuşi

într-o reţea rectangulară bi-dimensională.

Dacă imaginea conţine L×K pixeli, aceasta poate fi reprezentată printr-o matrice de dimensiune L×K, unde indicele l=0…L-1, iar k=0…K-1. L reprezintă numărul de linii, iar K numărul de coloane. Ca şi în cazul matricilor, sensul pozitiv al axei verticale (y) este de sus în jos şi nu de jos în sus, cum este cazul reprezentărilor grafice bidimensionale uzuale. Sensul pozitiv al axei orizontale (x) este cel uzual, de la stânga la dreapta (figura 2.1).

Rezoluţia spaţială de reprezentare a unei imagini poate fi definită ca reprezentând numărul total de pixeli (de exemplu L×K) sau poate fi definită ca fiind egală cu numărul de pixeli pe unitatea de suprafaţă (în pixeli/cm2 sau în pixeli/inch2). Rezoluţia spaţială a unui sistem de achiziţie de imagini se poate defini ca fiind egală cu numărul de pixeli pe unitatea de lungime (pixeli/mm sau pixeli/cm). Pe baza acestor noţiuni, se mai poate defini şi sensibilitatea unui sistem de vedere sau a unui sistem de

22

achiziţie de imagini, ca fiind unitatea minimă de lungime care poate fi observată într-o imagine achiziţionată.

Fiecare pixel reprezintă nu numai un punct al unei imagini, ci o regiune rectangulară a acesteia, care defineşte o celulă elementară a imaginii. Valoarea asociată unui pixel reprezintă în mod adecvat media intensităţii luminoase din celula corespunzătoare. În figura 2.8 este ilustrată una şi aceeaşi imagine, reprezentată printr-un număr diferit de pixeli.

(a) (b)

(c) (d)

Figura 2.8. Imagine digitală cu diferite rezoluţii: (a) - 16×16 pixeli; (b) - 32×32 pixeli; (c) - 64×64 pixeli; (d) - 256×256

pixeli. În cazul unor pixeli de dimensiune mare (figura 2.8.a şi 2.8.b), nu

numai că rezoluţia spaţială este mică, dar apar nişte artefacte (zgomote)

23

deranjante datorate discontinuităţilor de niveluri de gri de la marginile pixelilor, care distrag atenţia privitorului de la conţinutul propriu-zis al imaginii. Atunci când dimensiunea pixelilor devine mai mică, adică atunci când creşte rezoluţia spaţială (figura 2.8.c şi 2.8.d), efectele descrise mai sus devin mai puţin pronunţate, putându-se ajunge până la impresia de continuitate spaţială a imaginii. Acest lucru de întâmplă când rezoluţia spaţială a imaginii devine mai mare decât rezoluţia sistemului uman de vedere, adică atunci când dimensiunea unui pixel al imaginii devine mai mică decât dimensiunea minimă pe care o poate percepe ochiul uman.

Nu există un răspuns general valabil legat de numărul optim de pixeli necesar pentru a crea senzaţia de continuitate spaţială a unei imagini. În cazul observării vizuale a unei imagini, trebuie ca dimensiunea unui pixel să fie mai mică decât dimensiunea corespunzătoare rezoluţiei spaţiale a sistemului vizual, la o distanţă nominală a observatorului. În cazul unei aplicaţii concrete, dimensiunea unui pixel trebuie să fie obligatoriu mai mică decât dimensiunea celui mai mic obiect pe care dorim să îl vizualizăm. În general, într-o aplicaţie dată, cel care impune o limită a numărului de pixeli este sistemul de achiziţie a imaginilor. De exemplu, chiar dacă se utilizează sisteme de achiziţie cu o rezoluţie ridicată, de 1000×1000 = 1 milion de elemente, rezoluţia spaţială relativă este de 10-3. Aceasta poate fi considerată o rezoluţie slabă, deoarece în cazul măsurării unei lungimi, a unei tensiuni electrice sau a unei frecvenţe, o rezoluţie sau o precizie satisfăcătoare începe de la 10-6. Însă, în cazul măsurării unor astfel de mărimi uni-dimensionale, se efectuează măsurători relativ la un singur punct, în timp ce o imagine de 1000×1000 conţine un milion de puncte. Prin urmare, o imagine poate oferi informaţii referitoare la variaţia spaţială a unui semnal. În plus, dacă se achiziţionează secvenţe temporale de imagini, se pot obţine informaţii care nu sunt accesibile dintr-o imagine statică. Astfel se pot obţine informaţii legate de variaţiile temporale ale unui semnal şi prin urmare se poate studia cinematica şi dinamica temporală a acestuia.

24

O reţea rectangulară reprezintă cea mai simplă, dar şi cea mai răspândită geometrie a unei imagini digitale. Pe lângă aceasta, mai există şi alte aranjamente geometrice ale pixelilor sau alte forme ale celulelor elementare. Aceste forme şi dispuneri geometrice sunt similare configuraţiilor cristaline posibile în cazul corpurilor solide 3D în fizică, chimie sau mineralogie. Dacă se iau în considerare doar poligoane regulate, există doar trei forme de reţele regulate posibile: triunghiulare, pătrate sau hexagonale (figura 2.9).

Figura 2.9. Forme de reţele regulate posibile în 2D:

(a) - reţea triunghiulară; (b) - reţea pătrată; (c) – reţea hexagonală. În cazul imaginilor 3D, pixelul se transformă în voxel (din engleză = volume element). Într-o reţea rectangulară, fiecare pixel reprezintă valoarea medie a nivelului de gri (sau de culoare) dintr-un cub elementar. Poziţia unui voxel este indicată prin trei indici: un indice de linie (l), un indice de coloană (k) şi un indice (m) pentru ”adâncime” (figura 2.10).

25

y

x

z

l

k

m

Figura 2.10. Reprezentarea imaginilor digitale ca matrici de voxeli

dispuşi într-o reţea rectangulară tri-dimensională.

2.4. Proprietăţi ale imaginilor digitale Imaginile digitale au unele proprietăţi, metrice sau topologice, diferite de proprietăţile funcţiilor bidimensionale continue. Pe baza celor prezentate până în acest punct, se pot trage următoarele concluzii: • o imagine digitală este formată din elemente de imagine (pixeli) de

dimensiune finită; • în mod uzual, pixelii sunt aranjaţi sub forma unei reţele rectangulare; • o imagine digitală reprezintă o matrice bidimensională a cărui

elemente sunt numere întregi care corespund nivelurilor de cuantizare a gamei de niveluri de gri.

• unele proprietăţi ale imaginilor continue nu au o analogie directă în domeniul imaginilor digitale.

26

2.4.1. Proprietăţi metrice ale imaginilor digitale

Distanţa dintre doi pixeli dintr-o imagine digitală reprezintă o

mărime cantitativă. Distanţa dintre punctele de coordonate (i,j) şi (k,l) poate fi definită în diferite moduri: • distanţa euclidiană:

[ ] ( ) ( )22),(),,( ljkilkjid E −+−= (2.21)

Avantajul distanţei euclidiene este faptul că este intuitivă, dar are

dezavantajul unui cost mare de calcul datorită radicalului din formulă şi datorită valorii neîntregi care rezultă şi deci a interpolării necesare.

Distanţa dintre două puncte poate fi exprimată şi prin numărul minim de paşi elementari de pe reţeaua discretă, dintre punctul de start şi punctul final.

• Dacă sunt permise doar deplasări orizontale şi verticale, se poate defini distanţa d4 sau distanţa interbloc:

[ ] ljkilkjid −+−=),(),,(4 (2.22)

Această distanţă este similară distanţei dintre două locaţii dintr-un oraş

cu o reţea rectangulară de străzi şi blocuri închise de clădiri. • Dacă sunt permise şi deplasări diagonale, se poate defini distanţa d8

sau distanţa de tip şah: [ ] { }ljkilkjid −−= ,max),(),,(8 (2.23)

27

2.4.2. Proprietăţi topologice ale imaginilor digitale Adiacenţa pixelilor este un concept important în prelucrarea imaginilor digitale. Oricare doi pixeli sunt vecini în sensul distanţei d4 dacă există o distanţă d4 =1 între cei doi pixeli. În mod analog, doi pixeli sunt vecini în sensul distanţei d8 dacă există o distanţă d8=1 între cei doi pixeli. Cele două tipuri de vecinătăţi sunt ilustrate în figura de mai jos:

V4 V8

Figura 2.11. Vecinătatea V4 şi V8. Pe baza adiacenţei pixelilor se pot defini regiunile, ca mulţimi conexe de pixeli adiacenţi. O cale dintre un pixel P şi Q este o secvenţă de puncte A1, A2, …, An, unde A1=P şi An=Q, iar Ai+1 este vecin cu Ai, i=1, …,n. O regiune reprezintă o mulţime de pixeli în care există o cale între oricare pereche de pixeli ai săi, iar pixelii acelei căi sunt incluşi şi ei în mulţimea respectivă. Dacă există o cale între doi pixeli ai unei imagini, aceşti pixeli sunt conecşi. Relaţia de conexitate este reflexivă, simetrică şi tranzitivă şi defineşte o descompunere a mulţimii (în cazul de faţă imaginea) în clase echivalente (regiuni). Să presupunem că Ri sunt regiuni disjuncte din imagine şi că aceste regiuni nu ating marginile imaginii (pentru a evita cazurile speciale). Fie R reuniunea tuturor regiunilor Ri. Fie RC complementara mulţimii R în raport cu imaginea.

28

Submulţimea lui RC care este conexă în raport cu marginile imaginii se numeşte fundal, iar restul mulţimii RC se numesc găuri. Dacă nu avem găuri într-o regiune, aceasta se numeşte regiune simplu conexă. O regiune cu găuri se numeşte regiune multi-conexă.

Trebuie observat faptul că noţiunea de regiune implică doar proprietatea de conexitate. Regiunilor li se pot atribui proprietăţi secundare care îşi au originea în interpretarea imaginilor. Astfel, unele regiuni din imagine se numesc obiecte. Procesul prin care se determină care regiuni dintr-o imagine corespund fiecărui obiect se numeşte segmentarea imaginilor. De exemplu, nivelul de gri al unui pixel reprezintă o proprietate simplă care poate fi utilizată pentru a defini obiectele dintr-o imagine. Dacă un pixel are un nivel de gri mai mare decât anumite praguri predefinite, el aparţine unui anumit obiect. Toate punctele care satisfac această proprietate şi care sunt conexe, constituie un obiect. O gaură constă din punctele care nu aparţin unui obiect şi sunt înconjurate de obiecte. Toate celelalte obiecte constituie fundalul. Un exemplu îl constituie un text negru pe o pagină albă, în care literele reprezintă obiectele. Regiunile albe înconjurate de litere reprezintă găuri (de exemplu în interiorul literei O). Toate celelalte regiuni ale hârtiei reprezintă fundal.

2.4.3. Relaţii de vecinătate între pixeli Una din proprietăţile importante ale imaginilor discrete este reprezentată de relaţiile de vecinătate dintre pixeli, deoarece pe baza acestora se pot defini regiunile conexe şi obiectele. Într-o reţea rectangulară bidimensională se pot defini două tipuri de vecinătăţi ale pixelilor (figura 2.12.a şi 2.12.b ).

29

l-1, k

l, k l, k+1

l+1, k

l, k-1

l-1, k

l, k l, k+1

l+1, k

l, k-1

l-1, k+1l-1, k-1

l+1, k+1l+1, k-1

Figura 2.12. Vecinătăţi definite pe o reţea rectangulară:

(a) - vecinătatea V4; (b) - vecinătatea V8.

Definirea acestor vecinătăţi se poate face şi pe baza unor relaţii matematice, dar pentru moment vor fi definite într-un mod simplu, pentru o mai bună înţelegere. Astfel, se poate spune despre doi pixeli că sunt vecini dacă au cel puţin o latură comună. În acest caz un pixel va avea 4 vecini, obţinându-se vecinătatea V4 (figura 2.12.a). Se poate defini şi o altă vecinătate, în cadrul căreia doi pixeli sunt vecini dacă au cel puţin un colţ comun. În acest caz, un pixel va avea 8 vecini, obţinându-se vecinătatea V8 (figura 2.12.b). Ambele tipuri de vecinătate sunt necesare pentru a defini obiectele şi regiunile conexe. Se spune despre o regiune (sau un obiect) că este conexă atunci când se poate ajunge de la un pixel la oricare alt pixel al regiunii, trecând doar de la un pixel vecin la altul. De exemplu, obiectul gri din figura 2.13 reprezintă un obiect în sensul unei vecinătăţi V8, dar este constituit din două obiecte în sensul unei vecinătăţi V4.

Figura 2.13. Regiunea gri reprezintă un obiect (sau regiune conexă) dacă

se utilizează o vecinătate V8 şi două obiecte dacă se utilizează o vecinătate V4.

30

Acelaşi lucru se poate afirma şi despre fundalul alb din figura 2.13. Pentru a se putea face o distincţie clară între fundal şi obiectele din figură se poate defini o vecinătate V4 în cazul obiectelor şi o vecinătate V8 în cazul fundalului sau invers. Aceste complicaţii nu apar numai în cazul reţelelor rectangulare. În cazul unei reţele triunghiulare se poate defini o vecinătate V3 pentru pixelii care au în comun câte o latură şi o vecinătate V12 pentru pixelii care au în comun câte un colţ (figura 2.9). În cazul unei reţele hexagonale se poate defini numai o vecinătate V6 deoarece toţi pixelii care au în comun un colţ, au în comun şi o latură, iar pixelii care au în comun o latură, au în comun şi două colţuri. În ciuda acestor dezavantaje, reţelele hexagonale sunt utilizate în mod curent în prelucrarea imaginilor deşi sistemele de achiziţie a imaginilor generează, de regulă, imagini ai căror pixeli sunt dispuşi într-o reţea rectangulară. Motivul îl reprezintă dispunerea sub formă hexagonală a senzorilor din retina ochiului uman. În cazul tri-dimensional, relaţiile de vecinătate sunt mai complexe. În acest caz există trei moduri de definire a vecinătăţilor: voxeli cu feţe comune, cu laturi comune sau cu colţuri comune. În cazul unei reţele rectangulare, aceste enunţuri permit definirea unei vecinătăţi V6, V18, respectiv V26 (figura 2.14).

l l l

k

l+1

l-1 k

m-1 k+1 k-1

m

Figura 2.14. Cele trei tipuri de vecinătăţi posibile într-o reţea cubică 3D:

(a) - V6: voxeli cu feţe comune; (b) - V18: voxeli cu laturi comune; (c) - V26: voxeli cu colţuri comune.

31

Şi în acest caz trebuie definite două tipuri de vecinătăţi pentru obiecte şi pentru fundal, pentru a putea defini în mod corect regiunile conexe. Astfel, în cazul obiectelor se poate utiliza o vecinătate V6, iar în cazul fundalului se poate utiliza o vecinătate V26 sau invers.

2.4.4. Paradoxuri de conexitate Definiţia vecinătăţii şi conexităţii pe o reţea rectangulară creează unele paradoxuri. Exemplul 1. În figura următoare sunt reprezentate trei linii digitale cu pante de 45o, respectiv -45o.

Figura 2.15. Exemplu de paradox de conexitate a liniilor.

Dacă se utilizează vecinătatea V4, liniile nu sunt conexe în fiecare punct al lor. Mai mult, apar şi conflicte în raport cu înţelegerea intuitivă a proprietăţilor liniilor. Astfel, două linii perpendiculare se intersectează într-un caz (stânga-jos), dar nu se intersectează în alt caz (dreapta-sus), deoarece nu au un punct comun.

32

Exemplul 2. În figura următoare este prezentat un alt paradox. A

BC

D

Figura 2.15. Exemplu de paradox de conexitate a curbelor sau regiunilor.

Acest paradox este cunoscut în geometria euclidiană, unde fiecare curbă (sau regiune) închisă divide planul în două regiuni neconexe. Dacă imaginea este digitizată într-o reţea pătrată, utilizând vecinătatea V8, se poate trasa o linie din partea internă a unei curbe închise până în partea externă, care nu intersectează curba. Aceasta implică faptul că părţile interne şi externe ale curbei constituie o singură regiune conexă.

Exemplul 3 (paradoxul conectivităţii). Dacă se presupune vecinătatea (conexitatea) V4, figura de mai sus conţine patru regiuni separate conexe A, B, C şi D. A ∪ B sunt neconexe, la fel ca şi C ∪ D, ceea ce reprezintă o contradicţie topologică deoarece, în mod intuitiv, dacă A ∪ B sunt neconexe, ar trebui ca C ∪ D să fie conexe. Dacă se presupune vecinătatea V8, există două regiuni A ∪ B şi C ∪ D. Cele două mulţimi conţin în întregime căile AB şi CD, dar acestea se intersectează! O soluţie de eliminare a paradoxului conexităţii este de a trata obiectele utilizând vecinătatea V4 iar fundalul utilizând vecinătatea V8 sau invers.

Problemele prezentate sunt tipice reţelelor rectangulare. Reţelele hexagonale rezolvă o mare parte a acestor probleme dar au, la rândul lor, numeroase dezavantaje. Astfel, din motive de simplitate, majoritatea

33

dispozitivelor de digitizare utilizează o reţea rectangulară, în ciuda dezavantajelor şi paradoxurilor prezentate. O alternativă pentru eliminarea problemelor de vecinătate sau conexitate este de a utiliza topologia discretă, considerând familii de mulţimi de diferite dimensiuni. De exemplu, punctele (0-dimensionale) pot fi atribuite unor mulţimi care să conţină structuri de dimensiuni mai mari (ca de exemplu, mulţimi de pixeli), care permit eliminarea paradoxurilor expuse. Liniile (1-dimensionale) permit o definiţie precisă a muchiilor şi contururilor etc.

2.4.5. Alte proprietăţi topologice şi geometrice Frontiera unei regiuni R este o mulţime de pixeli din regiune, care au unul sau mai mulţi vecini în exteriorul regiunii. Această definiţie se referă la frontiera internă, pentru a o distinge de frontiera externă, care reprezintă frontiera fundalului (complementarei) regiunii. Muchia este o proprietate a unui pixel şi a vecinătăţii sale imediate, caracterizată de o amplitudine şi o direcţie. Direcţia unei muchii este perpendiculară pe direcţia gradientului care indică direcţia de variaţie a nivelului de gri din imagine. Frontiera este un concept global relativ la o regiune, în timp ce muchia exprimă o proprietate locală a funcţiei de variaţie a nivelului de gri dintr-o imagine. Cu toate acestea, între muchii şi frontiere există o legătură. Astfel, o posibilitate de a determina frontierele este de a concatena muchiile semnificative (punctele caracterizate de un gradient mare al funcţiei de variaţie a nivelului de gri). Proprietatea de a aparţine unei muchii este caracteristică unui pixel şi vecinilor săi. Uneori este avantajos să se utilizeze proprietăţi ale unor perechi de pixeli vecini. Astfel se poate introduce noţiunea de muchie compusă, ataşată fiecărui pixel, care exprimă relaţia sa cu cei 4 vecini. Direcţia muchiilor compuse este cea de creştere a nivelului de gri şi este

34

un multiplu de 90o, în timp ce amplitudinea sa reprezintă diferenţa absolută dintre nivelurile de gri ale perechilor relevante de pixeli. Pentru descrierea proprietăţilor geometrice ale obiectelor se utilizează contururi convexe. Un contur convex este cea mai mică regiune care conţine un obiect, astfel încât oricare două puncte ale regiunii pot fi unite printr-o linie dreaptă, toate punctele liniei aparţinând regiunii.

Un obiect poate fi reprezentat printr-o colecţie a componentelor sale topologice. Mulţimile de puncte din interiorul contururilor convexe, care nu aparţin unui obiect, sunt numite deficit de convexitate.

2.5. Reprezentarea spectrală a imaginilor Reprezentarea spectrală a imaginilor este utilă în analiza spectrală a acestora. Analiza spectrală oferă informaţii despre modul de variaţie a unui semnal. De exemplu, un semnal unidimensional (1D) lent variabil are un spectru concentrat în jurul originii, în timp ce un semnal rapid variabil, are un spectru mai larg.

t

f(t) |F(ω)|

ω

ω t

f(t) |F(ω)|

Figura 2.16. Ilustrarea spectrului unui semnal lent şi a unuia rapid variabil.

35

În cazul imaginilor (2D) se poate determina dacă are sau nu contururi multe, prin inspecţia spectrului său, pornind de la constatarea că variaţiile rapide (frecvenţele mari) corespund contururilor. Spectrul unui semnal (sau al unei imagini) se obţine prin transformata Fourier a acestuia.

Transformata Fourier unidimensională se defineşte astfel:

{ } ∫∞

∞−

⋅⋅− =⋅=ℑ )()()(.

ωω Fdtetftf tjdef

, CR →:f (2.24)

Transformata Fourier { } )()(.

ωFtfnot=ℑ se defineşte pentru funcţiile

f(t)∈L2, unde L2 este clasa semnalelor (funcţiilor) de energie finită, pentru care există transformată Fourier directă şi inversă, adică:

∞<==∈ ∫∞

∞−dttfEtfLtf f

22 )(|)()( , (2.25)

unde Ef este energia funcţiei f. Dacă: f∈L2, 22:)( LLF →ℑ⇒∃⇒ ω este inversabilă.

Transformata Fourier inversă se defineşte ca fiind:

{ } ∫∞

∞−

⋅⋅− =⋅=ℑ )()(21)(

.1 tfdeFF tj

defωω

πω ω (2.26)

În aceste relaţii: ω este pulsaţia, iar π

ω2

este frecvenţa.

36

2.5.1. Transformata Fourier bidimensională

Definiţie: Se consideră funcţia bidimensională f(x,y), f: R→C, unde:

∞<=→=∈ ∫∫2

2.2

2 ),(|:R

CR dxdyyxfEfLfdef

f (2.27)

Transformata Fourier bidimensională a funcţiei f se defineşte ca fiind:

{ } ( )[ ] ),(exp),(),(.

vuFdxdyyvxujyxfyxfdef

=⋅+⋅⋅−⋅=ℑ ∫ ∫∞

∞−

∞

∞− (2.28)

unde: x,y sunt coordonate spaţiale, iar u,v sunt frecvenţe spaţiale. Dacă: f∈L2, 22: )( LLF →ℑ⇒ω∃⇒ este inversabilă. Transformata Fourier bidimensională inversă se defineşte ca fiind:

{ } ( )[ ] ),(exp),(4

1),(22

.1 yxfdudvyvxujvuFvuF

def=⋅+⋅⋅⋅=ℑ ∫∫−

Rπ (2.29)

2.5.2. Proprietăţile transformatei Fourier bidimensionale 1. Deplasarea semnalului:

Dacă funcţiei unidimensionale 1D f(t) îi corespunde transformata Fourier F(ω) atunci funcţiei f(t-t0) îi corespunde:

011

)()()()( 0tj

FFeFttfFtf

DD ⋅⋅±⋅↔±⇒↔ ωωω (2.30)

În cazul bidimensional (2D):

37

)(00 00

22),(),(),(),( yvxuj

FFevuFyyxxfvuFyxf

DD ⋅+⋅⋅±⋅↔±±⇒↔ (2.31)

Demonstraţie:

{ } ( )∫∫ ⋅+⋅⋅−⋅−−=−−ℑ2

),(),( 0000R

dxdyeyyxxfyyxxf yvxuj (2.32)

Făcând schimbările de variabile: x-x0=x’, respectiv y-y0=y’, iacobianul corespunzător este:

1

''

''det =

∂∂

∂∂

∂∂

∂∂

=

yy

xy

yy

xx

I (2.33)

{ } ( )[ ] =⋅⋅+⋅++⋅⋅−⋅=−−ℑ ∫∫

2'')'()'(exp)','(),( 0000

RdydxIyyvxxujyxfyyxxf

( )[ ] ( )[ ] =⋅⋅+⋅⋅−⋅⋅+⋅−= ∫∫2

''''exp)','(exp 00R

dydxyvxujyxfyvxuj

( )[ ]00exp),( yvxujvuF ⋅+⋅−⋅= q.e.d.

2. Deplasarea spectrului:

Dacă funcţiei unidimensionale 1D f(t) îi corespunde spectrul

(transformata Fourier) F(ω), atunci funcţiei tjetf ⋅ω⋅±⋅ 0)( îi corespunde spectrul deplasat:

)()()()( 01

01

ωωω ω mFetfFtfDD F

tjF

↔⋅⇒↔ ⋅⋅± (2.34)

În cazul bidimensional:

),(),(),(),( 00)( 2

002

vvuuFeyxfvuFyxfDD F

yvxujF

mm↔⋅⇒↔ ⋅+⋅⋅± (2.35)

Demonstraţia este lăsată ca exerciţiu, aceasta fiind similară demonstraţiei proprietăţii 1, de deplasare a semnalului.

38

3. Scalarea semnalului:

Dacă funcţiei f(x,y) îi corespunde transformata Fourier F(u,v), atunci funcţiei scalate ),( byaxf îi corespunde transformata Fourier:

⋅

⋅↔⋅⋅⇒↔

bv

auF

baybxafvuFyxf

DD FF,1),(),(),(

22 (2.36)

În cazul unidimensional, acest lucru poate fi ilustrat grafic astfel:

f(t)

t

f(a·t)

t

Pt. a<1

|F(ω)|

ω

ω

⋅a

Fa1

ω

Figura 2.17. Ilustrarea grafică a scalării semnalului.

Demonstraţie:

{ } ( )∫∫ ⋅+⋅⋅−⋅⋅⋅=⋅⋅ℑ2

),(),(R

dxdyeybxafybxaf yvxuj (2.37)

Făcând schimbările de variabile: a·x=x’, respectiv b·y=y’, iacobianul corespunzător este:

ba

yy

xy

yy

xx

I⋅

=

∂∂

∂∂

∂∂

∂∂

=1

''

''det (2.38)

39

{ } ∫∫

⋅

⋅=⋅⋅

⋅+⋅⋅−⋅=⋅⋅ℑ

2,1''''exp)','(),(

R bv

auF

badydxI

byv

axujyxfybxaf q.e.d.

4. Liniaritatea:

Dacă funcţiilor f, respectiv g le corespunde transformatele Fourier F, respectiv G, atunci funcţiei compuse gf ⋅β+⋅α îi corespunde transformata Fourier compusă:

C∈∀⋅+⋅↔⋅+⋅⇒↔ βαβαβα ,,,,22

GFgfGFgfDD FF

(2.39) Demonstraţia este trivială şi se face similar proprietăţii de deplasare a semnalului.

5. Proprietatea de simetrie: Dacă funcţiei f(x,y) îi corespunde transformata Fourier F(u,v), atunci funcţiei simetrice faţă de origine ),( yxf −− , îi corespunde un spectru (transformata Fourier) simetric faţă de origine:

),(),(),(),(22

vuFyxfvuFyxfDD FF

−−↔−−⇒↔ (2.40) Similar, dacă funcţiei f(x,y) îi corespunde transformata Fourier F(u,v), atunci conjugatei funcţiei simetrice faţă de origine ),( yxf −− , îi corespunde un spectru (transformata Fourier) simetric faţă de origine, dar rotit cu 1800:

),(),(),(),( ** 22vuFyxfvuFyxf

DD FF↔−−⇒↔ (2.41)

Dacă funcţia f este reală (f∈R2):

),(),(),(),( ** vuFvuFyxfyxf =−−⇒−−= (2.42)

40

6. Teorema convoluţiei:

Fie funcţiile bidimensionale CR →2:, gf . Produsul de convoluţie al funcţiilor f şi g se defineşte astfel:

∫∫ −−⋅=∗2

),(),(),(),(.

Rηξηξηξ ddyxgfyxgyxf

def= (2.43)

∫∫ ∗=⋅−−=2

),(),(),(),(.

Ryxfyxgddgyxf

defηξηξηξ (2.44)

Enunţul teoremei convoluţiei: Dacă funcţiei f(x,y) îi corespunde transformata Fourier F(u,v), iar funcţiei g(x,y) îi corespunde transformata Fourier G(u,v), atunci produsului de convoluţie a celor două funcţii îi corespunde produsul transformatelor Fourier ale celor două funcţii, iar produsului simplu a celor două funcţii îi corespunde produsul de convoluţie a transformatelor Fourier ale celor două funcţii:

),(),(),(),(2

vuGvuFyxgyxfDF

⋅↔∗ (2.45)

),(),(4

1),(),( 2

2vuGvuFyxgyxf

DF∗↔⋅

π (2.46)

Demonstraţie:

{ } ∫∫ ⋅+⋅⋅−⋅∗=∗ℑ2

)(.

),(),(),(),(R

dxdyeyxgyxfyxgyxf yvxujdef

=

∫∫ ∫∫ ⋅+⋅⋅−⋅

−−⋅=

2 2

)(),(),(R R

dxdyeddyxgf yvxujηξηξηξ =

ηξηξηξ

ηξ

dddxdyeyxgf

vujevuG

yvxuj∫∫

⋅+⋅⋅−⋅

⋅+⋅⋅−

⋅∫∫ −−⋅=

2

)(

2

),(

)(),(),(R R 4444444 34444444 21

=

41

),(),(),(),(2

)( vuGvuFddefvuG vuj ⋅=⋅⋅= ∫∫ ⋅+⋅⋅− ηξηξ ηξ

R q.e.d.

7. Teorema lui Parceval:

Fie funcţiile bidimensionale CR →2:, gf . Dacă funcţiei f(x,y) îi corespunde transformata Fourier F(u,v), iar funcţiei g(x,y) îi corespunde transformata Fourier G(u,v), atunci produsului scalar a celor două funcţii îi corespunde produsul scalar al transformatelor

Fourier a celor două funcţii, multiplicat cu o constantă 241π

.

Deci, dacă:

),(),(2

vuFyxfDF

↔ şi ),(),(2

vuGyxgDF

↔ , (2.47) atunci:

GFgf ,4

1, 2π=⇒ (2.48)

adică:

GFdudvvuGvuFdxdyyxgyxfgfdef

,4

1),(),(4

1),(),(,2

*2

*

22 π=⋅

π=⋅=⇒ ∫∫∫∫

RR

Demonstraţie:

∫∫ ⋅+⋅⋅=2

)(2 ),(

41),(

RdudvevuGyxg yvxuj

π

∫∫ ⋅+⋅−⋅=2

)(*2

* ),(4

1),(R

dudvevuGyxg yvxuj

π

dxdydudvevuGyxfgf yvxujdef

∫∫ ∫∫

⋅⋅=⇒ ⋅+⋅−

2 2

)(*2 ),(

41),(,

R Rπ =

42

dudvdxdyeyxfvuG

vuF

yvxuj∫∫ ∫∫

⋅⋅= ⋅+⋅−

2 2

),(

)(2

* ),(4

1),(R R 44444 344444 21

π =

GFdudvvuGvuF ,4

1),(),(4

12

*2 2 ππ

=⋅= ∫∫R

q.e.d.

Dacă definim energia funcţiei f ca fiind:

∫∫=2

2.),(

RdxdyyxfE

deff (2.49)

Teorema energiei (consecinţă a teoremei lui Parceval): Energia calculată în spaţiul original (primar) este egală cu

energia calculată în domeniul spectral, multiplicată cu o constantă

241π

.

Această teoremă rezultă ca un caz particular din teorema lui Parceval, pentru g=f:

(2.50)

F

Ff

f EdudvvuFvuFdxdyyxfyxfE ⋅π

=⋅π

=⋅=⇒ ∫∫∫∫ 2*

2*

41),(),(

41),(),(

2 22 2 RR44 344 2144 344 21

8. Teorema simetriei:

Dacă funcţiei unidimensionale f(t) îi corespunde transformata Fourier F(ω), atunci transformatei Fourier privită ca funcţie de timp F(t) îi corespunde transformata Fourier simetrică multiplicată cu constanta 2π:

)(2)()()(11

ωπω −⋅↔⇒↔ ftFFtfDD FF

(2.51) Un exemplu este prezentat în figura următoare:

43

f(t)

t

f(ω)

ω

F1D F(ω)

ω

F(t)

t

F1D

Figura 2.18. Exemple ilustrative ale teoremei simetriei.

În cazul bidimensional, dacă funcţiei bidimensionale f(x,y) îi corespunde transformata Fourier F(u,v), atunci transformatei Fourier privită ca funcţie de spaţiu F(x,y) îi corespunde transformata Fourier simetrică multiplicată cu constanta 4π2:

),(4),(),(),( 222vufyxFvuFyxf

DD FF−−⋅↔⇒↔ π (2.52)

2.5.3. Proprietăţi specifice transformatei Fourier bidimensionale

9. Separabilitatea: Transformata Fourier bidimensională este separabilă:

( )[ ]∫ ∫∞

∞−

∞

∞−⋅+⋅⋅−⋅= dxdyyvxujyxfvuF exp),(),( =

( ) dyyvjdxxujyxf

yuFx

)exp(exp),(

),(

⋅⋅−⋅

⋅⋅−⋅= ∫ ∫∞

∞−

∞

∞− 4444 34444 21

=

44

),(),()exp(),( vuFvuFdyyvjyuF xyx ==⋅⋅−⋅= ∫∞

∞− (2.53)

Din această proprietate rezultă că se poate face calculul

transformatei Fourier bidimensionale aplicând pe rând (pe cele două direcţii x şi y) transformata Fourier unidimensională. Cu alte cuvinte, se aplică transformata Fourier unidimensională pe direcţia x, iar asupra rezultatului se aplică transformata Fourier unidimensională pe direcţia y:

),(),(),(),( pepe 11 vuFvuFyuFyxf xyyF

xxF DD = → → sau:

),(),(),(),( pepe 11 vuFvuFvxFyxf yxxF

yyF DD = → → (2.54)

Proprietatea de separabilitate are următoarele consecinţe:

- Dacă se dispune de un algoritm rapid de calcul pentru cazul unidimensional (iar pentru transformata Fourier există un astfel de algoritm), atunci şi pentru transformata Fourier bidimensională există un algoritm rapid de calcul.

- Dacă funcţia originală se poate scrie ca produsul a două funcţii, transformata sa Fourier este egală cu produsul transformatelor Fourier a celor două funcţii, adică:

Dacă: )()(),( 21 yfxfyxf ⋅=

{ }{ }

ℑ=ℑ=

⋅=⇒)(

)(:unde),()(),(

22

1121 yf(v)F

xf(u)FvFuFvuF (2.55)

10. Derivarea spaţială:

Dacă funcţiei bidimensionale f(x,y) îi corespunde transformata Fourier F(u,v), atunci derivatei funcţiei f în raport cu cele două variabile, îi corespunde următoarele transformate Fourier:

45

⋅⋅ →←∂∂

⋅⋅ →←∂∂

⇒ →←),(

),(),(),(

2

2

2

vuFvjyf

vuFujxf

vuFyxfD

D

D

F

F

F (2.56)

Demonstraţie:

( )[ ]∫∫ ⋅+⋅⋅⋅=2

exp),(4

1),( 2

.

RdudvyvxujvuFyxf

def

π (2.57)

( )[ ] ),(exp),(4

122 vuFujdudvyvxujujvuF

xf

⋅⋅=⋅+⋅⋅⋅⋅⋅=∂∂

⇒ ∫∫Rπ

q.e.d.

Această proprietate are aplicaţii în calculul diferenţial, de exemplu la calculul laplaceanului:

2

2

2

2.),(

yf

xfyxf

def

∂

∂+

∂

∂=∆ (2.58)

Deoarece:

FuvuFujx

fvuFujxf DD FF ⋅−=⋅⋅ →←

∂

∂⇒⋅⋅ →←

∂∂ 22

2

2),()(),( 22

În mod similar: Fvy

f DF ⋅−= →←∂

∂⇒ 2

2

22

),()(),( 222 vuFvuyxf DF ⋅+−= →←∆⇒ (2.59)

11. Integrarea spaţială: Dacă funcţiei bidimensionale f(x,y) îi corespunde transformata Fourier F(u,v), atunci integralei funcţiei f în raport cu cele două variabile, îi corespunde următoarele transformate Fourier:

46

→←

→←

⇒ →←ℑ∞

∞−

ℑ∞

∞−

∫

∫

)0,(),(

),0(),(),(),( 2

uFdyyxf

vFdxyxfvuFyxf DF (2.60)

Demonstraţie:

( )[ ]∫ ∫∞

∞−

∞

∞−⋅+⋅⋅−⋅= dxdyyvxujyxfvuF

defexp),(),(

.

( ) ( )

444444 3444444 21

4434421

y

y

dyyvjdxyxfdxdyyvjyxfvF

de functiei aFourier tatransforma

de functie o

exp),(exp),(),0( ∫ ∫∫ ∫∞

∞−

∞

∞−

∞

∞−

∞

∞−⋅⋅−⋅

=⋅⋅−⋅=⇒

ℑ=⇒ ∫∞

∞−dxyxfvF ),(),0( (2.61)

12. Teorema rotaţiei: Dacă funcţiei unidimensionale f îi corespunde transformata Fourier F, atunci funcţiei rotite cu un unghi α, fα, îi corespunde o transformată Fourier rotită în acelaşi sens şi cu acelaşi unghi α.

În cazul bidimensional (deci în cazul unei imagini 2D), dacă funcţiei bidimensionale f(x,y) îi corespunde transformata Fourier F(u,v), atunci funcţiei rotite cu un unghi α, fα(x,y), îi corespunde un spectru rotit în acelaşi sens şi cu acelaşi unghi α.

Rotaţia (Rotα) conservă liniaritatea şi simetriile.

47

x

αy

x'

y'

y

x Figura 2.19. Rotaţia unui segment de dreaptă.

Rotaţia 22: RR →αRot se poate scrie:

⋅

−

=

yx

yx

αααα

cossinsincos

''

(2.62)

Prin urmare, rotaţia se mai poate scrie:

⋅+⋅−=⋅+⋅=

αααα

cossin'sincos'

yxyyxx

(2.63)

)cossin,sincos()','(),( ααααα ⋅+⋅−⋅+⋅==⇒ yxyxfyxfyxf

Demonstraţie:

{ } ∫∫ ⋅+⋅⋅−α ⋅α⋅+α⋅−α⋅+α⋅=ℑ

2

)()cossin,sincos(),(R

dxdyeyxyxfyxf yvxuj

Se face schimbarea de variabile:

⋅+⋅−=⋅+⋅=

αααα

cossin'sincos'

yxyyxx

48

⋅

−=

⋅

−−−−−

=

⇒

''

cossinsincos

''

)cos()sin()sin()cos(

yx

yx

yx

αααα

αααα

⋅+⋅=⋅−⋅=

⇒αααα

cos'sin''sin'cos'

yxyyxx

(2.64)

Înlocuind:

{ } ( )[ ]∫∫ α⋅⋅+α⋅⋅+α⋅⋅−α⋅⋅−⋅=ℑ α2

''cos'sin'sin'cos'exp)','(),(R

dydxyvxvyuxujyxfyxf

Iacobianul este:

1cossinsincos

det

''

''det =

−=

∂∂

∂∂

∂∂

∂∂

αααα

yy

xy

yx

xx

{ } ∫∫

⋅α⋅+α⋅−+⋅α⋅+α⋅−⋅=ℑ⇒ α

2''')cossin(')sincos(exp)','(),(

''Rdydxyvuxvujyxfyxf

vu444 3444 21444 3444 21

{ } ),()','(),( vuFvuFyxf αα ==ℑ⇒ , unde:

⋅

−

=

vu

vu

αααα

cossinsincos

''

(2.65)

Prin urmare, dacă funcţia f(x,y) este cu simetrie circulară, atunci şi

transformata sa Fourier F(u,v) este cu simetrie circulară. Demonstraţie: Presupunem că f(x,y) este o funcţie cu simetrie circulară. În

coordonate polare (fp), această proprietate se scrie: ),()sin,cos(),( ϕρϕρϕρ pffyxf =⋅⋅= , (2.66)

49

unde:

⋅=⋅=

ϕρϕρ

sincos

yx

Deoarece funcţia f este cu simetrie circulară:

)(),(),(simetrie

circularã

coordonateîn

polareρ=ϕρ=⇒ pp ffyxf (2.67)

Pornim de la relaţia de definiţie:

( )[ ]∫ ∫∞

∞−

∞

∞−⋅+⋅⋅−⋅= dxdyyvxujyxfvuF

defexp),(),(

. (2.68)

Se face schimbarea de variabile carteziene în coordonate polare:

⋅=⋅=

ϕρϕρ

sincos

yx

=

+=⇒

xyarctg

yx

ϕ

ρ 22

(2.69)

Prin această schimbare de variabile, planul real se transformă în coordonate polare într-o semibandă de înălţime 2π (pentru a se acoperi tot planul φ trebuie să ia valori între 0…2π, iar ρ trebuie să ia valori între 0…∞):

în coordonate polare

y

x

R2 φ

ρ

ρ=0…∞

φ=0…2π

2π…

Figura 2.20. Domeniile de valori în diferite sisteme de coordonate.

50

Iacobianul este:

ρϕρϕϕρϕ

ϕρ

ϕρ =

⋅⋅−

=

∂∂

∂∂

∂∂

∂∂

cossinsincos

detdet yy

xx

(2.70)

( )[ ]∫ ∫∞

∞−

∞

∞−⋅⋅⋅⋅+⋅⋅⋅−⋅⋅=⇒ ϕρϕρϕρϕρρ ddvujfvuF p sincosexp),(),(

Se fac notaţiile:

⋅=⋅=

θθ

sincos

rvru

)sin,cos(),(.

θθθ ⋅⋅=⇒ rrFrFnot

p (2.71)

( )[ ]∫ ∫∞ π

ϕ⋅ρ⋅ϕ⋅θ+ϕ⋅θρ⋅⋅−⋅ϕρ⋅ρ=θ⇒0

2

0

.sinsincoscosexp),(),( ddrjfrF p

notp

Dacă funcţia f este cu simetrie circulară: )(),( ρϕρ pp ff =⇒ (2.72)

[ ]∫ ∫∞

⋅==

⋅

−⋅⋅⋅−⋅⋅⋅=⇒

∫ ⋅⋅⋅−

0

2

)(

2

0

02

0

cos

)cos(exp)(),( ρϕθϕρρρθ

ϕ

ρϕ

π

πϕρ

ddrjfrF

πda cu perioa , dic dupã este perioegrandul deoarece

rJde

pp

rj

444444 3444444 21

int

)()(),(0

2

0

cos rFddefrF prj

pp =

∫⋅⋅=⇒ ∫

∞⋅⋅⋅− ρϕρρθ

π ϕρ (2.73)

Prin urmare, dacă funcţia f este cu simetrie circulară, atunci şi transformata sa Fourier F este cu simetrie circulară (q.e.d).

51

În plus, se ştie că:

∫ ⋅⋅−=π

ϕϕ2

00 )cosexp()( dxjxJ = funcţia Bessel de ordinul 0

∫∞

⋅⋅⋅=⇒0

0 )()()( ρρρρ drJfrF pp = transformata Henkel

{ } )()()()(0

0.

rFdrJffH pdef

=⋅⋅⋅= ∫∞

ρρρρρ = transformata

Henkel a unei funcţii de o singură variabilă f(ρ).

52

3. Îmbunătăţirea imaginilor

La concepţia algoritmilor sau a dispozitivelor de prelucrare şi îmbunătăţire a imaginilor trebuie luat în considerare principiul percepţiei vizuale umane. Printre parametrii psiho-fizici ai percepţiei vizuale umane pot fi amintiţi: contrastul, contururile, forma, textura, culoarea etc. Percepţia umană a unei imagini poate provoca multe iluzii, înţelegerea lor furnizând explicaţii referitoare la mecanismele vederii umane şi artificiale.

3.1. Calitatea unei imagini

O imagine poate fi degradată pe parcursul achiziţiei, transmisiei sau prelucrării sale. Pentru a estima această degradare se pot utiliza măsuri de calitate a imaginii. Calitatea necesară pentru o imagine depinde de scopul în care este utilizată imaginea. Metodele de apreciere a calităţii imaginii pot fi împărţite în două categorii: subiective şi obiective.

Calitatea imaginii f(x,y) este estimată prin compararea cu o imagine de referinţă g(x,y). Imaginea de referinţă utilizată în acest scop este, de regulă, o imagine de sinteză. Una din clasele de metode cele mai utilizate se bazează pe diferenţa medie pătratică MSE:

( )∑ −yx

yxfyxg,

2),(),( (3.1)

Problema acestei măsuri este că nu este posibilă distincţia între câteva diferenţe mari şi multe diferenţe mici. În locul diferenţei medii pătratice se poate utiliza eroarea medie absolută. O altă alternativă este corelaţia dintre imaginile f şi g.

O măsură a degradării imaginii este reprezentată de raportul semnal-zgomot SNR. Fie f(x,y) imaginea originală şi f'(x,y)= f(x,y)+z(x,y)

53

imaginea degradată. Măsura degradării este estimată prin raportul dintre energia semnalului şi energia zgomotului, care este estimat prin relaţia:

( )∑

∑

−⋅=

yx

yx

yxfyxf

yxfffSNR

,222

,2

10),('),(

),(log10),'( (dB) (3.2)

Se poate defini şi valoarea de vârf a raportului semnal-zgomot PSNR:

( )∑ −

⋅⋅=

yx

yx

yxfyxf

yxfNffPSNR

,222

2,

10),('),(

),(maxlog10)',( (dB) (3.3)

unde N este numărul de pixeli. Un raport PSNR mai mare de 32 dB corespunde unei degradări invizibile.

Zgomotul care poate să apară la achiziţia, transmiterea sau prelucrarea imaginilor, poate fi dependent sau independent de conţinutul imaginii. Zgomotul este descris, în general, de caracteristicile sale probabilistice.

Zgomotul alb are un spectru de putere constant, iar intensitatea sa nu se modifică odată cu frecvenţa. Acest tip de zgomot se utilizează în majoritatea cazurilor ca aproximare brută a zgomotului dintr-o imagine. Funcţia sa de auto-corelaţie este funcţia delta. Prin urmare, valorile zgomotului în doi pixeli diferiţi sunt necorelate. Avantajul acestui model de zgomot este că permite simplificarea calculelor.

Un caz special de zgomot îl reprezintă zgomotul Gaussian. Zgomotul Gaussian reprezintă o aproximare foarte bună a zgomotului care intervine în majoritatea cazurilor. Probabilitatea de densitate a variabilei aleatoare ce descrie zgomotul Gaussian este dată de funcţia lui Gauss. Zgomotul Gaussian unidimensional 1D este caracterizat de media sa µ şi de deviaţia standard σ a variabilei aleatoare:

2

2

2)(

22

1)( σµ

πσ

−−

⋅=

x

exp (3.4)

54

Zgomotul poate fi: • zgomot aditiv, în cazul în care zgomotul η şi semnalul de imagine f

sunt independente: f’(x,y) = f(x,y) + η(x,y) (3.5)

În timpul transmisiei zgomotul este, în general, independent de semnalul de imagine. Prin urmare, degradarea sa poate fi modelată ca un zgomot aditiv.

• zgomotul multiplicativ este o funcţie descrisă de relaţia: f'(x,y) ≈ f(x,y) · η(x,y) (3.6)

• zgomotul impulsiv (de tip impuls) corespunde unei degradări a imaginii cu pixeli „zgomotoşi” a căror valoare diferă semnificativ de cea a pixelilor din vecinătatea lor.

• zgomotul de tip „sare şi piper” este utilizat pentru a descrie zgomotul impulsiv saturat, care corespunde unei imagini degradate cu pixeli albi şi/sau negri, de exemplu.

Un parametru important în aprecierea calităţii unei imagini îl constituie contrastul. Contrastul reprezintă variaţia locală a nivelului de gri şi se defineşte ca raport între nivelul mediu de gri al unui obiect şi cel al fundalului. Ochiul uman este logaritmic sensibil la iluminare şi la variaţii ale nivelurilor de gri. Acesta este motivul pentru care majoritatea monitoarelor au implementată o corecţie de tip gamma. Nivelul de gri aparent depinde foarte mult de nivelul local de gri al fundalului. Acest efect este numit contrast condiţional. Datorită acestui efect, percepţia vizuală a unor obiecte cu acelaşi nivel de gri poate fi diferită dacă acestea sunt plasate pe un fundal de culoare închisă sau deschisă.

55

3.2. Tehnici de îmbunătăţire a imaginilor Îmbunătăţirea imaginilor constă dintr-un ansamblu de tehnici de

prelucrare care au ca scop scoaterea în evidenţă a anumitor caracteristici a imaginilor (de exemplu muchii sau contururi) sau eliminarea zgomotului, scopul final fiind obţinerea unei vizibilităţi superioare a componentelor imaginii. În general, termenul de îmbunătăţire este strâns legat de percepţia vizuală subiectivă a unui expert uman, considerat utilizatorul final al imaginii. Întrucât nu se pot defini standarde de calitate a imaginilor, calitatea imaginii este un criteriu subiectiv. Cei care pot face afirmaţii cu privire la calitatea unor imagini sunt experţii din domeniile din care provin imaginile. În plus, se poate afirma că îmbunătăţirea imaginilor este bine să fie interactivă şi iterativă deoarece utilizatorul poate interveni în permanenţă asupra calităţii imaginii şi fiecare utilizator o va face într-un mod caracteristic. Tehnicile de îmbunătăţire a imaginilor nu generează informaţie suplimentară despre imaginea originală, ci doar o pune pe cea existentă sub o altă formă, mai uşor de interpretat de către utilizator. Chiar şi o imagine originală, nedegradată, poate fi îmbunătăţită, obţinând o imagine modificată, dar subiectiv preferabilă. De exemplu, într-o imagine subexpusă sau supraexpusă, utilizatorul (uman sau dispozitivul tehnic) poate să nu distingă între două niveluri de luminanţă care diferă cu o cuantă; acestea sunt valori diferite în semnalul din calculator şi prin tehnici de îmbunătăţire a imaginii pot fi făcute să difere mult mai mult, astfel încât să fie depăşit pragul de sesizare a diferenţei.

56

Operatorii de îmbunătăţire a imaginilor pot fi împărţiţi în trei mari

categorii: • operatori punctuali, prin care se realizează o relaţie de corespondenţă

punctuală între valoarea originală a fiecărui pixel şi valoarea sa după transformare;

• operatori spaţiali (locali sau de vecinătate), la care noua valoare a nivelului de gri a unui pixel se obţine din valoarea originală a pixelului respectiv şi din valorile originale ale unor pixeli din vecinătatea acestuia;

• operatori integrali, în cazul cărora valoarea nouă a unui pixel depinde de valorile tuturor pixelilor din imaginea originală, obţinându-se printr-o transformare integrală a acestora.

Pentru a exemplifica operaţiile de îmbunătăţire a imaginilor, se vor considera imagini de dimensiuni L×K (cu L linii şi K coloane) şi se va nota cu U imaginea iniţială şi cu V imaginea îmbunătăţită, rezultată în urma aplicării unei operaţii sau transformări de îmbunătăţire (T) asupra imaginii iniţiale:

{ }KkLlklUU ≤≤≤≤= 1,1|),( , (3.7)

{ }KkLlklVV ≤≤≤≤= 1,1|),( (3.8) În figura 3.1 se observă că imaginea îmbunătăţită are aceleaşi dimensiuni ca şi imaginea originală.

57

U V

V=T(U)

L

K

L

K

Figura 3.1. Operaţia de îmbunătăţire a unei imagini.

3.3. Operatori punctuali de îmbunătăţire a imaginilor

Operatorii punctuali de îmbunătăţire a imaginilor sunt transformări aplicate asupra nivelurilor de gri, a căror rezultat depinde doar de valoarea din pixelul considerat. Operatorii punctuali sunt definiţi prin relaţii prin care se realizează asocieri între valoarea originală a fiecărui pixel şi valoarea sa după transformare.

u(l,k)

v (l,k)=T(u(l,k))

L

K

V L

v(l,k)

U

K

Figura 3.2. Operaţia de îmbunătăţire a unei imagini, cu operatori punctuali. Operatorii punctuali de îmbunătăţire a imaginilor pot fi împărţiţi în: 1) operatori de modificare a contrastului (engl. contrast streching); 2) transformări de decupare (engl. clipping, slicing, thresholding); 3) operatori de modificare a histogramei.

58

3.3.1. Operatori punctuali de modificare a contrastului Operaţiile de modificare a contrastului urmăresc mărirea sau

micşorarea intervalului de niveluri de gri ocupat de anumite componente ale imaginii, păstrând acelaşi număr total de niveluri de gri (N).

Negativarea imaginii Cea mai simplă operaţie de modificare a contrastului este

negativarea imaginii, definită de ecuaţia:

),(),(.

kluNklvdef

−= , (3.9)

unde N este numărul de niveluri de cuantizare (de gri).

Contrastul relativ perceput de un observator uman este modificat, ca urmare a diferenţei de sensibilitate între percepţia nuanţelor întunecate şi luminoase. Exemplul cel mai simplu de aplicare este percepţia unei radiografii de către un observator nespecialist: contrastul va fi apreciat ca mult mai bun pentru imaginea negativată, în care avem obiecte de interes negre pe fond alb.

Diferenţa între imagini Această operaţie poate fi definită prin relaţia:

),(),(),( 12.

klukluklvdef

−= (3.10)

59

Pentru obţinerea unui rezultat cât mai util, ar trebui ca imaginile U1 şi U2 să reprezinte aproximativ acelaşi lucru, dar în alte ipostaze (de exemplu un obiect în mişcare).

Printre domeniile de aplicaţii se poate menţiona angiografia (grafia vaselor de sânge). În acest scop se achiziţionează o radiografie a pacientului în stare normală, după care se injectează în vasele sanguine o substanţă contrastantă în raze X şi se achiziţionează o nouă radiografie. Prin compararea şi diferenţa celor două radiografii se scot în evidenţă zonele de interes, potenţial afectate de anumite boli.

Această operaţie poate fi utilizată şi pentru detecţia mişcării în secvenţe de imagini. Modificarea liniară a contrastului Cea mai răspândită tehnică de modificare a contrastului (engl. contrast streching) este transformarea liniară pe porţiuni. Expresia analitică a acesteia este:

( )

( )

−≤≤−⋅−−−−

+

≤≤−⋅−−

+

≤≤

==

1,11

,

0,

)(

222

22

21112

121

11

1

NuuuuuNvN

v

uuuuuuuvv

v

uuuuv

ufv

(3.11)

unde pantele 1

1uv

=α , 12

12uuvv

−−

=β şi 2

211

uNvN

−−−−

=γ , vor determina

variaţiile relative de contrast (figura 3.3).

60

α O

β

γ

uu1 u2 N-1

v

N-1

v1

v2

Figura 3.3. Modificarea contrastului.

Astfel se vor obţine niveluri de gri cuprinse între v1 şi v2 pentru

valori iniţiale cuprinse între u1 şi u2. Dacă u2-u1 < v2-v1, se va obţine o imagine cu un contrast mai mare, iar dacă u2-u1 > v2-v1 se va obţine o imagine cu un contrast mai slab pentru intervalul central al gamei de niveluri de gri.

Trebuie avut în vedere faptul că prin modificarea contrastului dintr-o regiune se modifică contrastul şi în celelalte regiuni. De exemplu, prin mărirea contrastului în regiunea centrală (u1, u2), contrastul scade în celelalte regiuni (0÷u1, u2÷(N-1)). Se poate realiza şi operaţia inversă, adică dintr-o imagine cu contrast puternic să se obţină o imagine cu contrast mai slab.

Din cazul general al modificării de contrast se pot obţine câteva cazuri particulare de interes. Unul dintre acestea este determinat de particularizarea v1=0 şi v2=N-1, şi constă în eliminarea extremelor şi extinderea maximă a intervalului de niveluri de gri de interes (figura 3.4).

61

u1 O u2 N-1 u

N-1

v

Figura 3.4. Extinderea nivelurilor de gri.

Expresia analitică corespunzătoare este:

( )

−≤≤−

≤≤−−−

≤≤

==

1,1

,10,0

)(

2

21112

1

NuuN

uuuuuuu

Nuu

ufv

(3.12)

Tot din cazul general al modificării de contrast se mai pot obţine şi alte cazuri particulare, cum ar fi transformările de decupare. De exemplu, dacă intervalul central de niveluri de gri este eliminat (u1 =u2), din cazul prezentat anterior se obţine transformarea de binarizare a imaginilor sau segmentarea cu prag ("tresholding", figura 3.5) .

uO

u

N-1

N-1u1= u2=T

Figura 3.5. Binarizarea imaginilor.

62

Variantele neliniare de modificare a contrastului sunt compresia (sau compandarea) şi inversa acesteia, expandarea. Prin compresie se obţine o variaţie maximă a contrastului în zona nivelurilor de gri apropiate de 0, iar prin expandare, variaţia maximă a contrastului se obţine în zona nivelurilor de gri apropiate de N-1. Compresia logaritmică (figura 3.6) este descrisă de ecuaţia:

( ) ]10[,1lglg

1 ,N-u,vuN

Nv ∈+⋅−

= (3.13)

Expandarea este descrisă de ecuaţia:

( ) ]10[111 ,N-u,vN

eev N

u∈−

−

−= , (3.14)

v

uO N-1

N-1

Figura 3.6. Expandarea şi compresia.

3.3.2. Decuparea intervalelor de niveluri de gri

Tehnicile de decupare a intervalelor de niveluri de gri urmăresc punerea în evidenţă numai a unei porţiuni din gama totală a nivelurilor de gri disponibile (sau ocupate efectiv de pixelii imaginii). Această punere în evidenţă este realizată în principiu prin înlocuirea tuturor celorlalte niveluri de gri cu o valoare constantă.

Transformarea de "clipping" păstrează nemodificat un interval de niveluri de gri de interes (de exemplu u1…u2), restul nivelurilor de gri

63

fiind transformate într-o valoare unică, numită fundal (F). Expresia analitică a acestui operator este:

−≤≤≤≤≤≤

==1,

,0,

)(

2

21

1

NuuFuuuuuuF

ufv

(3.15)

uN-1u2u1

N-1

v

v2

v1

F

O

Figura 3.7. Decuparea nivelurilor de gri.

Transformarea de decupare ("slicing") pune în evidenţă un interval de niveluri de gri prin modificarea valorilor nivelurilor de gri la 0 sau N-1, după cum acestea se situează în afara sau respectiv în interiorul intervalului considerat (figura 3.8).

u2u1

v

uO N-1

N-1

Figura 3.8. Slicing-ul nivelurilor de gri.

64

3.3.3. Modificarea histogramei

Histograma unei imagini este o funcţie ce pune în evidenţă conţinutul de niveluri de gri al acesteia. Din punct de vedere matematic, histograma se defineşte ca frecvenţa relativă de apariţie în imagine a diferitelor niveluri de gri. Dacă considerăm o imagine f, de dimensiune L×K pixeli şi notăm cu u un nivel de gri şi cu δ impulsul unitar, histograma se exprimă ca:

( ) [ ]1,0,),(1)(,1

,0

1

0−∈−

⋅= ∑ ∑

−

=

−

=Nuuklf

KLuh

L

l

K

k δ (3.16)

Proprietăţile imaginii influenţează forma histogramei sale. O

imagine de tip tablă de şah, formată din pătrate luminoase şi întunecate, în proporţie relativ egală, va avea o histogramă prezentând două maxime puternice, localizate în jurul valorilor de 0 şi N-1, şi valori aproape nule în zona nivelurilor de gri medii. O imagine fotografică subexpusă (şi deci foarte întunecată) are o histogramă al cărei suport (interval ce corespunde valorilor nenule) este concentrat spre valoarea 0. O imagine fotografică supraexpusă (şi deci foarte luminoasă) are o histogramă al cărei suport este situat în zona valorilor apropiat de N-1. O imagine bine contrastată, ce prezintă numeroase nuanţe, va avea o histogramă al cărei suport va acoperi aproape întreaga gamă de niveluri de gri posibile şi a cărei formă va fi neregulată.

Reciproc, inspecţia formei unei histograme poate oferi informaţii despre caracteristicile imaginii, dar nu o poate individualiza, deoarece mai multe imagini pot avea aceeaşi histogramă.

Această comportare corespunde faptului că histograma se comportă ca o funcţie de densitate de probabilitate a unei variabile aleatoare ale cărei realizări particulare sunt valorile nivelurilor de gri din imagine.

65

Într-adevăr, h(u)>0, ∀u, şi 1)(1

0=∑

−

=

N

nnh . Orice funcţie de densitate de

probabilitate are asociată o funcţie de repartiţie. În cazul histogramei imaginilor, această funcţie de repartiţie este histograma cumulativă:

[ ]1;0,)()( −∈= ∑=

NunhuHu

on (3.17)

Imaginea ideală ar trebui să prezinte o distribuţie uniformă a

nivelurilor de gri şi un contrast repartizat regulat în întreaga gamă dinamică. Pentru a obţine o asemenea imagine, operatorul de îmbunătăţire trebuie să transforme histograma originală a imaginii într-o histogramă uniformă, în care toate nivelurile de gri sunt egal probabile. Din punct de vedere matematic, problema se reduce la a transforma o funcţie de densitate de probabilitate oarecare într-o funcţie de densitate de probabilitate uniformă (constantă pe intervalul de definiţie [0,N-1]). Ţinând cont de teoria variabilelor aleatoare (funcţie de o variabilă aleatoare) şi de faptul că variabila aleatoare “nivel de gri” este discretă, formula de transformare a nivelului de gri u pentru egalizarea de histogramă este:

( )

+−⋅

−−

= 5,01)0(1

)0()(int NH

HuHv (3.18)

unde ”int[ ]” este operatorul parte întreagă, iar H este histograma cumulativă definită anterior.

Exemplu: Considerând o imagine de 64×64 pixeli, reprezentată cu 8 niveluri de gri (0…7), a cărei histogramă este dată în tabelul următor (căruia îi corespunde figura 3.9), să se realizeze egalizarea de histogramă.

66

Nivelul de gri

Nr. de pixeli având acest nivel de gri

0 796 1 1023 2 850 3 650 4 329 5 245 6 122 7 81

0200400600800

10001200

1 2 3 4 5 6 7 8nivelul de gri

Nr.

de p

ixeli

Figura 3.9. Histograma unei imagini.

Rezultatele obţinute în urma egalizării, pe baza relaţiilor de

definiţie sunt cumulate în următorul tabel: Tabelul 3.1.

Imaginea iniţială Imaginea transformată Nivel

de gri

Nr. de pixeli cu nivelul de gri i

h(i) Histograma cumulativă pt. nivelul

de gri i

Nivelul de gri

transformatconform

egalizării de histogramă

Numărul de pixeli

corespunzătornivelului de

gri transformat

Transformarea nivelului de

gri

0 796 0,194 0,194 0 796 0-0 1 1023 0,249 0,443 2 0 1-2 2 850 0,208 0,651 4 1023 2-4 3 650 0,159 0,81 5 0 3-5 4 329 0,08 0,89 6 850 4-6 5 245 0,06 0,95 7 650 5-7 6 122 0,031 0,981 7 329 6-7 7 81 0,019 1 7 448 7-7

67

Histograma "egalizată" este deci (figura 3.10):

0

200

400

600

800

1000

1200

1 2 3 4 5 6 7 8

nr

de p

ixel

i

0 1 2 3 4 5 6 7 Figura 3.10. Histograma egalizată.

Din graficul prezentat se observă că histograma obţinută nu este

"uniformă" şi prezintă numeroase niveluri de gri lipsă ("găuri"). Aceste efecte sunt datorate în general cuantizării nivelurilor de gri şi limitării prin trunchiere a domeniului de variaţie a valorilor (formula de transformare este dedusă pentru variabile aleatoare cu variaţie continuă). Pentru corectare au fost propuse mai multe abordări: limitarea maximelor histogramei, mutarea aleatoare a valorilor pixelilor situate pe niveluri de gri mai bine reprezentate în histogramă pe niveluri de gri absente, etc. Trebuie de asemenea remarcat faptul că egalizarea de histogramă nu asigură în toate cazurile cea mai bună calitate vizuală a imaginii transformate.

Egalizarea de histogramă şi tehnicile înrudite de specificare a histogramei asigură mărirea contrastului imaginii prin redistribuirea nivelurilor de gri în cadrul gamei dinamice fixate, [0,N-1]. Sensibilitatea sistemului vizual uman este însă mult mai mare în gama color decât în cea a nivelurilor de gri. De aceea una dintre tehnicile cele mai populare de realizare a unei vizibilităţi maxime a anumitor componente dintr-o imagine este colorarea lor cu culori puternic contrastante, adică prin pseudocolorare.

În cazul aplicării tehnicii de pseudocolorare, imaginea va fi afişată (vizualizată) cu o tabelă de culoare diferită de paleta originală de niveluri

68

de gri. Această nouă paletă de culoare poate fi construită după orice fel de reguli care să corespundă problemei de rezolvat: de exemplu, toţi pixelii al căror nivel de gri este 250 vor fi afişaţi cu roşu şi toţi pixelii al căror nivel de gri este cuprins între 100 şi 120 vor fi afişaţi cu verde. Se pot introduce şi condiţii relative la poziţia spaţială a pixelilor sau la alte caracteristici locale ale acestora.

Schema generală a unei operaţii de pseudocolorare este detaliată în figura 3.10.

index R G B

Paletă de culori Display

Imagineiniţială

Bloc de extragere

caracteristici

Figura 3.10. Schema unui sistem de pseudocolorare.

3.4. Operatori liniari de vecinătate pentru îmbunătăţirea imaginilor. Filtrarea liniară a imaginilor

Spre deosebire de operatorii punctuali, operatorii de vecinătate

(numiţi şi operatori spaţiali locali) determină valoarea nouă a unui pixel ca o funcţie de valorile pixelilor dintr-o vecinătate a sa. Dacă această funcţie (de mai multe variabile) este liniară, atunci operatorul se numeşte liniar.

Se va nota cu u(l,k) imaginea iniţială (de intrare), cu l=1,…,L, k=1,…,K, cu v(l,k) imaginea rezultată (de ieşire) şi cu a(i,j), funcţia pondere a sistemului, i=1,…L, j=1,…,K.

Operatorii liniari de vecinătate se implementează, în general, prin convoluţia imaginii iniţiale cu funcţia pondere a unui filtru cu răspuns finit, numit mască spaţială, adică prin aplicarea unui asemenea operator se realizează practic o filtrare bidimensională. Această filtrare este obţinută

69

prin tehnica "ferestrei glisante" (moving-window), iar fereastra ce culisează peste imagine se mai numeşte şi mască spaţială sau filtru bidimensional şi are rolul de a selecta vecinătatea pixelului curent asupra căruia operează filtrul respectiv.

Expresia analitică a acestei operaţii este:

∑ ∑∈

−−⋅=Wji

kkilujiaklv),(

),(),(),( (3.19)

unde u şi v sunt imaginile de intrare, respectiv de ieşire, iar a sunt

coeficienţii ferestrei (măştii) de filtrare W, care are dimensiuni mai mici decât imaginile asupra cărora acţionează.

După cum se observă, aceasta este de fapt o convoluţie: v=a*u, între funcţia pondere a unui filtru cu răspuns finit (a) şi imaginea de intrare, iniţială (u). Aceasta se poate exprima ca un produs punct cu punct între coeficienţii măştii şi o porţiune din imagine, de aceeaşi dimensiune.

Tehnica ferestrei glisante constă în efectuarea următoarelor operaţii: • Se defineşte fereastra de filtrare adică:

forma (relativ la o origine); coeficienţii din fiecare punct;

• Fereastra glisează peste imaginea iniţială, adică se pune originea ferestrei în fiecare punct al imaginii. Astfel va fi selectat de către fereastră pixelul curent şi pixelii din vecinătatea acestuia.

• Se face produsul punct cu punct între valoarea pixelilor din imagine selectaţi de fereastră şi coeficienţii ferestrei.

• Se înlocuieşte pixelul curent cu noua valoare obţinută, ca sumă a produselor obţinute la punctul anterior.

De regulă, filtrele folosite sunt de ordin impar, rectangulare şi au

originea (0,0) în centrul suportului:

70

a-1-1 a-10 a-11

a0-1 a00 a01

a1-1 a10 a11

Problemele care se ridică la aplicarea acestor operatori se referă la:

• Marginile imaginii, aici având 2 posibilităţi: obţinerea unei imagini de dimensiuni mai mici, atunci

când glisarea începe din interiorul imaginii bordarea imaginii de intrare pentru a păstra aceleaşi

dimensiuni pentru imaginea prelucrată • Numărul de operaţii necesare pentru fiecare punct. Pentru o fereastră

pătrată cu latura n sunt necesare: n2 înmulţiri şi n2-1 adunări. În concluzie, din punct de vedere al volumului de calcule, este mai bine să se lucreze cu ferestre cât mai mici.

Filtrele bidimensionale folosite uzual în prelucrarea imaginilor sunt nuclee cu suporturi de dimensiuni mici: 3×3, 5×5. Filtrele de dimensiuni mai mari se pot reduce adesea la aplicarea repetată asupra unei imagini a unor nuclee de dimensiuni mai mici.

Nucleele pătrate de dimensiuni 3×3 sunt cele mai utilizate. Exemple de astfel de nuclee sunt:

⋅

111111111

91

⋅

010141010

81 (3.20)

(a) (b)

Filtrul (a) realizează media între pixelul central şi vecinii săi, iar filtrul (b) realizează media ponderată între pixelul central şi vecinii săi verticali şi orizontali.

71

Forma şi coeficienţii ferestrei se aleg astfel încât să corespundă aplicaţiei concrete. Singura constrângere în ceea ce priveşte coeficienţii ferestrei, pentru filtrele de mediere (al căror efect este de FTJ) este:

∑ ∑∈

=wji

jia),(

1),( , pentru a nu modifica regiunile uniforme. (3.21)

În cazul în care coeficienţii ferestrei îndeplinesc condiţia din relaţia (3.21) efectul filtrului (ferestrei de filtrare) este un efect de netezire. În cazul în care coeficienţii ferestrei îndeplinesc relaţia:

∑ ∑∈

=wji

jia),(

0),( (3.22)

efectul filtrului (ferestrei de filtrare) este un efect de reliefare (accentuare sau contrastare), respectiv de filtru trece-sus. Exemple de filtre de reliefare sunt:

[ ]

−−−

−

010141

010 [ ]

−−−−−−−−

111181111

[ ]

−−−

−

121242

121 (3.23)

Medierea efectuată cu ajutorul operatorilor liniari de vecinătate

poate fi utilă la reducerea zgomotului aditiv gaussian şi mai puţin a zgomotului impulsiv, de tip salt and pepper (engl.= "sare şi piper"). Aplicarea unui filtru de mediere asupra unei imagini afectată de zgomot impulsiv sau gaussian are ca rezultat extinderea punctelor cu zgomot (formarea de pete), respectiv apariţia efectului de bluring sau mânjeală (neclar, ceţos), ca efect special dorit sau ca o consecinţă nedorită a reducerii zgomotului. Aceste efecte au ca rezultat nedorit reducerea clarităţii imaginii filtrate, ceea ce poate produce dificultăţi suplimentare în

72

etapele ulterioare de prelucrare a imaginii (segmentare, detecţie de contur, recunoaştere de forme etc.).

O primă modalitate de reducere a efectului de bluring este ponderarea pixelilor mediaţi în funcţie de distanţa faţă de centrul ferestrei:

∑ ∑

∈−−⋅=

W(i,j)j)i,ku(lc(i,j)v(l,k) (3.24)

unde c(i,j) sunt coeficienţii cu care se face ponderarea pixelilor din

fereastra W. Valorile acestor coeficienţi c respectă în general o anumită distribuţie spaţială, cel mai adesea fiind utilizată distribuţia gaussiană. Filtrul este cunoscut în acest caz, sub denumirea de filtru gaussian.

O variantă îmbunătăţită pentru reducerea efectului de bluring o constituie filtrul de netezire cu prag, care nu mai este liniar. Particularitatea sa constă în faptul că înlocuirea valorii pixelului curent cu media ponderată a vecinilor săi se face doar dacă este satisfăcută condiţia:

Tkluklv <− ),(),( (3.25)

unde T este un prag de decizie ales astfel încât să fie protejate

tranziţiile din imaginea iniţială faţă de efectul de bluring. Rezultatele acestei metode sunt bune, dar apare problema selecţiei automate a pragului T.

73

3.5. Efectul în frecvenţă al operatorilor liniari de vecinătate

După cum s-a arătat mai sus, aplicarea unui filtru de mediere se face prin convoluţia între imaginea iniţială u şi funcţia pondere a filtrului h:

v = h*u (3.26)

Coeficienţii ferestrei sunt egali şi se ştie că transformata Fourier a unei constante este un sinc (figura 3.11):

y

x

Figura 3.11. Transformata Fourier a unei constante.

Dacă se notează cu U, V şi H transformatele Fourier ale imaginilor de intrare, respectiv de ieşire şi a filtrului, din relaţia anterioară şi din teorema convoluţiei rezultă că: V=H⋅U (3.27)

iar caracterizarea în frecvenţă a acţiunii filtrului se poate face pe baza lui H. Transformata Fourier a unui filtru de mediere cu coeficienţi constanţi (figura 3.12.a) este un sinc bidimensional (figura 3.12.b):

74

F

z

y x

z

yx

(a) (b)

Figura 3.12. Transformata Fourier a unui filtru de mediere cu coeficienţi constanţi.

Prin urmare, medierea spaţială este echivalentă cu o filtrare

trece-jos (figura 3.13):

Mediere spaţială

u vFTJ

u v

≡

Figura 3.13. Medierea spaţială.

Celelalte tipuri de filtre (în frecvenţă) se pot obţine cu un FTJ. Astfel, dacă hTJ(m,n) este funcţia de transfer a unui FTJ atunci un filtru trece-sus FTS va avea o funcţie de transfer hTS(m,n):

),(),(),( klhklklh TJTS −= δ (3.28)

unde δ este impulsul Dirac. Deci, un FTS se poate implementa prin scăderea din imaginea

iniţială a imaginii obţinute printr-un FTJ (figura 3.14):

75

FTS u v ≡

FTJ

u v +

-

Figura 3.14. Obţinerea unui FTS cu ajutorul unui FTJ.

La fel, un filtru trece-bandă FTB poate fi caracterizat prin relaţia:

),(),(),( 21 klhklhklh TJTJTB −= (3.29)

unde hTJ1 şi hTJ2 sunt funcţii de transfer a două FTJ. Deci un FTB se

poate obţine din 2 FTJ astfel (figura 3.15):

u FTB v ≡ FTJ

hTJ1(l,k)

FTJ hTJ2(l,k)

u v

+-

Figura 3.15. Obţinerea unui FTB cu ajutorul a două FTJ.

Filtrarea trece-jos se utilizează pentru atenuarea zgomotului,

filtrarea trece-bandă se foloseşte pentru extragerea sau accentuarea contururilor, iar filtrarea trece-sus este utilă pentru îmbunătăţirea contururilor sau a altor caracteristici de tip trece-sus ale unei imagini, în prezenţa zgomotului.

Pe baza acestor considerente, pentru îmbunătăţirea imaginilor se pot defini şi operatori integrali (numiţi si transformări integrale) în cazul cărora noua valoare într-un punct depinde de valoarea întregii imagini

76

iniţiale. Folosirea transformărilor integrale mută problema într-un plan dual planului imaginii şi anume planul frecvenţelor spaţiale.

Repartiţia spaţială a spectrului diferă de la o transformare la alta:

FTJ FTJ

FTB FTB

FTS

FTB FTB

Figura 3.16. Exemplu de repartiţie spaţială a spectrului unei imagini.

Exemple de transformări (Fourier, Cosinus) vor fi prezentate în

capitolul referitor la transformări integrale ale imaginilor.

3.6. Filtrarea neliniară a imaginilor

Filtrele liniare (de netezire sau contrastare) produc la ieşire, în fiecare punct al imaginii, o combinaţie liniară ponderată a setului de valori selectate de fereastra de filtrare plasată cu originea în acel punct. Filtrele liniare pot elimina zgomote care corespund acestui model de mediere, deci zgomote aditive şi cu distribuţie normală (gaussiană). Din această comportare de tip filtru trece-jos rezultă efecte secundare care se manifestă prin reducerea sau eliminarea din imagine a componentelor de frecvenţă înaltă (detalii, contururi). Imaginea îşi pierde claritatea şi devine mai “ceţoasă” (efect de blur). În acelaşi timp, filtrarea liniară a unor zgomote ne-aditive (de exemplu zgomotul impulsiv) produce rezultate deranjante din punct de vedere al calităţii imaginii (în particular lăţirea şi împrăştierea impulsurilor de zgomot).

77

3.6.1. Filtre neliniare de ordine

Pentru eliminarea dezavantajelor filtrelor liniare apare evidentă

necesitatea de a modifica structura de filtrare liniară, în care valoarea unui pixel nu este luată în considerare, tocmai printr-o triere a valorilor extrase de fereastra de filtrare, în funcţie de rangul sau importanţa lor. Evident, operaţia devine neliniară, întrucât se va baza pe compararea şi ordonarea valorilor. Acesta este modelul de filtrare de ordonare (rank-order filter), fără a fi însă singurul tip de filtrare neliniară. Dacă se notează cu: X={x1,x2,…, xN}, cele N valori extrase de o fereastră de filtrare pentru o poziţie dată, setul de valori ordonate este: X()={x(1),x(2),…,x(N)}, cu x(1) ≤x(2)≤…≤x(N). Scalarul x(k) se numeşte statistica de ordine de ordinul k (sau pe scurt, statistica de ordin k) a secvenţei X. Evident, statistica de ordinul 1 este minimul, iar statistica de ordinul N este maximul: x(1) = min X() = min X (echivalentul unei erodări morfologice) (3.30) x(N)= max X()= max X (echivalentul unei dilatări morfologice) Considerând ca exemplu setul de 5 valori: X={1, 10, 100, 10, 200}, rezultă: x1=1, x2=10, x3=100, x4=10, x5=200. Setul ordonat este: X()={1,10,10,100,200}, iar statisticile de ordine sunt: x(1)=1, x(2)=10, x(3)=10, x(4)=100, x(5)=200. Ieşirea de ordinul k a filtrului de ordine este statistica de ordin k a setului de valori selectate de fereastra de filtrare, k putând lua orice valoare între 1 şi N: rankk(X)=x(k) (3.31)

78

Cel mai utilizat filtru de ordine este filtrul median, caracterizat de:

+

=2

1Nk , (unde [x]= partea întreagă a lui x) adică ieşirea filtrului

median este statistica de ordine situată în centrul secvenţei ordonate. Considerând, de exemplu, setul de 9 valori extrase de fereastra de filtrare (N=9), X={70,200,201,75,75,198,199,255,80}, ieşirea filtrului

median va fi statistica de ordinul

+

=2

19k =[5]=5.

Setul de valori ordonate este: X()={70,75,75,80,198,199,200,201,255}. Ieşirea filtrului median este, în acest caz: x(5)=198. Se presupune că valorile anterioare sunt nivelurile de gri dintr-o imagine. Atunci pixelii de valori 70,75,79,80 sunt gri-închis, pixelii de valori 198,199,200,201 au o culoare de tip alb-murdar, iar pixelul de valoare 255 este alb-strălucitor (figura 3.17).

Figura 3.17. Exemplu de filtrare mediană.

Dacă acest punct ar fi centrul ferestrei de filtrare, după filtrare el trebuie înlocuit cu ieşirea filtrului, deci cu 198. Rezultatul este deci eliminarea punctului a cărui valoare este extremă faţă de celelalte (sau eliminarea impulsului de zgomot). Spre comparaţie, rezultatul filtrului de mediere pentru aceleaşi date este 150 (deci o valoare ce nu corespunde nici unuia dintre valorile pixelilor imaginii). La nivelul întregii imagini, aplicarea filtrului median nu modifică în mod esenţial structura de contururi (frontiere) caracteristică obiectelor. Este însă posibil ca anumite detalii fine (sau obiecte extrem de mici, de

79

dimensiune inferioară ferestrei de filtrare) să fie eliminate. Capacitatea unui filtru de a nu modifica anumite structuri de semnal, constituie o caracteristică deterministă a acestuia şi este exprimată de semnalele rădăcină (semnalele care nu sunt modificate la trecerea prin filtru). Pentru un filtru median, semnalele rădăcină sunt compuse din paliere constante şi rampe monotone, de lungime mai mare decât dimensiunea ferestrei de filtrare. Un semnal rădăcină se poate obţine prin filtrarea repetată (până la obţinerea invarianţei) a unui semnal oarecare.

3.6.2. Filtre de ordine multi-etaj Filtrele de ordine multietaj iterează mai multe etape de filtrare de ordine, realizate eventual în ferestre de filtrare de formă şi orientare diferită. Un asemenea filtru este filtrul MIN/MAX-Median. Acesta se compune dintr-un prim etaj de 4 filtre mediane cu ferestre direcţionale, ale căror ieşiri sunt preluate de un filtru de minim sau maxim. Dacă se consideră o fereastră 3×3 în care valorile pixelilor sunt notate:

x1 x2 x3

x4 x5 x6

x7 x8 x9

ieşirea filtrului multietaj va fi: max(med(x4,x5,x6),med(x2,x5,x8), med(x1,x5,x9), med(x3,x5,x7)) (3.32)

80

MAX (sau MIN)

Figura 3.18. Filtru multi-etaj.

Efectul acestui filtru este mai bun decât a unui filtru median, deoarece se obţine un contrast mai bun, datorită filtrului extrem (max sau min), cu excepţia liniilor de zgomot, care trec prin filtrele mediane. Se poate arăta că filtrele de ordine pentru prelucrarea imaginilor cu niveluri de gri, pot fi dispuse sub forma unei stive, prelucrarea putându-se face independent pe fiecare nivel al stivei, suma rezultatelor fiind egală cu rezultatul filtrului compus obţinut prin însumarea filtrelor din stivă. Acest fapt are avantajul posibilităţii de implementare paralelă a filtrelor de ordine şi posibilitatea de implementare hardware a acestora, obţinându-se o viteză mare de calcul şi o paralelizare a calculelor. Dezavantajul acestor filtre îl constituie cantitatea mai mare de memorie necesară în procesul de sortare. La implementarea filtrelor de ordine, printre cele mai utilizate tehnici de sortare se numără metoda bubble-sort şi divide et impera.

81

3.6.3. Proprietăţi ale filtrelor de ordine

1. Invarianţa la translaţie

Filtrarea de ordine a unui semnal x translatat cu b şi scalat cu a este: bxrankabxarank kk +⋅→+⋅ )()( (3.33)

2. Filtrele de ordine păstrează caracteristicile semnalului, adică nu prezintă overshoot sau undershoot. Prin urmare, valoarea obţinută prin filtrare nu este în afara domeniului de intrare, fiind una din valorile de intrare.

3. Filtrele de ordine admit semnale rădăcină. Un semnal rădăcină este invariant la filtrarea de ordine (rămâne nemodificat). Teoremă: Orice secvenţă monotonă (crescătoare sau descrescătoare) este un semnal rădăcină al filtrelor de ordine. În practică, un semnal rădăcină se obţine prin filtrarea de ordine a unui semnal oarecare, până se obţine un semnal care nu se mai modifică. Exemplu: Prin aplicarea unui filtru median unidimensional de lungime N=3 (figura 3.19.b), cu originea în centru, asupra semnalului (figura 3.19.a):

2

1

3

N=3

(a) (b)

Figura 3.19. Exemplu de obţinere a unui semnal rădăcină.

după prima iteraţie se obţine semnalul:

82

Figura 3.20. Rezultatul după prima iteraţie a filtrării de ordine.

iar după a doua iteraţie se obţine semnalul:

Figura 3.20. Rezultatul după a doua iteraţie a filtrării de ordine.

După cum se observă, după a treia iteraţie se obţine un semnal monoton pe porţiuni, care dacă mai este filtrat o dată, nu se modifică, deci este un semnal rădăcină pentru un filtru median unidimensional de lungime 3.

O limitare a structurilor de filtrare neliniară bazată pe ordonare este relativa lor lipsă de flexibilitate: există doar N filtre de ordine diferite, dintre care doar filtrul median este un filtru de netezire. O structură de filtrare mai flexibilă trebuie să permită reglarea gradului de netezire (sau respectiv de reliefare) între limite fixate. Astfel de filtre sunt filtrele de domeniu LUM (Lower-Upper-Middle).

83

3.6.4. Filtre de ordine de domeniu

Filtrul de ordine LUM (Lower-Upper-Middle) de netezire, de ordin k, se defineşte prin: { })1()( *,, +−= kNk xxxy med , (3.34)

unde 2

11 +≤≤

Nk , iar x* reprezintă valoarea eşantionului central

(din originea ferestrei):

>

<

= +−+−

restîn *,

*,

*,

)1()1(

)()(

x

xxx

xxx

y kNkN

kk

(3.35)

Netezirea este creată prin compararea eşantionului central x* cu două statistici de ordin superior şi inferior (x(k), x(N-k+1)) şi înlocuirea sa cu un eşantion mai apropiat de mediană, dacă x* nu se încadrează în acest interval de valori „normale” (figura 3.21).

x(k) x(1) x(N) x(N-k+1)

Figura 3.21. Filtru LUM de netezire. Gradul de netezire este variabil în funcţie de k.

Cazurile extreme ale acestui tip de filtru sunt:

• pentru: 2

1+=

Nk = filtru median

• pentru: k = 1 = filtru de tip trece-tot

84

Prin aplicarea unui filtru LUM de netezire se reduce contrastul imaginii. Perechea filtrului LUM de netezire este filtrul LUM de reliefare (sau conturare), pentru care ieşirea filtrului este deplasată către una din statisticile extreme (inferioară sau superioară). Filtrul LUM de reliefare se defineşte prin:

≤<+

+≤<

= +−+−

+−

+−

restîn *,

*2

,

2*,

)1()1()(

)1(

)1()()()(

x

xxxx

x

xxxxx

y rNrNr

rN

rNrrr

, (3.36)

unde: 2

11 +≤≤

Nr .

Reliefarea apare ca urmare a deplasării eşantioanelor din intervalul x(r) ÷ x(N-r+1) (interpretat ca zonă de tranziţie) spre una din extremităţi (figura 3.22):

x(N-r+1) x(r)x(1) x(N)2

)1()( +−+ rNr xx

Figura 3.21. Filtru LUM de reliefare. Gradul de reliefare poate varia în funcţie de parametrul r, de la:

21+

=Nr (filtrul identitate) până la reliefare maximă, pentru r=1.

Prin aplicarea unui filtru LUM de reliefare se obţine o mărire a contrastului.

85

3.6.5. L-filtre

Un filtru a cărui ieşire este o medie ponderată a statisticilor din fereastra filtrului se mai numeşte şi L–filtru şi este de forma:

∑=

⋅=N

kkxay k

1)( , (3.37)

unde y este ieşirea filtrului, x(k) sunt eşantioanele din fereastra de filtrare ordonate crescător, iar ak sunt coeficienţii de ponderare. Coeficienţii de ponderare îndeplinesc aceleaşi condiţii de normalizare ca şi pentru un filtru liniar:

11

=∑=

N

kka , pentru netezire şi 0

1=∑

=

N

kka , pentru reliefare. (3.38)

Câteva cazuri particulare ale acestui tip de filtru sunt: • filtrul de ordine de ordin k (inclusiv filtrul median):

≠==

k, jaa

k

k01

. (3.39)

Elimină zgomotul impulsiv.

• filtrul de mediere, se obţine pentru:

Nak

1= , pentru orice k = 1, 2, ..., N. (3.40)

Elimină zgomotul gaussian.

• extractor de contur:

=−=111

Naa

(3.41)

86

• filtrul de qvasi-mijloc:

== −+

01

k

iNia

aa,

211 +

÷=Ni . (3.42)

Elimină zgomote impulsive şi zgomotele uniforme.

• media α-reglabilă (α-trimmed mean):

=

⋅−⋅=−⋅

=

restîn ,0

],[,)21(

1

k

i

a

NNNiN

a ααα , (3.43)

unde

∈

21,0α .

Elimină zgomote de tip impulsiv şi gaussian.

87

4. Transformări integrale ale imaginilor

În domeniul prelucrărilor de imagini, pe lângă operaţiile punctuale şi de vecinătate prezentate anterior, se folosesc adesea şi transformări integrale, al căror rezultat – o altă imagine sau o altă reprezentare a imaginii originale – are în fiecare punct o valoare ce depinde de valorile tuturor pixelilor din imagine originală. Transformata Fourier, de exemplu, transformă o imagine reprezentată prin funcţia f(x,y) de cele două variabile spaţiale x şi y, în „spectrul Fourier” al imaginii, F(u,v), care este o altă reprezentare a imaginii originale f(x,y), în planul frecvenţelor spaţiale u şi v. O filtrare (spaţială) liniară a imaginii f(x,y) cu un filtru a cărui funcţie pondere h(x,y) este un clopot Gauss, are ca rezultat o altă imagine g(x,y) obţinută prin convoluţie (bidimensională) din imaginea originală f(x,y):

∫∫ −−⋅=2

),(),(),(R

ηξηξηξ ddyxhfyxg (4.1)

iar sensul fizic al variabilelor lui g este acelaşi cu cel al variabilelor lui f; f şi g sunt funcţii definite pe acelaşi plan (x,y), spre deosebire de primul exemplu cu transformata Fourier.

4.1. Transformări integrale unitare În cazul imaginilor discretizate (definite pe latici de puncte), cum e cazul imaginilor digitale, transformările integrale sunt transformări ale unor matrici (tabele 2-dimensionale de scalari, de regulă dreptunghiulare şi chiar mai mult, pătrate) în matrici de aceleaşi dimensiuni. S-a văzut că transformările punctuale sunt practic transformări neliniare, iar transformările spaţiale (de vecinătate) pot fi liniare sau neliniare. Transformările integrale sunt transformări liniare pentru a avea

88

posibilitatea de a beneficia în modelarea matematică care trebuie făcută, de aparatul algebrei liniare şi al analizei funcţionale liniare. În cele de mai jos se vor revedea noţiunile de bază privind transformările liniare pe spaţii vectoriale finit dimensionale. Se va face referire la spaţii vectoriale peste mulţimea numerelor complexe C şi transformări liniare corespunzătoare (reprezentate prin matrici pătrate cu elemente complexe) fiindcă, chiar începând cu transformata Fourier discretă, cadrul complex simplifică lucrurile. Din acest motiv se va face referire la „matrici unitare” şi nu „ortogonale”.

Se va considera spaţiul CN al vectorilor N-dimensionali cu componente din C (deci numere complexe) care reprezintă secvenţe de N eşantioane ale unui semnal complex (cu o parte reală şi una imaginară). Orice transformare liniară a lui CN în el însuşi se reprezintă printr-o matrice pătrată A de dimensiune N×N:

)()( 1,0, CNNNkllk MAa ×−= ∈= (4.2)

iar dacă se doreşte ca transformarea să fie inversabilă, atunci matricea A trebuie să fie inversabilă, adică 0det ≠A .

O matrice A este unitară dacă are proprietatea că este inversabilă, adică există A-1 astfel încât A·A-1= A-1·A=IN, şi că A-1=A*T, adică:

NTT IAAAA =⋅=⋅ ** (4.3)

adică inversa ei este chiar transpusa conjugatei sale complexe. În această relaţie indicele superior T indică operaţia de transpunere a matricelor (alk→akl), iar indicele superior * indică operaţia de conjugare complexă (alk→akl*). A*T=AH se mai numeşte şi transformata Hilbert a matricii A.

O matrice unitară în spaţii vectoriale peste mulţimea numerelor reale R (deoarece conjugatul unui număr real este el însuşi) se reduce la ceea ce se numeşte matrice ortogonală, adică A-1=AT; matricile ortogonale generalizează rotaţiile din plan.

89

Un vector NCu ∈ , ( )

==

−

−=

1

0

1,0...

N

Nii

u

u

uu , devine prin

transformarea A, vectorul v, dat de relaţia v=A·u, adică:

⋅

=

−−−−

−

− 1

0

1,10,1

1,00,0

1

0

.

.

.

......

...

.

.

.

NNNN

N

N u

u

aa

aa

v

v

(4.4)

sau pe componente, în scriere scalară:

∑−

=⋅=

1

0

N

kkjkj uav (4.5)

În cazul imaginilor, dacă se notează imaginea iniţială cu { }1,...,1,0,);,( −== NklkluU şi imaginea transformată cu:

{ }1,...,1,0,);,( −== NnmnmvV , expresiile matriceale ale transformării sunt mai dificil de scris, deoarece transformarea A trebuie reprezentată printr-un tablou 4-dimensional (2×2, semnalul de intrare fiind imaginea U 2-dimensională, iar ieşirea fiind V, tot 2-dimensională). În schimb, scrierea scalară (pe componente) a transformării integrale unitare bidimensionale directe, respectiv inverse, a imaginii U, se scrie imediat, prin generalizarea celei precedente:

∑ ∑−

=

−

=⋅=

1

0

1

0),(),(),(

N

l

N

kklmnklnm auv , respectiv

∑ ∑−

=

−

=

∗⋅=1

0

1

0),(),(),(

N

m

N

nklmnnmkl avu , (4.6)

unde { }),( klmna este transformarea unitară.

90

În cazul imaginilor de dimensiuni N×N, numărul operaţiilor (multiplicări şi adunări) necesare pentru a calcula coeficienţii v(m,n) este foarte mare, fiind egal cu O(N4), adică de ordinul a N4. O reducere substanţială a complexităţii algoritmului se obţine atunci când transformarea unitară este separabilă, adică:

)()(),( knlmklmn baa ⋅= (4.7)

unde: { })(lmaA = şi { })(kbB n= , sunt de asemenea matrici

unitare. În acest caz:

∑∑∑ ∑−

=

−

=

−

=

−

=⋅=⋅⋅=⇒

1

0),()(

1

0)(

1

0

1

0),()()(),(

N

kklkn

N

llm

N

l

N

kklknlmnm ubaubav (4.8)

După cum se observă, în cazul în care transformarea este

separabilă, algoritmul este mai simplu, complexitatea sa scăzând la O(N3). În acest caz, relaţia transformării directe, respectiv inverse, se poate scrie şi sub formă matricială:

TBUAV ⋅⋅= , respectiv ∗∗ ⋅⋅= BVAU T (4.9)

Dacă se defineşte energia unui semnal bidimensional u, ca fiind:

∑ ∑−

=

−

==

1

0

1

0

2),(

N

l

N

kklu uE (4.10)

se poate arăta că principala proprietate a transformărilor integrale unitare este aceea de conservare a energiei: Eu=Ev.

Transformările integrale unitare se pot folosi pentru filtrarea şi pentru compresia imaginilor. • Filtrarea: Se presupune că se doreşte o filtrare integrală liniară a unei

imagini, adică cu un filtru a cărui funcţie pondere liniară se extinde pe

91

toată imaginea. Operaţia de convoluţie spaţială a unei imagini N×N (cu funcţia pondere tot de suport N×N) necesită N4 operaţii de înmulţire. Dacă, aşa cum este cazul transformării Fourier discrete, transformarea are algoritm rapid şi este separabilă, iar echivalentul convoluţiei este o operaţie punctuală (pentru fiecare pixel avem de făcut o înmulţire), numărul de operaţii necesare este de ordinul a N2·log2N. Pentru N=1000, adică pentru imagini de 1000×1000 pixeli, raportul N4/N2·log2N devine 105 adică filtrarea care ar dura 24 ore în mod normal, prin acest procedeu se realizează într-o secundă.

• Compresia: Spre deosebire de reprezentarea unei imagini prin eşantioanele sale spaţiale (în număr de N2) care, în principiu, într-o primă aproximaţie sunt variabile aleatoare independente şi uniform distribuite pe intervalul valorilor posibile [0,M-1], M-1 fiind valoarea maximă, reprezentarea imaginii prin valorile coeficienţilor transformatei (tot în număr de N2) este o reprezentare prin mărimi cu proprietăţi extrem de neuniforme: câţiva coeficienţi sunt foarte mari, iar majoritatea sunt neglijabil de mici. Transmisiei lor li se poate aplica o codare Huffman (pentru a obţine o codare fără pierderi), dar dacă unii coeficienţi sunt foarte mici, ei se pot neglija, pur şi simplu. În acest caz, etapele transmisiei sunt schiţate în figura 4.1.

T-1 . . . . … U .

.... V

T .......

V

. .

. . . U. .

canal fără

pierderi

…V 0

trunchiere

Figura 4.1. Compresia cu transformate.

În procesul de compresie cu transformate se porneşte de la o

imagine iniţială U. Acesteia i se aplică o transformare T în urma căreia se obţine o imagine V la care informaţia este concentrată în mult mai puţine componente decât în imaginea iniţială.

92

Canalul de transmisie poate fi presupus fără pierderi deoarece se pot folosi coduri cu corecţie de erori. Câştigul (reducerea numărului de eşantioane transmise) s-a obţinut prin trunchierea imaginii V prin eliminarea componentelor cu coeficienţi foarte mici (sub un anumit

prag). La recepţie se obţine o imagine V care aproximează imaginea V. Dacă acestei imagini i se aplică transformarea inversă lui T (T-1) se va

obţine o imagine U care este de dorit a fi cât mai apropiată de imaginea iniţială U.

Un astfel de lanţ de compresie este cu atât mai bun cu cât:

• eroarea (diferenţa) dintre U şi U este mai mică, relativ la un anumit criteriu, care de cele mai multe ori este eroarea medie pătratică:

⇒ ∑ ∑−

=

−

=−

1

0

1

0

2),(ˆ),(L

l

K

kklUklU =minimă (4.11)

• factorul de compresie este mai mare. Factorul de compresie (C) se defineşte ca fiind raportul dintre numărul componentelor imaginii iniţiale (L×K) şi numărul componentelor din u, reţinute în imaginea v:

udinretinutelorcomponentenr

KLC .

×= (4.12)

Transformarea optimă din punct de vedere al compresiei este transformarea K-L (Karhunen-Loeve). Aceasta realizează decorelarea elementelor transformatei şi prin aceasta compactarea maximă a energiei semnalului (imaginii) în primele componente. Cu toate aceste avantaje, deoarece transformata K-L depinde de statistica imaginii şi datorită volumului mare de calcule necesare (mai ales în cazul imaginilor de dimensiuni mari), transformata K–L este dificil de implementat practic. Totuşi, pentru imagini cu corelaţie mare, transformata K-L se poate aproxima cu succes prin transformata Cosinus Discretă (DCT=Discrete Cosine Transform) mult mai rapidă şi mai uşor de implementat şi care va fi prezentată în continuare.

93

4.2. Matrici unitare Implementarea transformărilor integrale unitare a imaginilor se

face utilizând matrici unitare.

Fie o matrice pătrată, cu elemente complexe: ( )1,0

1,0−=

−==

kklllkaA ,

unde C∈lka .

Spunem că matricea )(CNNA ×∈M este unitară dacă:

=⋅

=⋅

NT

NT

IAA

IAA*

*, (4.13)

unde HnotT AA.* = este transformata Hilbert a matricii A.

Sistemul de mai sus este echivalent cu relaţia: TAA *1 =− . Notând

1,0,)( −== NkllkaA , condiţiile (4.9) se pot scrie:

≠=

=−=⋅

≠=

=−=⋅

⇒

∑

∑

−

=

−

=

1

0

*'

1

0

*'

'.,0'.,1

)'(

'.,0'.,1

)'(

N

kkllk

N

llklk

kkptkkpt

kkaa

llptllpt

llaa

δ

δ (4.14)

94

Proprietăţile matricilor unitare 1.) O transformare liniară dată de o matrice (A) unitară (de la CN la CN)

lasă produsul scalar invariant.

NC∈∀ yx, , adică

=

Nx

x

.

.

.1

x ,

=

Ny

y

.

.

.1

y (4.15)

Se defineşte produsul scalar a doi vectori:

*

1

**

1

*.

, yxyxyx ⋅=⋅=⋅=⋅= ∑∑==

TN

ii

Ti

TN

iii

defyxyx (4.16)

În aceste condiţii: yxyAxA ,, =⋅⋅ , (4.17)

adică produsul scalar este invariant. Demonstraţie:

( ) )(, * yAxAyAxA ⋅⋅⋅=⋅⋅ T .

Se ştie că: TTT UVVU ⋅=⋅ )( .

( ) ( ) yxyxyAAxyAAxyAxAI

,)( ***** =⋅=⋅⋅⋅=⋅⋅⋅=⋅⋅⋅ TTTTTT43421 q.e.d.

Consecinţă: Transformarea dată de o matrice unitară lasă neschimbată energia. Acest lucru rezultă din proprietatea anterioară, pentru cazul

particular în care x=y. xAxAxx ⋅⋅= ,,

( ) ( )44 344 21321

22

**

xAx

xAxAxx

⋅

⋅⋅⋅=⋅⇒ TT

95

∑∑==

⋅=⇒N

iii

N

ii xax

1

2

1

2 xAx ⋅=⇒ EE

2.) Toate valorile proprii ale unei matrice unitare au valorile egale cu 1.

Dacă x este un vector propriu al matricei A, atunci λ este valoarea proprie a lui x dacă satisface relaţia: xxA ⋅=⋅ λ . (4.18)

Demonstraţie:

S-a arătat că: ( ) xxxAxA ⋅=⋅⋅⋅ TT ** )( . Înlocuind: xxA ⋅=⋅ λ

( ) xxxx ⋅=⋅⋅⋅⇒ TT ** )(λλ

xxxx ⋅=⋅⋅⋅⇒ TT *** λλ 222 xx =⋅⇒ λ . Deoarece: 0≠x (vectorul propriu este nenul)

1=⇒ λ q.e.d.

În aceste relaţii, norma vectorului x indusă de produsul scalar este:

∑=

==⋅=N

ii

Tdef

Ex1

2*.2

xxxx = energia lui x (4.19)

3.) Vectorii proprii corespunzători unor valori proprii diferite sunt

ortogonali. Fie x1, x2 doi vectori proprii cu valori proprii asociate λ1, λ2. Spunem că doi vectori sunt ortogonali dacă:

00, 2*12121 =⋅⇔=⇔⊥ xxxxxx T (4.20)

Demonstraţie: Dacă x1, x2 sunt vectori proprii cu valorile proprii asociate λ1, λ2: 11 xxA ⋅=⋅⇒ λ , 22 xxA ⋅=⋅ λ

Deoarece matricea A este unitară, rezultă că lasă produsul scalar invariant:

( ) 2*12

*1 )( xxxAxA ⋅=⋅⋅⋅⇒ TT (conform proprietăţii 1)

( ) 2*122

*11 )( xxxx ⋅=⋅⋅⋅⇒ TT λλ

96

2*12

*12

*1 xxxx ⋅=⋅⋅⋅⇒ TTλλ

Dar: 12*1 ≠⋅ λλ , deoarece 21 λλ ≠ .

02*1 ≠⋅⇒ xx T q.e.d.

Rămâne de arătat că: 12*1 ≠⋅ λλ . Se poate demonstra prin reducere

la absurd. 4.) Teorema spectrală: Dacă A este o matrice unitară, atunci există cel

puţin o matrice B care diagonalizează matricea A. Această teoremă poate fi descrisă astfel:

)(CA ΝNM ×∈∀ o matrice unitară de dimensiune N×N, adică

NHH IAAAA =⋅=⋅

)(CB ΝNM ×∈∃⇒ o matrice unitară de dimensiune N×N,

adică NHH IBBBB =⋅=⋅ , care diagonalizează matricea A,

adică )(CΛ ΝNM ×∈∃ o matrice diagonală de dimensiune N×N,

care satisface relaţia: ΛBAB =⋅⋅−1 , (4.21) adică matricea B diagonalizează matricea A, rezultatul fiind matricea Λ. Demonstraţie: Dacă x1, …, xN sunt vectori proprii normaţi ai matricei A. Se va construi matricea B astfel:

=×

MMMM

MMMM

NNN xxxB ...21 , unde M

M

ix este o matrice

coloană.

Dar: *1 TH BBB ==− , deoarece s-a demonstrat că vectorii proprii ai unei matrice unitare sunt ortogonali.

97

=⇒

LL

MMM

LL

LL

TN

T

T

T

*

*2

*1

*

x

xx

B , unde LL T*1x este o

matrice linie.

NT IBB =

=⋅⇒

100

010001

*

K

MKMM

K

K

(conform proprietăţii 3),

deci matricea B astfel construită este unitară.

⋅⋅

=⋅⋅⇒ −

MMMM

MMMM

LL

MMM

LL

LL

N

TN

T

T

xxxA

x

xx

BAB ...21

*

*2

*1

1 =

=

⋅⋅⋅⋅

=

N

NN

TN

T

T

λ

λλ

λλλ

K

MKMM

K

K

MMMM

MMMM

LL

MMM

LL

LL

00

0000

... 2

1

2211

*

*2

*1

xxx

x

xx

( ) ΛBAB ==⋅⋅⇒ −Ndiag λλ ,...,1

1

Prin urmare, alegând matricea B ca având pe coloane vectorii proprii normaţi ai matricea A şi matricea Λ având pe diagonală valorile proprii corespunzătoare, este verificată relaţia:

ΛBAB =⋅⋅H (4.22)

98

4.3. Transformări unitare ale unor semnale unidimensionale

O transformare liniară de la NN CC → este unitară dacă este reprezentată de o matrice unitară )(CNN×∈MA .

Dacă notăm cu u(l) un semnal unidimensional discret, cu N eşantioane ( Nl ,1= ) şi cu v(m) semnalul eşantionat transformat:

=

)(

)1(

Nu

uMU ,

=

)(

)1(

Nv

vMV

În scriere matriceală: UAV ⋅= , (4.23)

VAVAU ⋅=⋅=⇒ − T*1 (4.24)

unde ( ) Nmlm la ,1,)( ==A . Indicele m semnifică indicele semnalului

din baza de semnale, iar argumentul l semnifică eşantionul m din baza de semnale. Matricea A se scrie extins:

=

)()2()1(

)()2()1()()2()1(

222

111

Naaa

NaaaNaaa

NNN K

MMMM

K

K

A

Cu aceste notaţii, relaţiile (4.19) şi (4.20) se scriu, pe componente:

∑=

⋅=N

lm lulamv

1)()()( (4.25)

∑=

⋅=N

mm mvlalu

1

* )()()( (4.26)

NmmmlalaN

lmmN

T ,1),'()()(1

*'

* ∑=

=−=⋅⇔=⋅ IAA δ (4.27)

99

NllllalaN

lmmN

T ,1),'()'()(1

** ∑=

=−=⋅⇔=⋅ IAA δ (4.28)

unde: =

=în restx

x ,0

0,1)(δ , adică

≠=

=−',,0

',1)'(

llîn restll

ll

δ

este impulsul Dirac. Coloanele matricei unitare A formează o bază ortonormată în spaţiul vectorial CN. Prima condiţie de mai sus (4.23) exprimă condiţia de ortonormalitate, iar cea de-a doua condiţie (4.24) exprimă condiţia de completitudine a bazei. Transformata unitară directă a unei secvenţe este:

∑=

⋅=N

lm lulamv

1)()()( (4.29)

iar transformata unitară inversă este:

∑=

⋅=N

mm mvlalu

1

* )()()( (4.30)

Condiţia ca transformata să fie unitară este:

∑=

−=⋅N

lmm mmlala

1

*' )'()()( δ (4.32)

care exprimă condiţia de completitudine.

∑=

−=⋅N

mmm lllala

1

* )'()'()( δ (4.32)

exprimă condiţia de ortonormalitate.

100

4.4. Transformări unitare ale unor semnale bidimensionale

Se spune că un semnal ( )( ) 1,0,, −= Nnmnmv se obţine prin aplicarea

unei transformări unitare asupra semnalului ( )( ) 1,0,, −= Nklklu , dacă:

∑ ∑−

=

−

=⋅=

1

0

1

0, ),(),(),(

N

l

N

knm kluklanmv este transformarea directă (4.33)

∑ ∑−

=

−

=⋅=

1

0

1

0

*, ),(),(),(

N

m

N

nnm nmvklaklu este transformarea inversă (4.34)

Condiţia de completitudine se scrie în acest caz:

==

=−−=⋅∑ ∑−

=

−

= restîn ,0'

',1

)','()','(),(.1

0

1

0

*,, kk

llkkllklakla

defN

m

N

nnmnm δ (4.35)

Condiţia de ortonormare se scrie:

==

=−−=⋅∑ ∑−

=

−

= restîn ,0''

,1)','(),(),(

.1

0

1

0

*',', nn

mmnnmmklakla

defN

l

N

knmnm δ (4.36)

În ceea ce priveşte numărul de operaţii, un algoritm are complexitatea O(NP) dacă numărul de numărul de operaţii (înmulţiri, adunări etc) este proporţional cu Np, atunci când secvenţa de date are lungimea N. În cazul transformărilor unitare unidimensionale,

∑−

=⋅=

1

0)()()(

N

lm lulamv , numărul de operaţii necesare Nx pentru a calcula

v(m) este Nx= N2. Prin urmare, complexitatea algoritmului de calcul a lui v(m) este O(N2).

101

În cazul bidimensional, numărul de operaţii necesare pentru a

calcula ∑ ∑−

=

−

=⋅=

1

0

1

0, ),(),(),(

N

k

N

lnm kluklanmv este de ordinul a Nx= N4, deci

complexitatea algoritmului este O(N4), însă adesea se încearcă reducerea complexităţii algoritmului. Se spune că o transformare unitară bidimensională este separabilă dacă coeficienţii transformării se pot scrie: )()(),( kblakla nmmn ⋅= (4.37)

În acest caz:

∑ ∑−

=

−

=⋅⋅=

1

0

1

0),()()(),(

N

l

N

knm klukblanmv (4.38)

Se poate arăta că dacă o transformare unitară bidimensională este separabilă, complexitatea algoritmului său de calcul se reduce la O(N3), adică Nx= N3, deoarece relaţia de mai sus se poate scrie şi:

∑ ∑−

=

−

=⋅⋅=

1

0

1

0),()()(),(

N

l

N

knm klukblanmv (4.39)

Pentru a ilustra scrierea matriceală a unei transformări unitare separabile (ultimul argument a lui bn(k) trebuie să coincidă cu primul argument a lui u(l,k)), relaţia de mai sus se poate scrie şi:

∑ ∑−

=

−

=⋅⋅=

1

0

1

0)(),()(),(

N

l

N

knm lbklulanmv (4.40)

În acest caz, transformarea unitară directă separabilă se poate scrie:

TBuAv ⋅⋅= , (4.41)

unde ( )( ) 1,0, −== Nlmm laA , ( )( ) 1,0, −== Nlnn lbB sunt matricile

unitare în care se poate separa transformarea iniţială. Transformarea inversă se poate scrie:

( ) 11 −− ⋅⋅= TBvAu (4.42)

102

Deoarece A şi B sunt, la rândul lor, matrici unitare, adică

TAA *1 =− şi TBB *1 =− , deci ( ) ( ) *11BBB

TT == −−, transformarea

inversă se mai poate scrie:

** BvAu T ⋅⋅=⇒ (4.43) Un caz particular, îl constituie cazul în care matricile unitare A şi B sunt egale, A = B. În acest caz, transformarea directă este:

∑ ∑−

=

−

=⋅⋅=

1

0

1

0),()()(),(

N

l

N

knm klukalanmv (4.44)

iar transformarea inversă este:

∑ ∑−

=

−

=⋅⋅=

1

0

1

0

** ),()()(),(N

m

N

nnm nmvlalaklu (4.45)

Aceste relaţii trebuie însoţite de condiţiile de ortonormalitate şi completitudine.

Spaţiul matricilor pătrate )(CNN×M are dimensiunea N2. În spaţiul

matricilor pătrate de dimensiune N×N se poate defini o transformare unitară bidimensională şi prin utilizarea produsului vectorial, după cum se va arăta în continuare.

Dacă matricile )(, CNNYX ×∈M , unde 1,0,)( −== NjiijxX ,

1,0,)( −== NjiijyY , produsul scalar al celor două matrici se defineşte prin

relaţia:

∑ ∑=−

=

−

=⋅

1

0

*1

0

.,

N

iij

N

jij

defyxYX (4.46)

Prin urmare, produsul scalar dă spaţiului )(CNN×M o structură de

spaţiu Hilbert (un spaţiu liniar cu un produs scalar). În acest spaţiu se va

fixa o matrice unitară A, care are elementele ( )( ) 1,0, −== Nlmm laA , deci:

103

= −

|||

|||

110.

... Nnot

aaaA (4.47)

În acest spaţiu se poate construi o bază B în )(CNN×M astfel:

{ } 1,0,*

−== NnmmnAB , unde *** Tnmmn aaA ⋅= , vectorii *

ma fiind vectori

coloană (N×1), iar vectorii *na sunt vectori linie (1×N).

Pentru a verifica dacă B este o bază în spaţiul )(CNN×M se

procedează prin reducere la absurd, presupunând că B nu este o bază în spaţiul )(CNN×M . Prin urmare rezultă că există matricile:

C∈∃⇒ mnα , nu toate nule, a.î. ∑ ∑−

=

−

=×=⋅

1

0

1

0

* 0N

m

N

nNNmnmn Aα la⋅

Înmulţind relaţia de mai sus cu al, se obţine relaţia:

∑ ∑−

=

−

==⋅⋅⋅⇒

1

0

1

0

** 0N

m

N

nl

Tnmmn aaaα (4.48)

în care:

≠=

=−=⋅lnln

lnaa lT

n pt. ,0 pt. ,1

)(* δ ,

deoarece matricea A este unitară. Prin urmare:

∑−

==⋅⇒

1

0

* 0N

mmmnl aα , (4.49)

adică componentele ak sunt liniar dependente, ceea ce este fals, deoarece coloanele unei matrici unitare formează o bază în spaţiul N×N, deci sunt liniar independente.

Deoarece { } 1,0,*

−== NnmmnAB , unde *** Tnmmn aaA ⋅= este o bază în

spaţiul )(CNN×M :

∑ ∑−

=

−

=× ⋅=

1

0

1

0

*),(),(N

m

N

nmnNN Anmvklu (4.50)

104

Din algebra liniară se ştie că: *,),( mnAunmv = . Astfel, rezultă:

( )( )∑ ∑−

=

−

=⋅==

1

0

1

0

*** ,),(,),(N

l

N

kmnmn klakluAunmv (4.51)

Dar: )()(),( *** kalaklA nmmn ⋅= .

∑ ∑−

=

−

=⋅⋅=⇒

1

0

1

0)()(),(),(

N

l

N

knm kalaklunmv (4.52)

4.5. Transformata Fourier discretă unidimensională (DFT-1D)

Deoarece transformarea Fourier este una din transformările cel mai des utilizate în domeniul prelucrărilor de imagini, în continuare va fi prezentată transformata Fourier discretă unidimensională şi proprietăţile acesteia. Transformata Fourier discretă unidimensională DFT-1D directă a unei secvenţe discrete u(k) este definită prin relaţia:

∑−

=

⋅−⋅=

1

0

2exp)()(N

kkm

Njkumv π , unde 1,0 −= Nm (4.53)

Transformata Fourier discretă unidimensională DFT-1D inversă este definită prin relaţia:

∑−

=

⋅⋅=

1

0

2exp)(1)(N

mkm

Njmv

Nku π , unde 1,0 −= Nk (4.54)

Matricea transformării DFT-1D este:

1,0,

2exp−=

⋅−

Nkmkm

Nj π , unde m este indicele de linie şi k indicele

de coloană. Se poate defini transformata DFT-1D unitară prin relaţiile:

∑−

=

⋅−⋅=

1

0

2exp)(1)(N

lkm

Njku

Nmv π , (4.55)

105

pentru transformata DFT-1D directă

∑−

=

⋅⋅=

1

0

2exp)(1)(N

mkm

Njmv

Nku π , (4.56)

pentru transformata DFT-1D inversă. Se poate arăta că matricea transformării,

1,0,

2exp1

−=

⋅−⋅=

Nkmkm

Nj

NF π , este o matrice unitară, adică

NTT IFFFF =⋅=⋅ ** .

4.6. Proprietăţi ale transformatei DFT-1D 1. Inversa matricei DFT-1D este egală cu conjugata matricei DFT-1D:

1,0,

. 2exp1

−=

⋅−⋅=

Nkm

defkm

Nj

NF π (4.57)

=

=⇒

− *1 FF

FF T, deoarece 1** −== FFF T , unde: (4.58)

1,0,

*1 2exp1

−=

−

⋅⋅==

Nkmkm

Nj

NFF π (4.59)

2. Extensia vectorului transformat este periodică, )()( mvNmv =+ : (4.60)

( )∑−

==

⋅+−⋅=+

1

0

2exp)()(N

kkNm

NjkuNmv π

=

⋅−⋅

⋅−⋅= ∑

−

=

1

0

2exp2exp)(N

kkN

Njkm

Njku ππ

106

∑−

==

⋅−⋅=

1

0)(2exp)(

N

kmvkm

Njku π (4.61)

deoarece:

1)2sin()2cos(2exp =⋅⋅−⋅=

⋅− kjkkN

Nj πππ

3. În vectorul transformat v, componentele sunt conjugat simetrice:

=

± mNvmNv m

22* , unde 1

2,0 −=

Nm (4.62)

Grafic: x x*

0 N-1N/2 Figura 4.2. Componentele vectorului transformat v sunt conjugat

simetrice.

4. DFT-1D este spectrul eşantionat al semnalului discret u(k) extins cu 0 în afara intervalului [0,N-1].

Modelul matematic al semnalului eşantionat, extins cu 0 în rest este:

∑−

=−⋅=

1

0)()()(

N

kkttuku δ (4.63)

ω

A

Figura 4.3. Spectrul eşantionat al semnalului discret u(k) extins cu 0.

Spectrul semnalului este:

107

( ) =⋅

−⋅=⋅= ∫ ∑∫

∞

∞−

⋅⋅−−

=

∞

∞−

⋅⋅− dtektkudtetuU tjN

k

tj ωω δω1

0)()()(

∑∑ ∫−

=

⋅⋅−−

=

∞

∞−

⋅⋅− ⋅=⋅−⋅=1

0

1

0)()()(

N

k

kjN

k

tj ekudtektku ωωδ (4.64)

Comparând această relaţie cu transformata Fourier discretă:

∑−

=

⋅⋅−⋅=

1

0

2

)()(N

k

kmN

jekumv

π

mN

Umv πωω 2)()( ==⇒ (4.65)

v(0) v(1)

v(2)

-2π -π π 2π Nπ2

Nπ22 … … ω

A

Figura 4.4. Spectrul semnalului.

5. Algoritmul rapid FFT al DFT (engl. FFT = Fast Fourier Transform)

reduce complexitatea algoritmului de calcul al DFT de la N2 la NN 2log⋅ operaţii, unde N=2p este par:

( ) ( )NONOFFT

22 log→ , dacă N=2p. (4.66)

6. Transformata DFT transformă convoluţia circulară în produs.

Convoluţia circulară este:

)()()(.

lZlYlXnot

c =∗ , unde 1,0 −= Nl

108

( )( )∑−

=⋅−=

1

0

.)(mod)(

N

i

defiYNilXlZ (4.67)

Acest mod de a defini simetria circulară limitează lungimea secvenţei Z la N.

Teorema convoluţiei circulare: Dacă:

{ }{ }{ }

===

)()()()()()(

lZDFTmZlYDFTmYlXDFTmX

şi )()()( lYlXlZ c∗= (4.68)

)()()( mYmXmZ ⋅=⇒ 4.7. Transformata Fourier discretă bidimensională (DFT-2D)

Transformata Fourier discretă bidimensională (DFT – 2D) este una

din transformările cel mai des utilizate în domeniul prelucrărilor de imagini. În mod similar cazului unidimensional, DFT – 2D este utilă la analiza spectrală a imaginilor digitale.

Transformata Fourier discretă bidimensională directă a unei imagini discrete { }110,),( ,...,N-,l,kuU kl == se defineşte astfel:

( ) =

⋅+⋅−⋅= ∑ ∑

−

=

−

=

1

0

1

0

2exp),(),(N

l

N

kknlm

Njklunmv π

∑ ∑−

=

−

=≤≤⋅=

1

0

1

010),,(),(

N

l

N

kmn N-m,nklaklu (4.69)

unde: ( )

⋅+⋅−= knlm

Njklamn

π2exp),( .

109

După cum se observă, această relaţie se mai poate scrie:

=

⋅⋅−⋅

⋅⋅−⋅= ∑ ∑

−

=

−

=

1

0

1

0

2exp2exp),(),(N

l

N

kkn

Njlm

Njklunmv ππ

∑ ∑−

=

−

==⋅⋅=

1

0

1

0)()(),(

N

l

N

knm kclbklu

∑ ∑−

=

−

=

⋅⋅ ⋅⋅=1

0

1

0),(

N

l

N

k

knN

lmN WWklu (4.70)

unde:

⋅−= lm

Njb lm

π2exp)(

⋅−= kn

Njc kn

π2exp)(

−=

NjWN

π2exp

Această rescriere a DFT – 2D directă, scoate în evidenţă proprietatea sa de separabilitate. Transformata DFT – 2D inversă este:

( )∑ ∑−

=

−

==

⋅+⋅⋅=

1

0

1

022exp),(1),(

N

m

N

nknlm

Njnmv

Nklu π

∑ ∑−

=

−

==⋅⋅=

1

0

1

0

**2 )()(),(1 N

m

N

nnm kclbnmv

N

∑ ∑−

=

−

=

⋅−⋅− ⋅⋅=1

0

1

02 ),(1 N

m

N

n

knN

lmN WWnmv

N (4.71)

110

unde bm(l), cn(k) şi WN au aceleaşi semnificaţii ca mai sus. Se poate arăta că transformarea astfel definită nu este o transformare unitară. Transformata DFT – 2D unitară directă se defineşte astfel:

( ) =

⋅+⋅−⋅= ∑ ∑

−

=

−

=

1

0

1

0

2exp),(1),(N

l

N

kknlm

Njklu

Nnmv π

∑ ∑−

=

−

=

⋅⋅ ⋅⋅=1

0

1

0),(1 N

l

N

k

knN

lmN WWklu

N (4.72)

DFT-2D unitară inversă este:

( ) =

⋅+⋅−⋅= ∑ ∑

−

=

−

=

1

0

1

0

2exp),(1),(N

m

N

nknlm

Njnmv

Nklu π

∑ ∑−

=

−

=

⋅⋅ ⋅⋅=1

0

1

0),(1 N

m

N

n

knN

lmN WWnmv

N (4.73)

Se poate defini matricea transformării DFT-2D unitare:

1,01,0

1,01,0

2exp12exp1

−=−=

−=−=

⋅−⋅

⋅−=

NkNn

NlNm

knN

jN

lmN

jN

F ππ (4.74)

care este o matrice unitară ( )NTT IFFFF =⋅=⋅ ∗∗ .

Astfel, relaţiile ce definesc DFT – 2D unitară directă şi inversă se pot scrie şi sub formă matricială: • DFT – 2D unitară directă:

FUFFUFV T ⋅⋅=⋅⋅= , (4.75)

deoarece se observă mai sus că: TFF =

111

• DFT – 2D unitară inversă: ∗∗−− ⋅⋅=⋅⋅= FVFFVFU 11 , (4.76)

deoarece:

NTT IFFFF =⋅=⋅ ∗∗ ∗∗ ==⇒ FFF T-1

4.8. Proprietăţi ale transformatei DFT-2D 1. Datorită separabilităţii sale, aplicarea DFT – 2D se poate face în 2 paşi:

• mai întâi se aplică DFT – 1D pe linii (sau pe coloane) • rezultatului i se aplică DFT – 1D pe coloane (sau pe linii).

Datorită acestui fapt, se poate trage concluzia că DFT – 2D are algoritm rapid de calcul, deoarece DFT – 1D are algoritm rapid de calcul. Astfel, se poate arăta că algoritmul rapid necesar pentru

obţinerea DFT – 2D are complexitatea ( )NNO log2 ⋅ , în loc de

( )3NO cât ar fi dacă nu ar fi separabilă.

2. Extensia DFT – 2D este periodică, adică: NqpnmNqnNpm vv ∈∀⋅+⋅+ = ,),(),( , (4.77)

3. Pentru o imagine u reală, elementele DFT – 2D sunt conjugat simetrice

faţă de jumătatea imaginii transformate v (figura 4.5), adică:

=

±± nNmNvnNmNv mm

2,

2*

2,

2 (4.78)

112

N

N

Figura 4.5. Elementele DFT – 2D sunt conjugat simetrice faţă de

jumătatea imaginii transformate.

De aici se poate trage concluzia că DFT – 2D este complet determinată de N2 numere reale şi nu de 2N2 câte ar trebui să aibă în mod normal (fiecare are parte reală şi imaginară).

4. Una dintre cele mai importante proprietăţi ale transformatei Fourier rezultă din aşa-numita ”teoremă a convoluţiei”. Conform acesteia, transformata DFT – 2D a produsului de convoluţie a două secvenţe bidimensionale x1 şi x2 este egală cu produsul simplu a transformatelor DFT – 2D a celor două secvenţe, adică:

{ } { } { }),(),(),(),( 2121 nmxFnmxFnmxnmxF ⋅=⊗ (4.79)

unde cu F{x} s-a notat DFT–2D a secvenţei bidimensionale x şi cu

21 xx ⊗ s-a notat produsul de convoluţie a lui x1 cu x2, definit anterior.

Această proprietate permite calculul convoluţiei a două secvenţe bidimensionale prin următoarea metodă: • se calculează DFT–2D directă a celor 2 secvenţe, printr-un

algoritm rapid de calcul (FFT=Fast Fourier Transform); • se efectuează produsul celor 2 transformate; • se calculează DFT–2D inversă a rezultatului.

113

Această metodă este frecvent aplicată la filtrarea digitală a imaginilor. DFT-2D este de asemenea utilă pentru determinarea unor parametri utilizaţi în procesele de analiză a imaginilor.

5. DFT-2D este spectrul eşantionat al semnalului eşantionat. Semnalul eşantionat se poate scrie:

∑ ∑−

=

−

=−−⋅=

1

0

1

0),(),(),(

N

l

N

kkylxyxuklu δ (4.80)

Spectrul semnalului este:

( )dxdyeu(x,y)U yxj ⋅+⋅−⋅= ∫∫ ηξηξR

),( (4.81)

Se poate arăta că: n

Nm

NUnmV πηπξηξ 2,2),(),( === (4.82)

4.9. Transformata Cosinus discretă unidimensională Matricea transformării Cosinus discretă unidimensională (DCT-1D) este ( ) Nlmm lcC ,1,)( == care are elementele:

( )

=

⋅+

⋅

==

=Nlm

Nml

N

NlmN

lcm,1,,

212cos2

,1,0,1

)(π

(4.83)

Notând:

=

==

NmN

mNm

,1,2

0,1

)(α (4.84)

DCT-1D directă se poate rescrie:

114

( )∑=

⋅+

⋅⋅=N

l Nmlmlumv

1 212cos)()()( πα (4.85)

DCT-1D inversă este:

( )∑=

⋅+

⋅⋅=N

m Nmlmmvlu

1 212cos)()()( πα (4.86)

Se poate arăta că matricea C a transformării DCT-1D este unitară,

adică NTT ICCCC =⋅=⋅ ** . Pe de altă parte, deoarece matricea C este

reală:

TT CCC ==⇒ − *1 (4.87) Observaţie: Transformarea cosinus discretă DCT-1D se poate obţine din DFT-1D a secvenţei simetrice de lungime 2N construită astfel: )()1(...)2()1()1()2(...)1()( NuNuuuuNuNu −− (4.88)

… …

u(N) u(N-1) u(2) u(1) u(1)u(2) u(N-1) u(N)

u(m)

…

u(1) u(2) u(N-1) u(N)

u(m)

DFT-1D DCT-1D

Figura 4.6. Obţinerea DCT-1D din DFT-1D de lungime 2N.

sau:

)1()2(...)1()()()1(...)2()1( uuNNuNuNuuu −− (4.89)

115

… …

u(N) u(N-1) u(2) u(1)u(1) u(2) u(N-1) u(N)

u(m)

Figura 4.7. Obţinerea DCT-1D din DFT-1D de lungime 2N.

În acest fel, în cazul DCT-1D nu mai apar variaţii bruşte în spectru, variaţii care au ca rezultat componente importante la frecvenţe înalte, ca în cazul DFT-1D )2()1(...)2()1( −− NuNuuu

Consecinţă: Deoarece DCT-1D se poate construi din DFT-1D care are un

algoritm de calcul rapid, rezultă că şi DCT-1D are un algoritm de calcul rapid, care reduce numărul de operaţii la )1(log)1(2 2 +⋅+⋅ NN , adică

)log( 2 NNO ⋅⇒ .

4.10. Transformata Cosinus Discretă bidimensională DCT-2D

Transformata Cosinus discretă bidimensională (DCT-2D) a unei imagini u(l,k) de dimensiune N×N (l,k= N,1 ) se defineşte astfel:

( ) ( )

=

⋅

+⋅

⋅

+⋅⋅⋅= ∑ ∑

= =n

Nkm

Nlklunmnmv

N

l

N

k 212cos

212cos),()()(),(

1 1

ππαα

∑ ∑= =

⋅=N

l

N

kmn klaklu

1 1),(),( (4.90)

116

unde: m,n=1,2,...,N

=

==

,...,N,mN

mNm

21pentru,2

1pentru,1

)(

α (4.91)

⋅

+⋅

⋅

+⋅⋅= n

Nkm

Nlnmklamn 2

)12(cos2

)12(cos)()(),( ππαα (4.92)

În mod similar se defineşte şi DCT-2D inversă:

=

⋅

+⋅

⋅

+⋅⋅⋅= ∑ ∑

= =n

Nkm

Nlnmvnmklu

N

l

N

k 2)12(cos

2)12(cos),()()(),(

1 1

ππαα

∑ ∑= =

⋅=N

l

N

kmn klaklu

1 1),(),( (4.93)

iar α(m) şi α(n) au fost definite mai sus.

Deoarece matricea transformării DCT-1D este:

( )Nml

mN

lmmlC,1,2

)12(cos),(=

⋅

+⋅=

πα (4.94)

DCT-2D directă şi inversă se pot scrie şi sub formă matriceală:

V=C⋅U⋅CT = DCT-2D directă (4.95)

( ) CVCCVCU TT ⋅⋅=⋅⋅=−− 11 = DCT-2D inversă, (4.96)

deoarece TCC =−1 .

Deoarece DCT-2D este separabilă, rezultă că obţinerea DCT-2D se poate face în doi paşi:

117

• întâi se aplică DCT-1D pe linii (sau pe coloane):

∑=

⋅

+⋅⋅=⇒

N

kn

Nkklunnlv

1 2)12(cos),()(),(' πα (4.97)

• rezultatului i se aplică DCT-1D pe coloane (sau pe linii):

∑−

=

⋅

+⋅⋅=⇒

1

0 2)12(cos),(')(),(

N

lm

Nlnlvmnmv πα (4.98)

După cum s-a arătat, DCT-1D se poate obţine din DFT-1D a secvenţei simetrice de lungime 2N, construită astfel: )()1(...)2()1()1()2(...)1()( NuNuuuuNuNu −− sau: )1()2(...)1()()()1(...)2()1( uuNNuNuNuuu −−

Ca şi în cazul unidimensional, se poate arăta că DCT-2D se poate obţine prin intermediul transformatei Fourier DFT. Astfel, DCT-2D se poate calcula ca fiind transformata Fourier a unei imagini u’ extinse, de dimensiune 2N×2N:

∑ ∑= =

⋅⋅ ⋅⋅=N

l

N

k

nkN

mlN WWklunmF

2

1

2

122),('),( , (4.99)

unde:

−=

NjWN

π2exp .

unde, imaginea extinsă u’ se obţine din imaginea iniţială u, astfel:

118

≤≤≤≤

−−−−

≤≤≤≤

≤≤≤≤

−−

≤≤≤≤

=

1212

pentru),12,12(

1210

pentru12

1012

pentru),,12(

1010

pentru),,(

),('

N-kNN-lN

kNlNu

N-kNN-l

), N-k-u(l,

N-kN-lN

klNu

N-kN-l

klu

klu (4.100)

Relaţia care face legătura între cele două transformări este:

),(),( 2/2

2/2 nmFWWnmv n

NmN ⋅⋅= (4.101)

În concluzie, calculul DCT-2D se reduce practic la calculul

DFT-2D pe o imagine cu o arie de patru ori mai mare decât imaginea iniţială (figura 4.8):

2N

2N

N N

Figura 4.8. Obţinerea DCT-2D a unei imagini, din DFT-2D pentru o

imagine cu o arie de patru ori mai mare decât imaginea iniţială. Această variantă de obţinere a DCT-2D are dezavantajul că necesită un volum de calcul relativ mare datorită imaginii de dimensiuni mari (2N×2N) asupra căreia se aplică DFT-2D. O alta variantă de obţinere a DCT-2D prin intermediul DFT-2D şi care elimină dezavantajul prezentat mai sus, constă în utilizarea unei secvenţe (imagini) bidimensionale u’ obţinută din imaginea iniţială u, astfel:

119

≤≤

+

≤≤

+

−−−−

≤≤

+

≤≤

≤≤

≤≤

+

−−

≤≤

≤≤

=

12

1

12

1

),12,12(

12

12

10pentru12

210

12

1

pentru),,12(

210

210

pentru),,(

),('

N-kN

N-lN

kNlNu

N-kN

N-l), N-k-u(l,

N-k

N-lN

klNu

N-k

N-lklu

klu

pentru (4.102)

Astfel, secvenţa (imaginea) u’(l,k) păstrează dimensiunea N×N a

imaginii iniţiale. DCT –2D a imaginii iniţiale u se poate calcula în funcţie de DFT –2D a secvenţei u’(l,k) (care se va nota cu F(m,n)) astfel :

[ ]{ }=−⋅+⋅⋅⋅= − ),(),(Re2),( 444 nNmFWnmFWWnmV nN

nN

mN

[ ]{ } ),(),(Re2 444 nNmFWnmFWW nN

mN

nN −⋅+⋅⋅= − (4.103)

Prin urmare, au fost prezentate 2 metode de obţinere a DCT-2D

prin intermediul DFT-2D. În ambele cazuri, algoritmul de calcul al DCT–2D este următorul: • se obţine imaginea (secvenţa) u’(l,k) din imaginea iniţială u(l,k); • se calculează DFT–2D a imaginii u’(l,k), care se notează cu F;

120

• se calculează DCT–2D, utilizând relaţia de legătură corespunzătoare, între cele 2 transformate.

De aici se poate trage şi concluzia că, deoarece DCT–2D se poate obţine prin intermediul DFT şi deoarece DFT are algoritm rapid de calcul, rezultă că şi DCT–2D are algoritm rapid de calcul.

4.11. Transformata Sinus discretă unidimensională DST-1D Matricea transformării este ( ) Nmlm lsS ,1,)( == care are elementele:

++⋅+⋅

⋅+

=1

)1()1(sin1

2)(N

lmN

lsmπ (4.104)

Pentru a arăta că transformarea S este unitară, trebuie verificate condiţiile de completitudine şi ortonormalitate. Se observă că S este o matrice reală şi simetrică, adică sk(m)=sm(k):

SSS ==⇒ − T*1 . (4.105) Deoarece:

USV ⋅= este transformarea directă, rezultă că transformarea inversă este:

VSVSU ⋅=⋅=⇒ −1 (4.106)

Observaţie: Transformarea sinus unidimensională discretă DST-1D se poate obţine din transformarea Fourier unidimensională discretă DFT-1D, prin secvenţa antisimetrică de lungime 2·(N+1) construită astfel:

(4.107) )()1()2()1(0)1()2()1()(0 NuNuuuuuNuNu −−−−−− KK

121

… … 0 0

0 0

u(N) u(N-1) u(2) u(1)

u(1) u(2) u(N-1) u(N)

Figura 4.9. Obţinerea DST-1D din DFT-1D, prin secvenţa antisimetrică de lungime 2·(N+1).

Consecinţă: Deoarece DST-1D se poate construi din DFT-1D care are un algoritm de calcul rapid, rezultă că şi DST-1D are un algoritm de calcul rapid, care reduce numărul de operaţii la )1(log)1(2 2 +⋅+⋅ NN , adică

)log( 2 NNO ⋅⇒ .

4.12. Transformata Sinus discretă bidimensională DST-2D

Transformata Sinus discretă bidimensională DST-2D este transformarea bidimensională separabilă care are matricele A = B = S, unde S este matricea DST-1D definită anterior.

Transformata Sinus directă bidimensională este definită prin relaţia:

SUSSUSV ⋅⋅=⋅⋅= T , deoarece SS =T (4.108) iar transformata Sinus inversă este definită prin relaţia:

SVSSVSU ⋅⋅=⋅⋅= −− 11 , deoarece SS =−1 (4.109) Observaţie: Calculul DST-2D se poate face în 2 paşi: se aplică DST-1D pe linii, iar rezultatului i se aplică DST-1D pe coloane sau invers.

122

5. Restaurarea imaginilor

O imagine poate fi degradată pe parcursul achiziţiei, transmisiei,

prelucrării sau analizei sale. Problema restaurării unei imagini degradate se pune astfel: având o imagine digitală originală f(l,k) care a suferit un proces de degradare echivalent cu o filtrare h(l,k) se obţine o imagine degradată f’(l,k), peste care se suprapune un zgomot z(l,k), rezultatul fiind imaginea degradată f”(l,k).

Prin restaurare se doreşte determinarea unei metode de estimare care pornind de la imaginea degradată f”(l,k) să conducă la un rezultat cât mai apropiat de imaginea originală f(l,k), relativ la un anumit criteriu, care poate fi, de exemplu, eroarea medie pătratică. În general, în modelul degradării (figura 5.1) se acceptă o filtrare liniară h(l,k).

+ f(l,k)

h(l,k) f'(l,k)

z(l,k)

f"(l,k)

Figura 5.1. Modelul degradării unei imagini.

De exemplu, funcţiei h(l,k) îi poate corespunde nefocalizarea

obiectivului camerei sau mişcării aparatului foto în timpul expunerii. Se doreşte ca pornind de la imaginea degradată f”(l,k) să se obţină estimarea imaginii originale tot printr-o filtrare liniară g(l,k) deoarece în acest caz sunt calcule mai puţine:

f"(l,k) g(l,k)

),(ˆ klf),(),(ˆ klfklf ≅

Criteriul de comparare va fi ales cel al erorii medii pătratice:

123

∑ ∑= =

−=L

l

K

kklfklf

1 1

2),(ˆ),(ε , unde C∈),( klf (5.1)

∑ ∑= =

⋅−−=∗=L

i

K

jjihjkilfklhklfklf

1 1),(),(),(),(),(' (5.2)

),(),('),(" klzklfklf += (5.3)

5.1. Filtrarea inversă Dacă zgomotul ar fi inexistent (z=0) cea mai simplă metodă de restaurare ar fi ca g să fie filtrul invers lui h. Se va nota cu F(m,n) transformata Fourier discretă a funcţiei f(l,k):

{ }),(),(.

klfDFTnmFnot= (5.4)

),(),(),(),(" nmZnmHnmFnmF +⋅= (5.5)

Dacă: 0),( =klz , 0),( =⇒ nmZ (5.6) ),(),(),(" nmHnmFnmF ⋅= (5.7)

Funcţia de transfer a filtrului de restaurare va fi, în acest caz:

),(),( 1 nmHnmG −= (5.8)

Transformata Fourier a estimării imaginii iniţiale va fi:

),(),("),(ˆ 1 nmHnmFnmF −⋅= (5.9)

Pentru z=0: ),(),(),(),(ˆ 1 nmHnmHnmFnmF −⋅⋅=⇒ (5.10) Dacă zgomotul este nenul: 0),(0 ≠⇒≠ nmZz . În acest caz, se consideră că raportul semnal-zgomot (RSZ):

• pentru semnale audio, un RSZ bun este un RSZ >20 dB • pentru imagini, un RSZ bun este un RSZ >30 dB

În prezenţa zgomotului, relaţiile anterioare se scriu:

124

[ ] ),(),(),(),(),(ˆ 1 nmHnmZnmHnmFnmF −⋅+⋅= (5.11) 1ˆ −⋅+=⇒ HZFF (5.12)

Dacă H are zerouri, rezultă că H-1 are poli. Rezultă că 1−⋅ HZ are valori mari în vecinătatea polilor.

Exemplu: în cazul unidimensional (1D):

H-1

H F

1ˆ −⋅+= HZFF

Figura 5.2. Exemplu de filtrare inversă în cazul 1D.

Dacă zgomotul z este zgomot alb, rezultă că Z(m,n) este constant. 1−⋅⇒ HZ are valori mari în vecinătatea zerourilor lui H.

F⇒ este mult diferit de F f⇒ este mult diferit de f.

f

f

Figura 5.3. Semnalul original şi semnalul restaurat prin filtrare inversă,

din semnalul original degradat cu zgomot alb.

125

În figura 5.3 f reprezintă rezultatul restaurării, adică a estimării semnalului original f.

5.2. Filtrul invers cu constrângeri

Lanţul complet al procesului de degradare şi restaurare este reprezentat în figura 5.4.

+ f

h f'

z

f" g f

degradare restaurare

Figura 5.4. Lanţul degradare-restaurare al unei imagini.

Dacă s-ar filtra f cu h s-ar obţine ceva apropiat de f’. Dar

diferenţa dintre f filtrat cu h ( hf ∗ˆ ) şi f” este zgomotul z. Energia zgomotului este presupusă a fi cunoscută:

∑ ∑= =

=L

m

K

nz nmZE

1 1

2),( = cunoscută (5.13)

Prin urmare, energia diferenţei dintre hf ∗ˆ şi f” se doreşte a fi egală cu energia zgomotului:

zhff EE =∗− ˆ" (5.14)

Dar: ∑ ∑= =

⋅−−=∗L

i

K

jjihjkilfklhklf

1 1),(),(),(),(ˆ (5.15)

zL

l

K

KEklhklfklf =∗−⇒ ∑ ∑

= =1 1

2),(),(ˆ),(" (5.16)

126

Se presupune cunoscut filtrul de degradare h. În acest caz rezultă un sistem de ecuaţii cu L×K necunoscute, pornind de la f(l,k), unde

Ll ,1= , Kk ,1= .

Se impune ca energia derivatei lui f să fie minimă, pentru ca abaterile faţă de f să fie cât mai mici. Pentru aceasta se consideră un nucleu de filtrare c=c(l,k) care să reprezinte o măsură a derivatei ( de ex. un laplacean sau un gaussian). Operaţia de filtrare cu nucleul c este echivalentă cu o convoluţie discretă, proporţională cu derivata:

),(),(ˆ klcklf ∗ , în domeniul spaţial (5.17)

),(),(ˆ nmCnmF ∗ , în domeniul spectral (5.18) Se doreşte ca cfE ∗ˆ să fie minimă, adică:

∑ ∑= =

∗L

l

K

kklcklf

1 1

2),(),(ˆ să fie minimă. (5.19)

Prin urmare, trebuie minimizată relaţia (5.19) cu constrângerea (5.16).

Din teorema lui Parceval, se ştie că:

∑ ∑= =

=L

l

K

kf lkfE

1 1

2),(ˆ

D1→ ∑ ∑

= =

L

m

K

nnmF

1 1

2),(

Aplicând teorema lui Parceval relaţiei (5), după aplicarea prealabilă a transformatei Fourier, se obţine:

zL

m

K

nEnmHnmFnmF

KL=⋅−

⋅⇔ ∑ ∑

= =,1 1

2),(),(ˆ),("1)16.5( (5.20)

∑ ∑= =

⋅⋅

⇔L

m

K

nnmCnmF

KL ,1 1

2),(),(ˆ1)19.5( = minimă (5.21)

sau:

TEKLnmHnmFnmF zL

m

K

n=⋅⋅=⋅−⇔ ∑ ∑

= =,1 1

2),(),(ˆ),(" (5.22)

127

∑ ∑= =

⋅⇔L

m

K

nnmCnmF

,1 1

2),(),(ˆ = minimă (5.23)

Se ştie că atunci când trebuie minimizată o funcţie f(x1, …, xn) cu constrângerile:

=

=

0),...,(

0),...,(

1

11

nm

n

xxg

xxgM (5.24)

trebuie construită funcţia Lagrange: ),...,(...),...,(),...,(),...,( 111111 nmmnnn xxgxxgxxfxx ⋅λ−−⋅λ−=Ψ

după care se minimizează funcţia Lagrange, pornind de la relaţia uzuală:

0=∂Ψ∂

ix, (5.25)

unde ni ,1= , iar λi sunt coeficienţii Lagrange.

În cazul de faţă, constrângerea este constituită de relaţia (5.16) iar funcţia de minimizat este dată de relaţia (5.19). Se construieşte funcţia Lagrange:

∑ ∑= =

−⋅−⋅−⋅=Ψ

L

m

K

nTnmHnmFnmFnmCnmF

,1 1

22),(),(ˆ),("),(),(ˆ λ

(5.26)

TnmHnmFnmFnmCnmFL

m

K

n⋅+

⋅−⋅−⋅=Ψ⇒ ∑ ∑

= =λλ

,1 1

22),(),(ˆ),("),(),(ˆ

Funcţiile ),(ˆ nmF sunt argumentele funcţiei Ψ, în număr de L×K.

),(),(),(ˆ nmBjnmAnmF ⋅+= (5.27) Rezultă că sunt 2×L×K necunoscute, adică argumentele funcţiei Ψ.

128

Se obţine sistemul:

=∂

Ψ∂

=∂

Ψ∂

0),(

0),(

nmB

nmA, KnLm ,1,,1 == (5.28)

Sistemul are 2×L×K ecuaţii cu 2×L×K necunoscute.

( ) ( )=⋅−⋅⋅−=⋅− ***2 ˆ"ˆ"ˆ" HFFHFFHFF

22***2 ˆ"ˆˆ"" HFFHFHFFF ⋅+⋅⋅−⋅⋅−= (5.29)

−⋅⋅=∂

Ψ∂⇒ 2),(),(2

),(nmCnmA

nmA (5.30)

[ ] 0),(),(2),(),("ˆ),(),(" 2** =⋅⋅−⋅−⋅⋅− nmHnmAnmHnmFnmHnmFλ

−⋅⋅=∂

Ψ∂⇒ 2),(),(2

),(nmCnmB

nmB (5.31)

[ ] 0),(),(2),(),("),(),(" 2** =⋅⋅−⋅⋅+⋅⋅−⋅− nmHnmBnmHnmFjnmHnmFjλ

Rezultă:

{ }22

*

),(),(

),(),("Re),(nmHnmC

nmHnmFnmA⋅+

⋅⋅=

λ

λ (5.32)

{ }22

*

),(),(

),(),("Im),(nmHnmC

nmHnmFnmB⋅+

⋅⋅=

λ

λ (5.33)

=⋅+=⇒ ),(),(),(ˆ nmBjnmAnmF

129

),("),(),(),(

),(),("22

*nmFnmG

nmHnmC

nmHnmF⋅=

⋅+

⋅⋅=

λ

λ (5.34)

22

*

),(),(

),(),(nmHnmC

nmHnmG⋅+

⋅=⇒

λ

λ (5.35)

G este funcţia de transfer a filtrului de restaurare, cu necunoscuta λ.

S-a arătat că:

TEKLnmHnmFnmF zL

m

K

n=⋅⋅=⋅−∑ ∑

= =,1 1

2),(),(ˆ),(" (5.36)

Relaţiile (5.35) şi (5.36) formează un sistem cu L×K+1 ecuaţii cu L×K+1 necunoscute, constituite de λ plus necunoscutele lui ),(ˆ nmF , în număr de L×K. Sistemul format din relaţiile (5.35) şi (5.36) este neliniar, iar rezolvarea sa se poate face prin metode numerice, acesta fiind dezavantajul filtrului invers cu constrângeri.

130

6. Morfologie matematică Morfologia matematică (în limba greacă morphos = formă, logos = ştiinţă, deci ştiinţa formelor) constă într-o abordare bazată pe formă, a prelucrării imaginilor. Ideea de bază a unei prelucrări morfologice este considerarea imaginii ca un ansamblu (mulţime, reuniune de puncte sau obiecte) asupra căruia se aplică transformări a căror esenţă este comparaţia cu mulţimi mai simple, numite elemente structurante.

Prin urmare, transformările morfologice (care sunt neliniare şi neinversabile) se bazează pe compararea imaginii (sau a unui obiect conţinut în imagine) cu un obiect mai mic, de formă cunoscută, numit element structurant. În urma acestei comparaţii sunt extrase din imaginea iniţială zonele ce corespund proprietăţilor (de formă şi dimensiune) specifice elementului structurant folosit. De exemplu, recunoaşterea unei forme implică identificarea locală a părţilor sale componente, deci o simplă operaţie de potrivire de măşti ("pattern matching").

6.1. Transformarea Hit or Miss Transformarea morfologică de bază este transformarea “Hit or

Miss”, ce ar putea fi numită şi “Totul sau Nimic” (sau “Ochit sau Ratat”, într-o traducere cuvânt cu cuvânt, din limba engleză). Efectul aplicării acestei transformări de identificare este extragerea din imagine a punctelor a căror vecinătate este identică cu elementul structurant folosit. Transformarea “Hit or Miss” a mulţimii A prin elementul structurant B se defineşte ca fiind:

{ }cxx ABABxBA ⊂⊂=∗ )(&)(| 21 (6.1)

unde: cA este complementara mulţimii A;

131

1B şi 2B formează o partiţie netă a lui B, adică:

BBB =∪ 21 şi Φ=∩ 21 BB ; (6.2)

{ }BbxbBx ∈+= = translaţia mulţimii B cu vectorul x, sau

translaţia mulţimii B cu originea, în punctul x (figura 6.1).

Bx

B

y

x

x

Figura 6.1. Translaţia mulţimii B cu vectorul x.

Trebuie specificat faptul că oricărui element structurant trebuie să i

se ataşeze o origine.

Exemplu: Să se efectueze transformarea “Hit or Miss” a mulţimii A prin elementul structurant B, unde:

originea lui B originea nu aparţine lui B2

•••••••••⊗•••••⊗•••••

=xxx

xxxxxxx

xxxx

A , ••••••

= xxx

B , xxx

B =1 , xxxxxx

B •=2

A este reprezentată de punctele marcate cu x, iar cu “•” au fost marcate punctele care aparţin fundalului.

132

Rezultatul transformării este dat de cele 2 puncte marcate (încercuite) pe mulţimea A (punctele peste care se suprapun perfect 1B şi

2B , adică B).

Transformarea “Hit or Miss” prezintă un interes mai mult teoretic, dar datorită structurii sale stă la baza construcţiei teoretice a morfologiei matematice. Pe baza acestei transformări se pot defini operaţiile morfologice fundamentale (erodarea şi dilatarea).

6.2. Erodarea Erodarea mulţimii A prin elementul structurant B se defineşte ca:

( ){ }

∗=⊂=Θ

=∅=BB

Bx BAABxBA12 (6.3)

După cum se observă din definiţie, erodarea se poate obţine ca un caz particular al transformării “Hit or Miss” şi anume pentru ∅=2B şi

BB =1 .

Erodarea unei mulţimi A prin elementul structurant B este mulţimea punctelor, pentru care elementul structurant translatat cu originea în punctul respectiv este inclus în mulţimea ce se erodează. Rezultatul transformării se numeşte erodata (sau eroziunea) mulţimii A prin elementul structurant B. Efectul general al erodării este acela de subţiere a corpurilor, subţiere care depinde de structura elementului structurant. Mulţimile considerate pot fi continue sau discrete.

Exemplu: - în cazul mulţimilor continue:

Dacă:

133

B=

A= ⇒ AΘB=

A= ⇒ AΘB= - în cazul mulţimilor discrete:

••⊗⊗

•••••

=Θ

xxxxxxx

BA x

xxxx

B =

•⊗•⊗⊗⊗⊗⊗•

•••

=Θ

xxx

x

BA xxB =

A este reprezentată de punctele marcate cu x, iar cu “•” au fost marcate punctele care aparţin fundalului. Punctele încercuite sunt rezultatele erodării AΘB.

134

6.3. Dilatarea

Dilatarea unei mulţimi A prin elementul structurant B se defineşte prin relaţia:

{ }C

BBBx BAABxBA

=∅≠∩=⊕

=∅=

21

|*)(| (6.4)

Dilatarea unei mulţimi A prin elementul structurant B este mulţimea punctelor pentru care elementul structurant deplasat cu originea în punctul respectiv are puncte comune (cel puţin unul) cu mulţimea A ce se dilată. Rezultatul transformării se numeşte dilatată (sau dilatarea) mulţimii A prin elementul structurant B. Efectul general al operaţiei de dilatare este acela de îngroşare a obiectelor. Transformarea poate fi aplicată atât pe mulţimi continue, cât şi pe mulţimi discrete.

Exemplu: - în cazul mulţimilor continue: B =

A = BA ⊕ =

A = BA ⊕ =

135

- în cazul mulţimilor discrete:

xxxx

xB =

•••Θ•••ΘΘ⊗Θ•Θ⊗⊗⊗⊗ΘΘ⊗⊗⊗Θ••Θ⊗Θ••••Θ•••

=⊕ BA

xxB =

•••⊗Θ••⊗⊗⊗⊗Θ•⊗⊗⊗Θ•••⊗Θ••••••••

=⊕ BA

A este reprezentată de punctele marcate cu x, iar cu “•” au fost marcate punctele care aparţin fundalului. Punctele încercuite reprezintă rezultatele dilatării BA ⊕ . Dilatarea şi erodarea nu sunt transformări inverse una alteia (şi nici nu admit inversă):

ABBA ≠Θ⊕ )( (6.5) ABBA ≠⊕Θ )(

Dilatarea este o operaţie extensivă ( )BAA ⊕⊆ , în timp ce

eroziunea este o operaţie antiextensivă (A ⊇ AΘB) numai în cazul folosirii elementelor structurante ce îşi conţin originea. Elementele structurante clasice sunt variantele discretizate ale discului unitar, vecinătatea 4V şi vecinătatea 8V :

x

xxxx

V =4 xxxxxxxxx

V =8

136

Dilatarea şi erodarea sunt operaţii intensive din punct de vedere matematic, deoarece este evident că aplicarea transformărilor morfologice implică verificarea condiţiilor de definiţie pentru fiecare punct al imaginii (evitând evidentele efecte de margine), deci complexitatea algoritmică este comparabilă cu a unei operaţii de filtrare în domeniul spaţial. Pentru evitarea sau micşorarea complexităţii calculelor ar trebui găsită o metodă care să nu implice verificarea fiecărui punct al imaginii, ci eventual fiecare punct al structurantului. Aceasta se poate obţine prin rescrierea operaţiei de erodare: { }axbîaAaBbxBA =+∈∃∈∀=Θ ..,, =

{ } b

Bbb

BbAAbaxîaAaBbx

S∈−

∈==−=∈∃∈∀ II ..,, (6.6)

unde B-S=-B este simetrica mulţimii B faţă de origine, iar Ab este translaţia mulţimii A în punctul b. Astfel, se fac operaţii mult mai puţine şi în plus se permite implementarea paralelă deoarece fiecare translaţie se poate face pe unităţi diferite, iar la sfârşit se face intersecţia rezultatelor acestora. În mod similar, pentru dilatare se obţine: { } b

Bbx AABxBA

S∈=∅≠=⊕ UI| (6.7)

6.4. Proprietăţile operaţiilor morfologice 1. Invarianţa la translaţie:

( )tt BABA ⊕=⊕ (6.8)

( )tt BABA Θ=Θ

137

( ) tt BABA −⊕=⊕ În acest caz intervine semnul ”-” deoarece în

definiţia erodării şi dilatării intervine mulţimea simetrică ( ) tt BABA −Θ=Θ

2. Invarianţa la scalare:

( )BABA ⊕⋅=⊕ λλ1 (6.9)

( )BABA Θ⋅=Θ λλ1 , [ ]1,0∈λ

3. Erodarea şi dilatarea sunt transformări duale una alteia:

( )CC BABA Θ=⊕ (6.10)

( )CC BABA ⊕=Θ Această dualitate se manifestă faţă de operaţia de complementare a mulţimilor.

4. Dilatarea şi erodarea nu sunt inverse una alteia şi nici nu admit inversă: ( ) ABBA ≠⊕Θ (6.11)

( ) ABBA ≠Θ⊕

5. Descompunerea elementului structurant: ( ) ( ) ( )CBACABA UU ⊕=⊕⊕ (6.12) ( ) ( ) ( )CBACABA UI Θ=ΘΘ

6. Proprietatea de iterare:

( ) ( )CBACBA S ⊕⊕=⊕⊕ (6.13)

( ) ( )CBACBA S ΘΘ=ΘΘ Caz particular: B=C ; B=BS ( ) BABBA 2⊕=⊕⊕⇒ , ( ) BABBA 2Θ=ΘΘ

138

6.5. Transformări morfologice derivate

Prin iterarea unor operaţii morfologice de bază se obţin transformări morfologice mai complexe, numite şi transformări morfologice derivate sau filtre morfologice.

6.5.1. Operatori de extragere a conturului Dintre extractoarele morfologice de contur, cele mai utilizate sunt:

• conturul exterior: ( ) ABAA −⊕=∆ , (6.14)

unde ”-” reprezintă diferenţa între mulţimi.

• conturul interior: ( )BAAA Θ−=δ (6.15)

• gradientul morfologic:

( ) ( )BABAgradA Θ−⊕= (6.16) Exemplul 1:

•••••••••••⊗⊗••⊗•••••••••••••

=

xxxxxx

x

A x

xxxx

B =

BAΘδA = conturul interior

∆A = conturul exterior

139

În acest caz (structurant simetric), gradientul morfologic va fi reuniunea celor două contururi.

Cu cât structurantul este mai mic, conturul va fi mai subţire. Exemplul 2:

••••••••••••••••••••••••••

=

xxxxxxxxx

x

A xxxB =

δA = conturul interior

∆A = conturul exterior

În acest caz, structurantul este simetric după o singură direcţie. Exemplul 3:

••••••••••••••••••••••••••

=

xxxxxxxxx

x

A xxB =

δA = conturul interior

∆A = conturul exterior În acest caz, structurantul este asimetric şi se pierde conturul

exterior, corespunzător direcţiei de simetrie, din cazul anterior. Prin urmare, pentru obţinerea de contururi direcţionale, trebuie utilizate elemente structurante direcţionale.

140

6.5.2. Deschiderea şi închiderea

Deschiderea mulţimii A prin elementul structurant B se defineşte

ca fiind:

( ) SBBABA ⊕Θ=o (6.17)

unde { }BxxBB S ∈−=−= , reprezintă mulţimea simetrică a

mulţimii B faţă de origine (se mai numeşte şi transpusa mulţimii B). Mulţimea rezultată după o deschidere este diferită de mulţimea originală. Din punct de vedere al acţiunii asupra obiectelor (figura 6.2), în urma unei deschideri rezultă (efectul deschiderii este reprezentat cu linie punctată) o lărgire a golurilor înglobate în obiect, eliminarea obiectelor mici (mai mici decât elementul structurant folosit), netezirea contururilor prin teşirea convexităţilor şi separarea obiectelor unite prin “istmuri” (zone) mai mici decât dimensiunea elementului structurant.

deschidere

închidere

Figura 6.2. Ilustrarea efectului deschiderii şi închiderii morfologice.

Închiderea mulţimii A prin elementul structurant B este:

( ) SBBABA Θ⊕=• (6.18) Închiderea este operaţia duală deschiderii faţă de complementarea

mulţimilor:

141

( ) (( ) ) ( )( ) ( ) BABBABBABBABA SSCCSCCC o=⊕Θ=ΘΘ=Θ⊕=• (6.19)

( ) (( ) ) ( )( ) ( ) BABBABBABBABA SSCCSCCC •=Θ⊕=⊕⊕=⊕Θ=o Datorită acestei proprietăţi de dualitate, închiderea va avea asupra fundalului aceleaşi efecte pe care le are deschiderea asupra obiectelor. Prin urmare, efectul închiderii asupra obiectelor (reprezentat cu linie îngroşată în figura 6.2) poate fi găsit prin complementare, adică închiderea va umple golurile înglobate în obiecte, va netezi contururile prin umplerea concavităţilor şi va fuziona obiectele foarte apropiate (umplerea strâmtorilor de dimensiuni mai mici decât a elementului structurant).

Deschiderea este o operaţie antiextensivă ( )ABA ⊆o , în timp ce

închiderea este o transformare extensivă ( )ABA ⊇• . În acelaşi timp, deschiderea şi închiderea sunt transformări idempotente, adică iterarea deschiderilor sau închiderilor succesive, cu acelaşi element structurant, nu mai produc modificări:

( ) BABBA ooo =

( ) BABBA •=•• (6.20)

După cum s-a arătat, închiderea şi deschiderea sunt de fapt nişte filtre deoarece au un efect de netezire a formelor. Pentru o netezire mai puternică se foloseşte un structurant mai mare. Mărirea gradată a elementului structurant folosit şi aplicarea alternativă a deschiderii şi închiderii (pentru a beneficia de efectele lor complementare) a dus la definirea filtrelor alternate secvenţial (FAS):

( )( )( )( )( ) ...3322)( BBBBBBAAFAS •••= ooo (6.21) unde: BBBBBk ⊕⊕⊕=⋅ ... (de k ori).

Filtrele alternate secvenţial constau în deschideri şi închideri alternate succesiv, cu elemente structurante de dimensiune crescătoare.

142

Aplicarea FAS poate fi oprită în orice moment, obţinându-se astfel o netezire gradată, interactivă a imaginii.

6.6. Trierea dimensională a obiectelor Cu ajutorul transformărilor morfologice se poate realiza şi trierea dimensională a obiectelor. Aceasta se obţine prin utilizarea transformării “Top Hat”. Transformarea de tip “Top Hat” (TH) a mulţimii A prin elementul structurant B se defineşte ca: ( ) ( )BAAATH o−= (6.22) Rezultatul aplicării acestei transformări este o imagine ce conţine toate punctele eliminate de deschiderea imaginii prin elementul structurant folosit. După cum se poate observa, transformarea “Top Hat” are efect invers celui al unei site: păstrează obiectele mai mici. Dar, prin deschidere, obiectele nu îşi mai păstrează forma iniţială, deci, pentru extragerea formei exacte a obiectului trebuie realizată o operaţie de reconstrucţie. Există şi varianta transformării de tip “Top Hat” generalizată: ( ) ( ) ( )BnABnAATH g 21 oo −= , 12 nn > (6.23)

Transformarea “Top Hat” simplă se obţine ca un caz particular:

10

21)()(

===

nnATHgATH (6.24)

143

Exemplu:

~B (obiecte cu dimensiuni mai mici decât B)

A=

~2B

~4B

TH(A)=

)( BAA o−

=BA o

TH(A)= )2( BAA o−

=BA 2o

Se observă că transformarea “Top Hat” simplă se comportă ca un filtru de tip trece-sus, iar “Top Hat” generalizat se comportă ca un filtru de tip trece-bandă (ne permite să obţinem obiecte cu dimensiune cuprinsă între Bn1 şi Bn2 ).

6.7. Caracterizarea morfologică a formelor

Cu ajutorul transformărilor morfologice se poate realiza şi caracterizarea morfologică a formelor, care poate implica două aspecte: extragerea de informaţii asupra formei date sau compararea formei respective cu o altă formă (etalon).

144

6.7.1. Reconstrucţia după marker Reconstrucţia (φ) unei imagini (I) pe baza unor markeri (M), poate fi descrisă prin următoarea relaţie: U

I ∅≠=

MIjM

j

II )(ϕ (6.25)

Reconstrucţia imaginii I după markerul M este egală cu intersecţia elementelor Ij ale elementelor conexe ale imaginii I cu proprietatea că intersecţia lor cu markerul este nevidă.

I1

Ik

IN

I1

IN

Imaginea I Markerii M

Figura 6.3. Reconstrucţia după markeri. O modalitate de determinare a unor markeri este de a utiliza transformarea Top Hat. O problemă care se pune în cazul reconstrucţiei după markeri este etichetarea imaginii, pentru a putea fi comparată cu markerii. Metoda de etichetare trebuie să fie cât mai rapidă.

145

6.7.2. Distanţa Haussdorf

Pentru a se compara sau calcula asemănarea dintre două obiecte, se compară obiectul dat cu un obiect martor, se defineşte o distanţă între obiecte şi se impune ca distanţa să fie cât mai mică. Distanţa Hausdorff dintre mulţimile K1 şi K2, în domeniul continuu se defineşte ca fiind: { }BKK&BKKKKd ⋅⊕⊆⋅⊕⊆= εεε 122121 inf),( (6.26)

În domeniul discret, distanţa Hausdorff dintre mulţimile K1 şi K2

este: { }BnKK&BnKKnKKd ⋅⊕⊆⋅⊕⊆= 122121 inf),( (6.27)

Distanţa Hausdorff este o măsură bună a asemănării obiectelor doar dacă acestea sunt centrate. În plus, este şi greu de calculat şi din acest motiv se foloseşte mai rar în practică.

6.7.3. Extragerea skeletonului morfologic Un concept important în prelucrarea şi analiza imaginilor, îndeosebi la recunoaşterea formelor, îl constituie skeletonul morfologic, cu aplicaţii la compresia imaginilor binare, recunoaşterea, aproximarea şi reconstrucţia formelor. Extragerea skeletonului morfologic se bazează pe conceptul de disc maximal inclus într-o mulţime (A). Astfel, pentru o mulţime binară plană închisă A, se defineşte discul maximal Br(x) de centru x şi rază r, prin relaţia:

==

⇔⊆⊆''

)'()( ' rrxx

AxBxB rr (6.28)

146

Aceasta însemnă că discul maximal este inclus în mulţimea A şi nu există nici un alt disc inclus în A care să-l conţină

Skeletonul morfologic al unei forme este egal cu reuniunea centrelor discurilor maximale incluse în forma respectivă. În practică se foloseşte formularea echivalentă:

Umax

)()(N

nn ASASK

∅== , (6.29)

unde SK(A) este skeletonul mulţimii A, iar Sn(A) se numesc seturi skeleton de ordinul n: ( ) ( ) ([ ( ) ) ] ( ) ([ ) ]BnBAnBABBnAnBAASn oΘ−Θ=⊕+Θ−Θ= 1 (6.30)

Discul unitate, B, poate fi V4 sau V8, în funcţie de metrica utilizată în spaţiul discret, astfel: • dacă se utilizează distanţa euclidiană, discul unitar este V4; • dacă se utilizează distanţa inter-bloc, discul unitar este V8. Distanţa

inter-bloc, pentru punctul de coordonate (i, j) este:

( )yxyxi jjiiyxd −−= ,max),( (6.31)

Exemplu: Se dă mulţimea A şi elementul structurant B:

xxxxxxxxxxxxxxxxxxxxxxxx

xxxxxxxxxxxxxxxx

A = , x

xxxx

B =

Figura 6.4. Exemplul unei mulţimi A şi a uni element structurant B.

147

Setul skeleton de ordinul 0 este: ( ) ([ ) ]BBAAAS ⊕Θ−=0 : (6.32)

xx

xx

xx

xxxxxxxx

xxxxxxxx

xx

AS

⊗⊗⊗⊗⊗⊗⊗⊗⊗⊗

⊗⊗⊗⊗⊗⊗

=)(0

- punctele încercuite = BAΘ - punctele încadrate = BBA ⊕Θ )(

- punctele îngroşate: BBAAAS ⊕Θ−= )()(0

Figura 6.5. Setul skeleton de ordinul 0 al mulţimii A din figura 6.4.

În mod similar:

( ) ( ) ([ ) ]BBABAAS ⊕Θ−Θ= 21 , unde BBABA ΘΘ=Θ )(2 (6.33)

( ) ( ) ([ ) ]BBABAAS ⊕Θ−Θ= 322 (6.34)

( ) ( ) ([ ) ] ∅=⊕Θ−Θ= BBABAAS 433 , (6.35)

2max =⇒ N , pentru exemplul prezentat.

Umax

)()(N

nn ASASK

∅==⇒ (6.36)

( )

xxxxxx

xxxx

xxxx

xx

ASK =

Figura 6.6. Setul skeleton de ordinul 3 al mulţimii A din figura 6.4.

148

Se observă că skeletonul unui obiect are mai puţine puncte decât obiectul. Skeletonul morfologic este o transformare reversibilă, adică se poate obţine forma iniţială A, cunoscând skeletonul acesteia:

( )( )Umax

0

N

nn nBASA

=⊕= (6.37)

Se observă că pentru a putea reconstitui forma iniţială, pentru fiecare punct al skeletonului, trebuie menţionat setul skeleton căruia îi aparţine:

( )

001111

0220

1111

00

=ASK

Figura 6.7. Seturile skeleton al mulţimii A din figura 6.4. Dacă 2 obiecte au skeletoanele identice, atunci au aceeaşi formă.

Detaliile fine sunt conţinute în seturile skeleton de ordin mic, iar cele grosiere în seturi skeleton de ordin mare. Deci, o reconstituire aproximativă Ã a formei A se poate face eliminând detaliile fine, adică seturile skeleton de ordin mic:

Ã= ( )( )UmaxN

knn nBAS

=⊕ (6.38)

În cazul continuu, skeletonul unui disc este centrul său, iar skeletonul unui pătrat este format din diagonalele sale (figura 6.8).

149

x

Figura 6.8. Skeletoanele unor forme continue cunoscute.

Utilizarea skeletonului morfologic pentru recunoaşterea formelor este restricţionată de puternica sa sensibilitate la zgomote, deoarece o mică schimbare a formei duce la o modificare puternică a skeletonului său. De exemplu, skeletonul unui disc lipsit de centru se transformă dintr-un punct într-un cerc (figura 6.9).

Figura 6.9. Skeletonul unui disc lipsit de centru său.

6.7.4. Skeletonul generalizat Skeletonul generalizat (GSK) este definit prin elemente structurante generalizate. Fie { } nE un set de mulţimi având perioada T,

adică: nkTn EE =+ , Ζ∈∀ kn, . Pe baza acestui set generator (constructor)

se poate construi un set de elemente structurante generalizate, pe baza relaţiilor:

{ }

=⊕===

− nt de ordinstructuranelementul EBB) (originea t de ordinstructuranelementul B

nnn

n

1

0 00 (6.39)

150

Exemplu: Pentru: T=1 şi xxxx

E =1

...

xxxxxxxxxxxxxxxx

Bxxxxxxxxx

Bxxxx BxB ====⇒ 3210 (6.40)

Pentru extragerea skeletonului morfologic trebuie construită o hartă de distanţe a obiectului, adică fiecărui punct al obiectului (mulţimii) i se ataşează ordinul elementului structurant generalizat maximal centrat în punctul respectiv:

( ) ( ) ( )

⊄⊂∉

=ABA si Bn , dacã

A , dacã xxD

nxn-1

0 (6.41)

Exemplu:

xxxxxxxxxxxxxxxxxxxxxxxx

xxxxxxxxxxxxxxxx

A =

111111111222222212333333

1234123412341234

=D (6.42)

Skeletonul generalizat al unei forme este mulţimea centrelor elementelor structurante maximale incluse în formă, adică: ( ) ( ) ( ){ } yxBBxAGSK yyDxxD ≠∀⊄= −− ,| 1)(1)( (6.43)

151

( )

111111111222222212333333

1234

1234

1234

1234

=AGSK =

111111111222222212333333

1234123412341234

(6.44)

După cum se observă, skeletonul generalizat conduce la obţinerea unei rate de compresie mai bune decât în cazul skeletonului morfologic (exemplele prezentate pun în evidenţă acest fapt: skeletonul morfologic e alcătuit din 16 puncte în timp ce skeletonul generalizat conţine doar 7 puncte). În ultima figură punctele încercuite reprezintă punctele suficiente pe baza cărora se poate reconstitui forma iniţială, exemplificându-se astfel că skeletonul generalizat nu este minimal din punct de vedere al ratei de compresie. 6.8. Extinderea morfologiei matematice la imagini cu niveluri

de gri Prin extinderea morfologiei matematice la imagini cu niveluri de gri se realizează trecerea de la mulţimi la funcţii şi invers. Pentru aceasta se consideră o mulţime A inclusă în mulţimea părţilor lui Zn. Un element al acesteia este de forma: =x

{),(

),(sup

11

121

nnArafatan

),n A(patialdomeniu s

n x,...,x,xx4434421

−

− (6.45)

152

6.7.1. Trecerea de la mulţime la funcţie

Transformarea prin care se realizează trecerea de la o mulţime A la o funcţie f se numeşte vârf (în engleză Top): fAT =][ , unde ),()1,1(: nnAnAf →− (6.46)

{ }Ayzyzf ∈= ),(max)( , unde )1,1( −∈ nAz (6.47)

Pentru n=2 avem o mulţime planară: ),(),( 21 jixx = (6.48)

Dacă alegem i = domeniul spaţial, iar j = suprafaţa, topul s-ar obţine prin fixarea )1,1( −∈ nAz şi ar arăta ca în figura:

x x x x x x x x x x x x x

j

i

Se fixează z∈A(1,n-1)

Figura 6.10. Topul unei mulţimi.

153

6.8.2. Trecerea de la funcţie la mulţime Transformarea prin care se realizează trecerea de la o funcţie f la o mulţime A se numeşte umbră:

AfU =][ , unde ZZ ⊂→⊂− − ),()1,1(: 1 nnAnAf n (6.49)

≥−∈

= yzfnnAynAz

yzfU )(,),(,

)1,1(),(][ (6.50)

Exemplu:

x x x x x x x x x x x x xx x x x x xx x x x x xx x x x x xx x x x x xx x x x x x

j

i

umbra unei funcţii estesemiinfinită

Figura 6.11. Umbra unei funcţii.

Deoarece umbra unei funcţii este o mulţime semiinfinită, se poate introduce o limitare, la un nivel λ:

≥≥−∈

= λλ yzfnnAynAz

yzfU )(,),(,

)1,1(),(][ (6.51)

][lim][ fUfU λλ ∞→

=⇒ (6.52)

154

Proprietăţi: 1. [ ][ ] ffUT = (6.53)

2. [ ][ ] AATU ⊇ , (6.54) deoarece umbra unei funcţii este o mulţime semiinfinită

6.8.3. Lucrul cu funcţii Dilatarea unei funcţii f cu un structurant (sau funcţie structurant) g: [ ]][][ gUfUTgf ⊕=⊕ (6.55) În mod similar, se poate defini erodarea unei funcţii f cu un structurant (sau funcţie structurant) g: [ ]][][ gUfUTgf Θ=Θ (6.56) Acestea sunt:

)())()(sup(

gsuppyygyxfgf

∈+−=⊕ , (6.57)

)(

))()(inf(gsuppy

ygyxfgf∈

−−=Θ (6.58)

unde { }−∞>= )()( ygygsupp , reprezintă suportul lui g.

Exemplu: suppV4: toate punctele lui V4 dar şi cele de sub V4 (până la -∞) aparţin suportului.

155

x x x x x

Figura 6.12. Suportul lui V4.

Suportul plat (engl. flat) a funcţiei g se defineşte astfel: )(,0)( gsuppyyg ∈∀= , (6.59)

adică nu mai avem punctele de sub V4, în cazul exemplului de mai sus. În acest caz: ))((max

)(yxfgf

gsuppy−=⊕

∈ (6.60)

))((min)(

yxfgfgsuppy

−=Θ∈

(6.61)

În cazul în care se utilizează un structurant non-flat, pot să apară situaţii când valoarea minimă (min) şi maximă (max) nu sunt cuprinse în gama de niveluri de gri, adică sunt mai mici decât 0 sau mai mari decât N-1. În acest caz, pentru niveluri de gri cuprinse în intervalul [0,N-1], există două alternative:

1. se rescalează domeniul, păstrându-se nivelul relativ de gri:

156

N-1

N-1+k2N-1+k1

0

Figura 6.13. Rescalarea domeniului.

2. se limitează valorile negative la 0 şi cele mai mari ca N-1 la N-1, în

acest fel pierzându-se informaţie.

Astfel de elemente structurante pot fi utilizate la îmbunătăţirea contrastului imaginilor. Pentru 21 fff ≤≤ :

−+>−+≤

=212

211)1(),(),,()1(),(),,(

),('fkkfnmfnmffkkfnmfnmf

nmf

, k∈[0,1] (6.62)

t

f(t) f1

f2

f

pentru 21

=k

pentru k=0 sau 1

Figura 6.14. Îmbunătăţirea contrastului imaginilor.

O îmbunătăţire a performanţelor se obţine luând: gff o=1 şi gff •=2 sau (6.63)

gff Θ=1 şi gff ⊕=2 (6.64)

157

7. Segmentarea imaginilor Segmentarea reprezintă o categorie de tehnici de prelucrare care permite descompunerea unei scene în componentele sale sau extragerea din imagini a unor elemente constituente de interes (obiecte, fundal etc) în scopul analizei lor ulterioare şi eventual al clasificării lor. În urma procesului de segmentare, din imagine se extrag regiuni omogene închise de puncte de frontieră (contur), obiecte distincte sau regiuni omogene care satisfac anumite criterii de uniformitate. Metodele de segmentare a imaginilor se pot clasifica în două mari clase: • segmentare orientată pe regiuni • segmentare orientată pe contururi

7.1. Segmentarea orientată pe regiuni

Prin detecţia regiunilor omogene se înţelege gruparea pixelilor din imagine în categorii distincte în funcţie de proprietăţile lor (de exemplu nivelul de gri), astfel încât să se pună în evidenţă regiuni caracterizate de o relativă uniformitate. Zonele astfel determinate permit în ultimă instanţă o separare a obiectului ce trebuie analizat de fundalul imaginii şi de eventuale alte obiecte aflate în scenă. Tehnicile de segmentare orientate pe detecţia regiunilor omogene se pot clasifica în: • metode bazate pe etichetarea grupurilor conexe de pixeli cu

caracteristici similare; • metode de segmentare bazate pe histograma imaginii; • tehnici de creştere şi fuziune a regiunilor.

158

7.1.1. Etichetarea componentelor

Această metodă de segmentare a imaginilor binare constă în

asocierea unui acelaşi număr (numit etichetă), tuturor punctelor unui obiect conex.

Metoda bazată pe etichetarea componentelor se implementează prin succesiuni de baleieri normale (sus-jos, stânga-dreapta) şi inverse a imaginii de segmentat.

1 11 1 1

2 2 2 2

2 2

1 11 1 1

2 2 22

2 3

Figura 7.1. Etichetarea componentelor.

La întâlnirea unui punct al unui obiect care nu are nici un punct vecin deja etichetat, i se atribuie o nouă etichetă. Se continuă baleierea până la întâlnirea unui alt punct, căruia i se atribuie eticheta vecinului (sus, jos, stânga, dreapta, diagonală), dacă are. Dacă are doi (sau mai mulţi) vecini cu etichete diferite i se atribuie eticheta cu valoarea cea mai mică. Decizia cărui obiect îi aparţine se face la baleierea inversă, respectând algoritmul de mai sus. Baleierea se repetă până nu se mai schimbă nimic.

Dezavantajul acestei tehnici este că nu asigură obţinerea etichetelor în ordine (figura 7.2), iar numărul de baleieri depinde de conţinutul imaginii.

159

1111

2222222

4444

Figura 7.2. Exemplu de rezultat al segmentării prin etichetarea

componentelor.

O altă tehnică de a implementa metoda de etichetare a componentelor se bazează pe analiza conexităţii pe secvenţe.

Pentru a implementa această metodă, se analizează imaginea, linie cu linie şi se etichetează punctele obiectelor, pe linii. În etapa următoare se analizează adiacenţa secvenţelor pentru a defini obictele.

X X X X X

X X X X

X X X

X

X

I (2,3), (6,2) – pe linia I există un obiect pe poziţia 2, de lungime 3X II (1,3), (7,2) – pe linia II există un obiect pe poziţia 1, de lungime 3III (5,3) – pe linia III există un obiect pe poziţia 5, de lungime 3 IV (5,2) – pe linia IV există un obiect pe poziţia 5, de lungime 2

Figura 7.3. Exemplu de segmentare prin analiza conexităţii pe secvenţe.

7.1.2. Metoda aborelui cuaternar (quad-tree)

Această metodă, care se mai numeşte şi "Divide şi contopeşte", se bazează pe împărţirea recursivă a imaginii în câte 4 regiuni sau sferturi de imagine până la obţinerea de regiuni uniforme sau regiuni formate dintr-un singur pixel. Acestei împărţiri i se poate asocia un arbore cuaternar, în care fiecare nod terminal are patru descendenţi.

160

Figura 7.4. Principiul segmentării prin metoda arborelui cuaternar.

Nodul principal este constituit de întreaga imagine, iar nodurile

secundare reprezintă câte un sfert de imagine. Împărţirea imaginii se repetă până când se obţin numai careuri uniforme (care conţin aceeaşi valoare).

Figura 7.5. Împărţirea imaginii la segmentarea prin metoda arborelui

cuaternar.

Pentru a implementa segmentarea prin metoda arborelui cuaternar, imaginea trebuie să fie pătrată şi de dimensiune putere a lui 2.

Segmentarea se face prin împărţirea succesivă până se obţine zone uniforme sau s-a ajuns la nivel de pixel. În continuare se concatenează zonele ce conţin „1” logic, rezultând obiectele.

161

X

XX

XX

XXX

XXX

XX

XX

XX

XX

Figura 7.6. Împărţirea imaginii la segmentarea prin metoda arborelui

cuaternar şi concatenarea zonelor cu aceeaşi valoare.

7.2. Segmentarea imaginilor cu niveluri de gri

7.2.1. Segmentarea bazată pe histogramă Aceste metode se bazează pe histograma imaginilor, adică pe numărul de apariţii a nivelurilor de gri. Tehnicile de segmentare bazate pe prăguirea (“tresholding”) histogramelor sunt utile şi eficiente atunci când există o separare relativ clară a nivelurilor de gri între obiectele analizate. Valorile caracteristice de amplitudine corespunzătoare obiectelor sunt alese astfel încât un interval dat de niveluri de gri să reprezinte o clasă unică de obiecte.

Cea mai generală metodă de tresholding (multi-nivel) constă în alegerea unui număr N de praguri T1, T2, … TN şi crearea unei imagini de etichete v, pe baza imaginii iniţiale u, astfel:

≤≤

≤≤≤≤

=

NN- Tu(i,j)TN,

Tu(i,j)T,Tu(i,j)T,

jiv

1

32

21

daca...

daca2eticheta1eticheta

),(

eticheta

daca

(7.1)

162

α β γT1 T2 T3

Num

ărul

de

apar

iţii

Nivelul de gri

Figura 7.7. Segmentarea bazată pe prăguirea histogramei.

În exemplul prezentat, punctelor cu valori cuprinse între [0,T1] li se va atribui eticheta α, punctelor cu valori cuprinse între [T1,T2] li se va atribui eticheta β etc.

Etichetele alocate sunt, de regulă, numere întregi. Pragurile de segmentare se aleg, în general ca fiind minimele histogramei, deci nivelurile de gri cele mai slab reprezentate în imagine. Se porneşte de la ideea că obiectele identice cu acelaşi nivel de gri, dacă sunt bine reprezentate, au cam aceleaşi valori maxime în histogramă. Prin urmare, pragurile filtrării (Ti, unde i reprezintă numărul pragurilor luate în considerare) vor corespunde minimelor histogramei (unde avem un număr mic de pixeli cu valoarea respectivă), care trebuie detectate.

Dacă aceste minime nu sunt bine reliefate, se poate aplica fie o filtrare a imaginii (înlăturarea zgomotului, mărirea contrastului), fie se poate construi o histogramă ponderată, care să ia în considerare doar pixelii care se află pe platouri de intensitate (şi nu în regiuni de tranziţie). Această distincţie poate fi făcută pe baza laplacianului, iar histograma ponderată sumează pentru fiecare pixel cu nivelul de gri, nu L, ci valoarea 1/(1+|L|), unde L este valoarea laplacianului calculat pe o vecinătate a punctului respectiv. Pe histograma ponderată minimele apar mai bine reliefate, deci pragurile de segmentare se pot alege mai uşor.

163

Dacă pentru imagine (şi obiectele conţinute în aceasta) se dispune de informaţie suplimentară (de tipul unei caracterizări statistice a conţinutului imaginii şi a modului de degradare a acesteia) este posibilă o abordare derivată din teoria deciziilor optimale. În acest caz, pragul optim de segmentare pentru o imagine cu două tipuri de obiecte (corpuri şi fundal) depinde de caracteristicile statistice ale zgomotului şi ale obiectelor, după formula:

fob

ob

obfob

nnP

P

dnn

T−

−⋅−

+=

1ln

22 (7.2)

unde nob este nivelul mediu de gri a obiectelor, nf este nivelul mediu de gri al fundalului, Pob este suprafaţa relativă din imagine ocupată de pixeli obiect, iar d2 este varianţa zgomotului aditiv Gaussian de medie nulă, aplicat imaginii.

Ca domeniu de aplicaţii s-ar putea aminti medicina, de exemplu pentru numărarea nucleelor de un anumit tip dintr-o imagine, prin numărarea etichetelor care ne interesează.

Figura 7.8. Exemplu din medicină, la numărarea nucleelor.

Dezavantajul metodei este că vor fi luate în considerare şi

zgomotele care au acelaşi nivel de gri.

164

Pentru segmentarea imaginilor binare se poate utiliza şi histograma

cumulativă, ∑×

==

KL

iii hH

1 sau cu varianta sa normată ∑

==

1

0iii hH . (7.3)

1

P

βT N-1α Nivel de gri

Număr de apariţii

Figura 7.9. Histograma cumulativă.

În acest caz, se stabileşte un procent de pixeli (p) sau un prag de

nivel de gri (T) cărora li se atribuie o anumită etichetă (α), iar la restul li se atribuie o altă etichetă (β). Metoda se aplică cu succes la imagini cu histograme bimodale. Pentru aceste metode există şi varianta de prăguire adaptivă, adică de a împărţi imaginea în zone în care se calculează histograma locală şi se aplică una din metodele anterioare, obţinându-se un rezultat cu caracteristici locale. Există şi metode de segmentare bazate pe potrivirea sau căutarea de măşti. Acestea se pot implementa de exemplu utilizând transformarea Hit or Miss din morfologia matematică sau cu filtre adaptive la care funcţia de transfer (funcţia de intercorelaţie dintre intrare şi ieşire) se poate transforma în funcţie de autocorelaţie. De exemplu, în cazul unui timbru cu ştampila poştei se poate identifica numai ştampila şi caracteristicile ei:

165

timbru cu ştampila poştei masca

Figura 7.10. Exemplu în cazul căutării timbrului poştal.

7.2.2. Segmentarea bazată pe creşterea şi fuziunea regiunilor

Aplicarea tehnicilor de segmentare pe histogramă este condiţionată de posibilitatea reprezentării diferitelor clase de obiecte din imagine pe intervale de niveluri de gri diferite care nu se suprapun (sau se suprapun parţial pe porţiuni foarte mici). În plus este necesară cunoaşterea numărului de tipuri de obiecte diferite. În fine, se presupune că valorile prag corespunzătoare se pot determina cu o precizie corespunzătoare. Chiar în cazurile în care toate aceste condiţii enunţate sunt îndeplinite, nu se poate garanta condiţia de conexitate a regiunilor obţinute în urma segmentării. Acest lucru este evident, atât timp cât la două obiecte de acelaşi tip, neconexe, li se atribuie prin segmentarea pe histogramă o aceeaşi etichetă, şi formează în imaginea de etichete o regiune neconexă. O metodă care respectă toate condiţiile impuse prin definiţia matematică a segmentării, este creşterea regiunilor.

Principiul pe care se bazează creşterea regiunilor este simplu: se aleg în imagine puncte reprezentative pentru fiecare obiect individual şi categorie de obiecte, pe baza cărora are loc un proces de aglomerare a pixelilor vecini acestora, care au aceleaşi proprietăţi (în particular acelaşi nivel de gri). În urma acestui proces de aglomerare sau adăugare de puncte, se obţin zone (sau regiuni) de pixeli cu aceleaşi caracteristici, deci obiecte individuale. Procesul se opreşte în momentul în care fiecare punct

166

al imaginii a fost alocat unei regiuni. Evident, metoda astfel descrisă pe scurt, are două etape esenţiale: • iniţializarea sau alegerea punctelor de start (puncte iniţiale), numite

germeni sau seminţe (engl. seed); • creşterea propriu-zisă a regiunilor. Numărul final de regiuni rezultate este egal cu numărul de germeni aleşi iniţial pentru creştere, deci alegerea, respectiv granulaţia (densitatea) acestor puncte este foarte importantă. În principiu, este de dorit ca fiecare obiect individual aflat în imagine să fie marcat cu câte un germene. Dacă în interiorul unui aceluiaşi obiect se găsesc mai mulţi germeni, pentru fiecare dintre ei va fi crescută o regiune. Aceasta face ca obiectul iniţial să fie împărţit artificial prin segmentare în mai multe regiuni. Parţial, acest neajuns se poate corecta printr-o etapă ce urmează creşterii regiunilor, şi anume fuziunea regiunilor adiacente ce au proprietăţi asemănătoare. Dacă în interiorul unui obiect nu este ales nici un germene, obiectul respectiv va fi înglobat de regiunile ce cresc pornind de la germeni din vecinătatea spaţială. Astfel, respectivul obiect nu apare ca o regiune distinctă şi este pierdut, rezultând o eroare gravă de segmentare.

Pornind de la germenii aleşi, regiunile sunt obţinute printr-un proces de creştere aproape simultană, început de la aceştia, până când toţi pixelii imaginii sunt repartizaţi unei regiuni (figura 7.11).

Figura 7.11. Principiul creşterii regiunilor.

167

Cvasi-simultaneitatea creşterii poate fi realizată cu un algoritm serial, prin alocarea pixelilor ce sunt adiacenţi (vecini) zonelor deja segmentate. Această alocare trebuie să ţină seama de criteriul ca regiunile crescute să fie uniforme, adică nivelul de gri al pixelului ce se adaugă nu trebuie să difere cu mai mult de un prag prestabilit faţă de nivelul de gri al germenului regiunii la care se alocă. În acelaşi timp, la o singură trecere, numărul de puncte ce se adaugă unei regiuni nu poate depăşi un număr prestabilit (condiţia încearcă să asigure creşterea relativ uniformă şi izotropă a tuturor regiunilor). Dacă adăugarea de noi pixeli se blochează (criteriul de uniformitate nu mai este respectat), diferenţa maximă admisă pentru nivelul de gri poate fi crescută în etape, până la epuizarea pixelilor imaginii.

Avantajele pe care le are o asemenea tehnică de creştere a regiunilor sunt acelea că nu mai este necesară nici o informaţie privind conţinutul imaginii, regiunile crescute sunt conexe şi nu există puncte neetichetate (nealocate vreunei regiuni), iar poziţia frontierelor percepute subiectiv în imagine se conservă.

Fuziunea regiunilor deja determinate în etapa de creştere, are drept scop reducerea numărului de regiuni în care a fost împărţită iniţial imaginea, pentru a evita fenomenul de supra-segmentare. Regiunile candidate la fuzionare trebuie să fie învecinate, iar decizia de fuzionare se ia în funcţie de pixelii aflaţi pe frontiera comună. Astfel, punctele slabe (în număr de ns) sunt punctele pentru care diferenţa nivelurilor de gri între vecinii din regiunile adiacente este foarte mică (mai mică decât un anumit prag fixat). Punctele tari (în număr de nt) sunt acele puncte pentru care diferenţa nivelurilor de gri între vecinii din regiunile adiacente este foarte mare (mai mare ca un anumit prag fixat). Cu aceste definiţii, se poate afirma că regiunile Ri şi Rj vor fuziona dacă: • numărul de puncte slabe (ns) raportat la perimetrul minim (Pm) este

mare: 1θ>m

sPn , (7.4)

unde Pm=min(Perimetrul(Ri), Perimetrul(Rj));

168

• numărul de puncte slabe de pe frontiera comună e mare: 2θ>Pns , (7.5)

unde P este numărul de puncte aflate pe frontiera comună a regiunilor Ri şi Rj;

• numărul de puncte tari de pe frontiera comună este mic: 3θ<Pnt , (7.6)

Valori tipice ale pragurilor 321 ,, θθθ sunt:

===

2,075,05,0

3

2

1

θθθ

(7.7)

• distanţa de similaritate dintre regiuni este mare. Distanţa de similaritate este o măsură a asemănării. Aceasta poate fi o distanţa euclidiană ponderată sau un produs vectorial sau scalar între vectorii corespunzători.

7.3. Segmentarea orientată pe contururi

După cum s-a arătat, segmentarea reprezintă o categorie de tehnici de prelucrare care permite extragerea din imagini a unor elemente de interes în scopul analizei lor ulterioare şi eventual a clasificării lor, prin două metode principale: detecţia muchiilor (contururilor) şi detecţia regiunilor omogene. Prin urmare, pentru analiza imaginilor (îndeosebi la segmentare) o etapă esenţială constă în detecţia muchiilor şi liniilor (frontierelor) care reprezintă grupuri de pixeli aflaţi în zona de tranziţie (de variaţie bruscă a nivelului de gri) dintre două regiuni relativ uniforme ale imaginii iniţiale. Muchiile sunt graniţa de separaţie fie între obiecte şi fundal, fie între două zone omogene ale aceluiaşi obiect. O asemenea muchie poate fi formată din puncte şi segmente de dreaptă.

169

7.3.1. Operatori de tip gradient

Din punct de vedere practic, un punct de contur dintr-o imagine reprezintă un pixel (sau un grup mic şi omogen de pixeli conecşi) având o valoare net diferită faţă de cea a vecinilor săi. Detecţia acestora se poate face prin comparaţie (diferenţă) între nivelul de gri propriu şi media nivelurilor de gri dintr-o vecinătate a sa. Măsura diferenţei de intensitate (de nivel de gri) poate fi calculată printr-o filtrare liniară cu o mască de forma:

[ ]

−−−−−−−−

111181111

(7.8)

Deoarece pixelii aparţinători muchiilor se caracterizează prin faptul că se află la graniţa dintre două regiuni omogene între care există diferenţe mari de niveluri de gri, detecţia lor se poate face cu operatori de tip gradient (operatori de derivare locală). Pentru o imagine iniţială u(l,k), putem scrie: • gradientul pe direcţia orizontală: ),1(),1(),( klukluklg x −−+= (7.10)

• gradientul pe direcţia verticală: )1,()1,(),( −−+= klukluklg y (7.11)

• gradientul după o direcţie oarecare r (care face unghiul θ cu orizontala):

θθθ

sincos ⋅+⋅=∂∂

⋅∂∂

+∂∂

⋅∂∂

=∂∂

yggry

yu

rx

xuu

x (7.12)

Direcţia în care se află muchia va fi dată de direcţia după care gradientul are valoarea maximă:

0=

∂∂

∂∂

ru

θ (7.13)

Rezultă vectorul gradient g(l,k) cu:

• modulul (amplitudinea): ),(),(),( 22 klgklgklg yx += (7.14)

170

• direcţia:

=

),(),(

),(klgklg

klx

ytgα (7.15)

De multe ori, pentru simplificarea calculelor, amplitudinea (modulul) gradientului se defineşte ca:

),(),(),( klgklgklg yx += (7.16)

Implementarea operatorilor de derivare (tip gradient) se face prin convoluţia imaginilor cu măşti (ferestre), care sunt deci, filtrări liniare. Operatorii de tip gradient sunt reprezentaţi de o pereche de filtre (H1,H2) care măsoară gradientul imaginii după două direcţii ortogonale. Spre exemplu, gradienţii după direcţia orizontală respectiv verticală, definiţi mai sus (gx, gy), se obţin prin convoluţia cu măştile:

[ ][ ]101 − [ ]

−101

(7.17)

orizontal vertical Un pixel este declarat ca “punct de frontieră” dacă g(l,k) depăşeşte un prag dat, t. Pixelilor care depăşesc acest prag li se alocă în imaginea finală eticheta C (contur), iar celorlalţi, eticheta F (fundal). Un bloc care implementează un astfel de extractor de contur poate fi reprezentat ca în figura 7.12.

prag t O

u(l,k)

h1(-l,-k) Amplitudineg(l,k)

Direcţieαg(l,k)

22

21 ggg +=

=

1

2ggarctggα

Harta muchiilor

h2(-l,-k)

gx

gy

Figura 7.12. Principiul extragerii contururilor.

171

Prin binarizarea imaginii “amplitudine g(l,k)” cu pragul “t” se

obţine harta de muchii. Harta muchiilor oferă informaţiile necesare pentru trasarea contururilor din imagine. În general, pragul “t” se alege folosindu-se histograma cumulativă pentru g(l,k), 5-10% din pixelii imaginii g(l,k) fiind declaraţi muchii. În continuare sunt prezentaţi operatori de derivare clasici, care determină diferenţe orizontale şi verticale şi realizează însumări locale, reducându-se efectul zgomotului (elementul încadrat indică originea):

Prewitt:

−−−

=1011]0[1101

1H

−−−=

1110]0[0111

2H (7.18)

Sobel:

−−−

=1012]0[2101

1H

−−−=

1210]0[0121

2H (7.19)

Kirsch:

−−−

=3353]0[5335

1H

−−−=

5553]0[3333

2H (7.20)

Izotrop:

−−−

=1012]0[2

101

1H

−−−=

1210]0[0121

2H (7.21)

Aceşti operatori au proprietatea de a avea un efect nul în cazul regiunilor uniforme. Operatorii definiţi anterior sunt performanţi în cazul unei tranziţii bruşte a nivelurilor de gri din imagine. Când aceste tranziţii sunt mai lente, este indicat să se folosească derivatele de ordin doi, combinate într-un operator laplacian:

172

2

2

2

22 ),(),(),(

yyxf

xyxfyxf

∂

∂+

∂

∂=∇ (7.22)

Operatorul de tip laplacian poate fi implementat în discret prin convoluţia imaginii de prelucrat cu una dintre măştile:

[ ]

−−−

−

010141

010 [ ]

−−−−−−−−

111181111

[ ]

−−−

−

121242

121 (7.23)

Datorită derivatei de ordinul doi, operatorul laplacian este mai sensibil la zgomot decât cei definiţi anterior. Amplitudinea binarizată

pentru f2∇ produce muchii duble, ceea ce duce la apariţia în harta de muchii, a contururilor îngroşate. Acest dezavantaj se elimină dacă se consideră ca fiind punct de contur nu cel corespunzător maximelor sau minimelor laplacianului, ci trecerilor sale prin zero (figura 7.13).

f(x) f'(x)

f''(x)

x x

x

O O

O

Figura 7.13. Graficele corespunzătoare laplaceanului.

173

7.3.2. Operatori de tip compas Operatorii prezentaţi, cât şi topologia planului discret, favorizează numai câteva direcţii: axele şi cele două bisectoare, fiecare cu câte două sensuri. Pornind de la această observaţie, se pot construi măşti pentru determinarea gradientului pe fiecare dintre aceste 3 direcţii. Operatorii rezultaţi se numesc operatori compas. Aceştia se pot obţine din oricare din operatorii prezentaţi anterior. De exemplu, operatorii compas derivaţi din operatorii Prewitt, corespunzători celor 8 orientări sunt:

[ ]

−−− 111000111

[ ]

−−−

110101

011 [ ]

−−−

101101101

[ ]

−−−

011101110

N NV V SV

[ ]

−−−

111000111

[ ]

−

−−

110101011

[ ]

−−−

101101101

[ ]

−−−

011101110

S SE E NE Măştile corespunzătoare diferitelor orientări se obţin prin rotirea unei măşti de bază în jurul originii. Pentru a obţine rezoluţii unghiulare mai bune (mai multe direcţii) se pot utiliza operatori de tip compas de dimensiuni mai mari de 3×3. Filtrele prezentate se pretează la obţinerea prin permutare a unui set de patru, opt sau mai multe măşti, sensibile la orientarea muchiei, în funcţie de dimensiunea operatorului. Pentru determinarea punctelor de contur se consideră direcţia după care gradientul este maxim. Operatorul compas este evident neliniar, datorită operaţiei de maxim.

174

Hk max{gk}gk

Figura 7.14. Determinarea punctelor de contur ca puncte de gradient

maxim.

Se poate utiliza şi varianta adaptivă a acestui operator (compas adaptiv), utilizând aceleaşi măşti ca şi în cazul anterior, dar pentru fiecare mască se va verifica şi situarea punctului curent pe mijlocul tranziţiei. În acest scop, pentru nivelurile de gri din vecinătatea punctului curent se pot utiliza notaţiile:

[ ]987

654

321

PPPPPPPPP

[ ]111222

111−−− (7.24)

Cu aceste notaţii, se verifică condiţiile: ( )&& 7414 PPPP >> ( )&& 8525 PPPP >> ( )9636 & PPPP >> (7.25)

adică se verifică faptul că valorile centrale sunt mai mari decât cele laterale, deci dacă prin aceste puncte trece o linie, care determină un profil de forma:

Gradientul după direcţia respectivă, care rezultă prin aplicarea unei

astfel de măşti, se ia în considerare doar dacă sunt îndeplinite condiţiile (7.25).

Dezavantajul operatorilor de tip compas este că zgomotele suprapuse, de exemplu peste o linie, au ca rezultat o tranziţie, respectiv un contur fals. Acest dezavantaj se poate elimina printr-o prefiltrare a imaginii. Astfel rezultă operatorii compas cu netezire.

Netezirea imaginii se face adaptiv, după o anumită direcţie, rezultând o netezire adaptivă direcţional. În acest scop se alege un număr

175

de măşti de netezire direcţionale (S1, S2,..., Sk). Pentru fiecare punct al imaginii calculăm rezultatul netezirii (filtrării) cu aceste măşti. Rezultă valorile netezirii, v1, v2,..., vk, care sunt nişte valori medii ponderate de coeficienţii măştilor. Pentru fiecare din aceste măşti se calculează şi o dispersie locală, σ1, σ2,..., σk, care reprezintă dispersia valorilor de gri ponderate cu coeficienţii măştii, faţă de media ponderată vk.

Se va folosi masca care are ca rezultat dispersia minimă ( )

kiij

,...1min

== σσ . Prin urmare, valoarea pixelului curent se va înlocui cu

valoarea vj, care a avut ca rezultat ( )kiij

,...1min

== σσ .

Masca poate fi aleasă şi după alt criteriu cum ar fi, de exemplu, obţinerea unei valori minime pentru diferenţa între valoarea punctului curent (în care a fost centrată masca) şi valoarea rezultată în urma filtrării, respectiv medierii: ( )

kiivyxu

,...1),(min

=− .

O altă variantă de operator extractor de contururi este gradientul morfologic, definit ca diferenţă între imaginea dilatată şi imaginea erodată, cu un acelaşi element structurant, aşa cum s-a arătat în capitolul referitor la morfologie matematică. Dacă elementul structurant este V8-flat (plat), această operaţie poate fi asimilată cu un operator compas. Toate aceste tehnici se dovedesc a fi sensibile la zgomot şi prin urmare, pentru imagini afectate de zgomot sunt necesare soluţii diferite. O asemenea prelucrare este diferenţa de gaussieni (DOG) care reprezintă diferenţa între două imagini netezite cu filtre gaussiene de dimensiuni diferite.

176

8. Compresia imaginilor O clasificare a metodelor de compresie a imaginilor este prezentată în figura de mai jos:

Compresia imaginilor

cu niveluri de gri

pe plane (ca la imagini binare)

cu transformate (cu pierderi)

cu predicţie, bazate pe DPCM (Differential Pulse Code Modulation)

etc.

DCT KL (Karhunen Loeve) wavelet

cu fractali

VQ (Vector Quantization)

binare

nivel înalt

nivel bloc

nivel bit (pixel)

codarea conturului

skeleton morfologic

generalizat quad-tree

WBS (White Block Skipping)

RLE (Run Length Encoding)

- cu cuvânt fix - cu cuvânt trunchiat - cu cuvânt modificat

Ziv-Lempel

entropică (Huffman)

Există şi metode combinate: RLE+Hufmann, skeleton+RLE (sau WBS), DCE+Hufmann (utilizată în standardul JPEG Joint Picture Expert Group) etc.

177

8.1. Compresia imaginilor binare

8.1.1. Codarea de nivel înalt

Pentru compresia de nivel înalt a imaginilor binare, pe lângă compresia cu skeleton morfologic, se mai poate utiliza codarea contururilor. Descriptorii de contur sunt coduri care înmagazinează şi compactează într-un volum mic de memorie informaţiile esenţiale cu privire la conturul unui obiect. Determinarea acestor descriptori trebuie precedată de detecţia contururilor şi eventual de netezirea acestora.

8.1.1.1. Aproximări poligonale

Aproximarea poligonală a unui contur este un descriptor care descinde direct din metoda de detecţie a conturului, cu acelaşi nume.

Procedura de determinare a aproximării poligonale a unui contur constă în următoarele etape (figura 8.1): • determinarea diagonalei principale (AB) a conturului; • marcarea punctelor de pe contur (C şi D) având distanţa maximă faţă

de diagonala principală; • rezultă prima aproximare: poligonul ABCD; • marcarea punctelor maxim depărtate de laturile patrulaterului (EFGH); • rezultă a doua aproximare: poligonul ABCDEFGH; • se repetă ultimele etape până când distanţa maximă este mai mică

decât o valoare prestabilită.

178

B

A

DC

B

A

GF

HE

DC

B

A

GF

HE

D C

B

A

Figura 8.1. Procedura de determinare a aproximării poligonale a unui

contur.

Codul rezultat conţine coordonatele colţurilor poligonului, ceea ce practic defineşte laturile şi unghiurile acestuia şi implicit dă o informaţie suficient de corectă asupra conturului obiectului studiat. Aplicaţiile acestei metode sunt limitate, deoarece modelul obţinut nu este invariant la transformările geometrice şi deci, o simplă scalare sau rotire duce la schimbarea codului. Pentru a înlătura într-o oarecare măsură acest dezavantaj, pentru codarea poligonului se poate utiliza codul Freeman.

8.1.1.2. Codul Freeman

Codul Freeman se mai numeşte şi “cod lanţ” şi este folosit pentru codarea contururilor. Principiul acestuia constă în codificarea (numerotarea) vectorilor de “direcţie” dintre pixelii succesivi de pe contur prin numerotarea într-o anumită ordine a direcţiilor posibile de deplasare de-a lungul unui contur. Această metodă de compresie se bazează pe ideea că pentru un obiect „plin” este suficientă informaţia de contur, pentru a putea reface obiectul, iar conturul este codificat reţinând poziţia relativă a pixelilor de pe contur.

Codul Freeman de bază foloseşte 8 direcţii de mişcare (figura 8.2), vectorii fiind codificaţi prin cuvinte de 3 biţi:

179

1 3

2

6

4

7

0

5 1

2

H

D

3

A 5

C 4 B

F 7

E

6

0 G

Figura 8.2. Codul Freeman.

Tipic, codul Freeman conţine adresa pixelului de start (în exemplul prezentat, A), urmată de un şir de cuvinte cod, care codifică direcţia vectorului spre pixelul următor şi adresa acestuia (A34567012).

Codul obţinut este invariant la translaţie şi este dependent de alegerea punctului de start pentru parcurgerea conturului. Din acest motiv, ca alternative la acest cod Freeman primar, se pot folosi şi alte variante ale acestuia, cum ar fi: • codul Freeman diferenţial, obţinut prin scrierea diferenţei modulo-8

între cifrele succesive. Practic se numără întotdeauna în acelaşi sens numărul de direcţii care separă două orientări consecutive ale conturului, adică două cifre din codul primar.

• “numărul de formă” este cifra minimă obţinută din permutarea circulară a codului diferenţial. Acest descriptor de contur este constant, independent de poziţia punctului de start.

180

Exemplu: • codul Freeman primar = 60026442; • codul Freeman diferenţial =

2 0 2 4 6 0 6 4

4-4=0

6-4=2

4-2=2 =se începe cu diferenţa ultimelor două cifre; • numărul de formă: 02460642 (cel mai mic).

Această metodă de compresie se utilizează la comanda plotterelor, pentru realizarea de hărţi, desene sau amprente digitale.

Compresia cu coduri Freeman permite şi o serie de prelucrări pe contururi, fără a fi nevoie să fie memorată sau analizată întreaga imagine. Astfel, se pot calcula sau realiza:

1. perimetrul unui obiect, pe baza informaţiei referitoare la conturul său:

imparpar nnperimetrul ⋅+= 2 , (8.1)

unde npar este numărul legăturilor pare, iar nimpar este numărul legăturilor impare din codul Freeman.

2. ariile închise de contururi. 3. netezirea frontierelor obiectelor.

Codul Freeman este folosit în mod frecvent în caracterizarea formelor, putând fi folosit şi pentru determinarea altor parametri de formă.

Parametrii de formă reprezintă scalari sau funcţii asociate unei forme, pe care o caracterizează. Astfel, formele asemănătoare sunt caracterizate de parametri de formă de valori apropiate. Parametrii de formă compun un fel de “fişă de identitate” a formei respective, pe baza căreia această formă poate fi recunoscută în mod unic. În mod ideal aceşti parametri trebuie să fie invarianţi la translaţie, rotaţie şi scalare.

Printre cei mai cunoscuţi parametri (descriptori) de formă sunt:

181

• descriptori primari (geometrici): lungimi, perimetre, arii etc.; • descriptori de contur: Freeman, Fourier, aproximări poligonale: • momente statistice (invariante): Hu, Zernike, afine etc.

Parametrii geometrici se bazează pe măsurarea unor atribute geometrice simple (sau combinaţii ale acestora) cum ar fi: • perimetrul (P):

dttytxP ∫ += )()( 22 (8.2)

unde t este parametrul de contur, dar nu în mod necesar lungimea acestuia.

• aria (A):

∫∫ ∫ ∫∂ ∂

−==R R R

dtdt

tdytydtdt

tdxtydxdyA )()()()( (8.3)

unde R şi ∂R reprezintă regiunea obiectului şi respectiv, conturul acesteia. • excentricitatea formei (sau circularitatea sa, adică măsura în care

forma se deosebeşte de un disc) se defineşte ca raport între raza cercului circumscris (R) şi raza cercului înscris (r) în forma studiată:

rRc = (8.4)

• raportul de compactizare (sau rotunjimea formei) reprezintă raportul dintre pătratul perimetrului şi suprafaţa formei:

2

2

4 APKπ

= (8.5)

8.1.1.3. Descriptori Fourier

Descriptorii Fourier reprezintă o metodă utilă pentru reprezentarea

şi descrierea conturilor. Conturul poate fi descris cu o pereche de funcţii x(n) şi y(n) (periodice, cu perioada N, egală cu numărul punctelor de pe

182

contur sau cu un submultiplu al acestuia), în continuare putând fi utilizate toate tehnicile de reprezentare unidimensională pentru semnale.

Astfel, pentru orice contur eşantionat, care conţine N puncte, se poate scrie: )()()( nyjnxnu ⋅+= , unde 1,...,1,0 −= Nn (8.6)

În cazul unui contur închis, semnalul u(n) va fi un semnal periodic cu perioada N.

αa(k)=x(k)+j⋅y(k)

x

y Figura 8.3. Descriptori Fourier.

Descriptorii Fourier sunt chiar coeficienţii a(k) ai transformatei

Fourier ai funcţiei u(n), obţinuţi prin aplicarea transformatei Fourier unidimensionale. Astfel, a(0) reprezintă centrul de greutate al curbei, iar ceilalţi coeficienţi a(k) conţin informaţiile privind variaţiile locale ale conturului descris:

⋅⋅−⋅= ∑

−

= Nnkjnuka

N

n

π2exp)()(1

0, unde 10 −≤≤ Nk (8.7)

Descriptorii Fourier pot fi utilizaţi în recunoaşterea de forme de acelaşi tip, chiar dacă acestea au dimensiuni şi orientări diferite. Se poate arăta că vectorul descriptor Fourier al conturului unei forme:

{ })1(,...,)2(,)1(,)0( −= NaaaaVF (8.8)

este invariant la scalare şi translaţie. În plus, faza ( ))(arg ka , unde k=0,1,2,…,N-1, este invariantă la rotaţie.

183

Deci, anumite transformări geometrice ale unui contur sau forme se reflectă, în cazul descriptorilor Fourier corespondenţi, în transformări (operaţii) simple ale acestora. De exemplu, dacă un contur este translatat cu:

000 vjxu ⋅+= , 0)()(' ununu +=⇒ (8.9)

În acest caz, noii descriptori Fourier rămân identici, cu excepţia celui pentru k=0, )()()(' 0 kukaka δ⋅+= . Efectul de scalare (mărire sau

micşorare a conturului) are ca efect o scalare a coeficienţilor a(k), deci dacă:

)()(' nunu ⋅= α )()(' kaka ⋅=⇒ α (8.10) Modificarea punctului de referinţă (de start) a conturului duce la o

modulare a coeficienţilor a(k). Deci, dacă:

0)()(' Φ−⋅= jenunu Nnkj

ekaka02

)()('⋅⋅

−⋅=⇒

π

(8.11)

Rotaţia conturului cu un unghi 0φ produce un defazaj suplimentar

constant 0φ al descriptorilor:

0)()(' Φ−⋅= jenunu 0)()(' Φ−⋅=⇒ jekaka (8.12)

8.1.2. Codarea la nivel de bloc 8.1.2.1. Metoda arborelui cuaternar (Quad-tree) Compresia bazată pe metoda arborelui cuaternar (quad-tree) se implementează prin segmentarea succesivă a imaginii în sferturi succesive, până se obţin doar zone omogene, ca şi în cazul segmentării prin metoda quad-tree. Codarea se face apoi prin atribuirea pentru fiecare „frunză” a arborelui a unei valori corespunzătoare valorii din zona (pătratul) adresată de frunză.

184

convenţie

0 1

3 2 0 0

0 0 0

0

0

1 2 3

1 2 3

1

1

1

1

Figura 8.4. Compresia prin metoda arborelui cuaternar.

Conform acestei metode, pentru a reface imaginea din codul acesteia, pentru fiecare „frunză” trebuie ştiut (memorat): • valoarea: este conţinută în fiecare frunză; • dimensiunea: poate fi dedusă din nivelul pe care se află frunza (de

exemplu, frunzele, deci pătratele de pe primul nivel au latura egală cu ½ din latura imaginii);

• poziţia: rezultă din calea pe care se ajunge la frunză. Prin urmare codul obţinut prin metoda quad-tree trebuie să conţină

toate informaţiile de mai sus. Din aceste informaţii se poate elimina informaţia referitoare la dimensiunea frunzei, deoarece aceasta rezultă în mod implicit, deoarece din lungimea codului rezultă şi nivelul pe care se află frunza şi deci dimensiunea acesteia. De exemplu, codul corespunzător valorii pătratului negru din partea dreapta-jos a imaginii de mai sus este 111 (cel al poziţiei sale este 22), iar cel al valorii pătratului alb din stânga-jos este 10 (cel al poziţiei sale este 3). 8.1.2.2. Metoda WBS (White Block Skipping) Această metodă de codare la nivel de bloc se bazează pe omiterea zonelor albe din imagine. Principiul implementării acestor metode constă în:

185

• împărţirea şirului de biţi ce defineşte imaginea în blocuri de câte m biţi;

• un bloc nul (toţi biţii sunt 0-logic) se înlocuieşte cu un singur bit de 0; • blocurile nenule (în care cel puţin un bit este diferit de 0-logic) sunt

înlocuite cu un bit de 1-logic, urmat blocul respectiv. De exemplu, pentru m=3 şi pentru secvenţa următoare: 000 110 000 101 000 011

codul corespunzător este: 0 1110 0 1101 0 1011 După cum se observă, acest tip de compresie este eficient doar în

cazul imaginilor cu mult alb, în caz contrar putându-se obţine chiar un efect contrar compresiei. Se poate arăta că:

−+= nulp

mR 11 , unde (8.13)

R este inversul ratei de compresie (C), pnul este probabilitatea ca blocul de m biţi să fie nul.

finala imagineadin biti de numarul

initiala imagineadin biti de numarul==

RC 1 (8.14)

8.1.3. Codarea la nivel de bit

8.1.3.1. Codarea RLE (Run Length Encoding)

Principiul codării RLE (Run Length Encoding) constă în reţinerea numărului de biţi succesivi care au aceeaşi valoare în secvenţa de biţi ce descrie imaginea. De exemplu, pentru secvenţa iniţială:

000111010111110000111111 care are 24 biţi prin codarea conform principiului RLE se obţine secvenţa codată: 033111546

186

Adică primul bit este 0-logic, care se repetă de 3 ori, după care se schimbă simbolul (în 1-logic, dar acesta nu se mai memorează, deoarece în imaginile binare tranziţia din 0-logic se face doar în 1-logic), acesta se repetă de 3 ori, după care se schimbă din nou simbolul, acesta apare o singură dată, după care avem 2 schimbări succesive de simbol, acestea apărând câte o singură dată, după care avem simbolul 1-logic care se repetă de 5 ori, se schimbă simbolul (în 0-logic) care apare de 4 ori, iar apoi ultimul simbol apare de 6 ori. Se observă că în secvenţa codată cel mai mare număr care apare este 6, deci pentru codarea binară a acestei secvenţe este nevoie de 8 coduri (apar 8 numere în secvenţa codată 33111546) de câte 3 biţi (pentru codarea celui mai mare număr este nevoie de 3 biţi) plus bitul ce reprezintă valoarea primului bit din secvenţa iniţială. Prin urmare, se poate deduce că metoda este eficientă în codarea imaginilor care conţin zone uniforme de dimensiuni mari. Metoda RLE este utilizată la faxuri. 8.1.3.2. Codarea entropică (Huffman) Deoarece codarea entropică se studiază în detaliu în teoria informaţiei, nu se va insista pe detalii ale metodei, ci doar pe descrierea principiului metodei, prin intermediul unui exemplu. Pentru implementarea codării entropice se porneşte de la un număr de simboluri disponibile, care au anumite probabilităţi de apariţie. Principiul codării entropice (Huffman) constă în a coda cu un număr mic de biţi simbolurile cu probabilitate de apariţie mare, iar simbolurile sau secvenţele rare (cu probabilitate de apariţie mică) să fie codate cu un număr mai mare de biţi. Pentru exemplificarea principiului metodei, se presupun şapte simboluri cu probabilităţile de apariţie din tabelul 8.1.

187

Tabelul 8.1. Simbolul Iniţial

PA CA Etapa 1 PA CA

Etapa 2 PA CA

Etapa 3 PA CA

Etapa 4 PA CA

Etapa 5 PA CA

Etapa 6 CA

11 (G5) 0 7 (G4) 7 1

S1 6 6 6 6 6 00 00 5 (G3) 5 01 4 (G2) 4 10

S2 3 3 3 3 11 11 S3 3 3 3 010 010

2 (G1) 2 011 S4 2 2 100 100 S5 2 2 101 101 S6 1 0110 0110 S7 1 0111

PA = probabilitatea de apariţie CA = codul alocat În faza iniţială, se ordonează simbolurile în ordinea descrescătoare a probabilităţilor, după care se grupează simbolurile două câte două. Simbolurile cele mai puţin probabile sunt grupate şi alcătuiesc o grupă restrânsă de probabilităţi (G1, în tabelul 8.1). Procesul se repetă (G2, ..., G5) până când avem o grupă restrânsă cu doar două elemente (G5 şi G4), cărora le alocăm câte un simbol diferit (0,1), după care se refac în sens invers grupele, respectiv simbolurile iniţiale, prin alocarea unor biţi corespunzători care se adaugă celor din grupele superioare (anterioare), din care provin grupele sau simbolurile curente. Prin codarea entropică se obţine codul cu lungimea medie minimă, în raport cu alte coduri.

188

8.2. Compresia imaginilor cu niveluri de gri

8.2.1. Codarea pe plane

În cazul codării pe plane a imaginilor cu niveluri de gri se pot aplica metode similare metodelor de codare a imaginilor binare, pe fiecare plan ce codează informaţia din imagine.

…

b0

b1

b7

…

Figura 8.5. Principiul codării pe plane.

În acest caz trebuie prevăzute metode de detecţie a erorilor la nivelurile înalte pentru a nu avea salturi bruşte de valori deoarece, de exemplu, o eroare a bitului cel mai semnificativ MSB (Most Significant Bit) se poate traduce într-o eroare de ½ din valoarea iniţială. Pentru o imagine codată pe 8 biţi, aceasta înseamnă un salt de la 255 la 127 (11111111 -> 01111111). În cazul imaginilor color se poate reduce numărul de culori, înlocuind componentele RGB cu coeficienţii cromatici r,g,b:

BGR

Rr++

= , BGR

Gg++

= , BGR

Bb++

= 1=++⇒ bgr (8.15)

Prin, această înlocuire se obţine un spaţiu bidimensional, deoarece componentele r,g,b nu sunt independente (dacă cunoaştem două componente, cea de-a treia rezultă dintr-o combinaţie liniară a primelor

189

două). Spaţiul bidimensional obţinut determină un spaţiu fizic reprezentabil în planul celor două componente cunoscute:

b

r

Figura 8.6. Spaţiul bidimensional r-b.

Pentru a se obţine un spaţiu fizic reprezentabil extins, se poate utiliza spaţiul cromatic modificat sau o reprezentare de tip JNC (Just Noticeable Color) prin intermediul elipselor lui McAdam, care au proprietatea că nu se poate deosebi culoarea din centrul elipselor de restul culorilor din interiorul elipsei:

b

r

…

…

Figura 8.7. Elipsele lui McAdam.

190

8.2.2. Metode predictive de compresie

Transmisia digitală clasică a imaginilor constă în transmisia secvenţială a eşantioanelor obţinute prin baleierea clasică, linie după linie. Prin urmare, avem de transmis o secvenţă u(k) unidimensională, în care fiecare eşantion u(k) este un eşantion cuantizat pe n biţi. Transmisia a n biţi este însă redundantă: eşantioanele vecine sunt puternic corelate, nefiind nici pe departe variabile aleatoare independente. Dacă se transmite în loc de eşantioane diferenţele dintre ele, se obţine o decorelare importantă, iar diferenţele pot fi transmise cu un număr mai mic de biţi fiindcă nu sunt variabile aleatoare cu repartiţie uniformă pe domeniul de valori [0, M-1], ci cu un maxim pronunţat în jurul lui 0 şi cu lungimea de cod semnificativ mai mică decât n. De fapt, folosind acest procedeu nu înseamnă decât să se facă ceea ce se numeşte predicţie de ordinul 0: se estimează: )1()(ˆ −= kuku (8.16) şi se transmite eroarea: )1()()(ˆ)()( −−=−=⇒ kukukukuke (8.17) Evident procedeul se poate generaliza: dacă ( ) )()(),...,1()(ˆ kulkukuku ≅−−=ψ (8.18)

În acest exemplu, e este eroarea de predicţie, iar ψ este predictorul

sau regula de predicţie de ordinul l-1, RR →l:ψ (dacă secvenţa este reală, R∈u(k) ), care se deduce pe baza unor considerente statistice. Un caz particular este cazul predicţiei liniare, în care regula de predicţie este o funcţie liniară:

∑=

−⋅=l

ii ikuaku

1)()(ˆ (8.19)

Coeficienţii ai se determină pe baza unor considerente statistice.

191

Transmiterea eşantioanelor cuantizate şi folosind un cod (de exemplu 8 biţi pentru 256 de niveluri, folosind convenţia de scriere binară) se numeşte modulaţie de impulsuri în cod PCM (Pulse Code Modulation, în engleză). Transmiterea diferenţelor între eşantioane se numeşte DPCM (Differential Pulse Code Modulation). Codarea diferenţei se poate face în diverse moduri. Cel mai simplu caz din punct de vedere al biţilor de transmis este ca eroarea e(n) să fie codată pe un singur bit (bitul de semn). În acest caz, se fixează o cuantă q şi la transmisie: • dacă e(k)>0 se transmite 1-logic; • dacă e(k)<0 se transmite 0-logic. La recepţie: • dacă s-a recepţionat un 1-logic se adaugă cuanta q la eşantionul

anterior; • dacă s-a recepţionat un 0-logic se scade cuanta q la eşantionul

anterior. Această codare DPCM particulară se numeşte modulaţie delta. În figura 8.8 se observă care este dezavantajul esenţial al modulaţiei delta: eroarea de neurmărire, în momentele când semnalul se modifică rapid.

u(k)

)(ˆ ku

t

eroare de neurmărire

zgomot granulat q

Figura 8.8. Principiul modulaţiei delta.

192

În zonele cu pantă mare, deci cu variaţii bruşte, ale u(k) apar distorsiuni (erori) de neurmărire, iar în zonele cu pantă mică, deci cu variaţii lente, ale u(k) apare un zgomot granulat. Modulaţia delta a fost îmbunătăţită mult în raport cu această variantă iniţială prin procedee de modificare adaptivă a pantei de creştere în funcţie de secvenţa de cifre binare transmise. Eliminarea distorsiunii de urmărire se face prin modificarea adaptivă a cuantei de la un pas la altul, adică (figura 8.9): • creşterea cuantei pentru două creşteri succesive ale semnalului; • scăderea cuantei pentru două scăderi consecutive; • păstrarea valorii cuantei de la un pas la altul, pentru o creştere şi o

descreştere succesivă (sau o descreştere şi o creştere succesive).

u(k)

)(ˆ ku

t q

2q

Figura 8.9. Principiul modulaţiei delta adaptive.

Pentru implementarea compresiei cu predicţie,

( ) )()(),...,1()(ˆ kulkukuku ≅−−=ψ , se poate utiliza schema bloc din figura 8.10.

193

Predictor cu întârzieri

++

-

)(ˆ ku

u(k) cuantizor

e(k) eq(k)

Figura 8.10. Principiul compresiei cu predicţie.

Această metodă nu se foloseşte în practică deoarece în e(k) se vor acumula erorile de cuantizare a lui u(k). Pentru a elimina acest dezavantaj se foloseşte metoda: ( ))(ˆ),...,1(ˆ)(ˆ lkukuku −−=ψ (8.20)

Predictor (cu întârzieri) -

+ -

)(ˆ ku

u(k) cuantizor

e(k) eq(k)= e(k)+∆e(k) + codor canal de

comunicaţie decodor

Predictor (cu întârzieri)

+ +

+ eq(k)

)(ˆ ku

u'(k)

Figura 8.11. Principiul predicţiei cu compresie modificat.

În această figură: )()(' kuku ≅ +erori de cuantizare. În cazul 2D al compresiei cu predicţie a imaginilor, în mod similar, pentru o imagine u(m,n), imaginea prezisă va fi:

( ){ }( )nmWjijiunmu

,),(,),(ˆ ∈=ψ , (8.21)

unde Wm,n este fereastra de predicţie, adică vecinătatea punctului curent, în care se face predicţia. Fereastra de predicţie trebuie aleasă astfel încât să fie cauzală. De exemplu, pentru o baleiere normală a imaginii (sus-jos, stânga-dreapta),

194

pentru punctul curent, fereastra de predicţie trebuie aleasă ca în figura de mai jos (Wm,n şi nu W’m,n), pentru ca valorile ce intervin în predicţie să fie deja calculate:

Wm,n

W’m,n

Figura 8.12. Constrângerea de cauzalitate a ferestrei de predicţie.

8.2.3. Compresia cu transformate După cum s-a arătat şi în capitolul de transformări ale imaginilor, transformările integrale unitare se pot aplica cu succes şi la compresia imaginilor. Într-un proces de compresie cu transformate se porneşte de la o imagine iniţială I în care energia este repartizată relativ uniform. Acesteia i se aplică o transformare T în urma căreia se obţine o imagine în care energia este concentrată în mult mai puţine componente decât în imaginea iniţială (de dorit în componentele cu indici mici).

T-1

canal T ....

)(ˆ IT

. .

. . I .

.......

T(I)

. .

. . . I. . .

codare decodare Figura 8.13. Principiul compresiei cu transformate.

La codare se reţin (respectiv se transmit) numai componentele în care este concentrată majoritatea energiei. La decodare (la recepţie),

195

imaginii recepţionate, ce conţine informaţie doar în unele componente, i se aplică transformarea inversă, obţinându-se imaginea iniţială I (în practică se obţine de fapt o aproximaţie a acesteia). Dacă transformarea este liniară şi unitară, deoarece transformările unitare conservă energia ( ( ))()( ITEIE = ), se poate controla cât anume se pierde din energia imaginii iniţiale prin netransmiterea (sau nerecepţionarea) componentelor nesemnificative din imaginea transformată. Mărimile cantitative care definesc eficienţa compresiei sunt: • raportul de compresie. Raportul de compresie se defineşte ca fiind

raportul dintre cantitatea de informaţie din imaginea iniţială şi cantiatea de informaţie din imaginea transformată care se transmite. În prezent, factorii de compresie uzuali sunt de 10...20.

• raportul semnal-zgomot. Raportul semnal-zgomot exprimă o măsură a calităţii compresiei. Raportul semnal-zgomot al compresiei se defineşte ca fiind raportul dintre energia imaginii iniţiale şi energia erorii de compresie:

∑

∑

−==

−ji

ji

II

I

jiIjiI

jiI

EE

RSZ

,

2,

2

ˆ ),(ˆ),(

),( (8.22)

În decibeli: RSZRSZdB 10log10 ⋅= . Valori acceptabile ale RSZdB

sunt cele de peste 30 dB: RSZdB >30. Pentru valori peste 30 dB, ochiul uman nu mai poate distinge diferenţele între imaginea originală şi cea transformată. Pot să apară şi zgomote cu RSZdB >30 dB, de exemplu pentru imagini cu multe contururi, prin aplicarea transformatei Fourier discrete DFT. În acest caz, la aplicarea transformatei inverse, contururile vor fi puternic afectate, deoarece componentele de frecvenţă înaltă (contururile) vor fi eliminate.

196

Dintre transformările prezentate anterior, cea mai utilizată transformare pentru compresie este transformata Cosinus discretă DCT, care elimină dezavantajele transformatei Fourier DFT.

• numărul de operaţii sau complexitatea algoritmului de compresie. În capitolul de transformări ale imaginilor, s-a arătat că pentru transformările unitare bidimensionale, ale unor imagini de dimensiuni N×N, care admit algoritm rapid de calcul, numărul de operaţii este:

NNnx 22 log⋅≈ (8.23)

Complexitatea algoritmului se poate reduce dacă nu se aplică transformarea pe întreaga imagine, ci se împarte imaginea în blocuri şi se face codarea fiecărui bloc transformat.

...

...

...

...

n

n

T T

Figura 8.14. Principiu de reducere a complexităţii compresiei cu

transformate.

Pentru blocuri de dimensiunea n×n, complexitatea algoritmului este:

( ) 2

22' log

⋅⋅≈

nNnnnx (8.24)

Prin urmare, câştigul în ce priveşte complexitatea algortimului de compresie este:

197

NnnNNnN

nn

nx

x logloglog

222

222

' =⋅⋅

⋅⋅= (8.25)

Pentru N=512 şi n=8 (n fiind standardizat în cadrul JPEG):

339

loglog

2

2 ==nN

(8.26)

⇒ se obţine un algoritm de 3 ori mai rapid. Prin urmare, rămâne de stabilit transformarea optimă pentru compresie, care să prezinte caracteristici optime, relativ la cele prezentate anterior. Transformarea optimă va fi stabilită relativ la criteriul erorii pătratice a mediei statistice. Dacă se consideră o variabilă aleatoare, ξ, reală şi se fac multe experimente, în care se măsoară ξ, se vor obţine diferite valori care pot fi ordonate pe o axă, ca în figura 8.15.

xxxxx xx xx x

Figura 8.15. Ordonarea valorilor unei variabile aleatoare pe o axă.

Dacă aceste valori ar fi infinit de multe, densitatea lor pe axă ar arăta ca funcţia de densitate de probabilitate ce caracterizează variabila ξ:

Figura 8.16. Densitatea valorilor unei variabile aleatoare.

Dacă ξ nu este o variabilă aleatoare reală scalară ci un vector cu N componente(reale), la fiecare realizare se pune un punct în spaţiul n-dimensional. ξ va putea fi scris:

198

=

−1

0

.

.

.

Nξ

ξ

ξ sau

=

Nξ

ξ

ξ...1

(8.27)

Prima numerotarea componentelor poate fi avantajoasă uneori, din considerente practice (realizările lui ξ sunt notate cu majuscule):

=

−1

0

.

.

.

NX

X

X , respectiv

=

NX

X

X...1

(8.28)

Cel mai simplu caz este N=2, în care rezultatele pot fi reprezentate ca nişte puncte în plan. Rezultatele unor experimente repetate poate arăta ca în figura 8.17.a. Un alt exemplu este prezentat în figura 8.17.b.

X1

X2

X1

X2

(a) (b)

Figura 8.17. Exemple de reprezentare a realizărilor unei variabile aleatoare.

În cazul din figura 8.17.b legătura între valoarea lui X1 şi valoarea lui X2 este mai strânsă. În acest caz, dacă s-ar roti axele ca în figura 8.18,

199

adică dacă în loc de valorile calculate pentru X1 şi X2 s-ar face calcule cu nişte combinaţii ale acestora, care se pot obţine ca noi coordonate ale punctelor într-un sistem de axe rotit, pentru caracterizarea experimentului ar fi aproape suficient y1, adică o singură variabilă şi nu două, deoarece y2 este mic în comparaţie cu y1 şi adesea neglijabil, în asemenea situaţii.

X1

X2

y1

y2

Figura 8.18. Exemplu de reprezentare a realizărilor unei variabile

aleatoare, într-un sistem de axe rotit.

Din astfel de motive, prezintă interes „transformări” ale vectorilor aleatori (în general N-dimensionali) şi fiindcă cele mai simple sunt transformările liniare, vor fi studiate doar acestea. O transformare liniară de la RN se scrie cu ajutorul unei matrici A: ξη ⋅= A ,

unde:

=

−−−

−

1,11,0

1000

.........

...

NNN

N

aa

aa

A , (8.29)

200

=

−1

0

.

.

.

Nξ

ξ

ξ şi

=

−1

0

.

.

.

Nη

η

η . (8.30)

Scopul este de a găsi o transformare care să fie optimă dintr-un anumit punct de vedere, şi anume să facă cât mai mici cât mai multe componente ale lui η astfel încât ξ să se poată aproxima cât mai bine prin cât mai puţine numere. Bineînţeles, fiind vorba de variabile aleatoare, minimizarea acestora trebuie înţeleasă în sensul de eroare medie. Mai exact, instrumentul matematic adecvat este eroarea medie pătratică fiindcă este o funcţie derivabilă: la eroarea medie ar trebui vorbit de modul, dar modulul nu este o funcţie derivabilă. Pentru calculele ce urmează se presupune, de asemenea, că toate componentele lui ξ (ξ0, ξ1,…, ξN-1) sunt variabile aleatoare de medie nulă. Se presupune că se cunosc nişte informaţii minime despre aceste variabile şi anume, se presupun cunoscute mediile şi corelaţia între componente, respectiv dispersia fiecăreia, adică momentele de ordinul 1 ( kξ ) şi de

ordinul 2 ( jiξξ ). Dacă nu ar fi variabile aleatoare de medie nulă, s-ar

putea scade media (cunoscută), iar rezultatul ar fi variabile aleatoare de medie nulă. Se va limita căutarea optimului printre matricile unitare (care, de fapt, sunt generalizări ale rotaţiilor din plan), deoarece ele păstrează produsul scalar şi norma, adică dacă: '' ξη ⋅= A şi "" ξη ⋅= A (8.31) atunci:

"')",'()",'("' ηηηηξξξξ ⋅===⋅ TT (8.32) şi, în particular:

22 ')','()','(' ηηηξξξ === (8.33)

201

În aceste relaţii, vectorii sunt consideraţi ca fiind vectori coloană de dimensiune N×1, ca în relaţia (8.30). Produsul scalar a doi vectori ξ şi η a fost notat cu (ξ, η). În notaţie matriceală, acest produs se scrie ca un produs ξ T·η, între o matrice (vector) 1×N şi o matrice N×1 şi are ca

rezultat o matrice (scalar) 1×1: ∑−

=⋅=⋅

1

0

N

iii

T ηξηξ .

Aceste matrici mai au proprietatea că TAA =−1 (vezi capitolul 4, paragrafele 4.1 şi 4.2), adică transformarea inversă se obţine foarte simplu,

şi că dacă se notează cu ),...,,( 110TN

TT aaa − liniile lui A, respectiv cu

),...,,( 110 −Naaa coloanele lui AT:

[ ]110 ,...,, −= NT aaaA , (8.34)

atunci vectorii ai sunt ortogonali doi câte doi şi de normă 1. Prin urmare, se va căuta printre matricile unitare o matrice L cu proprietăţile de optimalitate descrise. Cu alte cuvinte, se porneşte de la relaţiile:

ξη ⋅= L şi ηξ ⋅= TL , unde

=

−1

0

.

.

.

Nη

η

η . (8.35)

Primul pas ar fi să se determine cum ar trebui să fie L pentru ca eroarea medie pătratică (asupra lui ξ) să fie minimă, dacă se înlocuieşte ηN-1 cu zero, adică dacă se neglijează o componentă.

Fie:

=

−

0

.

.~

2

0

Nη

η

η şi ηξ ~~⋅= TL (8.36)

202

Este evident că: 22 ~~ ηηξξ −=− , deoarece:

( ) ( ) ( )[ ] ( )[ ]=−⋅⋅−⋅=−⋅−=− ηηηηξξξξξξ ~~~~~ 2 TTTT LL

( ) ( ) ( ) ( ) 2~~~~~ ηηηηηηηηηη −=−⋅−=−⋅⋅⋅−= TTT LL (8.37)

Prin urmare:

( ) =⋅==−=−= −−−−

=∑ 11

21

1

0

222 ~~NNN

N

kkk ηηηηηηηε

111111 −−−−−− ⋅⋅=⋅⋅⋅=⋅⋅⋅= NTNN

TTNN

TTN lKlllll ξξξξξ (8.38)

unde Kξ este matricea de covariaţie (şi de corelaţie, deoarece este de medie nulă) a vectorului ξ. Alegerea lui lN-1 (lk fiind coloanele matricii LT) trebuie făcută astfel încât acest ε2 să fie minim, cu constrângerea că lN-1 este un vector unitar:

111 =⋅ −NTN- ll (8.39)

Folosind metoda multiplicatorilor lui Lagrange, aceasta înseamnă să minimizăm liber funcţia:

( )11111 −⋅⋅−⋅⋅=Ψ −−−− NTNN

TN lllKl λξ (8.40)

Derivarea lui Ψ în raport cu componentele lui lN-1 şi anularea ei, se scrie mai compact ca anularea gradientului lui Ψ, iar:

( ) vAvAvTv ⋅⋅=⋅⋅Ψ∇ 2 (8.41)

pentru orice vector v şi orice matrice A, astfel că: 022 111

=⋅⋅−⋅⋅=Ψ∇ −−− NNl llKN

λξ (8.42)

adică lN-1 trebuie să fie vector propriu al matricii de autocovariaţie a lui ξ: 11 −− ⋅=⋅ NN llK λξ (8.43)

Cum în acest caz eroarea devine:

( ) λλλλε ξ =⋅=⋅⋅=⋅⋅=⋅⋅= −−−−−−−2

1111111 NNTNN

TNN

TN llllllKl

203

(deoarece lN-1 este de modul 1) este clar că, pentru a avea un minim, trebuie ca λ să fie cea mai mică valoare proprie a lui Kξ (se ştie că Kξ este o matrice simetrică pozitiv definită şi prin urmare are N valori proprii pozitive, iar vectorii proprii sunt ortogonali, de normă 1).

Vectorul

=

−1

0

.

.

.

Nη

η

η la care se doreşte ca ultima componentă să

fie minimă, are proprietatea interesantă că:

( ) =⋅⋅⋅=⋅⋅⋅=⋅⋅⋅=⋅ −−−− 1111 NTT

KNTT

KTT

NTkNk llllll ξξξξξξηη

= ( ) 01min1min1 =⋅⋅=⋅⋅=⋅⋅ −−− NTkN

TkN

Tk lllllKl λλξ (8.44)

pentru 1−≠∀ Nk , deoarece L este o matrice ortogonală (unitară, reală). Cu alte cuvinte ηN-1 este necorelată cu toate celelalte componente ale lui η. Adică Kη are forma:

⋅⋅⋅⋅⋅

=

−

−

min

2101

201000

0...00...

00...

λ

ηηηηηηηηηη

η

N

N

K (8.45)

Dacă ηN-1 este necorelată cu toate celelalte componente ηk ale lui η, ea este necorelată şi cu orice combinaţie liniară a acestor componente. Aceste lucruri permit să se spună că se poate repeta raţionamentul precedent pentru vectorul:

204

=

−2

0

.

.

.'

Nη

η

η

adică să se caute o transformare unitară care să minimizeze ultima componentă (media ei pătratică) şi apoi tot aşa. De fapt, deoarece ηN-1 este necorelată cu toate celelalte componente ηk, transformarea căutată se poate considera şi ea N-dimensională, cu

ultima linie TNl 1− cunoscută.

Se ajunge la concluzia că matricea L care compactează cel mai bine

energia lui ξ adică pe 2ξ în câteva componente, este cea pentru care

coloanele lui LT sunt vectorii proprii ai matricii Kξ în ordinea descrescătoare a valorilor proprii, adică dacă:

[ ]10 ,..., −= NT llL ,

atunci lk satisface relaţia: kkk llK ⋅=⋅ λξ (8.46)

unde: 1210 ... −≥≥≥≥ Nλλλλ .

Transformarea unitară ( )TnllL ...1= , în care kkk llK ⋅=⋅ λξ se

numeşte transformata Karhunen-Loeve (KL). Eroarea ε dată de compresia cu transformata KL când se înlocuiesc

cu constante ultimele „N-m” componente ale lui Φ este:

∑∑∑+=+=+=

Φ⋅

=Φ⋅Φ⋅=Φ⋅⋅Φ=N

mkk

N

mkk

Tkk

N

mkkx

Tk

kk

K111λλε

λ43421

(8.55)

Construcţia matricii transformării KL se poate face astfel: • se determină valorile proprii (λ1,..., λN) ale lui Kξ; • se ordonează descrescător: λ(1)>...> λ(N)

205

• vectorii proprii corespunzători sunt ordonaţi în aceeaşi ordine:

( )TNlllL )()2()1( ...= (8.56)

În acest mod, energia lui ξη ⋅= L va fi concentrată în primele componente. Exemplu: În cazul unei transformări separabile, aplicată unei imagini IN×N, se determină matricea de autocovariaţie a liniilor Kl, matricea de autocovariaţie a coloanelor Kc (figura 8.19):

( ) ( )Tc ccccK −⋅−= , ( ) ( )Tl llllK −⋅−= , (8.57)

unde mediile statistice pot fi estimate ca medii aritmetice pe mai multe imagini.

c1 c2 cNl1 l2

lN

I

... ...

Figura 8.19. Calculul matricilor de autocovariaţie pe linii şi pe coloane.

Media statistică pe o singură imagine este:

∑=

≅N

iilN

l1

1 , ∑=

≅N

iic

Nc

1

1 (8.58)

( ) ( )∑=

−⋅−≅⇒N

ii

Til llll

NK

1

1 , ( ) ( )∑=

−⋅−≅N

ii

Tic cccc

NK

1

1 (8.59)

206

După determinarea matricelor Kl şi Kc, se determină vectorii proprii şi valorile proprii:

lll LK λ→→ , ccc LK λ→→ (8.60)

Cu aceste mărimi calculate, pentru o imagine dată U, imaginea V obţinută prin transformarea KL bidimensională a imaginii iniţiale U, este:

Tlc LULV ⋅⋅=

T .......

V

. .

. . . U. .

Figura 8.16. Principiul compresiei cu transformata T=KL.

În concluzie, transformarea optimă din punct de vedere al compresiei este transformarea K-L (Karhunen-Loeve). Aceasta realizează decorelarea elementelor imaginii şi transformatei şi prin aceasta compactarea maximă a energiei semnalului (imaginii) în primele componente. Cu toate aceste avantaje, deoarece transformata K-L depinde de statistica imaginii şi datorită volumului mare de calcule necesare (mai ales în cazul imaginilor de dimensiuni mari), transformata K–L este dificil de implementat practic. Totuşi, pentru imagini cu corelaţie mare, transformata K-L se poate aproxima cu succes prin transformata Cosinus Discretă (DCT=Discrete Cosine Transform) mult mai rapidă şi mai uşor de implementat.

207

Bibliografie 1. Buzuloiu V., Note de curs – Prelucrarea şi analiza imaginilor,

Universitatea din Oradea, 1996-2000. 2. Castleman K. R., “Digital Image Processing”, Editura Prentice-Hall,

1996. 3. Gonzales R.C., Woods R.E., “Digital Image Processing”, Editura

Prentice-Hall, 2002. 4. Jahne B., “Digital Image Processing”, Editura Springer, 2002. 5. Jain A. K., “Fundamentals of Digital Image Processing”, Editura

Prentice-Hall Inc., 1989. 6. Jiang M., “Digital Image Processing”, Curs, Peking University, 2001. 7. Pitas I., “Digital Image Processing. Algorithms and applications”,

Editura Wiley-Interscience, 2000. 8. Pratt W.K., “Digital Image Processing”, Editura John Wiley & Sons

2001. 9. Spătaru A., “Teoria transmiterii informaţiei”, Editura Didactică şi

Pedagogică, Bucureşti, 1984. 10. Vertan C., Ciuc M., “Tehnici fundamentale de prelucrarea şi analiza

imaginilor”, Editura MatrixRom, Bucureşti, 2007. 11. Wahl F., “Digital Image Signal Processing”, Editura Artech House,

1987.

Aa_Carte PAI Integrala

Documents

Transcript of Aa_Carte PAI Integrala