Tehnici de compresie a datelor - ERASMUS Pulse MPEG4.pdf• Clasificarea ratelor de bit şi a...

13
1 7. MPEG-4 Iniţial dezvoltat ca un standard pentru codarea audio-video de complexitate redusă la rate de bit foarte mici. A fost extins pentru a include: funcţionalităţi nesuportate de alte standarde: - interactivitate bazată pe conţinut. - acces universal. - compresie mare. codarea informaţiei generale la o gamă mare de rate de bit. flexibilitate şi extensibilitate. Descrierea interactivă a scenei O scenă este compusă din obiecte audio-vizuale şi nu doar din pixeli sau blocuri de imagine care se mişcă. Obiectele pot fi diferite: - text sau imagini - de formă dreptunghiulară sau arbitrară - 2D sau 3D - naturale sau artificiale La codare toate obiectele sunt multiplexate împreună şi transmise la terminal. Trebuie aplicate diferite metode de codare pentru obiecte diferite. Obiectele decodate trebuie compuse la loc în scena multimedia. Plasarea acestor obiecte în timp şi spaţiu este descrisă în nivelul “Descrierea scenei”.

Transcript of Tehnici de compresie a datelor - ERASMUS Pulse MPEG4.pdf• Clasificarea ratelor de bit şi a...

Page 1: Tehnici de compresie a datelor - ERASMUS Pulse MPEG4.pdf• Clasificarea ratelor de bit şi a facilităţilor oferite pentru codarea MPEG-4 a imaginilor naturale: • VLBV (Very Low

1

7. MPEG-4

• Iniţial dezvoltat ca un standard pentru codarea audio-video de complexitateredusă la rate de bit foarte mici.

• A fost extins pentru a include:• funcţionalităţi nesuportate de alte standarde:

- interactivitate bazată pe conţinut.- acces universal.- compresie mare.

• codarea informaţiei generale la o gamă mare de rate de bit.• flexibilitate şi extensibilitate.

• Descrierea interactivă a scenei• O scenă este compusă din obiecte audio-vizuale şi nu doar din pixeli sau

blocuri de imagine care se mişcă.• Obiectele pot fi diferite:

- text sau imagini- de formă dreptunghiulară sau arbitrară- 2D sau 3D- naturale sau artificiale

• La codare toate obiectele sunt multiplexate împreună şi transmise la terminal.• Trebuie aplicate diferite metode de codare pentru obiecte diferite.• Obiectele decodate trebuie compuse la loc în scena multimedia.• Plasarea acestor obiecte în timp şi spaţiu este descrisă în nivelul “Descrierea

scenei”.

Page 2: Tehnici de compresie a datelor - ERASMUS Pulse MPEG4.pdf• Clasificarea ratelor de bit şi a facilităţilor oferite pentru codarea MPEG-4 a imaginilor naturale: • VLBV (Very Low

2

• Exemplu de scenă multimedia:

fluxul de date/controldemultiplexat

fluxul de date/controlmultiplexat

prezentareaudiovizulă

obiecte 3D

fundal 2D

voce

expresie

observator ipotetic

planul deproiecţie al

compozitoruluivideo

compozitoraudio

sistemul decoordonate

al sceneix

y

z evenimenteutilizator

obiecte audiovizuale

boxe display comenziutilizator

• Scena este descompusă după o structură ierarhică:scenă

glob birou

persoana prezentareaaudiovizală

fundal 2D mobila

voce expresie

Page 3: Tehnici de compresie a datelor - ERASMUS Pulse MPEG4.pdf• Clasificarea ratelor de bit şi a facilităţilor oferite pentru codarea MPEG-4 a imaginilor naturale: • VLBV (Very Low

3

• Fiecare obiect reprezintă un nod al grafului.• Graful nu are o structură statică, relaţiile se pot schimba în timp şi pot fi

adăugate sau şterse noduri.• Standardul MPEG-4 include:

- descrierea sistemului.- codarea video.- codarea audio.- testarea.- software de referinţă.- cadrul de integrare şi distribuire a fluxului multimedia.- codarea hibridă sintetică şi naturală SNHC.

7.1. Codarea MPEG-4 a imaginilor şi video naturale• Compatibil cu MPEG-2 (poate include fluxuri video codate MPEG-2)• Eficienţa codării:

- între 5kbiţi şi 5 Mbiţi- de la imagini mici la imagini de rezoluţie TV- codare progresivă/întreţesută

• Codare bazată pe obiecte.• Un obiect video într-o scenă este o entitate la care utilizatorul are acces

(căutare, copiere).• Instanţele obiectelor video la un moment dat se numesc planuri de obiecte

video (VOP).

• Codorul generează:- o reprezentare codată a VOP.- informaţia necesară pentru recompunere.

• Este posibilă codarea individuală a obiectelor cât şi codarea întregii imaginica un singur obiect dreptunghiular.

• Pentru a fi posibil accesul la obiecte individuale este necesar să se obţină oreprezentare codată a formei obiectului.

• Pentru o codare eficientă a VOP trebuie exploatate redundanţa spaţială şitemporală.

Page 4: Tehnici de compresie a datelor - ERASMUS Pulse MPEG4.pdf• Clasificarea ratelor de bit şi a facilităţilor oferite pentru codarea MPEG-4 a imaginilor naturale: • VLBV (Very Low

4

• Structura codorului VOP:

• Codarea obiectului include:- reprezentarea formei.- mişcarea obiectului.- textura obiectului.

• Pentru obţinerea unei compresii mari se folosesc mai multe tehnici:• Compensarea mişcării pe blocuri (ca la H.263)

- predicţia VOP curent din VOP anterior- predicţia bidirecţională de la VOP anterior şi VOP următor

• Vectorii de mişcare sunt definiţi pentru regiuni de 16x16 sau 8x8 pixelidin VOP.

• Eroarea de predicţie este comprimată prin aplicarea DCT pentrueliminarea corelaţiei spaţiale şi apoi este cuantizată cu eliminareainformaţiei mai puţin importante.

• În final informaţia despre forma obiectului, vectorii de mişcare şicoeficienţii DCT cuantizaţi sunt codaţi cu VLC.

• Pentru compensarea şi estimarea mişcării se aplică la VOP o extensie(padding) a pixelilor de pe marginea obiectului din cadrul anterior.

Cadrul anterior extins Cadrul curent

Page 5: Tehnici de compresie a datelor - ERASMUS Pulse MPEG4.pdf• Clasificarea ratelor de bit şi a facilităţilor oferite pentru codarea MPEG-4 a imaginilor naturale: • VLBV (Very Low

5

• Codarea formei obiectelor• Informaţia de formă este numită şi nivel alfa.• În scenele video naturale, detecţia de contur este obţinută prin filtre de

gradient, informaţia despre forma obiectului este binară şi este codatăfolosind codarea aritmetică bazată pe context (CAE) pentru fiecare bloc binaralfa (BAB).

• Exemplu de context:

• În scenele hibride:- compuse din fundal şi un obiect proiectat pe ecran albastru- scene sintetice

• informaţia de formă este reprezentată pe 8 biţi (256 niveluri de gri) şi estefolosită la recompunerea scenei (similar cu codarea texturii).

• Pentru codarea formei unui VOP, un contur dreptungiular este creat şi extinspe multiplii de 16x16 blocuri. Codarea formei se realizează apoi pe fiecarebloc 16x16

• Codarea texturii obiectelor se face prin Shape-Adaptive DCT

Page 6: Tehnici de compresie a datelor - ERASMUS Pulse MPEG4.pdf• Clasificarea ratelor de bit şi a facilităţilor oferite pentru codarea MPEG-4 a imaginilor naturale: • VLBV (Very Low

6

• Schema codorului VOP

• Schema decodorului VOP:

Page 7: Tehnici de compresie a datelor - ERASMUS Pulse MPEG4.pdf• Clasificarea ratelor de bit şi a facilităţilor oferite pentru codarea MPEG-4 a imaginilor naturale: • VLBV (Very Low

7

• Algoritmii de codare a imaginilor şi video MPEG-4 oferă o reprezentareeficientă a obiectelor vizuale de formă arbitrară (inclusiv formadreptunghiulară standard ca la MPEG-1 şi MPEG-2).

• În plus faţă de facilităţile standard oferite şi de MPEG-1 şi MPEG-2(compresia diferitelor formate, rate de cadre şi de bit, adâncimea pixelilor,scalabilitate temporală, spaţială şi a calităţii) MPEG-4 include şi aşa numitelefacilităţi bazate pe conţinut.

• Clasificarea ratelor de bit şi a facilităţilor oferite pentru codarea MPEG-4 aimaginilor naturale:

• VLBV (Very Low Bit-rate Video) reprezintă algoritmii pentru aplicaţiidesfăşurate la rate de bit tipice între 5 şi 64 kbiţi/s, suportând secvenţe deimagini de rezoluţie mică (format CIF tipic) şi rate de cadru mici (până la15 Hz).

• Funcţiile de bază suportate de VLBV:- Codarea eficientă a imaginilor de formă dreptunghiulară, cu complexitate

şi durată a compresiei reduse pentru aplicaţii multimedia de timp-real.- Operaţii de tip acces aleator, derulare înainte şi înapoi specifice

aplicaţiilor de stocare şi acces la baze de date multimedia.• Aceleaşi funcţii de bază sunt suportate şi pentru codare la rate de bit mai

mari (între 64 kb/s şi 10 Mb/s) cu o gamă de parametrii spaţiali şi temporalimărită (rezoluţii, rate de cadru etc.). De asemenea se poate coda şi semnalvideo întreţesut.

• Aplicaţiile pentru aceste rate de bit sunt difuziune multimedia sau accesinteractiv la resurse multimedia, la o calitate comparabilă cu televiziuneadigitală.

• Funcţionalităţile bazate pe conţinut:• Suportă codarea şi decodarea separată a obiectelor scenei (VO).• Aceasta permite interactivitatea şi reprezentarea flexibilă a conţinutului de

VO în imagini sau video fără o separare suplimentară la recepţie.• Pentru codarea hibridă a datelor video (imagini naturale şi sintetice) care

poate să apară, de exemplu, la codarea unor scene virtuale, facilităţile bazate

Page 8: Tehnici de compresie a datelor - ERASMUS Pulse MPEG4.pdf• Clasificarea ratelor de bit şi a facilităţilor oferite pentru codarea MPEG-4 a imaginilor naturale: • VLBV (Very Low

8

pe conţinut permit mixarea VO din diferite surse cu obiecte sintetice cum arfi un fundal virtual.

• Codarea video convenţională (imagini dreptunghiulare ca la MPEG-1/2)implică predicţia/compensarea mişcării urmată de codarea texturii.

• În cazul codării bazate pe conţinut, unde imaginea poate avea o formăarbitrară, este inclusă şi codarea formei şi a informaţiei de transparenţă.

7.2. Codarea video sintetică• Obiectele sintetice fac parte din clasa obiectelor grafice (generate artificial).• Codarea video sintetică include:

- Descrierea parametrică a feţei şi corpului uman şi generarea fluxuluivideo animat.

- Codarea statică şi dinamică a suprafeţelor prin cartografierea 2D/3D atexturii.

- Codarea texturii pentru diferite unghiuri.

7.2.1 Animaţia feţei.• Pentru generarea unei feţe animate, forma, textura şi expresia feţei sunt

controlate de parametrii FDP (Facial Definition Parameters) şi de FAP(Facial Animation Parameters).

• Înaintea sintetizării, obiectul faţă reprezintă o faţă cu o expresie neutrăgenerată anterior.

• Obiectul poate primi parametrii de animaţie din fluxul codat ceea ce vaproduce animaţia: expresii, vorbire etc.

• În acelaşi timp parametrii de definire pot fi transmişi pentru a schimba faţadintr-o faţă generală într-una particulară cu formă şi textură proprie.

• Modelul pentru animaţia feţelor din MPEG-4 oferă o codare eficientă aparametrilor de animaţie şi permite generarea unui număr nelimitat demodele de feţe.

• Limbajul de definire a scenei (BIFS) include în sintaxă parametrii pentruanimaţia feţei:

Page 9: Tehnici de compresie a datelor - ERASMUS Pulse MPEG4.pdf• Clasificarea ratelor de bit şi a facilităţilor oferite pentru codarea MPEG-4 a imaginilor naturale: • VLBV (Very Low

9

• Parametrii de definire a feţei (FDP): pot fi încărcaţi dintr-un set predefinitpentru vârstă, sex, culoarea pielii (textură) sau pot fi specificaţi la începutulsesiunii împreună cu informaţia despre animaţie.

Page 10: Tehnici de compresie a datelor - ERASMUS Pulse MPEG4.pdf• Clasificarea ratelor de bit şi a facilităţilor oferite pentru codarea MPEG-4 a imaginilor naturale: • VLBV (Very Low

10

• Parametrii de animaţie a feţei (FAP):

• Tabelul de animaţie a feţei (FAT): este inclus în FDP şi conţine puncte decontrol ale suprafeţei feţei pentru controlul mişcării.

• Tehnici de interpolare a feţei (FIT): folosite pentru a obţine setul completde FAP pentru a se obţine efectul de animaţie.

• Poate fi folosită o colecţie de FAP pentru articularea vorbirii şi a expresieivorbitorului.

7.2.2. Animaţia corpului.• Este inclus în versiunea 2 a MPEG-4 pentru a completa animaţia

feţei/capului.• Conţine de asemenea parametrii de definire şi animaţie ai corpului.

Page 11: Tehnici de compresie a datelor - ERASMUS Pulse MPEG4.pdf• Clasificarea ratelor de bit şi a facilităţilor oferite pentru codarea MPEG-4 a imaginilor naturale: • VLBV (Very Low

11

7.2.3. Suprafeţe 2D animate.• O suprafaţă 2D este o descompunere a unui obiect 2D planar în poligoane.• Vârfurile poligoanelor se numesc nodurile suprafeţei.• În MPEG-4 suprafaţa este descompusă numai în triunghiuri.• O suprafaţă 2D dinamică reprezintă geometria 2D şi informaţia de mişcare a

tuturor nodurilor suprafeţei pe o perioadă de timp.• Un exemplu de suprafaţă 2D:

• Prin deformarea suprafeţei peştele poate fi animat eficient (similar cu înotulacestuia).

• O suprafaţă dinamică se obţine pornind de la o suprafaţă iniţială prinmodificarea nodurilor suprafeţei în funcţie de vectorii de mişcare ai fiecăruia.

• Textura (culoarea) din fiecare triunghi a suprafeţei 2D este deformată înfuncţie de mişcarea nodurilor triunghiurilor folosind o transformareparametrică.

• Astfel de transformări se numesc transformări afine şi au în generalcomplexitate redusă.

• Transformări afine: translaţie, rotaţie, scalare, reflecţie şi deformare.• Sunt definiţi şase parametri ai transformărilor afine.• Aceasta înseamnă că mişcarea suprafeţei 2D poate fi reprezentată în mod

compact numai de mişcarea nodurilor din care se pot reconstrui printransformări afine suprafeţele deformate pentru a reprezenta mişcarea.

• Reprezentarea prin suprafeţe 2D a obiectelor video permite următoarelefacilităţi:

• Manipularea obiectelor video:- Mixarea imaginilor virtuale (generate de calculator) cu imagini reale în

mişcare. Imaginile generate pe calculator trebuie să fie în concordanţă cucele reale.

- Animaţia/transfigurarea obiectelor sintetice: Un obiect video natural poatefi înlocuit cu alt obiect video care poate fi extras din alt videoclip sau

Page 12: Tehnici de compresie a datelor - ERASMUS Pulse MPEG4.pdf• Clasificarea ratelor de bit şi a facilităţilor oferite pentru codarea MPEG-4 a imaginilor naturale: • VLBV (Very Low

12

poate fi transfigurat dintr-o imagine fixă folosind informaţia de mişcare aobiectului care este înlocuit.

- Interpolare spaţio-temporală: Modelarea mişcării suprafeţei poate permiteo interpolare cu compensarea mişcării (de exemplu la creşterea rateicadrelor).

• Compresia obiectelor video- Modelarea suprafeţelor 2D poate fi folosită la compresie pentru a

transmite textura obiectelor numai pentru unele cadre şi să animămtextura pentru cadrele intermediare.

• Indexarea video în funcţie de conţinut- Reprezentarea prin suprafeţe permite animarea obiectului într-o secvenţă

pentru o imagine de ansamblu a obiectului.- Reprezentarea prin suprafeţe oferă informaţia de traiectorie care poate fi

folosită în găsirea obiectelor cu o anumită mişcare.- Reprezentarea prin suprafeţe permite determinarea formei obiectului prin

nodurile poligoanelor care este mai eficientă decât determinarea formeiobiectului reprezentat ca bitmap.

7.2.4. Scalarea în funcţie de punctul de observare.• Ia în considerare poziţia observatorului într-un spaţiu virtual 3D pentru a se

transmite informaţia cea mai vizibilă. Numai o parte din informaţie estetransmisă în funcţie de geometria obiectelor şi poziţia punctului deobservaţie.

• Astfel se reduce cantitatea de informaţie transmisă.• Codarea eficientă a texturilor se face cu un algoritm de descompunere

wavelet care permite• scalabilitatea spaţială şi calitativă (până la 11 niveluri de scalare spaţială).• Codarea obiectelor de formă oarecare.• Transformarea wavelet permite codarea imaginii pornind de la o rezoluţie

mică şi crescând progresiv rezoluţia.

Page 13: Tehnici de compresie a datelor - ERASMUS Pulse MPEG4.pdf• Clasificarea ratelor de bit şi a facilităţilor oferite pentru codarea MPEG-4 a imaginilor naturale: • VLBV (Very Low

13

• Astfel pentru decodarea unei imagini de rezoluţie minimă este suficientprimul coeficient al transformatei wavelet.

• Pentru celelalte rezoluţii se face recompunerea cu algoritmul "zerotree".

7.3. Interacţiunea cu utilizatorul• Interacţiune la client - implică schimbarea conţinutului la terminalul

utilizatorului.• De exemplu modificarea atributelor unui nod de descriere a scenei

(schimbarea poziţiei unui obiect, obiect vizibil/invizibil, schimbareadimensiunii textului) poate fi realizată prin intermediul unei tastaturi saumouse.

• Interacţiune la server - implică schimbarea conţinutului transmisiei iniţiatăde o acţiune a utilizatorului.

• Necesită un canal de comunicaţie utilizator-server.