Tehnici de Codare a Semnalului Vocal

11 Aplicatii multimedia care folosesc compresia semnalului vocal

Una dintre cele mai naturale forme de comunicare dintre fiintele umane este comunicarea prin intermediul vorbirii Prin intermediul ei se transmit gindurile (in forma cea mai importanta de informatie mesajul lingvistic) personalitatea si starea de emotivitate a locutorului Mesajul lingvistic este transmis prin intermediul semnalului vocal unda acustica ce are proprietati bine definite dar a carei producere si intelegere inca nu a fost descifrata complet Totusi exista modele pentru producerea si intelegerea acestui tip de semnal la nivel cerebral

Revolutia aplicatiilor multimedia include in mod inevital transmiterea si a semnalului vocal pe linga alte tipuri de semnale video text imagini muzica etc Dar data fiind capacitatea limitata a canalelor de comunicatie si nevoia de a transmite cit mai multa informatie intr-un timp limitat a condus la necesitatea de compresie a acestor semnale

In Tabelul 111 sunt prezentate debitele necesare pentru a transmite diferite tipuri de semnale audio Se observa ca in toate cele trei cazuri date ca exemplu debitul este mult mai mare decit debitul de 64 Kbps asigurat de un sistem PCM clasic Vom vedea putin mai departe ca exista sisteme de compresie capabile de transmisia semnalului vocal la debite sub 2400 bps deci cu rapoarte de compresie mai mari de 5000 (cresterea raportului de compresie este totusi platita prin pierderea unor informatii de finete din semnalul audio) In mod cert sistemele multimedia necesita astfel de rapoarte de compresie deci prelucrari suplimentare ale semnalului vocal

Tabelul 111 Debitele binare corespunzatoare diferitelor tipuri de semnal audio

Tip semnal Banda Frecventa de

esantionare

Bitiesantion Debit binar fara compresie

Semnal vocal de banda limitata

200 - 3200 Hz

8 KHz 16 128 Kbps

Semnal vocal de banda larga

50 ndash 7000Hz 16 KHz 16 256 Kbps

Audio CD 20 ndash20000Hz 441 KHz 16 x 2 canale 141 Mbps

Tipurile de aplicatii multimedia care utilizeaza transmisia semnalului vocal pot fi analizate in Tabelul 112

Tabelul 112 Aplicatii multimedia ce folosesc transmisia semnalului vocalAplicatie multimedia Conversational Retea de comunicatii in

timp real Videotelefonie videoconferinta Da DaConferinta de afaceri cu distribuire de date

Educatie la distanta Nu DaJocuri cu un singur utilizator Nu PosibilJocuri cu mai multi utilizatori sI acces de la distanta

Posibil Da

Mesaje multimedia Nu PosibilDocumente adnotate vocal Nu Nu

12 Atributele sistemelor de compresie a semnalului vocalIn cele mai multe cazuri sistemele pentru compresia semnalului vocal sunt implementate in concordanta

cu cerintele unei anumite aplicatii Din acest unghi de vedere este important de discutat atributele unor astfel de sisteme de compresie cu scopul de a le optimiza pentru cazul aplicatiilor reale Principalele atribute ale unui sistem de compresie a semnalului vocal sunt

debitul binar

calitatea semnalului reconstituit la receptie complexitatea (timp de calcul sau memorie necesara) intirzierea imunitatea la erorile din canalul de comunicatie banda necesara transmiterii

a) debitul binarReducerea debitului binar este principala motivatie in realizarea compresiei de semnal In functie de aplicatie si de constringerile de proiectare debitul poate fi fix sau variabil Sistemele de compresie adesea au un debit fix din cauza ca sunt mai usor de realizat nu necesita definirea unor criterii pentru modificarea debitului intr-un anumit interval de timp iar daca linia de comunicatii are o capacitate fixa in principiu se recomanda selectarea unui codec cu un debit de iesire egal cu cel al canalului (incluzind bitii de protectie la erori) Sistemele cu debit variabil se bazeaza pe utilizarea a doua debite debit mai mare pentru transmisia vocii debitul mic pentru transmiterea unor informatii specifice - pe durata portiunilor de liniste sau a pauzelor dintre cuvinte Pentru viitor se estimeaza utilizarea pe scara din ce in ce mai mare a sistemelor de compresie cu debit variabilDebite binare fixe se folosesc in

comunicatii telefonice militare la debit redus 08 - 48 Kbps comunicatii celulare sau prin satelit 33 - 13 Kbps comunicatii pe linie telefonica debit mai mare de 16 Kbps

Debite binare variabile sunt foarte importante in comunicatii mobile folosind CDMA (la debit redus capacitatea sistemului creste) aplicatii care nu necista timp real (de exemplu memorarea)

b) calitatea semnalului reconstituitEvaluarea calitatii semnalului reconstituit este una din cele mai dificile probleme deoarece nu a fost posibila gasirea unui criteriu obiectiv de masurare prin care sa poata fi corelat semnalul sintetizat cu semnalul de intrare si cu larga varietate de sisteme de compresie Mai mult descresterea debitului binar face dificila estimarea comportarii codecului in aplicatii reale De aceea s-au stabilit criterii subiective de evaluare bazate pe un mare numar de codaridecodari pentru care in mod subiectiv se stabileste calitatea semnalului de iesire

Exista urmatoarele criterii subiective pentru aprecierea calitatii sistemelor de compresieDRT (Diagnistic Rhyme Test) pentru aprecierea inteligibilitatiiDAM (Diagnostic Acceptability Measure) pentru aprecierea calitatii in conditii variate de

distorsiune a semnalelorMOS (Mean Opinion Score) pentru aprecierea globala a calitatii prin intermediul unui numar

obtinut ca medie a evaluarilor a 20 - 60 ascultatori Numarul este intre 1 (calitate inacceptabila) si 5 (calitate excelenta)

c) complexitateaComplexitatea ca timp de calcul si necesar de memorie determina in principal costul si energia consumata de echipamentul hardware care realizeaza compresia Cu exceptia citorva aplicatii cum ar fi sistemele de informare sau transmiterea unor mesaje compresia trebuie realizata in timp real Pentru indeplinirea cerintelor de mai sus solutia este implementarea algoritmului de compresie pe un procesor de semnal

In cazul sistemelor comerciale de uz individual (telefoane mobile sisteme de raspuns automat) se aleg procesoare mai ieftine care opereaza in virgula fixa Pentru sisteme in care mai multi utilizatori au acces la resursele hardware se prefera procesoare in virgula mobila deoarece costul sistemului este mai putin important fata de costul dezvoltarii aplicatiilor In plus procesoarele de semnal pot avea memorie inclusa iar un acelasi procesor poate efectua atit functiile sitemului de compresie cit si cele ale sistemului de transmisie (modem)

d) intirziereaIntirzierea datorata prelucrarilor care se efectueaza asupra semnalului in vederea compresiei au importanta majora in special in cazul comunicatiilor in ambele directii Exista doua praguri pentru intirzierea unui sistem de compresiePrimul prag (de valoare aproximativ 150 ms) este cel care afecteaza continuitatea unei comunicari bidirectionale Pentru comunicatii intr-un singur sens o intirziee de 400 - 500 ms este acceptabila

Al doilea prag este determinat de prezenta ecoului de aceea se impun restrictii importante asupra sistemului de compresie daca ecoul nu este eliminat Pragul depinde de tipul canalului de comunicatie

Intirzierea unui sistem de compresie are urmatoarele 4 componente intirzierea algoritmului majoritatea algoritmilor lucreaza pe cadre de semnal prelucrarea nu

poate incepe pina cind un cadru de semnal nu s-a acumulat in bufferul de prelucrare In plus unii algoritmi au nevoie de esantioane suplimentare adica de un extra-cadru (timp numit look-ahead) Astfel intirzierea algoritmului este data de dimensiunea unui cadru plus dimensiunea unui extra-cadru

intirzierea cauzata de timpul de prelucrare este timpul necesar prelucrarii unui cadru In majoritatea sistemelor acest timp este mai mic decit fereastra de analiza astfel procesorul ramine liber pina la sosirea unui nou cadru

intirzierea cauzata de multiplexare de obicei bitii rezultati din compresie sunt protejati la erorile din canalul de comunicatie prin introducerea de biti de corectie Timpul necesar asamblarii bitilor de informatie cu bitii de corectie este timpul de multiplexare Operatia este necsara si la receptie

intirzierea cauzata de tansmisie este timpul necesar transmisiei fluxului de date Adesea o anumita sursa vocala este multiplexata cu alte informatii sau poate ocupa un intreg canal In principiu timpul de transmisie este mai mic decit durata unui cadru

e) imunitatea la eroriIn mod inevitabil fluxul binar receptionat de decodor contine erori datorate canalului de comunicatie Aceste erori sunt de doua tipuri

- erori aleatoare- erori in rafala (de exemplu in comunicatiile mobile)

si pentru ele trebuie elaborate strategii diferite de protectie

Protectia la erorile aleatoare (limitate la 1 - 5 ) se face prin intermediul codurilor ciclice redundante iar protectia la erorile in rafala are in vedere un procedeu de scramblare prin care aceste erori sunt transformate in erori aleatoare sau prin aplicarea unui polinom corector de un tip special si apoi codare convolutionala In plus fluxul binar de la iesirea sistemului de compresie este divizat in biti foarte importanti importanti sau mai putin importanti biti care sunt codati diferit Dupa aplicarea codarii canalului debitul creste de aproape doua ori De asemenea sistemul de decodare identifica acele cadre cu un numar de erori mai mare decit cel admis si fie le respinge (inlocuindu-le cu cadrul anterior sau un cadru rezultat din interpolare) fie cere retransmiterea lor prin proceduri specifice sistemului de comunicare

f) banda ocupataSemnalul vocal poate fi limitat la 10 KHz fara a-i afecta caracteristicile perceptuale dar in marea majoritate a sistemelor de comunicatii el este limitat la o frecventa mult mai micaDe exemplu in sistemele telefonice banda este de 200 - 3400 Hz iar ambele frecvente de taiere afecteaza caracteristicile semnalului In sistemele digitale semnalul este esantionat la 8 KHz rezultind o banda utila de 4 KHz Semnal vocal de banda larga (7 KHz) este folosit in standardul G722 care la debite chiar mai mici (56 sau 48 Kbps) decit debitul PCM de 64 Kbps asigura o calitate a semnalului receptionat mult mai buna Dar totusi G722 este mai putin raspindit din cauza ca exista multe situatii in care el interfera cu sistemul PCM (de banda ingusta) Este de asteptat ca G722 sa fie utilizat in aplicatii de tip videotelefonie sau videoconferinta acolo unde semnalul in forma lui decodificata (banda de 7 KH) nu traverseaza canale de banda ingusta2 STANDARDE PENTRU COMPRESIA SEMNALULUI VOCAL

21 Sisteme de compresie pentru linia telefonica a) compresie PCM la 64 Kbps G711Sistemul de compresie face apel la legile de compandareexpandare (pentru America si Japonia) si A (pentru restul lumii) pentru a reprezenta pe 8 biti un semnal esantionat pe 13 respectiv 12 biti Raportul semnal zgomot este de aproximativ 35 dB Ambele sisteme de compresie au o calitate apropiata

b) compresie ADPCM G721 G723 G726 G727CCITT a aplicat pentru prima data ADPCM G721 (32 Kbps) din urmatoarele motive

- pentru cresterea de doua ori (2 x 32 Kbps) a capacitatii in sisteme de comunicatii DCME (Digital Circuit Multiplication Equipment)

- in legaturile submarine (cablu sau fibra optica) sau prin satelit frecvent apar situatii in care sursele furnizeaza date cu structura diferita (lege A sau ) de aceea G721 accepta la intrare atit legea A cit si legea In plus daca se utilizeaza o tehnica digitala de interpolare a semnalului vocal capacitatea creste de 25 ori

- G721 are proprietatea de tandem sincron daca un circuit necesita o codare ADPCM in care la un capat exista legea A iar la celalalt legea nu exista nici un fel de distorsiune in semnal datorata celei de-a doua compresii

G721 este utilizata in sistemul DECT (Digital European Cordless Telephone) si in sistemul CT2 (Cordless Telephone II) utilizind accesul TDMA fara protectie la erori

G723 suporta debitele de 32 24 sau 40 Kbps Debitul de 24 Kbps este utilizat in conditiile in care se depaseste capacitatea canalului de transmisie iar debitul de 40 Kbps se prefera pentru transmisia datelor

G726 este o unificare a sistemeleor G721 si G723 avind in plus si debitul de 16 Kbps cu aplicatie directa la DCME

G727 ofera aceleasi debite de iesire ca si G726 dar numarul nivelelor de cuantizare este intotdeauna par Poseda un cuantizor de 2 biti incorporat intr-unul de 3 biti care la rindul lui este inclus in altul de 4 biti si apoi in unul de 5 biti Acest lucru este necesar in sistemele PCME (Packet Circuit Multiplex Equipment) cind la depasirea capacitatii canalului se elimina bitii mai putin importanti din codul ADPCM

c) LD-CELP 16 Kbps (Low-Delay Code Excited Linear Prediction) G728Acest sistem a fost dezvoltat cu intentia de a depasi performantele G721 32 Kbps la un debit injumatatit 16 Kbps Prima aplicatie a fost pentru videotelefonia de debit redus H320 dar s-a dovedit ca exista si alte caracteristici care pot fi exploatate robustete pentru semnale innecate in zgomot sau cu semnal muzical robustete mai mare la erori aleatoare decit G721 capacitate de a coda foarte bine tonurile de semnalizare din retea precum si capacitate de a coda foarte bine semnale de la modemuri de debit redus (2400 bps)

Tabelul 211 Compaartie intre standardele de compresie ITU pe linia telefonicaStandard CCITT

G711CCITTG721 G723G726 G727

ITU-TG728

Anul 1972 1984 19861988 1990

1992 1994

Debit binar 64 Kbps 16 24 32 40 Kbps 16 KbpsCalitate Buna Buna BunaMIPSRAM

ltlt 11 octet

125lt 50 octeti

302 KB

Un cadruExtra-cadru

0125 ms0

0625 ms0

Virgula fixaVirgula mobila

Bit-exact Bit-exact Bit-exactAlgoritm exact

Tip compresie PCM ADPCM CELP

compandat 22 Alte standarde ITU pentru banda telefonica

a) ITU-T 8 Kbps G729Acest sistem a fost propus pentru LMTS (Land Mobile Telephone Service) dar in faza de testare (1993 - Nippon Telephone and Telegraph 1994 - France Telecom) desi calitatea pentru semnale vocale era buna nu s-a comportat corect la teste cu semnale zgomotoase sau cu muzica la modificarea nivelelor audio la eronarea totala a unor cadre De aceea nu s-a implementat in sisteme comerciale

b) compresie la debit redus pentru aplicatii in videotelefonieIdeea a fost de a stabili schema de compresie a semnalelor audio pentru aplicatii de tip videotelefon pe linii telefonice comutate PSTN (Public Switched Telephone Network) prin intermediul unui modem de mare viteza (se mai transmite video si informatii auxiliare) S-au stabilit mai multe metode capabile de codarea la 53 96 respectiv 144 Kbps Debitul cel mai mic 53 Kbps rezulta dintr-o codare algebrica a sursei si favorizeaza codarea semnalului video si utilizarea canalelor virtuale folosite pentru informatii aditionale Debitul de 96 Kbps rezulta in urma unei codari de tip LPC cu impulsuri multiple

c) ITU-T 4Se propune un sistem de compresie la debit redus cu aplicatii in videotelefonie comunicatii personale si comunicatii mobile prin satelit

23 Standarde pentru compresia semnalelor vocale de banda larga

a) compresia G722Pentru banda telefonica de 200 - 3200 Hz sunetele fricative precum f sau s sunt greu de distins De aceea pentru aplicatii de tip teleconferinta sau videoconferinta s-a propus utilizarea semnalelor audio de banda larga (50 - 7000 Hz)Sistemul de compresie G722 utilizeaza filtre de tip QMF (Quadrature Mirror Filters) trece jos respectiv trece sus pentru a coda subbenzile inferioara (48 Kbps) sau superioara (16 Kbps)

b) compresia ITU-T pentru semnale vocale de banda 7 KHzAceasta metoda de compresie asigura un debit binar de 24 sau 16 Kbps echivalenta calitativ cu o compresie G722 la debit de 56 Kbps respectiv 48 Kbps Se disting doua moduri de compresie modul A si modul B utilizate in functie de aplicatie si in functie de complexitatea codarii

Aplicatiile vizeaza telefonie de banda larga pe canale ISDN videotelefonie si videoconferinta pe accesul de baza ISDN transmisii de pachete in retele ISDN de banda larga sau in retele ATM aplicatii pe circuite digitale multiplex aplicatii PSTN punct la punct via modem mesagerie vocala

24 Compresia pentru telefonia mobila in EuropaTabelul 241 Caracteristicile sistemelor de compresie pentru GSM

Standard ETSI - GSMFull-rate

ETSI - TCH - HSHalf-rate

Anul 1987 1994Debit binar 13 Kbps 56 KbpsCalitate lt buna lt bunaMIPSRAM

451 KB

304 KB

Un cadruExtra-cadru

20 ms0

20 ms5 ms

Virgula fixa Bit-exact Bit-exact C

Tip compresie RPE - LTP CELP

25 Compresia pentru telefonia mobila in America

a) IS54 795 Kbps VSELPStandardul a fost propus de Motorala si face parte din categoria mai larga Interim Standard 54 (IS54) Exista presiuni pentru a inlocui acest standard cu standardul ITU-T 8Kbps din cauza ca in zone unde interfera si alte semnale calitatea oferita de IS54 VSELP este mai slaba decit cea in sistemul analogic FM

b) IS96 85 Kbps QCELP si EVRCUna din caracteristicile de baza ale telefonie digitale celulare de tip CDMA (Code Division Multiple Acces) este capacitatea crescuta si pentru a atinge aceasta capacitate sistemul face apel la un sistem de compresie a semnalului vocal la debit variabil Debitul este redus pe perioada pauzei dintre cuvinte sau a linistii

IS96 QCELP este un codor cu debit de iesire variabil Debitul normal pe durata convorbirii este de 85 Kbps dar el este redus la 08 Kbs pentru scurtele perioade de liniste sau pauze in vorbire La acest debit redus se aplica algoritmi de interpolare si se utilizeaza statistica zgomotului de fond pentru a reconstitui semnalul real la receptie Pentru a imbunatati calitatea semnalului audio in special pentru medii cu mult zgomot (unde algoritmul QCELP nu da rezultatele cele mai bune) a fost propus un alt sistem numit EVRC (Enhanced Variable Rate Coder)

Tabelul 251 Comparatie intre standardele de compresie pentru telefonia mobila in AmericaStandard TIA

IS54TIAIS96

TIAEVRC

Anul 1989 1993 1995Debit binar 795 Kbps 85 4 2 08 Kbps 85 4 2 08 KbpsCalitate i RPE - LTP lt IS54 gt IS54MIPSRAM

202 KB

necunoscutnecunoscut

Un cadruExtra-cadru

20 ms5 ms

20 msnecunoscut

Specificare sir de biti sir de biti necunoscutTip compresie CELP CELP necunoscut

26 Compresia pentru telefonia mobila in Japonia

a) RCR STD-27B (JDC-VSELP Japanese Digital Cellular - VSELP)Este un sistem asemanator cu IS54 VSELP cu diferenta ca aici se utilizeaza doar un vector de excitatie in loc de doi In IS54 dictionarele au cite 7 vectori de baza pe cind in JDC-VSELP exista 8 vectori de baza) Performantele JDC-VSELP sunt mai slabe decit ale standardelor RPE-LTP sau IS54

b) JDC Half-rate 345 Kbps PSI-CELPSistemul a fost propus de NTT cu scopul de a dubla capacitatea in sistemul JPDC (Japanese TDMA Personal Digital Cellular) Inovatia este utilizarea algoritmului CELP cu frecventa fundamentala sincrona (PSI - Pitch Sinchronous Innovation) Este cel mai complex algoritm standardizat la ora actuala

27 Compresia in standardul INMARSAT (415 Kbps) IMBEAcest tip de compresie a fost standardizata in 1990 (INMARSAT International MARitime SATellite Corporation) cu scopul de a asigura comunicatiile vocale intre vapoare si statiile de control de pe uscat via satelit pentru comunicatiile mobile via satelit precum si pentru comunicatiile radio de urgenta ale politiei Debitul de 415 Kbps rezulta la iesirea unui codec de tip IMBE (Improved Multi Band Excitation) iar prin adaugarea bitilor pentru protectia la erori se ajunge la un debit de 64 Kbps

Ideea compresiei are la baza divizarea semnalului in mai multe subbenzi Pentru fiecare subbanda se ia decizia sonornesonor iar spectrul este cuantizat si transmis impreuna cu informatia despre frecventa fundamentala Acest tip de codare difera fata de codarea LPC prin aceea ca decizia sonornesonor se ia pentru fiecare subbanda si nu pentru tot semnalul Astfel vocea sintetizata pare mult mai naturala Probleme apar atunci cind peste semnalul vocal se suprapun sunete muzicale sau zgomot

28 Standarde pentru aplicatii militare

a) vocoderul LPC la 2400 bps FS1015Este un standard militar american a carui proiect a inceput in 1970 iar in timp fiind continuu imunatatit Vocoderul este bazat pe modelul predictiei liniare (LPC Linear Predictive Coding) si are un debit la iesire de 2400 bps In 1984 a fost adoptat si de NATO dar mai recent NATO a adoptat un nou standard pentru compresia semnalului vocal la 800 bps bazat pe cuantizarea vectoriala

FS1015 va fi inlocuit in viitor cu un alt tip de vocoder in care calitatea semnalului reconstituit va fi mult mai buna iar protectia la erori mult mai mare

b) vocoderul CELP la 4800 bps FS1016Cresterea naturaletii semnalului sintetizat in aplicatiile militare prin aplicarea tehnicii de compresie CELP cu dictionar ternar (impulsurile de excitatie ale vocoderului sunt impulsuri +1 -1 sau 0 ponderate cu un factor de amplificare) si transmisiile prin modem la 4800 bps au facut posibila introducerea standardului FS1016 Calitatea semnalului sintetizat este sub cea oferita de standardul GSM sau IS54

Codarea PCM Wideband PCM

PCM (Pulse Coded Modulation) este o tehnica de codare a semnalului vocal definită icircn standardul ITU-T G711 şi este metoda care se foloseşte icircn telefonia digitală pentru a coda semnalul de voce

Primul pas icircn conversia semnalului vocal analogic icircn semnal digital este filtrarea semnalului analogic adică limitarea la banda de frecvență telefonică [300Hz 3400 Hz]

Următorul pas este eşantionarea la o frecvență care să respecte teorema eşantionării Fe gt 2Fm astfel frecvența de eşantionare a fost aleasă Fe = 8 kHz

Se poate observa că filtrarea are rolul de a preveni apariția fenomenului de aliere După ce a avut loc eşantionarea următorul pas este compresia semnalului proces ce se realizează prin cuantizare neuniformă

Un parametru important care caracterizează modulația PCM este raportul semnalzgomot de cuantizare eroarea de cuantizare fiind considerat ca și un zgomot

unde N este numărul intervalelor de cuantizare pi este probabilitatea ca semnalul de transmis să cadă icircn intervalele de cuantizare i Pqi este puterea zgomotului de cuantizare icircn intervalul i

Wideban PCM

Pre-processing filter

Analysis QMF

( 079)WBs n

Higher-band MDCT encoder

Lower-band embedded

PCM encoders

Widebandinput signal

Narrowbandinput signal

( 039)NBs n

( 079)WBs n

Lower-band signal

Higher-bandsignal

( 039)HBs n

( 039)HBm HBS k

Higher-bandbitstream

Core bitstream

Lower-band enhancement

bitstreamMUX

( 039)LBs n

Higher-bandMDCT

coefficients

Multiplexed bitstream

In figura este prezentată diagrama bloc la nivel icircnalt al encoder-ului Semnalul de intrare este eșantionat la Fe=16 kHz și este filtrat trece sus pentru a elimina componentele din banda 0-50 Hz

Banda semnalului este icircmpărțită icircn două sub-benzi de 8kHz una superioară iar cealaltă inferioară utlilizacircnd 32-tap QMF (quadrature mirror filterbank)

Semnalul din banda inferioară este codat cu un codor embedded lower-band care generează un bitstream principal (Layer 0) compatibil G711 la 64kbits și un bitstream lower-band enhancement (Layer 1) la 16 kbits

Semnalului din banda superioară este aplicată transformata MDCT (Modified Discrete Cosine transform) iar coeficienții de domeniu frecvență sunt codați icircmpreună cu factorul de normalizare și generează un bitstream higher-band (Layer 2) la 16kbits Icircn final bitstrem-urile sunt multiplexate ca un bitstream scalabil

3 CODAREA ADPCM G726 A SEMNALULUI VOCAL 31 Introducere

In sistemele de prelucrare digitala a semnalului vocal exista avantaje unanim recunoscute bull stocare simpla bull precizie deosebita bull posibilitati de compresie bull imunitate la erori etc

Prelucrarea numerica este de asemenea incurajata de dezvoltarea exploziva a calculatoarelor si a circuitelor integrate digitale Tehnica digitala se impune nu numai in prelucrarea semnalelor dar si in transmisia lor iar transmiterea semnalului vocal a fost si ramine un obiectiv important in retelele de telecomunicatii In acest context telecomunicatiile in general si telefonia in special evolueaza rapid spre digital Reprezentarea informatiei analogice (semnal vocal) sau digitale (date) este aleasa astfel incit sa se asigure optimizarea unei anumite caracteristici a transmisiunii cum ar fi

bull utilizarea optima a canalului bull compatibilitatea cu un anumit tip de mediu sau echipament bull costuri scazute bull asigurarea secretului transmisiei sau a unui anumit nivel de calitate

Transmiterea digitala a semnalului vocal prezinta un numar impresionant de avantaje Cea mai mare parte dintre acestea caracterizeaza transmisiunile digitale in general

bull rezistenta mare la perturbatii (raportul semnal zgomot necesar la receptie este practic cu 20 de dB mai mic decit in cazul transmisiilor analogice )

bull posibilitatea de regenerare a semnalelor (zgomotul nu se mai acumuleaza) bull posibilitatea de protectie la erori prin codarea canalului si de asigurare a secretului transmisiei prin

criptare bull multiplexarea (cu diviziune in timp mai ieftina decit cea cu diviziune in frecventa) bull avantaje tehnologice (circuite VLSI dedicate procesoare de semnal interfete elctro-optice etc )

Nu cu multi ani in urma principalul dezavantaj al transmisiunilor digitale era reprezentat de cresterea benzii necesare transmisiei Odata cu dezvoltarea si implementarea algoritmilor evoluati de digitizare a vocii care asigura o calitate corespunzatoare a vocii la debite de 32 Kbps 24 Kbps sau chiar la 13 respectiv 65 Kbps in telefonia mobila eficienta spectrala a transmisiunilor digitale a devenit comparabila sau chiar mai buna decit cea a transmisiunilor analogice cel putin din punctul de vedere al transmisiilor de voce Fara indoiala ca elaborarea unei tehnici performante de modulatie pe de o parte si extinderea impresionanta a utilizarii fibrei optice ca mediu de transmisiune pe de alta parte a contribuit esential la aceasta Ca problema ramine necesitatea asigurarii sincronizarii la diferite nivele cerinta cu atit mai costisitoare cu cit debitul in retelele de telecomunicatii creste

Vocea umana este o sursa de natura analogica Ea este abordata de o maniera statistica fiind modelata prin distributii de variabile aleatoare continue cu variatii puternice in timp si de la un vorbitor la altul Semnalele vocale sunt nestationare si continue Ele pot fi considerate ca si cvasistationare pe intervale de timp scurte Spectrul de putere al semnalului vocal difera in functie de sunet El este cuprins in general intre 80 de Hz si 12 KHz densitatea spectrala de putere scazind puternic la frecvente inalte mai mari de 4 KHz

32 Sistemul de codare ADPCM G726 Caracteristicile ce se vor descrie in continuare se recomanda pentru conversia unui canal PCM de 64 de Kbps

(legea A sau μ) lade la un canal de 40 32 24 sau 16 kbps Conversia se aplica debitelor binare PCM folosind o tehnica de transcodare ADPCM Relatia dintre frecventa semnalului si legile de codare - decodare PCM este complet specificata in Recomandarea G711 Principala aplicatie a canalelor de 24 si 16 Kbps este folosirea lor ca si canale suplimentare de voce iar canalele de 32 si 40 Kbps se folosesc pentru transmisii de prin modemuri operind la mai mult de 4800 Kbps

321 Codorul ADPCM G726 Dupa conversia semnalului PCM de intrare (legea A sau μ) in semnal PCM liniar se obtine un semnal

diferenta prin scaderea din semnalul de intrare a unui semnal estimat Aceast semnal diferenta este codat

adaptiv Un cuantizor adaptiv cu 31 15 7 sau 4 nivele (in functie de debitul de iesire) este folosit pentru a coda pe 5 4 3 sau 2 biti valoarea semnalului diferenta (Figura 321)

Figura 321 Scheme de principiu

Figura 322 reprezinta schema bloc a codorului Pentru variabilele ce vor apare in continuare k este indexul esantionului iar esantioanele se iau la intervale de 125 μs (fe =8 kHz)

Conversia formatului PCM de intrare Blocul Conversie PCM liniar converteste semnalul PCM de intrare s(k) din logaritmic (legea A sau μ) in semnal PCM uniform (liniar) sl(k)

Calcul diferenta Acest bloc calculeaza semnalul d(k) obtinut ca diferenta dintre semnalul uniform PCM s l(k) si semnalul estimat se(k) d(k) = sl(k) - se(k)

Cuantizorul adaptiv Un cuantizor adaptiv neuniform cu 31 15 7 sau 4 nivele este folosit pentru a cuantiza semnalul diferenta d(k) rezultind 40 32 24 respectiv 16 Kbps Inainte de cuantizare d(k) este normalizat (logaritmat in baza 2) si scalat cu y(k) (calculat de blocul de adaptare a cuantei) dn(k) = log2( dl(k) ) - y(k)

Operatii la 32 de biti (exemplificare) analog se procedeaza si pentru 40 24 16 Kbps) Pentru reprezentarea nivelului cuantizat dn(k) se folosesc 4 biti (trei pentru amplitudine si unu pentru semn) Iesirea pe 4 biti a cuantizorului I(k) este chiar semnalul de iesire la 32 kbps I(k) ia una din cele 15 valori diferite de zero dar I(k) este semnal de intrare pentru cuantizorul adaptiv invers pentru blocurile de control a vitezei de adaptare si adaptarea factorului de scala

Tabelul 321 Corespondenta valoare diferenta - nivel de cuantizare (32 Kbps)

dn(k) I I(k) I dqn(k)

(312 +infin) 7 332 (272 312) 6 291 (234 272) 5 252 (191 234) 4 213 (138 191) 3 166 (062 138) 2 105 (-098 062) 1 0031 (-infin -098) 0 -infin

Cuantizorul adaptiv invers Versiunea cuantizata a semnalului diferenta dq(k) se obtine prin scalare folosind y(k) si diferenta cuantizata normalizata dqn(k) care se gaseste in tabel si apoi se renunta la domeniul logaritmic dq(k) =2dqn(k) + y(k)

Adaptarea factorului de cuantizare (cuantei) Acest bloc calculeaza y(k) cuanta folosita atit de cuantizor cit si de cuantizorul invers La intrarea lui avem iesirea cuantizorului I(k) si parametrul de control al vitezei de adaptare a l Specifice sunt cele doua moduri de adaptare a cuantei

bull rapid pentru semnale cu fluctuatii mari bull lent pentru semnale cu fluctuatii mici

Viteza de adaptare este cotrolata de o combinatie de factori de scala rapizi si lenti Factorul de scala rapid (unlocked) yu(k) este calculat recursiv in domeniu logaritmic in baza doi din factorul de scala logaritmic rezultat anterior y(k) yu(k) = ( 1 - 2-5 ) y(k) + 2-5 WI I(k) I unde yu(k) este limitat intre 106 le yu(k) le 1000 De exemplu pentru 32 kbps functia discreta W(I) este definita dupa cum urmeaza

I I(k)I 7 6 5 4 3 2 1 0 WI I(k) I 7013 2219 1238 700 400 256 113 -075

Factorul de scala lent (locked ) yl(k) se obtine din yu(k) printr-o operatie de filtrare trece jos yl(k) = ( 1 - 2 -6 ) yl(k-1) + 2-6 yu(k)

Factorii de scala rapid si lent sunt apoi combinati pentru a obtine factorul de scala rezultant y(k) = al(k) yu(k-1) + ( 1- al(k) ) yl(k - 1) unde 0 leal(k) le1

Controlul vitezei de adaptare

Parametrul de control al(k) poate lua valori in intervalul (0 1) El tinde spre unu pentru semnal vocal si tinde spre zero pentru semnal de date Este o masura a ratei de variatie a valorilor semnalului diferenta Se calculeza doua variante ale amplitudinii medii a lui I(k) dms(k) = ( 1 - 2-5 ) dms(k-1) + 2-5 FI I(k) I si dml(k) = ( 1 - 2-7 ) dml(k-1) + 2-7 FI I(k) I

Pentru 32de kbps FI(k) este definit ca

I(k) 7 6 5 4 3 2 1 0 FI(k) 7 3 1 1 1 0 0 0

Astfel dms(k) este media pe termen scurt iar dml(k) este media pe termen lung a lui F I(k)

Predictorul adaptiv si calculul semnalului refacut Principala functie a predictorului adaptiv este de a calcula semnalul estimat s e(k) din semnalul diferenta cuantizat dq(k) Se folosesc doua structuri de predictoare adaptive un predictor de ordinul sase care modeleaza zerourile si un predictor de ordinul doi care modeleaza polii sistemului care produce semnalul de intrare Acesta structura dubla ii permite sa lucreze mai bine cu marea varietate de semnale ce pot fi intilnite Semnalul estimat este calculat ca

Ambele seturi de coeficienti ai predictorului se modifica folosind un algoritm de gradient simplificat

Detector de ton si tranzitii Pentru a imbunatati performantele sistemului pentru semnale provenite de la modemuri ce opereaza cu modulatia FSK se realizeaza un proces de detectie in doi pasi Mai intii subbanda de semnal este detectata astfel incit cuantizorul sa poata fi adus intr-un mod de adaptare rapid

In plus o tranzitie de la o banda de semnal este definita astfel incit coeficientii predictorului sa poata fi setati in zero si cuantizorul sa poata fi fortat intr-un mod rapid de adaptare

Simplificind schema de codare ADPCM G726 prin eliminarea blocurilor control viteza de adaptare detector de ton si tranzitii si adoptind un predictor format dintr-un element de intirziere se cere implementarea practica a codorului in scopul studiului performantelor pentru debitul de 32 Kbps

O serie de blocuri care intervin in structura decodorului au fost descrise deja mai sus In continuare se va face descrierea functionala a blocurilor care sunt specifice decodorului

Conversia in format PCM de iesire Acest bloc converteste semnalul refacut sr(k) intr-un semnal PCM logaritmic (legea A sau μ) sp(k)

Adaptarea la codarea sincrona Adaptarea la codarea sincrona previne acumularea distorsiunilor datorate codarii sincrone tandem ( ADPCM - PCM - ADPCM e t c ) si conexiunilor digitale cind

1) transmisia semnalelor ADPCM este fara erori 2) debitele ADPCM si PCM nu sunt alterate de dispozitivele digitale de procesare a semnalelor

Din tabelul si graficul de mai sus se pot desprinde doua concluzii bull raportul semnal zgomot ( RSZG ) creste aproximativ liniar cu cresterea numarului de biti folositi la

codare 16

bull la cresterea cu unu a numarului de biti raportul semnal zgomot inregistreaza o crestere de aproximativ 10 dB

In Figura 342 sunt prezentate comparativ formele de unda ale semnalului original si ale semnalelor refacute pentru diferite debite de codare La o privire mai atenta se observa ca pe masura ce debitul scade zgomotul din semnal devine mai vizibil ajungind in final ca la debitul de 16 kbps semnalul sa fie foarte zgomotos Acest lucru e confirmat si de rapoartele semnal zgomot din tabel

Primul lucru care se observa este ca variatia raportului semnal zgomot la semnalele de date nu mai este la fel de liniara ca si in cazul semnalelor vocale La codarea pe 2 sau 3 biti raportul semnal zgomot se mentine oarecum constant (13 - 15 dB ) apoi la 4 biti are o crestere de 12 dB dupa care la cresterea cu inca unu a numarului de bitI cresterea RSZG nu mai este asa importanta La debitul recomandat pentru date de 40 Kbps semnalul este refacut foarte bine avind doar un usor zgomot de granularitate La o privire atenta se poate observa ca valoarea acestui zgomot creste odata cu amplitudinea nivelului de semnal

Algoritmul propus de Recomandarea G726 se preteaza la implementare soft Rezultatele obtinute sunt foarte bune Rapoartele semnal zgomot obtinute pe cele citeva cazuri pe care s-au facut experimentele s-au situat intre 2 si 50 de dB desigur in functie de debit In urma experimentelor se pot trage o serie de concluzii si anume ca raportul semnal zgomot depinde de debitul la care se face prelucrarea Mai clar se vede acest lucru daca ne raportam la numarul de biti pe care se face codarea Astfel se poate spune ca in general la cresterea cu unu a numarului de biti RSZG creste cu aproximativ 10 dB De asemenea din graficele obtinute se observa o crestere aproape liniara a RSZG in raport cu cresterea numarului de biti In cazul semnalelor de date se obtin de asemenea rezultate bune in special la debitul de 40 de Kbps Pentru semnalele de date bipolare pare sa fie general faptul ca nivelele negative sunt refacute mai prost decit cele pozitive Trebuie sa remarcam ca atit pentru semnalele de date cit si pentru cele vocale asemanarea dintre spectrul semnalului original si al celui refacut este foarte mare ceea ce indica o calitate foarte buna a sistemului de codare decodare Foarte interesant este faptul ca erorile de predictie si refacere sunt asemanatoare cu semnalul original incit daca le redam in difuzor suna la fel ca si semnalul original avind doar o amplitudine mai mica si putin zgomot

Concluzii bull Codorul ADPCM G726 asigura codarea adaptiva a diferentei dintre doua esantioane succesive a unui

semnal original (format PCM frecventa de esantionare de 8 KHz 8 bitI legea A sau miu) Debitul de iesire poate fi selectat la 40 32 24 sau 16 Kbps

bull Debitul de iesire depinde de numarul nivelelor de cuantizare folosite de blocul de cuantizare dupa cum urmeaza

40 Kbps 10487745 biti32 Kbps 10487744 biti 24 Kbps 10487743 biti 16 Kbps 10487742 biti

bull In structura sistemului de codare se identifica blocurile cuantizare adaptiva a diferentei adaptare cuanta control al vitezei de adaptare predictorul adaptiv detector de tonuri

bull Adaptarea cuantei se face sub comanda blocului de control al vitezei de adaptare si adaptare cuanta Viteza de adaptare este controlata de o combinatie de factori de adaptare (rapidlent) prin intermediul unui parametru de control Adaptarea poate fi

- rapida - pentru semnale cu fluctuatii de amplitudine mari - lenta - pentru semnale cu fluctuatii mici

bull Predictorul are o structura cu 2 poli si sase zerouri asigurind stabilitatea sistemului in bucla inchisa si calculind un semnal estimat in scopul minimizarii erorii de predictie Coeficientii filtrului se modifica in timp pe baza unui algoritm de gradient simplificat

bull Codorul contine in structura sa pe bucla de reactie negativa elementele specifice ale decodorului In decodor apare blocul de adaptare la codarea sincrona pentru a preveni erorile de codare sincrona tandem ADPCM - PCM - ADPCM

bull Implementarea practica a codorului poate fi realizata in timp real pe procesor de semnal sau chiar pe PC bull Rezultatele experimentale obtinute la codarea cu acest tip de codec pun in evidenta urmatoarele

- prin prisma rapoartelor semnal zgomot se recomanda utilizarea dbitului de 40 Kbps pentru transmisii de date 32 Kbps pentru transmisii de voce iar 24 Kbps si 16 Kbps pentru canale auxiliare de voce

- pornind de la esantioane de 16 biti se pot obtine 5 4 3 sau 2 biti (corespunzator debitelor de 40 32 24 16 Kbps) pentru fiecare esantion rezultind rapoarte de compresie intre 3 si 8

- RSZG creste liniar cu crsterea numarului de biti - o crestere cu 1 a numarului de biti conduce la o crestere cu aproximativ 10 dB a RSZG - eroarea de predictie are caracteristici acustice aproximativ identice cu cele ale semnalului

original - spectrul semnalului refacut este aproape identic cu spectrul semnalului original - la codarea datelor variatia RSZG nu mai depinde liniar de numarul de biti

CODAREA ADPCM PENTRU SEMNALE AUDIO DE BANDA LARGA - G722

41 Principiul codarii Codarea ADPCM a unor semnale audio de banda larga pentru aplicatii multimedia pune o serie de

probleme Astfel datorita benzii semnalului de pina la 7 KHz frecventa de esantionare standard de 8 kHz este insuficienta Standardul G722 propune codarea ADPCM in subbenzi Ideea este de a imparti banda de 7 - 8 KHz in doua subbenzi inferioara si superioara fiecare avind 4 KHz latime Asupra acestor benzi se poate aplica o codare ADPCM clasica Frecventa de esantionare in standardul G722 este egala cu 16 KHz Sistemul poate avea trei debite diferite de iesire (64 56 sau 48 Kbps) in functie de modul de lucru Se ofera posibilitatea de a transmite pe linga voce un canal de date de 8 sau 16 Kbps

Daca se transmit date trebuie adaugata informatie suplimentara pentru a preciza modul de lucru Datele se transmit in cel mai putin semnificativ bit (la debit de 8 Kbps) sau in cei mai putin semnificativi doi biti ai subbenzii inferioare (la debit de 16 kbps)

Codorul ADPCM pentru banda inferioara

Semnalul diferenta eL se obtine prin scaderea semnalului estimat sL din semnalul de intrare xL eL = xL - sL

Se observa ca prin suprimarea celor mai putin semnificativi doi biti de la iesirea cuantizorului apare posibilitatea de a insera un flux de date de maxim 2 x 8 = 16 Kbps pe canalul inferior fara a afecta functionarea corecta a decodorului Utilizarea unui cuantizor de 60 de nivele in loc de 64 garanteaza indeplinirea conditiei de densitate de amplitudine ceruta de standardul G802 in toate conditiile si toate modurile de lucru

Debitele de 48 respectiv 16 Kbps se multiplexeaza intr-un debit unic de 64 kbps Primul bit transmis in linie este IH1

Concluzii bull codarea ADPCM G722 se aplica semnalelor audio de banda larga (banda de 7 KHz) bull pentru o codare cu raport semnalzgomot ridicat G722 are in vedere codarea ADPCM in subbenzi Semnalul

de intrare cu banda maxima de 8 KHz este filtrat trece sus respectiv trece jos pentru a obtine doua subbenzi superioara si inferioara Subbenzile sunt cuantizate pe 2 biti (subbanda superioara acolo unde informattia acustica este mai putin relevanta) respectiv 6 biti (subbanda inferioara care contine informatii importante despre frecventa fundamentala si frecventele formantilor)

bull debitul sursei vocale poate fi de 64 56 si 48 Kbps in functie de numarul bitilor care se transmit pentru banda inferioara 6 5 sau 4 Astfel apare posibilitatea de a transmite pe linga canalul vocal un canal de date de 0 8 sau 16 Kbps

bull debitul de la iesirea codecului este de 64 Kbps si se obtine prin multiplexarea fluxului vocal cu fluxul de date bull calitatea semnalului audio reconstituit este acceptabila pentru debitul de 48 Kbps si este buna respectiv

foarte buna pentru debitele de 56 si 64 Kbps

Codarea in subbenzi

Codarea in subbenzi este folosita in domeniul semnalelor sonore pentru compresie Aceasta presupune impartirea benzii semnalului in mai multe subbenzi fiecare din acestea fiind

codata separat Pentru a obtine subbenzile este nevoie de filtre

Schema generala

Schema codare in subbenzi pentru G722

Codarea Operatii- Separare semnal in subbenzi - Calcularea pragurilor de mascare folosind modelul psihoacustic - Fiecare esantion al unei subbenzi este cuantizat si codat

- Plasarea esantioanelor in grupuri numite cadre

Decodarea Operatii - Despachetare cadre- Decodarea esantioane subbenzi - Reconstructia semnalului sonor folosind mapare frecventa-timp

Mapare timp-frecventa Aceasta se realizeaza aplicand Transformata Fourier Rapida (FFT) asupra semnalului original Asigura conversia semnalului din domeniu timp in domeniu frecventa

Filtrul polifaza Filtrul polifaza este in esenta un banc de filtre trece banda (pot fi si trece sus si trece jos) dispuse pe

unul sau mai multe stagii Imparte semnalul intr-un numar de N subbenzi (N=puteri ale lui 2) Odata ce subbenzile sunt obtinute acestea pot fi codate independent folosind diverse codari

(ADPCM in cazul G722 MDCT+ Huffman in cazul MPEG I)

Exemplu de banc de filtre care divide semnalul in 8 subbenzi

Se foloseste regula lui Nyquist daca f0 este cea mai mare frecventa a semnalului atunci frecventa de esantionare trebuie sa fie de cel putin 2 ori mai mare

Extensia regulii lui Nyquist pentru semnale cu componente intre doua frecvente f1 si f2 frecventa de esantionare are valoarea fs= 2 (f2-f1)

Forma generala a relatiei intre intrarea si iesirea filtrului

unde yn ndash iesirea din filtru xn ndash intrarea in filtru ai bi - coeficienti

Modelul psihoacustic

Foloseste atat semnalul original in domeniu timp cat si semnalul transformat in domeniu frecventa 21

Evalueaza energia in fiecare subbanda si calculeaza un parametru numit raport semnal - prag de mascare ( RSPM [dB]) pe baza caruia sa se poata determina numarul nivelelor de cuantizare necesare in codare

Cuantizare si codare Fiecare esantion din fiecare subbanda este cuantizat si codat Cuantizare neuniforma Codarea depinde de cerinte (ADPCM in cazul G722 Huffman in cazul mpeg1)

Formare cadre Toate esantioanele sunt grupate in grupuri numite cadre Faciliteaza reconstructia semnalului audio la decodare

Caracteristici performanta Impartirea semnalului in subbenzi nu duce la compresie dar duce la o codare mai eficienta decat

daca ar fi codat semnalul initial asa cum este Pentru codarea subbenzilor pot fi folosite mai multe solutii (ADPCM in cazul G722 Huffman in

cazul mpeg1) astfel metoda codarii in subbenzi poate fi adaptata in functie de necesitati

Codarea sinusoidala a semnalului vocal

Codarea sinusoidala urmareste generalizarea modelului excitatiei glotale in loc sa utilizeze impulsuri sau secvente aleatoare se presupune ca excitatia este compusa din componente sinusoidale de amplitudini frecvente sau faze particulare

Functia excitatiei este adesea reprezentata prin intermediul unui tren de impulsuri pe durata zonelor vocalizate unde distanta dintre impulsuri este chiar ldquopitchrdquo si ca zgomot pe zone nevocalizate Alternativa acestui model este inlocuirea cu o suma de sinusi Motivatia reprezentarii sinusoidale este ca excitatia unde este perfect periodica poate fi inlocuita cu o serie de componente Fourier unde fiecare componenta din serie corespunde unui sinus Mai general sinusii vor fi inlocuiti cu armonice care apar cand periodicitatea nu e exacta sau cand excitatie este nevocala La trecerea formei sinusoidale ce reprezinta excitatia prin tractul vocal rezulta o reprezentare sinusoidala pentru forma de unda a semnalului vocal data de

unde si reprezinta ampltitudinea si faza pentru fiecare componenta sinusoidala asociata cu

frecventa si este numarul de forme sinusoidale

In care frecventele sinusoidelor sunt multipli ai frecventei fundamentale iar amplitudinile si fazele sunt date de STFT Daca STFT este data de

Estimarea parametrilor vocali sinusoidali

Problema analizei si sintezei este de a lua forma de unda vocala de a extrage parametrii ce reprezinta portiuni cvasistationare si utilizarea lor sau a variantei lor codate pentru a reconstrui o aproximare care sa fie cat mai aproape de forma originala Daca forma de unda vocala este reprezentata de un numar arbitrar

de sinusi problema estimarii parametrilor desi usor de rezolvat duce la rezultate care nu au nici o importanta fizica In consecinta abordarea se bazeaza pe observarea ca atunci cand semnalul vocal este perfect periodic parametrii sinusilor corespund Transformatei Fourier pe termen scurt In acest caz avem

Atunci analiza Fourier da urmatorii parametrii estimati

amplitudinea (4)

faza (5)

Magnitudinea STFT va avea valori la multiplii de Cand semnalul vocal nu este perfect vocal vor exista valori insa nu neaparat la armonice In acest caz faza formei de unda sinusoidale va fi calculata pentru partea reala si imaginara a STFT

Daca se utilizeaza o fereastra de analiza de tip Hamming atunci o data calculata latimea ferestrei pentru un cadru particular avem

O posibila schema bloc pentru analiza si sinteza semnalului vocal prin analiza sinusoidala este

Schema bloc a sistemului de analizasinteza sinusoidala ilustreaza funcțiile majore subsumate icircn cadrul sistemului Figura ne da o descriere completa a sistemului de analiză sinteză O simulare care nu este in timp real a fost dezvoltata inițial pentru a determina eficiența abordării propuse icircn modelarea vorbirii reale Vorbirea prelucrata icircn simulare a fost filtrata trece jos la 5 kHz digitalizata la 10 kHz și analizata la intervale de 1O-ms cadru Semnalul este trecut printr-un DFT de 512 puncte cu o fereastra hamming adaptiva cu o latime de 20 msNumărul maxim de vacircrfuri utilizate icircn sinteza a fost stabilit la un număr fix (~ 80) Dacă s-au obținut vacircrfuri icircn exces s-au folosit numai cele mai inalte vacircrfuriO bază de date mare de vorbire a fost procesata cu acest sistem și vorbirea sintetica a fost icircn esență imposibil de distins de original O examinare vizuală a pasajelor reconstruite arată că structura de undă este icircn esență conservată

Estimarea parametrilor pentru modelul sinusoidal armonic

Primul pas in procedura de analiza este de a presupune ca frame-ul de intrare din semnalul vocal a fost deja analizat in termeni de componente sinusoidale cu tehnica descrisa mai sus Atunci s(n) este

Unde reprezinta amplitudinea frecventa si faza celor L sinusi masurati Scopul este de a incerca sa reprezentam acesti sinusi cu o alta forma de unda pentru care toate frecventele sa fie armonice Aceasta forma de unda poate fi modelata astfel

Unde este frecevnta fundamentala normalizata este numarul de armonici

din banda semnalului vocal e anvelopa tractului vocal si sunt fazele

armonicelor De acum inainte va fi numita ldquopitchrdquo desi in zone de semnal nevocal terminologia nu are nici o semnificatie Este de dorit sa se estimeze frecventa fundamentala si fazele astfel incat semnalul

sa fie cat mai aproape de cel real Primul termen din formula de mai sus repezinta puterea semnalului si este independent de parametrii necunoscuti

(14)Intrucat fazele afecteaza numai al doilea termen al ecuatiei (18) eroarea medie de predictie va fi minimizata alegand

(19)Necunoasterea perioadei fundamentale afecteaza numai al doilea si al treilea termen din ecuatia de mai sus care poate fi adusa la forma redusa

(21)Si eroarea medie patratica poate fi exprimata prin

(22)Intrucat primul termen este o valoare constanta cunoscuta valoarea minima a erorii medii patratice se

obtine prin maximizarea lui Este util ca mai departe sa se utilizeze reprezentarea sinusoidala a semnalului vocal de intrare Substituind reprezentarea din ecuatia (10) in ecuatia (14) atunci puterea devine

Tehnica OLA Metoda overlap-add se bazează pe tehnică fundamentală icircn DSP (1) se descompune semnalul icircn

componente simple (2) se proceseaza fiecare dintre componente icircntr-un mod util și (3) recombinarea componentelor transformate icircn semnalul final

-este o modalitate eficientă de a evalua convoluția discretă a unui semnal foarte lung x[n] cu un filtru cu raspuns finit la impuls (FIR) h[n]

Pentru inceput semnalul x[n] este impartit in secvente le yk[n] care nu se suprapun iar apoi Transformata Fourier Discreta (DFT) aplicata asupra acestor secvente este evaluata prin multiplicarea Tranformatei Fourier Rapide (FFT) aplicata pe xk[n] cu FFT aplicata pe h[n] Dupa recuperarea yk[n] prin FFT inversa semnalul de iesire rezultat este reconstruit prin suprapunere (overlapping) si adaugare (adding) cu yk[n] ca in figura de mai jos Suprapunerea apare din faptul ca o convolutie liniara e intotdeauna mai lunga decat secventa originala

Modelul HNM ndash Harmonic plus Noise ModelModelul HNR reprezinta o masura prin care poate fi cuantificata cantitatea de zgomot aditiv din semnalul aditional Acesta poate imbunatati codarea sinusoidala prin faptul ca se poate tine cont la codare si de parametrii fizici ai semnalului vocal uman

Descompunerea vorbirii in parti (cvasi) periodice și non-periodice are multe aplicatii in Modificare discursului Codarea vorbirii Detectia vocii patologice

Spectrul de vorbire este icircmpărțit icircntr-o banda de icircnaltă si joasa frecventa delimitata de asa numita maximum voiced frequency

Banda joasă a spectrului de frecvențe este reprezentata numai de valuri sinusoidale armonice Banda superioară este modelata ca o componenta de zgomot modulata de o anvelopa in domeniul

timpHNM permite sinteza de copiere și modificari prozodice de icircnaltă calitate

Rezolutia perioadei fundamentala ndash adaptive In formularea de mai sus fereastra de analiza e fixata la N+1 esantioane Aceasta inseamna ca lobul

principal al functiei sinc este fixa pentru toate valorile lui pitch Aceasta este contrar faptului ca urechea este mai putin toleranta la diferente mari pentru domenii de frecvente inalte fata de frecventele joase

Acest efect poate fi pus in evidenta prin definirea functiei distanta pentru lobul k armonic sa fie

(31)Si sa fie zero in rest In acest fel rezolutia este foarte mare la valori mici a lui pitch in contrast cu valorle mari unde rezolutia este mica

CODAREA SEMNALELOR AUDIO IN STANDARDUL MPEG PENTRU APLICATII MULTIMEDIA

Caracteristici psihoacustice aplicate in codarea MPEG a semnalelor audio Standardul MPEG (Motion Picture Expert Group) foloseste in procesul de codare a semnalelor audio

caracteristici psihoacustice de audibilitate determinate in laborator pe un mare numar de subiecti Caracteristica principala este ca in spectrul semnalelor audio exista componente care nu sunt percepute de urechea umana De exemplu o componenta spectrala de amplitudine mare face ne-audibile componentele de frecventa apropiata care au amplitudini mai mici ca un anumit prag Acest efect se numeste efect de mascare Efectul de mascare se manifesta in trei ipostaze

bull mascarea componentelor spectrale bull mascarea temporala bull pragul absolut de mascare

a) Mascarea componentelor spectrale (MCS) se produce atunci cind componentele spectrale din jurul frecventei cu amplitudine dominanta nu depasesc un anumit prag de mascare Pragul de mascare depinde de frecventa amplitudinea si durata in timp a tonului dominant b) Mascarea temporala (MT) consta in persistenta efectului de mascare o anumita perioada Δt (in general de ordinul a 200-500 ms) chiar si dupa disparitia brusca a frecventei dominante In intervalul Δt pragul de mascare scade Practic frecventa dominanta nu scade brusc ci in timp si in consecinta pragul de mascare scade pina la o anumita valoare c) Pragul absolut de mascare ( PAM ) este valoarea minima a amplitudinii pentru care componentele spectrale sunt audibile

De remarcat ca in spectrul semnalelor audio exista o multitudine de frecvente dominante si ca atare pragul de mascare global la un moment dat se va determina in functie de pragul de mascare mascarea temporala si pragul absolut de mascare pentru fiecare componenta in parte Din Figura 523 se observa ca pragul de mascare global depinde de amplitudinile si frecventele componentelor spectrale dominante

53 Sistemul de codaredecodare MPEG-1 In prima etapa a implementarii MPEG-1 (ISO IEC 11172-3) realiza codarea a doua canale stereo la debitul

de 256 Kbps si la o calitate apropiata de CD Standardul nu precizeaza codorul ci doar decodorul cu scopul de a asigura compatibilitatea cu dezvoltarile tehnologice viitoare dar prevede 3 nivele (Layers) de codare Layer I Layer II si Layer III asociate cu calitatea si debitul binar dorit nivele intelese ca trei algoritmi distincti Caracteristici ale codarii MPEG-1

bull semnalul de intrare poate fi - 1 canal audio mono - 1 canal audio stereo (in scopul reducerii debitului se pot coda simultan mai multe canale individuale

exploatind corelatia dintre ele) - 2 canale independente (eventual bilingv)

bull frecventa de esantionare poate fi selectata la 32 441 sau 48 kHz bull debitul binar

- fix si precizat discret in intervalul 32-448 Kbps in functie de nivel (I II sau III ) - fix dar neprecizat in intervalul 32-448 Kbps - pseudovariabil (valabil doar pentru Layer III)

531 Structura codorului si decodorului MPEG-1 In Figura 531 se prezinta schema bloc a unui sistem de codare decodare MPEG-1 nivelele I si II Blocurile componente impreuna cu functiile realizate sunt urmatoarele

bull Bancul de 32 de filtre trece banda genereaza 32 de canale spectrale (ci i = 132 ) uniform distribuite pe tot spectrul semnalului de intrare Largimea de banda a unui filtru este fe 2 x 32 unde fe este frecventa de esantionare a semnalului original

bull Subesantionarea cu 32 are rolul de a reduce frecventa de esantionare pe fiecare canal c i in concordanta cu teorema esantionarii La o banda de fe 2 x 32 noua frecventa de esantionare va fi fe 32

bull Secvente de cite 12 esantioane consecutive din fiecare subbanda subesantionta csI sunt grupate in blocuri

Bi care corespund la 12 x 32 = 384 esantioane de intrare

bull Pe baza unei tabele cu 63 de valori blocul de scalare determina pentru fiecare subbanda factorii de scalare FSi (subunitari) astfel incit toate esantioanele din cadrul unui bloc sunt normalizate la valoarea maxima

bull In blocurile de cuantizare si codare se produce codarea fiecarei subbenzi cI pe un numar variabil de biti Ri in concordanta cu importanta sa in spectru Numarul nivelelor de cuantizare este determinat de modelul psihoacustic

Obiectivul modelului psihoacustic este estimarea unui parametru numit raport semnal - prag de mascare (RSPM [dB]) pe baza caruia sa se poata determina numarul nivelelor de cuantizare necesare in codare Desi standardul nu precizeaza algoritmul de lucru al acestui bloc un exemplu poate fi urmarit in Figura 532

Algoritmul prezentat in Figura 532 are 9 pasi P1 Pentru fiecare grup de 384 esantioane de intrare (ce corespunde unui bloc B i) se calculeaza densitatea spectrala prin intermediul FFT in 512 (Nivel I) sau 1024 (Nivel II) puncte cu fereastra Hamming Rezolutia spectrala este de 8 puncte (Nivel I) respectiv 16 puncte (Nivel II) pentru fiecare subbanda P2 Pe baza spectrului se calculeaza puterea maxima Pi

P3 Se determina pe baza de tabele Pragul Absolut de Mascare (PAM) pentru fiecare componenta din FFT (valorile depind de calitatea codarii pentru debite mai mari de 96 Kbps PAM scade cu aproximativ 12 dB) P4 Separarea componentelor A si B din spectru Componentele de tip A si B se caracterizeaza prin maxime locale in vecinatatea carora se gasesc (intr-o banda predefinita) una-doua componente spectrale semnificative Benzile predefinite sunt mai inguste decit subbenzile pentru frecvente joase si mai largi decit subbenzile pentru frecvente inalte Prin eliminarea din spectru a componentelor de tip A ramin componentele de tip B Acestea se caracterizeaza prin componenta mai semnificativa din fiecare banda a unui banc de filtre neuniform benzi critice) P5 Eliminarea componentelor A si B nerelevante Exista doua etape

- se elimina atit componentele A cit si B care sunt sub PAM- pentru doua componente de tip A apropiate in frecventa (Δf) se elimina componenta de amplitudine mai mica

P6 Se calculeaza pe considerente experimentale pragul de mascare pentru componentele A si B ca o functie de amplitudine si frecventa Se observa ca pentru o aceeasi amplitudine a componentelor A si B efectul de mascare este mai pronuntat pentru componentele de tip A P7 Se calculeaza pragul de mascare global ca o suma a pragurilor de mascare absolute de tip A respectiv B P8 Pentru fiecare subbanda corespunzatoare bancului de 32 de filtre se determina minimul M i din functia prag de mascare P9 Caculul raportului semnal-prag de mascare pentru fiecare subbanda i RSPMi [dB] = Pi [dB] - Mi [dB]

Acest parametru este o masura a gradului in care se produce mascarea in fiecare subbanda si ca atare poate fi folosit in a aloca un numar mai mare de biti la codare pentru subbenzile mai importante (P i - Mi

mare) sau un numar mai mare de biti pentru subbenzile nerelevante (Pi -Mi mic)

bull In conditiile de mai sus este posibila o alocare dinamica si adaptiva a numarului de biti de cod R i pentru subbenzile componente Alocarea este diferita pentru Nivel I si Nivel II bull Datele obtinute de la sistemul de codare formeaza un cadru care este precedat de un header de 32 de biti Structura cadrului MPEG-1 (Semnificatia cimpurilor de biti)SYNC - Syncword - 12 biti toti lsquo1rsquo pentru sincronizareID - defineste algoritmul ID = 1 (MPEG-1) ID = 0 (MPEG-2)LC - Layer Code PROT - Protection Bit PROT = 0 (CRC este prezent) PROT = 1 (nu exista CRC)BITR - Bit Rate Index - indica debitul binarSF - Sampling Frequency indica frecventa de esantionare depinde de IDPAD - Padding Bit (PAD = 1 arata ca in cadru se gasesc biti suplimentari pentru a controla debitul binar )PRIV - Private Bit pentru uz privatM - Mode conform cu tabelul de mai jos

Trebuie retinut ca in modul stereo canalele fiind codate separat este posibil ca pentru anumite cadre calitatea redarii sa fie slaba pentru un anumit debit dat Pentru a elimina acest neajuns modul Intesity-Stereo exploateza caracteristica prin care la frecvente medii si inalte urechea este mai sensibila la diferenta de amplitudine de pe cele doua canale decit la continutul spectral Astfel pentru a folosi eficient numarul de biti alocati unui cadru la frecvente medii si inalte se aduna semnalele pentru a transmite un singur semnal Numarul subbenzii de la care se face adunarea este specificat prin variabila mode extension din header Reconstituirea efectului stereo are loc prin codarea si transmiterea a doi factori de scala pe fiecare canal La receptie are loc ponderarea semnalului audio cu acesti factori generind doua amplitudini care sunt controlate separat Informatia specifica modului Intensity-Stereo se include in fluxul de date audio in primii doi octeti

532 Nivelul I de codare (Layer I) Algoritmul de codare introduce ideea selectarii unui cuantizor ditr-un grup de 15 cuantizoare cu scopul de a

obtine un raport zgomot-prag de mascare cit mai uniform in toate benzile la un debit de 384 Kbps si calitate apropiata de CD Numarul de biti pe care se face codarea blocurilor (ci) poate fi de la 0 la 15 Daca raportul zgomot-prag de mascare (RZPM [dB]) este negativ atunci zgomotul de cuantizare va fi imperceptibil Se poate scrie ca RZPMi [dB] = Zi [dB] - RZPMi [dB] unde RZPMi - rapotrul zgomot de cuantizare - prag de mascare RSZi - raportul semnal - zgomot de cuantizare RSPMi - raportul semnal - prag de mascare Procedura de alocare a bitilor este iterativa pornind cu o alocare de R i =0 biti si crescind apoi numarul de biti pe care se face codarea pina cind se obtine calitatea dorita

533 Nivelul II de codare (Layer II) Pentru reducerea debitului binar de la 384 Kbps la 256 Kbps cit prevede Nivelul II de codare algoritmul

MPEG-1 Layer II face apel la reducerea redundantei care apare in semnalul audio In cazul codarii MPEG-1 aceasta redundanta se manifesta prin

bull corelatia inalta dintre factorii de scalare din blocuri succesive de esantioane ale aceleiasi subbenzi bull numarul nejustificat de mare al nivelelor de cuantizare pentru benzile de frecventa inalta

La modul concret aceasta redundanta este rezolvata in procesul de codare prin mai multe masuri care conduc la reducerea debitului binar [1] Se grupeaza cite 3 bocuri pe fiecare subbanda si se codeaza ca un singur bloc

a) daca factorii de scalare din cele trei blocuri succesive nu difera prea mult se transmite un singur factor de scalare b) daca 2 din 3 factori de scalare sunt asemanatori se transmit 2 factori de scalare c) daca factorii de scalare difeira mult intre ei se transmit toti trei Observatie In plus se mai transmite un parametru SCFSI ( Scale Factor Side Information ) pentru a putea reconstitui valorile factorilor de scalare la receptie 2 Se reduce numarul nivelelor de cuantizare pentru frecvente medii si inalte (gama dinamica a semnalului in aceste domenii este mica si un numar mare de nivele de cuantizare nu produce un efect acustic important ) 3 Se grupeaza cite trei esantioane de semnal din fiecare bloc intr-un triplet Tripletul se codeaza cu un cod unic de 5 7 sau 10 biti

534 Nivelul III de codare (Layer III) Nivelul III de codare are la baza structura Nivelelor I si II dar introduce citeva elemente noi pentru a creste

rezolutia la frecvente joase si pentru a elimina variatiile nedorite ale pragului de mascare la aceste frecvente Debitul binar asigurat este de 128 kbp dar nu la calitate de CD Cresterea rezolutiei in frecventa este asigurata de prelucrarea fiecarei subbenzi printr-o TCDM (Transformata Cosinus Discreta Modificata) Din fiecare subbanda sunt generate 6 sub-subbenzi (in cazul TCDM pe termen scurt) sau 18 sub-subbenzi (in cazul TCDM pe termen lung) Pe termen scurt se obtine o mai buna rezolutie temporala iar pe termen lung o mai buna rezolutie spectrala De exemplu pentru portiuni de semnal cu variatie lenta (frecvente joase) este necesara o crestere a rezolutiei la frecvente joase deci o ferestra de analiza mai mare Pentru primele doua subbenzi se va folosi TCDM pe termen lung iar pentru celelalte 30 TCDM pe termen scurt Comutarea ferestrei de analiza (scurt lung lungscurt ) are loc intr-un bloc de adaptare a ferestrei de analiza pentru tranzitii scurt-lung respectiv lung-scurt

Caracteristicile esentiale ale algoritmului sunt a) utilizarea TCD cu fereastra de analiza variabila pentru a forma din subbenzi sub-subbenzi in scopul cresterii rezolutiei spectrale b) gruparea in ordinea frecventei a sub-subbenzilor in granule dupa regula repetitiva - un esantion din fiecare sub-subbanda cu fereastra de analiza pe termen lung - 3 esantioane din fiecare sub-subbanda cu fereastra de analiza pe termen scurt pentru a forma un grup de 576 de esantioane Aceasta grupare garanteaza amplitudinea descrescatoare a esantioanelor Doua granule formeaza un cadru audio care corespunde la 1452 esantioane de intrare c) gruparea adaptiva a esantioanelor din fiecare granula cu scopul de a reduce numarul de biti de codare pentru factorii de scalare din fiecare subbanda Daca doi factori de scalare succesivi sunt identici al doilea nu se mai transmite dar se transmite informatie auxiliara Factorii de scalare se grupeaza in clase care apoi se codeaza d) cuantizarea neuniforma a esantioanelor din granule prin aplicarea transformatei T(f) = f 075 asupra componentelor spectrale Exista 5 cuantizori corespunzatori la 5 domenii de variatie ale esantioanelor - primii 3 codeaza esantioanele mari prin gruparea cite doi si codarea cu cod Huffman - al patrulea are 3 nivele de cuantizare ( +- 1 0 ) si codeaza un grup de 4 esantioane - al cincelea corespunde frecventei inalte si codeaza tot timpul 0 Aceasta informatie nu se mai transmite e) introducerea unui buffer pentru a adapta debitul binar variabil de la iesirea codorului Huffman la debitul fix

al canalului de iesire Prin reactie negativa se evita golirea sau umplerea bufferului

Observatie Bufferul asigura si codarea de inalta calitate a portiunilor de semnal rapid variabile (frecvente mari) Efectul este numit corectie ldquo pre-echo ldquo f) headerul nu se transmite la inceputul cadrului audio de lungime variabila ci acolo unde este nevoie Un pointer indica pozitia exacta a datelor (main-data begin)Observatii

bull Pentru modul stereo acest algoritm permite codarea sumei respectiv diferentei celor doua canale bazinduse pe faptul ca diferenta semnalelor poate fi codata cu un numar mai mic de biti Astfel debitul binar scade Acest mod de codare se numeste MS_Stereo (M = Middle left + right S = Side left + right ) La receptie semnalul original se obtine prin adunarea respectiv scaderea semnalelor ldquo Middle ldquo respectiv ldquo Side ldquo

bull Exista situatii in care se poate utiliza atit MS_Stereo cit si Intesity_Stereo simultan cazuri in care modul MS_Stereo se aplica doar subbenzilor de frecvente joase acolo unde Intensity_Stereo nu se aplica

54 Sistemul de codaredecodare MPEG-2 MPEG-2 este o extensie a sistemului MPEG-1 pentru codarea canalelor stereo Frecventa de esantionare

poate fi scazuta la 16 225 sau 24 kHz iar debitul binar poate fi chiar 8 Kbps fapt semnalat prin pozitionarea in zero a bitului ID din header Trasatura esentiala a MPEG-2 este definirea si utilizarea unui standard pentru compresia a doua canale stereo

- stinga (L- left) - dreapta (R - right ) pentru compatibilitate cu MPEG-1

si inca 4 canale aditionale - central (C - front Center) - auxiliar stinga (LS - side rear Left Surround) - auxiliar dreapta (RS - side rear Right Suround) - un canal optional de inalta fidelitate la frecvente joase (LFE - Low Frequency Enhancement )

Compatibilitatea cu MPEG-1 se realizeaza prin codarea canalelor L si R ca in MPEG-1 iar a canalelor aditionale in cimpul de date auxiliar ce urmeaza dupa datele audio in canalul MPEG-1 Fluxul binar rezultat se numeste multicanal audio

Concluzii bull Codarea MPEG a semnalelor audio exploateaza caracteristici psiho-acustice intr-un sistem de codare in

subbenzi In spectrul semnalelor audio exista componente spectrale care nu sunt auzite din cauza ca sunt in vecinatatea unor compenente de frecventa apropiata si de amplitudine mult mai mare Acest efect este numit efect de mascare

bull Efectul de mascare se manifesta in 3 ipostaze mascarea componentelor spectrale mascarea temporala si pragul absolut de mascare

bull MPEG-1 este un standard care permite codarea canalelor stereo la debite date de nivelul de codare Nivelele de codare se numesc Layer I Layer II Layer III

bull Schema MPEG-1 este in esenta un codor in subbenzi dotat cu un bloc de procesare auxialiar blocul de modelare psiho-acustica prin intermediul caruia se aloca dinamic numarul de biti pentru fiecare subbanda dupa ce in prealabil s-a calculat pragul de mascare

bull MPEG-1 Layer I are in vedere obtinerea unui raport zgomotprag de mascare cit mai uniform in toate subbenzile prin selectarea comandata a unui cuantizor dintr-un grup de 15 cuantizori

bull MPEG-1 Layer II reduce debitul binar de la 384 Kbps la 256 Kbps prin eliminarea redundantei din semnalul audio folosind tehnici precum codarea unor grupe de blocuri din fiecare subbnada reducerea numarului nivelelor de cuantizare pentru frecvente medii si inalte codarea unor triplete de esantioane

bull MPEG-1 Layer III utilizeaza in structura codorului un bloc de Transformata Cosinus Modificata ce opereaza comandat pe termen scurt sau lung in vederea imbunatatirii rezolutiei temporale (pentru semnale cu variatie lenta) sau spectrale (pentru semnale cu variate rapida)

bull MPEG-2 genereaza un Multicanal Audio folosind urmatoarele idei gruparea subbenzilor aplicarea unor transformari matriceale multicanalului audio utilizarea predictiei adaptive multicanal sau codarea falsa a canalului central Se pastreaza compatibilitatea cu MPEG-1

Codarea LPC

Codarea LPC este o tehnica generala de compresie a semnalului vocal bazata pe corelatia puternica existenta intre esantioanele succesive In principiu metoda consta in determinarea unui predictor liniar pentru fiecare cadru de semnal si reprezentarea semnalului prin coeficientii predictoarelorAcest tip de codare presupune

1segmentarea optima a semnalului vocal ndashrealizarea unui compromis intre factorul de compresie (lungime mai mare a segmentelor) si eroarea de predictie (lungimea segmentelor cat mai redusa ) -acest deziderat este atins alegand o fereastra de 20-30 ms ndash acesta fiind intervalul maxim in care semnalul poate fi considerat cvasistationar 2determinarea lungimii ideale a predictorului si calculul eficient al coeficientilor de predictie -corelatia dintre 2 esantioane este cu atat mai redusa cu cat distanta dintre ele este mai mare prin urmare exista un ordin maxim al predictorului p cu propietatea ca pentru orice valoare mai mare eroarea de predictie se reduce foarte putin p se determina experimental valori tipice fiind 10-15 ndashproblema determinarii celor p coeficienti se reduce la rezolvarea eficienta a unui sistem de ecuatii liniare particular ndashecuatiile Yule-Walker (matrice Toepelitz) exista 2 metode ndashmetoda corelatiei si metoda covariantei -cuantizarea diferentiata a fiecarui tip de coeficient ndashin functie de importanta acestuia

Schema bloc ndash modelul sursa filtru

U[n] ndashexcitatia -tren de impulsuri cu perioada To zgomot alb gaussian G-castigul ndashvaloarea maxima a excitatiei H(z) ndashfunctia de sistem a filtru care modeleaza tractul vocal ndashcoeficientii filtrului sunt coeficientii de predicitie S[n]-semnalul vocal

Sursa1Pentru foneme sonore sursa este un tren de impulsuri cu perioada egala cu perioada fundamentala a vibratiilor corzilor vocale (extrasa din semnalul de eroare folosind AMDF sau autocorelatia)

- semnalul de eroare este o aproximare a excitatiei 2Pentru foneme nesonore excitatia este zgomot alb gaussian

Filtrul

Filtrul cu coeficienti variabili avand doar poli (in numar de p) modeleaza tractul vocal Este inversul filtrului de predictie A(z)Functia se sistem a filtrului (all poles)

Sinteza semnalului

Raspunsul in frecventa al filtrului H reprezinta anvelopa spectrala a semnalului vocal (ldquospectrul netezitrdquo) Maximele locale reprezinta formantii

Calitatea vocii sintetizate din parametrii LPC este relativ slaba chiar si in cazul codarii excitatiei In comparatie cu alte metode de compresie frecvent utilizate (MPEGADPCM) tehnica LPC are in general avantajul unei rate de compresie mai ridicate dar calitatea semnalului este mai slaba Folosind un model suficient de complex se poate obtine un semnal satisfacator metoda fiind folosita in aplicatii comerciale (ex GSM)

-Variatia erorii cu ordinul predictorului-eroarea descreste odata cu ordinul predictorului dar aceasta scadere vine cu pretul cresterii efortului

de calcul Prin urmare un ordin mai mare de 15 nu se justifica

CUANTIZAREA VECTORIALA

1 Cuantizarea vectorială ndash notiuni teoreticeCuantizarea este procesul de discretizare a unei surse continue de semnal Cuantizarea vectoriala este un instrument robust de codare si compresie a datelor folosit cu succes in compresia imaginilor si a semnalelor vocale precum si in recunoasterea vociiCuantizarea vectoriala poate fi asimilata cu ideea de aproximare de exemplu rotunjire la numarul icircntreg imediat superior

Cuantizarea vectoriala mapeaza vectori de dimensiune k din spatiul intr-un set finit de vectori Y=

Elementele cuantizarii vectoriale

- Fiecare este un cuvant de cod (se numeste Centroid) iar multimea lor defineste alfabetul Y=

- Fiecare cuvant de cod reprezinta o intreaga regiune denumita Voronoi si care trebuie sa respecte

proprietatile adica o valoare este reprezentata de un singur cuvant de cod

- Cuvantul de cod trebuie ales respectand o anumita regula generala Aceasta regula difera de cazul

practica unde se foloseste cuantizarea vectoriala Un criteriu posibil ar fi distanta euclidiana dintre cuvantul de cod si vectorul de intrare

Schema codaredecodareVQ

Raportul semnal-zgomotbull Presupunem ca semnalul (variabila aleatoare) x are medie nulabull Raportul semnal-zgomot (SNRmdashsignal to noise ratio) asociat unui cuantizorSNR = 10 log10Ex2D [dB]bull Daca semnalul nu are medie nula se foloseste varianta icircn loc de Ex2bull Icircn general despre cuantizoarele cu SNR gt 10dB se spune ca au rezolutie icircnalta pentru acestea sunt valabile rezultatele asimptotice prezentate mai departe

Generarea alfabetuluiGenerarea alfabetului este una dintre cele mai importante si dificile operatii in cazul cuantizarii vectoriale De succesul acestei operatii depinde reusita codarii vectoriale iar daca acesta nu este ales corespunzator se poate ajunge la rezultate dezastroase Pentru a ne asigura ca rezultatul procesului de creare a alfabetului va genera rezultate satisfacatoare avem trei criterii care trebuie respectate

- Conditia de cel mai apropriat vecin (Nearest neighbour condition)

adica numai daca Conditia arata ca in interiorul unei zone Voronoi vom avea acele elemente a caror distanta este mai mica fata de oricare element din orice alta zona Voronoi

- Conditia de centroid

Conditia arata ca noul cuvant de cod (centroidul) trebuie ales astfel incat el sa reprezinte cel mai bine toate elementele din jurul sau De aceea pentru a alege noul cuvant de cod se alege media aritmetica a elementelor din zona Voronoi

- Probabilitate zero pe margini

Conditia arata ca nici un element nu trebuie sa se afle la granita dintre doua regiuni Voronoi Daca ar exista astfel de elemente atunci codarea lui ar putea ridica probleme nestiind carui centroid ii apartine

Alegerea cuvintelor initiale33

Generarea valorilor initiale folosite la generarea alfabetului este de asemenea o operatie dificila De-a lungul timpului s-au cautat diferiti algoritmi care sa garanteze ca aceste valori initiale sa conduca la un alfabet optim Cateva din acesti algoritmi sunt prezentati mai jos Random Coding Valorile initiale sunt alese total aleator dintre valorile de intrare Tehnica desi este simpla nu garanteaza ca aceste valori sunt optimale Se pot intampla cazuri in care centroizii alesi astfel sa reprezinta fie prea putine date de intrare fie prea multe O dispozitie cat mai uniforma a datelor de intrare favorizeaza aceasta tehnicaPruning

Se porneste cu un set de antrenare dupa care se introduc noi valori in sistem Se calculeaza distorsiunile dintre datele de intrare si setul de antrenare iar daca valoare obtinuta este sub un prag stabilit atunci se alege un nou centroid Ideea este ca daca avem valori care sunt prea departate de centroid e mai rentabil sa cream un nou centroid care sa reprezinte acele date precizia creste astfelPair wise Nearest Neighbour Design

Este foarte asemanator cu metoda de mai sus diferenta este ca algoritmul se opreste in momentul in care am gasit L vectori valoarea L fiind cunoscuta de la inceputSplitting

Se calculeaza centroidul tuturor datelor de intrare (media aritmetica) Valoarea astfel aleasa se desparte in C+ε C-ε care vor asigura o mai buna acoperire a datelor de intrare Cele doua centroide rezultate se vor descompune mai departe pana cand alfabetul va avea rezolutia ceruta

Generarea alfabetului ndash Algoritmul LBG- Se porneste cu o secventa de antrenare T care este o multime de M vectori de dimensiune K

- Se creeaza un alfabet initial care va fi imbunatatit prin iteratii succesive

- se obtine

- se partitioineaza spatiul T in regiuni folosind conditia celui mai apropriat vecin- se calcueaza centroizii

- se calculeaza abaterea erorii medii patratice

- daca fractia este sub un anumit prag algoritmul se opreste daca nu se trece la pasul urmator

Aplicatia bdquodspvqtwodimrdquo (Matlab) foloseşte pentru cuantizare algoritmul Lloyd generalizat (Generalized Lloyd Algorithm - GLA) Se permite introducerea unei secvenţe de antrenare alegerea alfabetului iniţial şi al numărului nivelelor de codare şi selectarea criteriului de oprire a algoritmului Icircn urma rulării se va afişa distribuţia celulelor şi a vectorilor alfabetului de codare precum şi numărul de vectori din secvenţa de antrenare conţinuţi icircn fiecare celulă la fiecare iteraţie

Algoritmul Lloyd-Max0 Se da numarul de nivele de cuantizare N Se alege un dictionar initial C = c1 cN Se alege o toleranta ǫ Se initializeaza pasul de iterare i = 01 Se calculeaza punctele de decizie optime dk k = 1 N minus 1 pentru codurile ck conform relatiei (1)2 Se calculeaza codurile optime ck k = 1 N pentrupunctele de decizie dk conform relatiei (2)3 Calculeaza distorsiunea medie curent a

4 Daca D(iminus1) minus D(i)D(i) lt ǫ

atunci stop Altfel se pune i larr i + 1 cedilsi se reia de la pasul 1comentariibull Distorsiunea scade la fiecare pas pentru eg puncte de decizie date noile coduri minimizeaz˘a distorsiunea acedilsadar produc o distorsiune mai mic˘a decacirct codurile de la iteracediltia anterioar ˘abull Algoritmul converge c˘atre un punct stacediltionar care este un minim local (nu neap˘arat cel global)bull Inicediltializ˘ari diferite ale algoritmului pot produce rezultate diferite

In data mining k-means clustering is a method of cluster analysis which aims to partition n observations into k clusters in which each observation belongs to the cluster with the nearest mean This results in a partitioning of the data space into Voronoi cells

CELP - Code Excited Linear Prediction

Tehnica CELP se bazează pe trei idei 1Utilizarea unui model de predicție liniara (LP) pentru a modela tractului vocal 2 Utilizarea intrarilor dictionarelor de coduri (adaptiv și fix) ca excitație a modelului LP 3Căutare efectuata icircn buclă icircnchisă icircntr-un domeniu perceptual ponderat

Decodorul

Excitația este produsa prin icircnsumarea contribuțiile de la dictionarul de coduri adaptiv (alias pitch)

si dictionarul fix (alias innovation or fixed)

Unde contributia dictionarului adaptiv (pitch) si contributia dictionarului fix (innovation or fixed)

Dictionarul fix este un dictionary cuantizare vectoriala care poate fi implicit sau explicit hardcodat in codec Acest dictionarul poate fi algebraic (ACELP) sau stocat in mod explicit (ex Speex)

Intrările in dictionarul adaptiv constau in versiuni ale excitației icircntacircrziate Acest lucru face posibilă codarea eficienta a semnalelor periodice cum ar fi sunete vocii

Filtrul care modeleaza excitatia este de forma 1A(z) unde A (z) este numit filtru de predicție și se obține cu ajutorul predicției liniare

Codorul

Principiul de baza din spatele CELP se numeste Analiza de Sinteza(Analysis-by-Synthesis (AbS)) si inseamna ca codarea (analiza) este realizata prin OPTIMIZAREA SEMNALULUI decodat intr-o bucla inchisa In teorie cel mai bun flux CELP ar fi produs prin incercarea tuturor combinatiilor de biti posibile si selectarea celei care produce cel mai bun semnal decodat Practic acest lucru nu este posibil din doua motive complexitatea necesara este dincolo de orice device hardware disponibil in prezent iar al doilea ldquobest soundingrdquo criteriu de selectie ce implica un ascultator umanIn scopul de a realiza codarea in timp real folosind resurse de calcul limitate cautarea CELP este impartita in parti mai mici mai usor de gestionat realizandu-se astfel cautari secventiale Codarea se realizeaza in urmatoarea ordine Coeficienții LTI (LPC) se calculează și cuantizeaza de obicei ca LPCDictionarul de coduri adaptiv (pitch) este căutat și contribuția se eliminaDictionarul de coduri fix (innovation) este cautat

Codarea de tip MBE Modelul MBE e descris pentru modelarea la calitate inalta a vorbirii cu si fara zgomot

Codorul MBE Sistem de analizasinteza a semnalului vocal care ofera o calitate crescuta a vorbirii la un debit

scazut (48 kbps) Este capabil sa genereze vorbire inteligibila dar nu realizeaza cu succes sintetizarea la calitate

inalta Aplicatii pentru astfel de codoare (vocoders) voice mail comunicatii digitale la debite mici

telefonie de securitate inalta Vorbirea e generata in codor prin excitarea cu un tren de impulsuri periodice ndash in cazul voiced

speech sau zgomot aleator in cazul unvoiced speech [2] Un avantaj major

imparte fiecare segment al vorbirii in regiunibenzi de frecventa pentru fiecare banda de frecventa se analizeaza spectrul si se ia o decicie voicedunvoiced Astfel rezulta o combinatie de voicedunvoiced energy dependenta de frecventa

Regiunile voiced sunt reprezentate de armonici ale frecventei fundamentale iar regiunile unvoiced de catre zgomot aleator [3]

Utilizarea deciziilor voicedunvoiced ii permite modelului MBE sa fie in control asupra spectrului de excitation [4]

Spectrul semnalului vocal reconstituit este mai apropiat de cel original (original speech frame) decat in alte modele (ex CELP) la un debit mic

Usor scalabili pentru debite peste 2 kbps

Model matematic Semnalul vocal s(n) e cvasi-stationar ndash se aplica o fereastra w(n) pe intervale scurte de timp

(10ms ndash 40ms) Sw(n) = W(n)s(n)

Transformata Fourier Sw(ω) = Hw(ω)|Ew(ω)| diferenta fata de modele precendente forma spectrului de excitatie care era specificat de

frecventa fundamentala (ω0) si de o decizie VUV pentru intreg spectrul In cazul MBE este specificata de frecventa fundamentala (ω0) si de o functie dependenta de frecventa (voicedunvoiced mixture function)

Pentru a reduce numarul de parametrii necesari aceasta functie s-a inlocuit cu o decizie VUV dependenta de frecventa

Alta diferenta fata demodele precedente - un numar mai mare de benzi de frecventa (peste 20)

Parametrii VUV se obtin combinand segmentele unui spectru periodic |Pw(ω)| in benzile de frecventa voiced cu segmentele spectrului de zgomot aleator in benzile de frecventa unvoiced

Anvelopa spectrala Frecventa fundamentala Informatia VUV pentru fiecare armonica Faza fiecarei armonici declarata voiced (pt unvoiced nu sunt obligatorii in algoritmul de sinteza)

Se estimeaza pentru minimizarea criteriului de eroare

G(w) ndash functie de ponderare dependenta de frecventa

Decizia voicedunvoiced este facuta pentru fiecare armonica prin compararea erorii normalizate cu un anumit prag

Comparatie cu LPCLPC

nu produce vorbire de calitate inalta fara sa adauge o prediction residual nu este robust la zgomotul de fundal [1] Mai complex dpdv computational (time consuming) Codebook pentru operare la debite fixe si nu e usor scalabil la alte debite

Prediction residual poate fi vazut ca o eroare de semnal care corecteaza inacuratetea in modelul de predictie liniar Prin eliminarea acestuia cum e facut in standardul 24 kbps LPC-10 system se obtine o calitate scazuta a vorbirii (ldquoharsh mechanical quality in the speechrdquo[1])

Codarea de tip MELP

Codarea LPC se bazează pe un model pur parametric pentru codarea semnalului vocal motiv pentru care apar multe distorsiuni pocnituri intreruperihellip deranjante pentru urechea umana

Pentru rezolvarea acestor neajunsuri MELP combina cele două forme de excitatie a filtrului de sinteză generatorul de impulsuri şi cel de zgomot

Astfel la acelaşi debit transmis calitatea creste substanţial

Schema codorului

1calcul eroare de predicţie 2Ferestruire Hamming3 200 eşantioane umplute cu 0 pană la 5124FFT in 512 puncte5Calculul maximelor in jurul frecventelor de rezonanţa (10 val)6Normalizare cu α (dependent de maxime)7Cuantizare vectorială

Schema decodorului

1 Decodare vectoriala2 Interpolare3 Extensie simetrică (pentru obţinerea de valori reale după IDFT)4 Şiftare circulară (previne apariţia schimbarilor abrupte la icircnceput de perioadă)

Comparatie LPC ndash MELP LPC foloseşte un generator de impulsuri cu o anumita frecvenţa pentru segmentele vocalizate şi un

generator de zgomot alb pentru segmentele nevocalizate si comuta intre cele doua (vorbire non-vorbire)

MELP combina semnalele de la generatorul de impulsuri cu cel de la generatorul de zgomot alb inainte de a le trece prin filtrul de sinteză

In plus MELP adauga un jitter aperiodic in semnalului vocalizatImbunatatiri fata de LPC

Jittter-ul introdus la tranzitia dintre zonele de semnal vocalizat si nevocalizat are rolul de a reduce variatia frecventei fundamentale care determina aparitia distorsiunilor (pocnituri intreruperi) din semnalul vocal Forma impulsului e extrasă la codare si transmisă alături de fiecare cadru

- Se bazează pe calculul amplitudiniilor Fourier din eroarea de predicţieExcitatia mixta

o Sinteza se face prin ldquomixareardquo impulsurilor (F0) si zgomotului alb prealabil filtrateo Parametrii filtrelor sunt variabili icircn timp şi depind de ldquointensitatea vociirdquo care măsoara gradul

de ldquovocalizarerdquo

Alocarea bitilorDebitul de iesire este de 2400 bps -gt la fiecare 225 ms se transmite un pachet de 54 de biti

Compresia prin transformata wavelet

Analiza Fourier icircmparte un semnal icircn componentele sale sinusoidale la diferite frecvenţe putem transforma domeniul timp icircn domeniu frecvenţă dezavantaj -pierderea informaţiei temporale adică nu ştim exact icircn ce moment de timp are loc un

anumit evenimentSTFT ndash Short Time Fourier Transform

mapează un semnal pe două dimensiuni adică icircn timp şi spaţiu =gtputem să obţinem anumite informaţii legate atacirct de frecvenţă cacirct şi de timp

Dezavantaje precizie limitată depinzacircnd de dimensiunile ferestrei temporale fereastra de durată finită este icircnsoţită de rezoluţie fixă de frecvenţă

rezoluţie fixă timp-frecvenţă

Analiza Wavelet rezolva acest neajuns al STFT dezvolta o tehnică de analiză a semnalelor folosind o fereastră de dimensiune variabilă nu foloseşte un domeniu variabil timp frecvenţă ci unul scală-frecvenţă

Transformata Wavelet wavelet =un semnal care are o durată limitată şi o valoare medie egală cu zero regular si asimetric Un semnal sinusoidal nu are durată limitată este predictibil şi omogen

Analiza Fourier vs Analiza Wavelet Analiza Wavelet = icircmpărţirea unui semnal icircntr-o serie de semnale care sunt versiunile scalate şi

deplasate ale undei Wavelet originale =gtmult mai uşor să descriem un semnal real cu ajutorul unui wavelet decacirct cu o sinusoidă

Transformata Wavelet Continuă (CWT ndash Continuous Wavelet Transform)=sumă temporală a produsului dintre semnalul original f(t) şi versiunile scalate şi translatate ale funcţiei Wavelet de bază Ψ

ψab(x) - Set de functii de baza obtinut prin translatarescalare (a ndash scala ( a mic=gtcomprimare) b ndashtranslatia (deplasare= icircntacircrzierea))

Coeficienţii transformatei wavelet sunt daţi de produsul intern al funcţiei de transfer cu fiecare dintre funcţiile bază

Transformarea continuă inversă wavelet este dată de relaţia

Transformata Wavelet discreta (DWT ndash Discrete Wavelet Transform) calculul coeficientilor Wavelet pentru orice scala -gtcostisitor neeficient aplica DWT ndash alegem un set de scale si pozitii folosind metoda diadica =gt factor de scala si pozitie

=putere a lui 2 permite realizarea unei analiza mult mai eficiente şi mai corecte

putem implementa DWT folosind filtrele-implementare a algoritmului de descompunere icircn subbenzi folosind două canale

conţinutul de joasă frecvenţă ndash defineşte bdquoidentitateardquo semnalului conţinutul de frecvenţă icircnaltă aduce icircmbunătăţiri icircn descrierea semnalului

Reprezentarea cu filtre a DWT aproximările ndash sunt componente cu factor de scală mare adică componente de frecvenţă

joasă detalii ndash componente cu factor de scală mic adică componente de frecvenţă icircnaltă

semnal original trecut prin DWT (trecut prin două filtre complementare)=gt =gt 2 ori numarul de esantioane (2 comp A ndash aproximări D ndash detalii)

- trebuie facuta o subesantionare =gt la ieşirea bancului de filtre se obţine aceeaşi cantitate de informaţie ca la intrare

Procesul de analiză şi sinteză DWT Decompunerea impartirea unui semnal pentru obtinerea coeficientilor wavelet Procesul de reconstrucţie a semnalului folosind coeficienţii DWT se face parcurgacircnd calea inversă

şi anume se realizează supra-eşantionarea şi se aplică o filtrare adica asamblarea semnalului din coeficienti inainte de reconstructie coeficientii wavelet pot fi modificati

Compresia s vocal folosind Wavelet

Wavelet-urile concentreaza inf vocala in cativa coeficienti vecini=gt multi coef vor fi zero sau cu

amplitudini neglijabile Auzul mai putin sensibil a frecv inalte-gt se va folosi o metoda de compresie in care coef de detaliu

sunt limitati (informaţia de frecvenţă icircnaltă din semnalul vocal)=gt eroarea datorata limitarii nu se va auzi

O componenta de semnal~ folosind un nr mic de coef de aproximare si cativa coef de detaliu Coeficientii de val mica nesemnificativi =gtcompresie

Pasi proces de compresie1Alegerea wavelet-ului obiectivul este reducerea varianţei erorii de reconstrucţie şi creşterea SNR2 Descompunerea wavelet semnalul este descompus icircn benzi de frecvenţe diferite sau icircn mai multe componente de rezoluţie mai mică 3 Trunchierea coeficienţilor cea mai mare

parte a energiei semnalului vocal se concentrează icircn coeficienţi de valoare mare care sunt puţini4 Măsurarea performanţei

Factorul de compresie Energia reţinută a semnalului Raportul semnal-zgomot

Metoda Wavelet Packet este o generalizare a descompunerii Wavelet care ofera mai multe posibilitati de analiza a semnalului

In cazul analizei de tip wavelet semnalul este impartit in doua parti aproximare si detaliu

In procedurile clasice de decompozitie wavelet pasul generic (primul pas) realizeaza o impartire a coeficientilor de aproximare in doua parti Se obtine un vector de coef de aproximare si un vector de coef de detalii Informatia pierduta intre doua aproximari succesive este capturata in coeficientii de detaliiCoeficientii de aproximare -gt low pass resultsCoeficientii de detaliu -gt high pass resultsLa fiecare pas de descompunere se aplica transformata waveletTransformata wavelet se aplica doar pentru coef de aproximare Dupa fiecare pas rezulta alti doi vectori

- De aproximare - De detaliu

ESTIMAREA CALITĂȚII SEMNALULUI VOCAL IcircNTR-O TRANSMISIUNE VoIP

IntroducereCaracterul omniprezent incontestabil al protocolului IP este dovedit procentual la nivelul icircntregului glob conform ISOC (Internet Society) protocolul IP stă la baza interconectării a peste 20 din populația totală a globului Mai mult de 15 din icircntreaga populație beneficiază de acces la Internet numărul acestora icircnregistracircnd o dublă expansiune icircn perioada 2000-2006 Cererea consumatorilor accesul nelimitat și standardele deschise au devenit principalele motivații ale dezvoltării continue de aplicații și servicii inovatoare Contextul astfel impus pieței de către consumator este unul al serviciilor interactive personalizate accesibile din orice locație icircn orice moment icircn orice mod (oriunde-oricum-oricacircnd) Premisa consumatorului reprezintă dezideratul trendului tehnologic de dezvoltare caracterizat de interoperabilitatea la nivel de serviciu dispozitiv rețea și de convergența rețelelor IP (Future Networks) Interoperabilitatea la nivel de serviciu a fost marcată de integrarea serviciului de voce și date utilizacircnd ca suport de trasmisie infrastructura IP (VoIP) Soluția propusă prezintă avantaje atacirct din perspectiva clientului (utilizatorului) a dezvoltatorului cacirct și din perspectiva furnizorului (industria enterprise) determinacircnd o productivitate generală Avantajele generale sunt determinate de eficientizarea costurilor (planuri de apel echipamente dispozitive mentenanță liciențere) flexibilitatea serviciilor și posibilitatea de extindere rapidă a complexității serviciilor Din perspectiva dezvoltatorilor principalul criteriu este determinat de utilizarea eficientă a benzii de transmisie

Tehnologia VoIP reprezintă alternativa serviciului de voce din rețele cu comutație de circuite (PSTN) pentru rețele cu comutație de pachete Principalul criteriu de evaluare icircn comparația celor două tipuri de rețele icircn contextul serviciului de voce este calitatea semnalului Pentru ca eficientizarea costurilor să devină avantajul de departajare a celor două soluții este necesar ca serviciul de voce icircn rețele cu comutație de pachete să atingă un nivel al calității comparativ cu cel din rețelele cu comutație de circuite

Factorii de influență asupra calității semnalului sunt marcați de elementele componenete ale unui sistem VoIP Tehnologia Internet și infrastructura IP determină o dependență a calității semnalului de voce față de o nouă serie de factori de distorsiune La nivel global sunt considerate influențele induse de rețeaua de transport și de acces De nivel particular sunt considerate elementele din rețeaua terminală (rețeauabucla de abonat)

Calitatea serviciului de voce icircn tehnologia VoIP

11 Calitatea semnalului vocalNoțiunea de calitate a semnalului de voce implică două dimensiuni

dimensiunea subiectivă din perspectiva percepției umane și dimensiunea obiectivă din perspectiva tehnică a planificării rețelelor

Dimensiunea subiectivă este referința dimensiunii obiective Din perspectiva obiectivă sunt definite elementele de calitate ce reprezintă factorii de influență a semnalului vocal Efectele factorilor de influență sunt cele care generează perspectiva subiectivă a calității semnalului vocal Rezultatele de referință obținute experimental sunt utilizate pentru analiză estimare și evaluare și stau la baza construirii modelelor de aproximare a stării sistemului icircn diferite circumstanțe

12 Elemente de calitate pentru serviciul de voceCele două perspective (obiectivăsubiectivă) sunt mapate de asemenea și pe noțiunea de calitate a serviciului de voce (QoS) Din perspectiva utilizatorului este definită calitatea experienței iar din perspectiva operatorului calitatea serviciului (fig2)

Calitatea serviciului reprezintă rdquo efectul colectiv al performanței obiective a serviciului ce determină icircn final satisfacția consumatoruluirdquo

Calitatea experienței reprezintă rdquoo măsură a toleranței globale asupra unui serviciu din perspectiva consumatoruluirdquo

Calitatea este definită din perspectiva transmisiunii a eficacității comunicării și a facilității de comunicare Calitatea transmisiunii vocii consideră toate elementele de calitate cu un impact asupra fidelității de redare

(eg zgomotul de linie nivelul de semnal pierderi de pachet pe traseu) Eficacitatea comunicării consideră acele elemente de calitate ce afectează capabilitățile de conversație din

sistem (eg ecou icircntacircrzierea cap-cap a trasmisiei) Facilitatea comunicării consideră factorii de influență din perspectiva terminalului opus ceea ce presupune

operații de adaptare la mediu deficitar

13 Arhitectura sistemului VoIP

Arhitectura de principiu cuprinde trei componente majore bucla de abonat a emițătorului rețeaua de transport (rețeaua IP) bucla de abonat a receptorului (fig3)

La emisie semnalul analogic de voce este digitizat și codat icircn vederea compresiei prin intermediul unui codor Informația utilă pachetizată este apoi icircncapsulată icircn pachete RTP icircn vederea transmiterii pe canal La recepție pachetele sunt decapsulate și informația digitală de voce este extrasă Bufferul de recepție are rolul de a diminua efectele canalului Prin interpolare informația de voce este decodată astfel icircncacirct pachetele intermediare pierdute sunt estimate din pachetele adiacente [3]

Icircn sistemele cu comutație de circuite legătura fizică este creată și menținută pe durata icircntregului apel Semnalul de voce este transmis sincron și sincronizat la emisie și receție Prin urmare deteriorarea semnalului icircn rețele cu

comutație de circuite apare datorită imperfecțiunilor mediului de transmisie ce influențează sistemul de comunicație (eg zgomot ambiental)Icircn cazul sistemului cu comutație de pachete VoIP nu există o legătură fizică prestabilită și menținută Icircntreg procesul de livrare la destinației a informației (voce) implementează funcțiile stivei de protocoale TCPIP Datele utile (semnalul de voce) sunt supuse procesului de icircncapsulare icircnainte de a fi trimise pe canal(fig4)Informația adăugată prin procesul de icircncapsulare este redundantă și scade eficiența transmisiei Icircn vederea transportului sunt considerate protocoalele TCP UDP Fiind un protocol orientat pe conexiune TCP induce o redundanță sporită datorită controlului suplimentar al transmisiei ( mesaje ACK avertizări de congestie) UDP fiind un protocol neorientat pe conexiune presupune lungimi mai reduse ale pachetelor dar este mai susceptibil la eroriTransmiterea pachetelor la destinație se face pe baza campului adresă IP destinație fără a exista un canal de direcționare pachetele putacircnd parcurge căi diferite Prin urmare cauzele degradării semnalului sunt diferite icircn cazul rețelelor cu comutație de pachete De majoră importanță sunt pierderile de pachete și icircntacircrzierea cauzate de congestia icircn rețea sau datorită imperfecțiunilor rețelei [2]

2 Codecuri utilizate icircn VoIP21Arhitectura conceptuală a buclei de abonat

Bucla de abonat vizează procesul de prelucrare si procesare a semnalului vocal icircn vederea transmiterii icircn rețea (fig5) Interconectarea celor două tipuri de rețele se realizează prin intermediul rețelei de acces (gateway)

Fig5 Schema bloc de procesare a semnalului icircn terminalul abonatului

Icircn urma conversiei AD (8kHz) semnalul este supus unei proceduri de suprimare a ecoului și de reducere a zgomotului de fond

Etapa următoare de de detecție a semnalului de voce util (VAD ndash Voice Activity Detection) Icircn cazul nedetectării algoritmul de transmisie discontinuă (DTX) atribuie icircntregului semnal caracteristica de zgomot de fond Această procedură are rolul de eficientizare a transmisiei prin reducerea benzii semnalul inecat icircn zgomot este rejectat icircnainte de transmisia pe canal Icircn cazul detectării semnalului util semnalul de la sursă este codat icircn vederea compresiei prin utilizarea unui algoritm de compresie Dacă se optează pentru o strategie de protecție suplimentară la imperfecțiunile canaluluim semnalului codat i se aplică o codare suplimentară FEC (Forward Error Correction)LBR (Low Bit-rate Redundancy )

22 Clasificarea codecurilor utilizate icircn VoIPCompromisul utilizării codecurilor icircn prelucrarea semnalului vocal icircn vederea transmisiei constă icircn diminuarea fidelității semnalului icircn vederea reducerii benzii necesare transmisiei Clasificarea relativă la algoritmii de codare utilizați Consideracircnd criteriul algoritmilor de codare rezultăMetode de codare

- Codarea formei de undao Codarea in domeniul timp

Codarea scalar43

ADPCM 32 kbps PCM 64 kbps ADPCM 2448 kbps

Codarea vectorialao Codarea in domeniul frecventa

Codarea in subenzi ndash ADPCM 64 kbps Codarea prin transformari ale semnalului Codarea percetuala

- Codarea sursei de semnal- Codarea hybrid

o Codorul LPC Codorul LPC in bucla inchisa

Cu excitatie multipla ndash MELP Excitatie cu impulsuri - RPE Excitatie cu coduri ndash CELP

Codorul LPC in bucla deschisa

Clasificarea relativă la banda de transmisie utilizată codecuri de bandă icircngustă

Icircn rețele PSTN digitale o codecul utilizat la scară largă este G711 (PCM 64kbps) Controlul ocupării benzii de transmisie icircn

momente de vacircrf poate fi optimizată prin utilizarea DCME (Digital Circuit Multiplication Equipment) ce implementează codecul G726 cu rate de bit cuprinse icircntr 24kbps-32kbps (ADPCM 40-32-24-60kbps ITU-T Rec G726 1990)

Rețele mobile (GSM) presupun integrarea codecurilor special GSM EFR (GSM Enhanced Full Rate Codec) (ETSI GSM 0660 1996) și GSM FR (GSM Full Rate Codec)

(ETSI GSM 0610 1988) Rețele 3G conform specificațiilor IS-54 (EIATIAIS54-B 1990) integrează codecul de 8kbps VSELP

(Vector Sum Excited Linear Prediction)

Icircn rețelele cu comutație de pachete codecurile caracteristive sunt G711(ITU-T Rec G711 1988) G723 (bandă dublă 53 kbps sau 63kbps ITU-T Rec G7231 1996) G729 (CS-ACELP Conjugate-Structure Algebraic-Code-Excited Linear-Prediction)(8kbps ITU-T Rec G729 1996) Codecuri specifice sunt iLBC (Internet Low Bit-Rate) (152 kbps 1333 kbps Andersenampall 2002) AMR-NB (Adaptive Multirate Codec Narrow-Band)( 8 debite posibile simultan icircntr 475kbps-122kbps ETSI TS 126 071 2002)

Codecul AMR este integrat icircn concepția rețelelor de viitor momentan fiind implementat icircn rețele UMTS 4G Algoritmul implementat realizează adaptarea ratei de transmisie la puterea semnalului radio cu cacirct semnalul are o putere mai mica cu atacirct banda alocată va fi mai mare icircn vederea adăugării biților de control pentru corecția la recepție Codecurile de voce utilizează pachete de dimensiune diferită cu o durată cuprinsă icircntre 10ms-40ms

codecuri de bandă largăRețelele ISDN implementează icircntr-o primă etapă de evoluție codecul SB-ADPCM(Sub-band ADPCM) (64kbps-56kbps-48kbps ITU-T Rec G722 1988)

Icircn vederea eficientizării utilizării resurselor radio a fost integrat codecul cu o rată de bit mai scăzută WB-AMR (Algebraic Code-Excited Linear Prediction ACELP) (660 885 1265 1425 1585 1825 1985 2305 or 2385 kbps ITU-T Rec G7222 2002 3GPP TR 26976 2002) Pentru cea mai mare rată de transmisie banda alocată este cuprinsă icircntr 50-6600 Hz Banda necesară transmisiei scade o data cu scăderea ratei de transfer Alte codecuri posibile sunt G7221 cu rată de bi scăzută (32kbps 64kbps ITU-T Rec G7221) și extinderea G729 (ITU-T Rec G7291 2006)

3 Factori QoS de influențăRolul initial al rețelelor IP a fost de a furniza support icircn comunicația asincronă implicacircnd servicii și proceduri best-effort fără garanția calității serviciului [10] Pentru integrarea QoS icircn rețele IP au fost propuse 2 metodologii

implementarea QoS la nivel strat aplicație (eg FEC) sau implementare QoS la nivel de infrastructură a rețelei (DiffServ IntServ)

Factorii de influență asupra QoS sunt jitter icircntacircrzieri pierderi de pachete erori de bit zgomot ecou diafonii Principalii factori de influență la nivel de rețea sunt jitter icircntacircrzieri pierderi de pachete (fig7)

Pierderi de pachetePierderea pachetelor este principala sursă de deteriorare a calității transmisiunii icircn rețele cu comutație de pachete respectiv VoIP Pierderea pachetelor are loc atacirct la nivel de rețea cacirct și la nivel de terminalgateway datorită icircntacircrzierilor mari Pierderile la nivel de rețea sunt cauzate icircn cele mai multe cazuri de congestii la nivel de router (router buffer overflow) instabilitatea routerelor legături deteriorate Congestia este cauza majoră a pierderii pachetelor Pierderile de pachete sunt influențate de lungimea pachetului (uzual 10-60ms ) tipul de codec utilizat distribuția de pierderi a pachetelor metoda de contracarare utilizată (PLC FEC LBR) Metodele FEC și LBR presupun transmisii suplimentare ceea ce duce la creșterea icircntacircrzierilor și scăderea eficienței de transmisie [3] [2] [10]Alte metode de compensare a pierderilor de pachete [6]

Icircntreţeserea pachetelor (Interleaving) pentru a reduce efectul pierderii unui pachet asupra unui cadru de semnal

Icircmpărţirea biţilor dintr-un cadru icircn clase de importanţă şi folosirea unor metode de codare diferite pentru diferite clase (cu o mai bună protecţie la erori pentru clasele mai importante)

Icircntacircrzieri și variații ale icircntacircrzierii (jitter)Icircntacircrzierile și variațile icircntacircrzieilor sunt principala sursă de degradare a calității semnalului vocal Icircntacircrzierea cap-cap cuprinde componentele

timpul de propagare timpul de transmisie timpul de asteptare icircn coadă timpul de procesare a codecului timpul de pachetizaredepachetizare timpul de așteptare icircn bufferul de recepție

Comutația de pachete presupune căi alternative de rutare a pachetelor Astfel burst-urile de pachete presupun icircntacircrzieri diferite la destinație Jitter-ul reprezintă varianța statistică a intervalului de timp icircntre sosirea a două pachete și este determinat icircn mare parte de așteptarea icircn coada de transmisie Se recomandă ca valoarea sa sa fie recalculată icircn mod continuu după sosirea fiecărui pachet i IETF RFC 1889 definește jitterul ca fiind deviația medie standard icircntre transmisia și recepția pachetului 4 Modele de estimare a calității icircn VoIPEstimarea calității semnalului vocal icircn transmisiuni VoIP este crucială din perspective tehnice legale comerciale Estimarea calității se face prin proceduri de măsurare41 Clasificarea procedurilor de estimareClasificarea tipurilor de proceduri utilizate icircn estimarea calității semnalului vocal se bazează pe o structură ierarhizată pe nivele de tip arborescent (fig9)

Un prim nivel departajează procedurile de estimare icircn obiective și subiective Procedurile subiective au dezavantajul relativității al condiționării mediului a consumului de timp și costuri suplimentare nu sunt repetabile și nu pot fi utilizate pentru estimări pe termen lung icircn infrastructuri de rețele Acestea sunt aplicabile prin intermediul unui set de teste subiective aplicabile unui eșantion de persoane Față de măsurările obiective au insă avantajul preciziei și al fiabilității Dezavantajele procedurilor subiective determină interesul comercial crescut icircn procedurile obiective

Procedurile obiective utilizează algoritmi ce simulează percepția umană sau modele computaționale ce evaluează automat calitatea pe baza metricilor obiective ale semnalului semnalului de voce transmis Acuratețea precizia și fiabilitatea estimării se obține prin utilizarea metodelor obiective prin corelație cu estimarea subiectivă [11] [3]

Al doilea nivel de clasificare vizează in principal ramura estimării obiective ce presupune două subdiviziuni metodologii intruzive și neintruzive

Procedurile intrusive utilizează două semnale de intrare (original degradat) Semnalul degradat denumește semnalul la recepție Sunt denumite intrusive datorită injectării semnalelor de test(de referință) și a nevoii de a utiliza infrastructura rețelei Aceste procedure au o precizie ridicată a măsurării calității traficului pentru o transmisie cap-cap dar nu sunt potrivite pentru monitorizarea icircn timp real a traficului Icircn cazul icircn care semnalul de referință este degradat datorită zgomotului de fond compararea cu semnalul de la recepție are o fiabilitate scăzutăProcedurile neintruzive (fig10) nu utilizează injectarea semnalului de referință Estimarea se face doar pe baza semnalului de la recepție Procedurile neintruzive au avantajul posibilității de a fi utilizate pentru aplicații de monitorizare a traficului icircn timp real și pentru aplicații ce realizează controlul dinamic al calității traficului [11] [3]

Al treilea nivel de ierarhizare referețiază ramificarea procedurilor intruzive și neintruzive din punct de vedere al mecanismului de procesare a semnalului Măsurările neintruzive presupun două categorii de metode diferite de estimare a calității semnalului cu algoritmi diferențiați ca și complexitate sau acuratețe metode bazate pe semnal (fig11b) și metode parametrice(fig11c) Metodele bazate pe semnal au ca intrare semnalul de recepție și se bazează pe tehnici de procesare a semnalului cacircnd ce estimează calitatea semnalului atunci cacircnd anvelopa acestuia suferă degradări datorită codării LBR sau a transmisiei pe canale wireless deficitare Concret această metodă procesează fluxul de voce decodat de la ieșirea din bufferul de recepție icircn vederea extragerii informației relevante pentru estimarea calității Icircn practică sunt utilizate pentru predicție generală [2] (fig12)

Metodele parametrice au ca intrare parametri semnalului vocal sau parametric de rețea (pierderi de pachete jitter icircntacircrzieri) Parametrizarea oferă specificitate acestor metode preferate pentru acurațea și fiabilitatea ridicată

Datorită principiului implementat măsurările intruzive sunt referențiate ca metode comparative(fig11a) determină MOS icircn urma testelor de ascultare prin comparația icircntre semnalul original și cel recepționat utilizacircnd distanța cepestrală

Al patrulea nivel de ierarhizare vizează măsurile intruzive clasificate icircn măsuri intruzive icircn domeniul timp icircn domeniul spectral perceptuale Măsurile intruzive icircn domeniul timp sunt ușor de implementat dar nu sunt fiabile pentru estimarea codecurilor de rată scăzută și rețele actualeMăsurile intruzive icircn domeniul spectral se bazează pe parametrii modelelor de procesare a semnalului vocal Icircn contrast cu măsurile intruzive icircn domeniul spectral măsurile perceptuale sunt bazate pe modelul percepției auditive umane Aceste măsuri transformă semnalul de voce icircntr-un domeniu perceptual relevant (eg domeniul audibilității) și icircncorporează modele ale sistemului auditiv uman (blocul de trasformare perceptuală și blocul cogniției) Modulul de cogniție mapează diferența dintre semnalul original și cel de la recepție icircntr-o distorsiune perceptuală estimate corelată apoi cu MOS (fig13)

Controlul erorilor in sistemele de codarea semnalelor vocaleLa transmiterea la debite reduse (aplicatii pentru comunicatii mobile) efectul erorilor este pronuntat si se manifesta prin

ndash Interferentendash Faddingndash Efectmulticalendash Cross ndashtalk =gtpot fi assimilate cu ZGOMOT -gt necesara

aplicarea unor strategii specific de reducerea erorilorClasificare zgomotndashAditivndashproduce modificarea amplitudinii(MA) -gtde evitat prin cresterea puterii semnalului emisndashMultiplicativndashproduce MA MF -gt apare in special la trs pe purtatoare nu mai depinde de amplitudinea semnalului util

Codare combinata sursa-canalImplica transmiterea de informative redundanta(FEC)bullCodare la debit redus -gt banda limitata -gt contradictie cu FEC

bull-gt codare fara a adauga redundant sau redundant minima -gt codare combinata sursa-canal = Codare ROBUSTA (robust speech coder)bullAnaliza contextului (controlul erorilor la nivel de sursa)ndashMajoritatea codecurilor folosesc modelul predictive (dinamica intelesok)bullSunt bazate pe caracteristici care variaza lent -gt orice schimbare brusca poate fi detectata la receptive -gt idea de a fi folosita in corectia erorilorndashModelul psihoacusticndashdegradarea anumitor parametrindasheffect negativbullProtectie la erori ridicata(cuantizare FEC)bullTransforma erorile in erori subiective - importante(exemple)ndashParametrii sunt aceeia ai unui model deci exista anumite relatii intre ei -gt protejarea relatiei dintre parametriReconstructia cadrelorReconstructia spectralandashIdeea informatia pierduta se reconstituie din informatia trecutandashExploatarea corelatiei LSF la nivel de intercadru -gt reutilizarea LSF din cadrele anterioare in cadrele actual piedutendashReducerea impactului formantilor din cadrul anterior asupra cadrului current-gtinterpolare parametri la nivel de intercadruReconstructia surseindashSe presupune ca sursaldquopierdutardquoeste sonorandashSe presupune un T0 obtinut din interpolarea ultimelor valori ale T0ndashAmplitudinea impulsurilor este si ea interpolata

Reconstructia sursei(c) mai buna decat reconstr spectrului(b) ndashdin cauza ca periodicitatea cadrului pierdut coincide cu periodicitatea din bufferul de reconstructie

12 Atributele sistemelor de compresie a semnalului vocal

Introducere

2 Codecuri utilizate icircn VoIP

21Arhitectura conceptuală a buclei de abonat

22 Clasificarea codecurilor utilizate icircn VoIP

3 Factori QoS de influență

4 Modele de estimare a calității icircn VoIP