1. INTRODUCERE ÎN PRELUCRAREA SEMNALULUI VOCAL

23
1. INTRODUCERE ÎN PRELUCRAREA SEMNALULUI VOCAL 1.1. Obiectivele prelucrării semnalului vocal Reprezentarea numerică a semnalului vocal moduri de reprezentare proprietăţi statistice ale semnalului vocal codarea şi compresia vorbirii Analiza semnalului vocal în domeniile timp şi frecvenţă punerea în evidenţă a proprietăţilor spectrale ale semnalului vocal utilizarea analizei spectrale în determinarea unor parametri

description

1. INTRODUCERE ÎN PRELUCRAREA SEMNALULUI VOCAL. 1.1. Obiectivele prelucrării semnalului vocal. Reprezentarea numerică a semnalului vocal moduri de reprezentare proprietăţi statistice ale semnalului vocal codarea şi compresia vorbirii. - PowerPoint PPT Presentation

Transcript of 1. INTRODUCERE ÎN PRELUCRAREA SEMNALULUI VOCAL

Page 1: 1.  INTRODUCERE  ÎN  PRELUCRAREA  SEMNALULUI  VOCAL

1. INTRODUCERE ÎN PRELUCRAREA SEMNALULUI VOCAL

1.1. Obiectivele prelucrării semnalului vocal

• Reprezentarea numerică a semnalului vocal • moduri de reprezentare• proprietăţi statistice ale semnalului vocal• codarea şi compresia vorbirii

• Analiza semnalului vocal în domeniile timp şi frecvenţă• punerea în evidenţă a proprietăţilor spectrale ale

semnalului vocal• utilizarea analizei spectrale în determinarea unor

parametri utili în sinteză şi recunoaştere

Page 2: 1.  INTRODUCERE  ÎN  PRELUCRAREA  SEMNALULUI  VOCAL

• Sinteza semnalului vocal (sinteza vorbirii) = producerea semnalului vocal pornind de la un dicţionar de elemente fonetice şi de reguli, sau pornind de la o anumită reprezentare parametrică a semnalului.

• sinteza unor mesaje vocale cu conţinut predeterminat• sinteza vorbirii pornind de la un text oarecare scris

• Recunoaşterea vorbirii= a face maşina capabilă să interpreteze cuvintele sau frazele pronunţate de un vorbitor.

• recunoaşterea cuvintelor izolate• recunoaşterea cuvintelor înlănţuite• recunoaşterea de mari vocabulare• recunoaşterea vorbirii continue

Page 3: 1.  INTRODUCERE  ÎN  PRELUCRAREA  SEMNALULUI  VOCAL

• Recunoaşterea vorbitorului= se urmăreşte recunoaşterea (identificarea) unei persoane după voce

• Aplicaţii speciale ale prelucrării semnalului vocal• aplicaţii în domeniul medical, cum ar fi cele referitoare la patologia laringelui, bazate pe detectarea unor variabilităţi de pronunţie sau detectarea unor stări particulare (stres, minciună, etc.)• aplicaţii în studiul limbilor străine• aplicaţii în dezvoltarea sistemelor de comunicaţie multimedia.

Page 4: 1.  INTRODUCERE  ÎN  PRELUCRAREA  SEMNALULUI  VOCAL

1.2. Generalităţi asupra semnalului vocal

• Vorbirea este facultatea de a comunica gândurile printr-un sistem de sunete articulate.

• Informaţia conţinută într-un mesaj este dată de fluctuaţiile presiunii aerului, generate şi apoi emise de către aparatul fonator uman.

• aceste fluctuaţii constituie semnalul vocal.

• ele sunt detectate de către ureche, care realizează o operaţie de analiză a semnalului.

• rezultatele analizei sunt transmise creierului, care le interpretează şi le foloseşte pentru a comanda funcţiile vorbirii.

Page 5: 1.  INTRODUCERE  ÎN  PRELUCRAREA  SEMNALULUI  VOCAL

• Un mesaj vocal este constituit dintr-o succesiune de unităţi (elemente) minimale lipsite de sens, numite foneme, care prin asociere generează structuri sau elemente constitutive de nivel superior: silabe, cuvinte, fraze.

• Conţinutul unui mesaj vocal poate fi definit în sens strict şi în sens larg.

• În sens strict conţinutul mesajului este dat de inteligibilitatea sa (asemănător cu un mesaj scris).• În sens larg, conţinutul mesajului vocal ia în consideraţie toate intonaţiile ce însoţesc producerea sa (creştere puternică a conţinutului mesajului vocal faţă de cel scris).

Page 6: 1.  INTRODUCERE  ÎN  PRELUCRAREA  SEMNALULUI  VOCAL

• O trăsătură specifică a semnalului vocal este redundanţa. (redundanţă = introducerea în mesaj a unor componente informaţionale mai mult decât este necesar pentru inteligibilitatea sa completă în absenţa zgomotului).

• prezenţa redundanţei în semnalul vocal îl face rezistent la perturbaţiile mediului ambiant.• redundanţa este prezentă şi la nivel semantic, fapt ce uşurează înţelegerea mesajului de către creier.

• Cadenţa maximă (ritmul maxim) de asimilare a unui mesaj este determinată de conţinutul strict al mesajului.

• Fie un mesaj constituit din elemente discrete aparţinând unui ansamblu de date (de exemplu un alfabet) X = {x1, x2, …, xL}.

Page 7: 1.  INTRODUCERE  ÎN  PRELUCRAREA  SEMNALULUI  VOCAL

• Dacă p(xi) reprezintă probabilitatea de apariţie a simbolului xi, selectarea acestuia va aduce informaţia I = – log2 p(xi) .

• Entropia sursei (informaţia medie asociată producerii mesajului X) este dată de relaţia:

21

( ) ( ) log ( )L

i ii

H X p x p x

• Entropia prezintă un maxim care s-ar produce atunci când fonemele ar fi echiprobabile:

max 2 21 1 1

( ) log logH X LL L L

• Pentru fiecare limbă se pot determina mărimile p(xi) (reprezentând probabilităţile de apariţie a fonemului xi) prin analize statistice efectuate pe lucrări literare cu un vocabular bogat.

[biţi]

[biţi]

Page 8: 1.  INTRODUCERE  ÎN  PRELUCRAREA  SEMNALULUI  VOCAL

• pentru limba engleză (L = 42): Hmax(X) = log242 = 5.39 biţi Hs(X) = 4.9 biţi

• pentru limba franceză (L = 36):Hmax(X) = log236 = 5.17 biţiHs(X) = 4.73 biţi

• pentru limba română (L = 34):Hmax(X) = log234 = 5.08 biţiHs(X) = necunoscut

• pe baza mărimilor determinate statistic, fiecare fonem poate fi codat cu 5 biţi.

• într-o conversaţie curentă sunt pronunţate în medie 10 foneme pe secundă, ceea ce conduce la un debit informaţional de 50 biţi/s.

Page 9: 1.  INTRODUCERE  ÎN  PRELUCRAREA  SEMNALULUI  VOCAL

• Formula de calcul pentru debitul maxim de informaţie pe un canal analogic fără erori (capacitatea canalului):

2log 1S

C BZ

B = banda de trecere [Hz]S/Z = raportul semnal pe zgomot

• pentru un canal telefonic cu B = 3000 Hz şi S/Z = 30 dB rezultă:

102 23000 log 1 1000 3000 log 2 30000C

[biţi/sec.]

[biţi/sec.]

redundanţă mare în acest canal (faţă de 50 biţi/s stabilit anterior).

• există mult mai multă informaţie într-un mesaj telefonic decât într-un mesaj scris, unde informaţia este redusă la strictul necesar pentru inteligibilitate; sporul de informaţie este datorat intonaţiei, timbrului, etc.

Page 10: 1.  INTRODUCERE  ÎN  PRELUCRAREA  SEMNALULUI  VOCAL

1.3. Mecanismul fonaţiei

• Vorbirea = produs al aparatului fonator uman, controlat de sistemul nervos central, care primeşte permanent informaţie prin reacţia acustică (recepţia auditivă a semnalului).

• Aparatul fonator uman nu este un aparat special destinat producerii vorbirii, ci este realizat prin adaptarea la această funcţie a unor organe aparţinând în principal aparatelor respirator şi masticator.

• Aparatul respirator furnizează energia necesară producerii vorbirii, atunci când aerul este expirat prin trahee.

• La capătul superior al traheei se găseşte laringele, unde presiunea aerului este modulată înainte de a fi aplicată canalului (tractului) vocal care se întinde de la laringe la buze.

Page 11: 1.  INTRODUCERE  ÎN  PRELUCRAREA  SEMNALULUI  VOCAL

• În zona centrală a laringelui se găsesc coardele vocale; acestea pot închide complet laringele, iar depărtându-se, formează o deschidere triunghiulară, denumită glotă.

• Prin glotă, aerul trece liber în timpul respiraţiei şi vocii şoptite, precum şi în timpul formării sunetelor nesonore.

• Sunetele sonore se produc prin vibraţia periodică a coardelor vocale, tractului vocal fiindu-i aplicate impulsuri periodice de presiune.

• Tractul vocal este un ansamblu de cavităţi situate între glotă şi buze, cuprinzând cavitatea faringiană, cavitatea bucală şi cavitatea nazală (în derivaţie cu cavitatea bucală).

Page 12: 1.  INTRODUCERE  ÎN  PRELUCRAREA  SEMNALULUI  VOCAL

• Intensitatea sunetului emis este strâns legată şi determinată de presiunea aerului aflat în amonte de laringe.

• Înălţimea sunetului este determinată de frecvenţa de vibraţie a coardelor vocale, denumită frecvenţă fundamentală (F0 - pitch).

• Inversul acestei frecvenţe (T0), se numeşte perioadă fundamentală.

• Frecvenţa fundamentală poate varia între limitele:• 80 - 200 Hz pentru o voce masculină• 150 - 450 Hz pentru o voce feminină• 200 - 600 Hz pentru o voce de copil

• Două sunete sonore de aceeaşi intensitate şi de aceeaşi înălţime se disting prin timbru, care este determinat de amplitudinile relative ale armonicelor fundamentalei.

Page 13: 1.  INTRODUCERE  ÎN  PRELUCRAREA  SEMNALULUI  VOCAL

100 200 300 400 500 600 700 800 900 1000

-2000

-1000

0

1000

2000

Esantioane

a

0 500 1000 1500 2000 2500 3000 3500 400040

45

50

55

60

65

70

Frecventa[Hz]

dB

b

• Unui sunet sonor îi corespunde în timp un semnal cvasiperiodic.• Structura armonică a spectrului se mai numeşte structură de pitch.• Anvelopa spectrului prezintă maxime denumite formanţi, care corespund frecvenţelor proprii ale tractului vocal.• Spectrul unui sunet sonor are structură formantică.

Page 14: 1.  INTRODUCERE  ÎN  PRELUCRAREA  SEMNALULUI  VOCAL

200 400 600 800 1000 1200 1400-300

-200

-100

0

100

200

300

Esantioane

a

0 500 1000 1500 2000 2500 3000 3500 400025

30

35

40

45

Frecventa[Hz]

dB

b

• Un sunet nesonor nu prezintă structură periodică; forma sa în domeniul timp este asemănătoare cu cea a semnalelor de tip zgomot.• Sunetul nesonor poate fi asimilat cu un zgomot alb filtrat de către tractul vocal.• Strucura spectrală are caracteristici tipice de zgomot.

Page 15: 1.  INTRODUCERE  ÎN  PRELUCRAREA  SEMNALULUI  VOCAL

1.4. Modelarea producerii vorbirii

• tractul vocal înlănţuire (concatenare) de tuburi sonore de lungimi şi secţiuni diferite (între glotă şi cavitatea bucală):

• lungimea medie 17 cm (la bărbaţi)• secţiunea maximă 20 cm2

• cavitatea nazală (cuprinsă între vălul palatin şi nări):• lungime 12 cm• secţiune constantă

• pentru sunetele sonore, sursa este un tren periodic de impulsuri (reproduce creşterea rapidă a presiunii aerului, urmată de o cădere mai lentă). modelat prin răspunsul unui filtru trece-jos (FTJ) de ordinul 2 şi frecvenţă de tăiere 100 Hz.

Page 16: 1.  INTRODUCERE  ÎN  PRELUCRAREA  SEMNALULUI  VOCAL

G(z)

e[n] y[n]

Modelarea sursei pentru sunetele sonore:

0

[ ]Pk

e n n n kP

0

0

800064

125eT F

PT F

1 11 1

AG z

z z

, R

0k

y n e n g n g n kP

1[ ] ( )g n Z G z

• pentru sunetele nesonore, sursa este un zgomot alb de varianţă unitară.

Page 17: 1.  INTRODUCERE  ÎN  PRELUCRAREA  SEMNALULUI  VOCAL

• tractul vocal succesiune de tuburi acustice elementare.

cascadă de rezonatori, cu transmitanţa globală:

1 2

1 21

1K

k kk

BT z

b z b z

• fiecare rezonator elementar (de ordinul 2) are o caracteristică de tip trece bandă şi simulează producerea unui anumit formant.

• deschiderea buzelor are o caracteristică de selectivitate de tip trece-sus ce poate fi modelată prin transmitanţa:

1( ) (1 )R z z

Page 18: 1.  INTRODUCERE  ÎN  PRELUCRAREA  SEMNALULUI  VOCAL

• funcţia de transfer globală a tractului vocal (considerată între excitaţia idealizată şi semnalul emis):

1

1 1 1 21 2

1

1( ) ( ) ( ) ( )

1 1 1K

k kk

zH z G z T z R z

z z b z b z

• dacă se consideră :1

1 1 21 2

1

( )

1 1K

k kk

H zA z

z b z b z

2 1

1 1 21 2

11

( ) 1 1 1K K

ik k i

ik

A z z b z b z a z

model numai cu poli sau autoregresiv (AR - Auto-Regressive )

Page 19: 1.  INTRODUCERE  ÎN  PRELUCRAREA  SEMNALULUI  VOCAL

Observaţii:

1. Simplificarea este oarecum forţată şi ar fi posibilă numai pentru fonemele sonore

1

1

11

1

z

z

1 2 2

1

( )1 1 ...

1

R zaz a z

az

• o variantă mai corectă:

1( ) 1R z az 1a 0 1a

2. Fonemele nazale nu pot fi produse cu modelul AR

• cavităţile bucală şi nazală sunt cuplate în paralel:

1 2 1 2 2 1

1 2 1 2

( ) ( )( )

( ) ( ) ( )

A z A zH z

A z A z A z A z

model ARMA (Auto-Regressive Moving Average)

Page 20: 1.  INTRODUCERE  ÎN  PRELUCRAREA  SEMNALULUI  VOCAL

1.5. Caracteristici fonetice

• Mesajul vocal este compus din sunete distincte, denumite foneme.

• Fonem = cea mai mică unitate sonoră prezentă în vorbire.

• Fiecare limbă are propriile foneme• limbile etimologice - valoarea fonetică diferă de transcrierea literală

• limbile fonetice - valoarea fonetică este apropiată de transcrierea literală

• Pentru redarea grafică a valorii fonetice a literelor, grupurilor de litere şi cuvintelor se foloseşte “Alfabetul fonetic internaţional”.

• Producerea unui fonem dat lasă loc unei anumite variabilităţi. pe plan acustic; variaţiile fonemului se numesc alofoni.

• Pentru fiecare limbă fonemele sunt împărţite în clase şi subclase. Fiecare clasă este legată de modul de articulare a aparatului fonator.

Page 21: 1.  INTRODUCERE  ÎN  PRELUCRAREA  SEMNALULUI  VOCAL

• Dacă s-ar considera tractul vocal ca un singur tub acustic cu lungimea l (metri), rezonanţele acestuia (frecvenţele formanţilor) ar fi:

F1 = 500 Hz, F2 = 1500 Hz, F3 = 2500 Hz

340 34000500

4 4 0,17 4 17

c

l

2 1 500kF k Hz HzEx:

2 14kc

F kl

*k N , c = viteza sunetului = 340 m/s.

Hz

formanţii vocalei neutre e mut din limba franceză (foarte apropiaţi de cei ai vocalei ă din limba română)

- configuraţia tractului la emisia acestei vocale este foarte apropiată de cea observată în perioadele de linişte, tractul fiind în repaos.

Page 22: 1.  INTRODUCERE  ÎN  PRELUCRAREA  SEMNALULUI  VOCAL

• Dacă s-ar considera tractul vocal la producerea fonemelor corespunzătoare vocalelor ca fiind format din două secţiuni (două tuburi acustice în cascadă) cu lungimile l1, l2 şi ariile A1, A2:

A1

[cm2]A2

[cm2]l1

[cm]l2

[cm]Vocala F1

[Hz]F2

[Hz]F3

[Hz]1 7 9 8 a 750 1250 27008 1 9 6 i 250 1900 2800

VocalaPlaja F1[Hz]

1F[Hz]

Plaja F2[Hz]

2F[Hz]

Plaja F3[Hz]

3F[Hz]

i 200-4503001850-262522002575-35002950e 250-6504001475-280019502200-33502750a 450-1100700950-210013002050-32752600o 225-675400550-140010001800-33502600u 200-475350550-12008502100-30502500

• Plajele primilor 3 formanţi pentru câteva dintre vocalele limbii române (mărimile barate semnifică valorile medii statistice ale formanţilor):

Page 23: 1.  INTRODUCERE  ÎN  PRELUCRAREA  SEMNALULUI  VOCAL

a

i

o

u y

ε

1000 2000 3000

200

400

600

800

0 F2 [Hz]

F1 [Hz]

• Reprezentarea unor vocale ale limbii franceze în planul formanţilor F1, F2: