matlab

19
Laborator “Tehnologia vorbirii. Recunoaşterea vorbitorului.” – Lucrarea nr. 1 __________________________________________________________________________________________ 1 LUCRAREA 1 INTRODUCERE ÎN TEHNOLOGIA VORBIRII PRELUCRAREA SEMNALULUI VOCAL ÎN TIMP ŞI ÎN FRECVENŢĂ 1. Introducere Acest laborator îşi propune familiarizarea cu problematica abordată în domeniul tehnologiei vorbirii și al recunoașterii vorbitorului, evidenţiind anumite probleme generale, premergătoare oricărui demers tehnic în acest domeniu. Scopul acestei lucrări este evidențierea unor caracteristici ale semnalului vocal folosind metode de prelucrare în timp și în frecvență. Metodele, pentru care există și un suport teoretic, sunt cele folosite în teoria prelucrării semnalelor numerice. Lucrarea este gândită astfel încât studentul să poată lucra individual urmărind niște pași simpli descriși în Capitolul 3, “Desfășurarea lucrării”. Prin întrebări și cerințe specific studentul va reuși să “simtăefectul variației unor parametri în metodele de prelucrare a semnalului vocal. Pentru a asigura o bună înţelegere a acestor probleme, în anexa acestui laborator se va realiza o succintă prezentare a ceea ce înseamnă sintagma “semnal vocal”, la nivelul mai multor caracteristici: • unităţile relevante de semnal vocal; • parametrii primari ai semnalului vocal, ce pot fi extraşi direct din acesta; • mecanismul producerii semnalului vocal, de către oameni; • mecanismul perceperii semnalului vocal.

Transcript of matlab

Page 1: matlab

Laborator “Tehnologia vorbirii. Recunoaşterea vorbitorului.” – Lucrarea nr. 1 __________________________________________________________________________________________

1

LUCRAREA 1

INTRODUCERE ÎN TEHNOLOGIA VORBIRII PRELUCRAREA SEMNALULUI VOCAL ÎN TIMP ŞI ÎN FRECVENŢĂ

1. Introducere Acest laborator îşi propune familiarizarea cu problematica abordată în domeniul

tehnologiei vorbirii și al recunoașterii vorbitorului, evidenţiind anumite probleme generale, premergătoare oricărui demers tehnic în acest domeniu.

Scopul acestei lucrări este evidențierea unor caracteristici ale semnalului vocal folosind metode de prelucrare în timp și în frecvență. Metodele, pentru care există și un suport teoretic, sunt cele folosite în teoria prelucrării semnalelor numerice. Lucrarea este gândită astfel încât studentul să poată lucra individual urmărind niște pași simpli descriși în Capitolul 3, “Desfășurarea lucrării”. Prin întrebări și cerințe specific studentul va reuși să “simtă” efectul variației unor parametri în metodele de prelucrare a semnalului vocal.

Pentru a asigura o bună înţelegere a acestor probleme, în anexa acestui laborator se va realiza o succintă prezentare a ceea ce înseamnă sintagma “semnal vocal”, la nivelul mai multor caracteristici:

• unităţile relevante de semnal vocal;

• parametrii primari ai semnalului vocal, ce pot fi extraşi direct din acesta;

• mecanismul producerii semnalului vocal, de către oameni;

• mecanismul perceperii semnalului vocal.

Page 2: matlab

Laborator “Tehnologia vorbirii. Recunoaşterea vorbitorului.” – Lucrarea nr. 1 __________________________________________________________________________________________

2

2. Breviar teoretic Prelucrarea numerică a semnalului vocal - generalităţi

2.1. Punerea problemei Ideea fundamentală din “spatele” analizei de semnal vocal cu ajutorul calculatorului

este descompunerea semnalului vocal sub forma unei surse de excitaţie trecute printr-un filtru cu coeficienţi liniar variabili în timp. Coeficienţii acestui filtru pot fi deduşi plecând de la modele ale producerii vorbirii bazate pe teoriile acusticii, în care sursa de excitaţie este reprezentată de deplasarea aerului în contact cu coardele vocale, iar filtrul reprezintă rezonanţele tractului vocal; aceste rezonanţe sunt variabile în timp.

Pentru a estima coeficienţii filtrului amintit mai sus există metode inspirate din modele ale producerii vorbirii (precum codarea liniar predictivă sau analiza cepstrală), sau din modele ale perceperii vorbirii (precum analiza cepstrală pe scale logaritmice de frecvenţă ). O dată ce filtrul a fost estimat, semnalul de excitaţie devine accesibil abordărilor cantitative trecând semnalul vocal printr-un filtru având o funcţie de transfer inversă în raport cu filtrul estimat. Una dintre cele mai dificile provocări ale analizei semnalului vocal este reprezentată de separarea între sursa de excitaţie şi filtrul ce modelează tractul vocal.

Cercetările din domeniul psihologiei perceptuale au arătat că modul în care subiecţii umani clasifică fonemele este dependent în foarte mare măsură de caracteristica de transfer a filtrului ce modelează tractul vocal.

Prin urmare, în această lucrare ne propunem evidenţierea modalităţilor de analiză în frecvență a semnalului vocal (bazate pe transformata Fourier).

2.2 Analiza Fourier in termen scurt Pentru a putea aborda un semnal prin prisma metodelor analizei Fourier este necesar

ca acesta să fie periodic (în acest caz, seriile Fourier se pot utiliza) sau cel puţin determinist (caz în care se poate utiliza transformarea Fourier). Însă, ca orice semnal care transportă informaţie, semnalul vocal nu este nici periodic, nici determinist; acest semnal este de fapt aleator. În plus, semnalul de vorbire nu este nici măcar staţionar, adică media pe ansamblu a unor realizări particulare nu coincide cu media în timp calculat pentru o realizare particulară oarecare. Prin urmare, analiza Fourier nu poate fi aplicată direct asupra acestui tip de semnal.

Totuşi, o dată cu primele încercări de studiu cantitativ al semnalului vocal, prin intermediul spectrogramelor, s-a constatat că semnalul vocal este staţionar pe termen scurt, adică, în locul analizei semnalului pe toată durata sa de existenţă, se “decupează” ferestre de semnal, pe care se aplică prelucrările aferente analizei Fourier. De la această constatare au plecat toate metodele de analiză cantitativă a semnalului vocal; această idee este valorificată inclusiv în implementările actuale de sisteme ce prelucrează şi utilizează semnalul vocal.

Într-o exprimare cantitativă a acestor idei, fie x[n] un semnal vocal, iar xm[n], semnalul pe termen scurt, corespunzător ferestrei de analiză de indice m. Prin urmare, semnalul vocal pe termen scurt se poate exprima astfel:

Page 3: matlab

Laborator “Tehnologia vorbirii. Recunoaşterea vorbitorului.” – Lucrarea nr. 1 __________________________________________________________________________________________

3

][][][ nwnxnx mm (1)

Funcţia wm[n] reprezintă funcţia fereastră, care este nulă peste tot, cu excepţia unei regiuni (temporale) înguste. Deşi funcţia fereastră poate avea diferite valori pentru diferite cadre (deci pentru diverşi indici m), o alegere raspândită este aceea de a păstra fereastra constantă pentru toate cadrele:

restîn

NNmndacănwm

0

2/1][ , (2)

N fiind lungimea unei ferestre de analiză. În practică, N este numărul de eșantioane care corespunde unei ferestre de analiză de ordinul a 20 sau 30 ms.

Plecând de la definiţiile de mai sus, se poate defini transformata Fourier în timp scurt pentru fereastra de analiză de indice m a semnalului vocal x[n]:

n

n

njmm

n

n

njm

jm enxnwenxeX ][][][)( (3)

cu toate proprietăţile transformatei Fourier cunoscute din teoria semnalelor (relaţia între reprezentarea temporală şi cea spectrală a unui semnal, etc).

Înainte de a continua discuţia, amintim că semnalul vocal poate fi clasificat în două mari categorii:

• semnal sonor, corespunzător sunetelor vocalice; acesta are un pronunţat caracter periodic;

• semnal nesonor, corespunzător sunetelor consonantice; acesta are un caracter aperiodic.

Considerând că semnalul x[n] corespunde unei porţiuni de vorbire sonoră, putem presupune că el este periodic la nivelul unei ferestre de analiză, deci pentru un m fixat. În reprezentarea spectrului unui astfel de semnal se observă o serie de vârfuri. Pentru a putea interpreta prezenţa acestor vârfuri, presupunem că proprietăţile ferestrei de semnal xm[n] se menţin şi în afara intervalului pe care fereastra wm[n] este nenulă, deci că semnalul vocal este periodic de perioadă M, unde M reprezintă perioada fundamentală (mărimea inversă frecvenţei fundamentale) pentru x[n]. În acest caz, se ştie din teoria semnalelor că spectrul său este reprezentat de o sumă de impulsuri Dirac:

k

mj

m NkkXeX )/2(][)( (4)

Dar transformata Fourier a semnalului fereastră w[n] este:

n

njj enweW ][)( , (5)

Page 4: matlab

Laborator “Tehnologia vorbirii. Recunoaşterea vorbitorului.” – Lucrarea nr. 1 __________________________________________________________________________________________

4

astfel încât transformata lui wm[n] este W(ejω)·e-jωmN. Prin urmare, cu ajutorul proprietăţii convoluţiei, deducem că, pentru un indice m al ferestrei fixat, transformata lui wm[ n] · x[n] este dată de convoluţia în frecvenţă:

k

mNkjNkjm

jm eeWkXeX )/2()/2( )(][)( (6)

ceea ce reprezintă o sumă ponderată de W(ejω), deplasate pe fiecare armonică, cu o fereastră dreptunghiulară. Spectrul în timp scurt al unui semnal periodic prezintă vârfuri (egal spaţiate la 2M) care reprezintă de fapt armonicile semnalului. Estimând Xm[k] din spectrul în timp scurt Xm(ejω), se poate constata importanţa alegerii ferestrei de ponderare w[n].

În practică, se utilizează fie ferestre dreptunghiulare (de lungime N = M), fie ferestre Hamming (de lungime N = 2M). Prin urmare, dacă semnalul vocal nu este suficient de staţionar pe durata 2M, unde periodicitatea nu mai este asigurată, spectrul obţinut la nivelul unei ferestre reprezintă de fapt o mediere spectrală, în locul mai multor spectre distincte. Rezultă că la prima vedere o fereastră dreptunghiulară ar fi de preferat. Pe de altă parte însă răspunsul în frecvenţă al ferestrei dreptunghiulare, fiind un sinus atenuat (sinc), nu este nul în afara lobului central; de fapt, al doilea lob al răspunsului în frecvenţă al unei ferestre dreptunghiulare este cu doar aproximativ 17 dB sub lobul central. Ca urmare, armonica de ordin k a lui Xm (ejω) nu conţine doar Xm[k], ci şi o sumă ponderată de (Xm [l])l≠k, conducând astfel la apariţia alierii spectrale. În ceea ce priveşte fereastra Hamming, practica arată că al doilea lob al răspunsului ei în frecvenţă este situat cu circa 43 dB sub primul lob, asigurând o aliere spectrală mult mai puţin pronunţată. Mai mult, fereastra Hamming oferă şi o netezire a trecerilor bruşte de la valori nenule la zero, de la capetele ferestrei. Din aceste motive ea reprezintă în general opţiunea preferată în aplicaţiile ce presupun prelucrarea semnalului vocal.

2.3. Parametri derivaţi direct din forma de undă a semnalului vocal Valorificând discuţia din secţiunea precedentă, se pot determina, pentru fiecare

fereastră de semnal vocal, doi parametri, unul cu semnificaţie de mărime (energia) şi altul cu semnificaţie de frecvenţă (numărul de treceri prin zero).

Păstrând notaţiile precizate anterior, la nivelul unei ferestre de analiză a semnalului, energia se exprimă (utilizând teorema lui Parseval) prin relaţia:

1

0

21

0

21

0

2 ])[][(])[][(])[(N

jm

N

jm

N

jmm jWjXjwjxjxE (7)

unde m reprezintă indicele ferestrei de analiză, iar N, lungimea acesteia; w reprezintă fereastra cu care se ponderează porţiunea de semnal vocal aleasă.

Energia serveşte în principal la decelarea porţiunilor sonore ale semnalului vocal, de cele nesonore.

Page 5: matlab

Laborator “Tehnologia vorbirii. Recunoaşterea vorbitorului.” – Lucrarea nr. 1 __________________________________________________________________________________________

5

Rata trecerilor prin zero este de asemenea un parametru util, mai ales pentru rafinarea deciziei luate pe baza energiei. Definind funcţia signum conform relaţiei:

0][1

0][1])[sgn(

nxdacă

nxdacănx

m

m

m , (8)

o trecere prin zero a semnalului xm[n] este descrisă matematic prin existenţa semnului diferit, pentru două eşantioane adiacente de semnal:

])[sgn(])1[sgn( nxnx mm (9)

Prin urmare, numărul de treceri prin zero (notat prin ”ntz”), pentru o fereastră de semnal xm[n], se poate exprima prin relaţia:

2/])]1[sgn(])[sgn(1[1

0

N

jmmm nxnxntz (10)

3. Desfăşurarea lucrării Programele Matlab utilizate în această lucrare se află în directorul scripts, iar fişierele

cu esantioanele semnalului vocal (în format .wav) se află în directorul samples. Fişierele cu cuvinte se află în subdirectorul words şi fişierele cu foneme în subdirectorul phones. Outputul diferitor experimente se poate salva numai în directorul student. Răspundeți scris la întrebări.

3.1. Analiza în timp C1. Folosiţi funcţia wavread pentru extragerea vectorului de eşantioane din fişierul cu

semnalul vocal. Scrieţi în consola Matlab:

>>help wavread

pentru a afla utilizarea funcţiei.

Î1. Care este semnificaţia parametrilor de ieşire FS şi NBITS?

C2. Folosiţi funcţia sound pentru ascultarea semnalului vocal. Scrieţi în consola Matlab:

>>help sound

pentru a afla utilizarea funcţiei.

Ascultaţi semnalele vocale folosind ca parametru in funcţia sound o frecvenţă de eşantionare diferită de cea a semnalului vocal. Ce se observă? De ce?

Page 6: matlab

Laborator “Tehnologia vorbirii. Recunoaşterea vorbitorului.” – Lucrarea nr. 1 __________________________________________________________________________________________

6

C3. Scrieţi o funcţie care să trunchieze semnalul vocal la un număr configurabil de biţi. Funcţia va primi ca parametri de intrare vectorul cu eşantioanele semnalului vocal şi numărul de biţi, iar outputul ei va fi vectorul cu valori trunchiate.

Ascultaţi semnalele vocale rezultate în urma trunchierii.

Î2. Care este valoarea maximă a numărului de biţi pentru care sesizaţi o degradare a semnalului vocal?

Î3. Care este valoarea scorului PESQ pentru diferite valori ale numărului de biţi?

Pentru această sarcină trebuie mai întâi să salvaţi vectorul de eşantioane trunchiate folosind funcţia wavwrite. Scrieţi în consola Matlab:

>>help wavwrite

pentru a afla utilizarea funcţiei.

Atentie: Deşi semnalul vocal a fost trunchiat la un număr de biţi mai mic decât 16 (numărul original de biţi), valoarea parametrului de intrare NBITS din funcţia wavwrite va fi tot 16. Însă ultimii biţi, cei trunchiaţi, vor fi egali cu zero.

Apoi scrieţi în linia de comandă Windows:

>pesq +16000 fisier_original.wav fisier_trunchiat.wav

C4. Folosiţi funcţiile plot şi stem pentru vizualizarea unui semnal vocal din fişierele de cuvinte. Outputul rulării trebuie să semene cu Fig. 1.1.

Î4. Ce unităţi de măsură sunt pe axa abscisei şi pe axa ordinatei?

C5. Modificaţi programul astfel încât unitatea de măsură pe axa abscisei să fie [ms].

C6. Vizualizaţi forma de unda pentru semnalul trunchiat la 3 biţi/eşantion. Ce observaţi?

Î5. Care este plaja de valori ale eşantioanelor semnalului vocal? De ce?

Indicaţie: Ţineţi cont de modul în care este făcută achiziţia semnalului vocal și conversia lui numerică.

C7. Vizualizaţi semnale vocale ale diferitor cuvinte.

Page 7: matlab

Laborator “Tehnologia vorbirii. Recunoaşterea vorbitorului.” – Lucrarea nr. 1 __________________________________________________________________________________________

7

Fig. 1.1. Exemplu de reprezentare în timp a semnalului vocal

Î6. Puteţi să determinaţi graniţele între foneme?

C8. Scrieţi o funcţie care să calculeze energia semnalului vocal pentru fiecare fereastră de timp (vezi relația (7)). Funcţia trebuie să primească ca parametri de intrare vectorul de eşantioane ale semnalului vocal şi dimensiunea ferestrei temporale. Outputul funcţiei va fi vectorul cu valorile energiei pentru fiecare fereastră de timp. Vizualizaţi vectorul energiei în aceeaşi figură cu semnalul vocal, dar cu altă culoare. În acest caz, trebuie rezolvată problema scalării vectorului energiei cu vectorul semnalului vocal; vectorul energiei are un număr de elemente egal cu numărul de ferestre temporale, iar vectorul semnalului vocal are un număr de elemente egal cu numărul de eşantioane. Gama pentru valorile energiei este diferită faţă de cea pentru valorile eşantioanelor, de aceea se poate folosi un coeficient de scalare.

Î7. Puteţi să determinaţi porţiunile de linişte din graficul energiei?

Î8. Poate fi folosită energia la detecţia activităţii vocale? Este energia un criteriu suficient pentru stabilirea începutului activităţii vocale?

Î9. Cum este valoarea energiei pentru vocale faţă de valoarea ei pentru consoane?

Î10. Poate fi folosită energia ca un criteriu pentru recunoaşterea fonemelor?

C9. Adăugați o componentă continuă peste semnalul vocal. Ascultați semnalul rezultat.

Î11. Ce observați? Ce se întâmplă cu energia semnalului.

Page 8: matlab

Laborator “Tehnologia vorbirii. Recunoaşterea vorbitorului.” – Lucrarea nr. 1 __________________________________________________________________________________________

8

C10. Calculaţi autocorelaţia semnalului vocal pentru o fereastră de timp folosind funcţia xcorr şi construiţi graficul acestei funcţii. El trebuie să fie asemănător cu cel din Fig. 1.2., calculat pentru o fereastră de fonem sonor.

Î12. Ce observaţi? Măsuraţi distanţa între maximele conzecutive. De ce aceste valori sunt aproximativ egale?

Î13. Ce unităţi de măsură sunt pe axa abscisei?

C11. Generaţi un zgomot alb gaussian folosind funcţia wgn. Calculaţi autocorelaţia acestui semnal şi construiţi graficul ei. Repetaţi aceiaşi paşi folosind funcţia randn in loc de wgn.

Î14. Comparaţi autocorelaţia semnalului vocal cu cea a zgomotului. Ce observaţi?

Fig. 1.2. Exemplu de funcție de autocorelație

3.2. Analiza în frecvenţă C12. Scrieţi o funcţie care să calculeze un estimat al densității spectrale de putere

pentru fiecare fereastră de timp (periodgrama). Funcţia trebuie să primească ca parametri de intrare vectorul de eşantioane ale semnalului vocal, numărul de puncte în care se calculează transformata Fourier, dimensiunea ferestrei temporale şi gradul de suprapunere a ferestrelor. Outputul funcţiei va fi succesiunea de vectori cu valorile absolute ale semnalului în frecvenţă pentru fiecare fereastră de timp. La realizarea acestei sarcini trebuie să folosiţi funcţiile fft şi fftshift. Consultaţi secţiunea „help” din Matlab pentru utilizarea acestor funcţii. Pentru o rulare mai rapidă, calculaţi transformata Fourier într-un număr de puncte care să fie putere a lui 2. Rezultatul pentru o fereastră de timp trebuie să arate ca în Fig. 1.3.

Î15. Ce reprezintă valorile de pe axa abscisei şi de pe axa ordonatei?

Page 9: matlab

Laborator “Tehnologia vorbirii. Recunoaşterea vorbitorului.” – Lucrarea nr. 1 __________________________________________________________________________________________

9

C13. Modificaţi funcţia astfel încât valorile de pe axa abscisei să fie în Hz.

Indicaţie: Ţineţi cont de rolul frecvenţei Nyquist.

Î16. Puteţi să identificaţi formanţii?

Fig. 1.3. Exemplu de reprezentare în frecvență a semnalului vocal

C14. Afişaţi spectograma semnalului vocal folosind funcţia specgram. Rezultatul trebuie să arate ca în Fig. 1.4.

Î17. Cum variază spectrul semnalului vocal cu timpul?

Î18. Afişaţi spectrul semnalului vocal pentru diferite valori ale gradului de suprapunere. Ce observaţi în spectrul semnalului?

Î19. Puteţi să determinaţi graniţele între foneme?

C15. Vizualizaţi spectograma pentru diferite semnale vocale cu cuvinte.

Î20. Seamănă spectrele realizărilor particulare diferite ale aceluiaşi fonem?

Î21. Ce au în comun spectrele vocalelor?

C16. Treceţi semnalul vocal printr-un filtru trece-jos cu frecvenţa de tăiere egală cu 8, 6, 4, şi respectiv 2 kHz. Afisaţi spectograma semnalului obţinut la ieşirea filtrului. Ascultaţi semnalul obţinut la ieşirea filtrului. Ce se observă? Pentru această cerință folosiți funcția fir1. Scrieţi în consola Matlab:

>>help fir1

Page 10: matlab

Laborator “Tehnologia vorbirii. Recunoaşterea vorbitorului.” – Lucrarea nr. 1 __________________________________________________________________________________________

10

Fig. 1.4. Exemplu de spectogramă

Page 11: matlab

Laborator “Tehnologia vorbirii. Recunoaşterea vorbitorului.” – Lucrarea nr. 1 __________________________________________________________________________________________

11

4. Anexa - Natura semnalului vocal - noţiuni introductive 4.1. Producerea vorbirii - tractul vocal uman Din punct de vedere evolutiv, părţile tractului vocal sunt asociate în principal cu

funcţii vegetative - limba pentru masticaţie, faringele şi epiglota pentru înghiţit, coardele vocale pentru eliberarea efortului la naştere, etc. Acum 1,6 milioane de ani, aceste structuri au început să evolueze, dobândind capabilităţi de producere a sunetului. Mai mult, tractul vocal a evoluat în paralel cu aparatul auditiv, pentru ca acesta din urmă să fie acordat pe gama de frecvenţe produse de cel dintâi. Aceste dezvoltări au mers mână în mână cu extinderea circuitelor neurale care controlează muşchii responsabili de vorbire. Datorită dovezilor paleontologice care indică mărirea dimensiunii creierului şi a terminaţiilor nervoase necesare în mişcarea limbii şi respiraţie, putem estima data la care a apărut vorbirea.

Sunetul vocal este influenţat indirect de multe părţi ale anatomiei umane. Doar câteva dintre acestea sunt controlate în mod deliberat (de exemplu muşchii inter-costali, limba, muşchii gâtului). Totuşi în continuare ne vom concentra doar pe cele două structuri principale care funcţionează împreună pentru a produce vorbirea: coardele vocale şi tractul supralaringian. Acestea la rândul lor sunt legate în mod direct de respiraţie şi de aparatul respirator fără de care producerea sunetului nu ar fi posibilă.

Coardele vocale sunt două pliuri mici de ţesut elastic cu o structură complexă. Ele se întind deasupra traheei şi pot fi manipulate în două moduri: pot fi deschise sau închise şi pot fi relaxate sau încordate.

Când sunt deschise, între ele se formează un orificiu triunghiular numit glotă.

Producerea sunetelor este determinată de apropierea coardelor vocale, care astfel îngreunează glota.

Sunetele sonore sunt produse prin vibraţia coardelor vocale la ieşirea aerului din plămâni. Ele vor fi întărite atât de cavităţile toracică, nazală, bucală, cât şi de sinusurile paranazale, care au rol de cutie de rezonanţă. La producerea sunetelor articulate mai participă limba, buzele, dinţii şi vălul palatin.

Din combinarea sunetelor articulate rezultă vorbirea. Caracteristicile acustice ale sunetelor emise depind de presiunea creată în plămâni, tensiunea aplicată asupra coardelor vocale şi aplicarea de diverse constrângeri pe parcursul căii vocale, prin acţiunea limbii, dinţilor, etc.

Sunetele vocii emise prin vibrarea coardelor vocale cu amplitudine maximă se numesc sonore; în această categorie intră în general vocalele şi consoanele sonore. Dacă sunetul este emis fără vibrarea coardelor vocale atunci el se numeşte surd (nesonor), ca în cazul consoanelor surde (nesonore).

Prin modificarea tensiunii coardelor vocale în timp ce vibrează, se poate controla frecvenţa de oscilaţie a lor. Cu cât coardele vocale sunt mai tensionate (şi mai apropiate una de cealaltă) sunetele emise sunt mai înalte şi reciproc, cu cât sunt mai relaxate, sunetele sunt mai joase. Astfel se controleză frecvenţa vorbirii.

Page 12: matlab

Laborator “Tehnologia vorbirii. Recunoaşterea vorbitorului.” – Lucrarea nr. 1 __________________________________________________________________________________________

12

4.2. Unităţi ale semnalului vocal În fonologie, fonemul este unitatea de sunet fundamentală din limbile vorbite care

ajută la diferenţierea cuvintelor. Prin modificarea unui fonem al unui cuvânt, se generează fie un cuvânt inexistent dar perceput ca diferit de către vorbitorii limbii, fie un cuvânt cu alt sens. Fonemele nu sunt sunetele ca atare, ci perceperea lor la nivel mental. Unui fonem îi pot corespunde mai multe sunete fizice, pe care vorbitorii unei limbi date le percep ca fiind unul şi acelaşi sunet. De exemplu, fonemul /h/ din cuvintele româneşti “har” şi “hidra” este perceput ca fiind identic, deşi în realitate în cele două cazuri el se articulează în locuri complet diferite (laringe, respectiv palat). Manifestările fonetice diferite ale unuia şi aceluiaşi fonem se numesc alofone.

Două cuvinte formează o pereche minimală atunci când sunt identice, cu excepţia unui singur fonem. Perechile minimale servesc la a demonstra că două sunete date sunt foneme diferite şi nu doar variante sonore fără efect semantic ale aceluiaşi fonem. De exemplu, cuvintele “cal” şi “car” există în limba română şi au sensuri diferite, ceea ce dovedeşte că fonemele /l/ şi /r/ sunt distincte. Aceleaşi sunete [l] şi [r] în alte limbi (de exemplu în coreeană şi japoneză) sunt doar variante de pronunţare ale aceluiaşi fonem, fără distincţie semantică, şi percepute de vorbitorii acelor limbi ca fiind unul şi acelaşi sunet.

Fonemele cele mai evidente sunt chiar sunetele limbii respective, aşa cum sunt ele percepute de vorbitori. De exemplu, limba română standard foloseste 7 foneme vocalice, 20 consonantice şi 4 semivocalice.

Acest set situează limba română printre limbile cu un număr mediu de foneme. Extremele se consideră a fi limba vorbit de populaţia Pirah˜a din Brazilia cu doar 10 foneme în total, şi limba !X´o˜o din Botswana şi Namibia care dispune de 141 de foneme.

În categoria fonemelor intră şi alte aspecte ale articulării cuvintelor, nu doar sunetele propriu-zise.

Există câteva categorii de foneme numite “suprasegmentale”, care ţin printre altele de accentul, tonurile, şi lungimea fonemelor, silabelor sau cuvintelor unei limbi.

În limba română fiecare cuvânt polisilabic are o anumită silabă pronunţată mai puternic decât celelalte.

În cele mai multe cazuri poziţia schimbată a accentului nu poate modifica sensul unui cuvânt, putând doar să dea acelui cuvânt o pronunţare nenaturală. Există totuşi situaţii când poziţia accentului determină sensul cuvântului, iar existenţa acestui fenomen demonstrează că în limba română accentul este “fonemic”. De exemplu, în propoziţiile “Mergeam la lumina lanternei.” şi “Lanterna nu lumina îndeajuns.” silaba accentuată din “lumina” determină categoria gramaticală a cuvântului (substantiv, respectiv verb) şi deci sensul acestuia. Prin comparaţie, în limbile franceză sau maghiară accentul este fix şi deci nu poate modifica sensul cuvintelor.

În multe limbi lungimea sunetelor poate fi un element cu rol important în distingerea cuvintelor.

Page 13: matlab

Laborator “Tehnologia vorbirii. Recunoaşterea vorbitorului.” – Lucrarea nr. 1 __________________________________________________________________________________________

13

Acest fonem se numeşte “cronem” (din greceşte � �´o o& (chronos): timp) şi se poate referi atât la durata vocalelor cât şi la a consoanelor.

Limba română are foarte puţine astfel de situaţii în care lungimea unui sunet este importantă, ca în cazul consoanei /n/ din cuvintele “înot” şi “înnod”; pentru alte limbi însă diferenţele de acest tip pot fi numeroase şi esenţiale. De exemplu cuvintele englezeşti “slip” (a aluneca) şi “sleep” (a dormi) diferă în primul rând prin lungimea vocalei (care antrenează şi o schimbare în calitatea acesteia). Similar, lungimea consoanelor (timpul de emitere sau de aşteptare până la emiterea consoanei) este important în unele limbi precum italiana sau japoneza. Mai mult, unele limbi diferenţiază chiar trei niveluri în lungimea vocalelor sau consoanelor; astfel estona distinge vocale scurte, semi-lungi şi superlungi şi de asemenea are consoane cu trei lungimi posibile în funcţie de care se modifică sensul cuvintelor.

Unele limbi, ca de exemplu limbile cunoscute sub numele colectiv limba chineză, dispun de foneme exprimate prin intonaţia dată individual fiecărei silabe. Toate limbile folosesc un sistem sau altul de intonaţie (în limba română de exemplu intonaţia este esenţială pentru diferenţierea enunţurilor de întrebări), dar numai în limbile tonale sensul unui cuvânt separat se poate schimba o dată cu modificarea tonului. Exemplul clasic în acest sens este cuvântul “ma” din limba chineză, care în funcţie de ton poate să aibă sensuri complet diferite.

Se spune despre o limbă vorbită că are o ortografie fonetică (sau fonemică) atunci când relaţia dintre forma scrisă şi forma pronunţată este regulată, în sensul că dacă se cunoaşte un set de reguli orice cuvânt scris poate fi pronunţat corect şi orice cuvânt vorbit poate fi scris corect. Româna este într-o bună măsură o astfel de limbă.

Într-un sens strict, ortografia fonetică cere ca fiecărui sunet din vorbire să îi corespundă un simbol scris unic, aşa cum se procedează de exemplu în transcrierile fonetice exacte. În general însă o asemenea precizie nu este necesară şi atunci se aplică o ortografie fonemică, în care se permite alofonelor unui fonem să fie notate cu acelaşi simbol.

Se consideră că scrierea folosită în limbile sârbă şi hindi se apropie cel mai mult de o scriere fonemică.

Limba română are o ortografie preponderent fonemică, dar prezintă şi numeroase excepţii. Printre acestea se pot menţiona următoarele:

• litera /c/ are valori fonetice diferite în grupurile (diftongii) /ce/ şi /ci/ faţă de celelalte situaţii.

Aceeaşi observaţie este valabilă pentru litera /g/;

• grupul de litere /ch/ din /che/ şi /chi/ reprezintă o consoană ocluzivă palatală surdă, care în limba română este echivalentă fonologic cu versiunea sa velară, notată în scris prin litera /c/ (cu excepţia grupurilor /ce/ şi /ci/). Aceeşi observaţie este valabilă pentru litera /g/;

• nu există simboluri separate pentru semivocale; literele /i/, /u/, /e/ şi /o/ putând reprezenta fie vocale, fie semivocale, în funcţie de context, de exemplu litera /i/ din cuvintele “ştiam” şi “fiară” are valori fonetice distincte;

• nu se indică poziţia accentului, de exemplu verbul “intră” poate fi la timpul prezent sau la perfectul simplu în funcţie de plasarea accentului;

Page 14: matlab

Laborator “Tehnologia vorbirii. Recunoaşterea vorbitorului.” – Lucrarea nr. 1 __________________________________________________________________________________________

14

• nu se deosebeşte în scris vocala /i/ de palatalizare, de exemplu litera /i/ din cuvintele “(tu) umbli” şi “(două) boli” se pronunţă diferit;

• nu se notează în scris pronunţia sonoră sau surdă a literei /x/, de exemplu în cuvintele “extrem” şi “exemplu” ea se citeste /ks/, respectiv /gz/;

• grupul de consoane /ks/ se scrie fie ca /x/, fie ca /cs/, de exemplu în “axă” şi “ticsit”;

• cuvintele noi de origine străină sunt adesea lăsate în forma originală, de exemplu “watt”, “yoga”, “computer” sau parţial în “techneţiu” (pronunţat /teh’ne.tsju/);

• literele /î/ şi /â/ corespund aceluiaşi fonem, vocala închisă centrală nerotunjită /¯i/);

• literele /k/, /w/, /y/ şi /q/ nu notează sunete distincte, ci se suprapun fonetic cu litere deja existente.

În fonetică, o vocală este un sunet elementar din limbile vorbite, caracterizat printr-o configuraţie deschisă a căii vocale care nu împiedică în mod semnificativ ieşirea aerului. O definiţie exactă care să acopere toate limbile existente nu se poate da, întrucât limita de separaţie între vocale şi consoane este uneori neclară şi nu se poate preciza întotdeauna ce înseamnă o cale vocală liberă. Un exemplu este consoana /h/ care de fapt nu blochează în nici un fel calea vocală, dar care în toate limbile în care există se comportă fonologic ca o consoană.

În cursul vorbirii două sau mai multe vocale pot să apară în succesiune. În asemenea cazuri vocalele pot să formeze fie hiaturi, atunci când fac parte din silabe diferite (de exemplu în cuvântul “mie”), fie diftongi sau triftongi, atunci când se pronunţă împreună într-o singură silabă (de exemplu în cuvântul “miere”). În acest din urmă caz, întrucât o silabă nu poate conţine mai mult de o vocală propriu-zisă, celelalte sunete vocalice din silabă se numesc semivocale (în cazul exemplului anterior semivocala numită “iot”).

Limba română standard are un set de şapte vocale. Aceste vocale se pronunţă ca în exemplele următoare:

• [a] ca în “amar” - vocală deschisă centrală nerotunjită,

• [e] ca în “elev” - vocală mijlocie anterioară nerotunjită,

• [i] ca în “iris” - vocală închisă anterioară nerotunjită,

• [o] ca în “ocol” - vocală mijlocie posterioară rotunjită,

• [u] ca în “uluc” - vocală închisă posterioară rotunjită,

• [ă] ca în “fără” - vocală mijlocie centrală nerotunjită,

• [¯i] ca în “vârî” - vocală închisă centrală nerotunjită.

Literelor /â/ şi î le corespund acelaşi sunet, [¯i].

În afară de aceste şapte vocale în limba română mai pot să apară în cuvinte împrumutate şi alte vocale:

• [;] ca în “bleu”, “loess” - vocală mijlocie anterioară rotunjită,

• [y] ca în “f¨uhrer”, “bruxelez” - vocală închisă anterioară rotunjită.

Page 15: matlab

Laborator “Tehnologia vorbirii. Recunoaşterea vorbitorului.” – Lucrarea nr. 1 __________________________________________________________________________________________

15

Vocalele orale, precum cele din limbile română, italiană, engleza britanică, etc., se pot descrie în termenii a trei caracteristici, putându-le astfel asocia cu puncte dintr-un spaţiu tridimensional. Aceste caracteristici sunt: deschiderea, locul de articulare (anterioritatea) şi rotunjimea. Trebuie menţionat totuşi că aceste caracteristici nu sunt fonemic complet independente, aşa cum se va vedea mai jos.

Vocalele pronunţate cu mandibula coborâtă şi cu limba depărtată de cerul gurii se numesc deschise, pentru că se pronunţă cu gura deschisă. O vocal deschisă tipică este [a]; această vocală este prezentă într-o formă sau alta în mai toate limbile cunoscute, inclusiv în cele care au numai două sau trei vocale.

Prin contrast, vocalele pronunţate cu gura întredeschisă, cu limba relativ apropiată de palat, se numesc închise, un exemplu comun multor limbi fiind vocala [i]. Există şi grade intermediare de deschidere, undeva la mijloc situându-se de exemplu vocala [e] din limba română.

Alfabetul Fonetic Internaţional stabileşte în total şapte niveluri de deschidere, deşi nu există limbi care să conţină şi să diferenţieze vocale în toate aceste niveluri. Limba română distinge trei niveluri (de exemplu seria [a]- [e]-[i]), limba franceză distinge patru (de exemplu seria [a]- �[ ]-[e]-[i]), etc.

O consoană este un sunet elementar din limbile vorbite, pronunţat printr- o blocare sau o restrângere semnificativă a căii vocale, suficient pentru a produce o turbulenţă audibilă. Definiţia simplistă (inexactă) conform căreia consoanele nu pot fi emise decât împreună cu vocale (de unde şi numele), nu mai este folosită în lingvistica modernă.

În unele limbi există consoane, numite consoane sonante, care se pot comporta ca vocale, constituind elementul principal al silabei. De exemplu, în engleză cuvântul “table” (masă) se pronunţă /’teIbl/, cu sunetul [l] avînd rol de vocală.

După modul de articulare, consoanele se clasifică în:

• Consoanele oclusive se articulează printr-o ocluzie a canalului fonator. Exemple: [p], [t], [k].

• Consoanele africative sunt intermediare între cele ocluzive şi cele fricative (V. mai jos), în sensul că încep cu o ocluziune şi se termină cu o fricţiune. Simbolurile grafice pentru aceste consoane reflectă caracterul intermediar prin contopirea a două simboluri elementare, de exemplu [ts] (/ţ/) începe cu un sunet similar cu [t] şi se termină ca un [s].

• Consoanele fricative sunt acelea la a căror pronunţare canalul fonator se strâmtează dar nu se blochează complet, astfel încât aerul se scurge pe toată durata emisiei. Exemple: [s], [f], [h].

• Consoanele nazale sunt acelea în care fluxul de aer este expirat (exclusiv sau parţial) pe nas.

Exemple: [m], [n].

Page 16: matlab

Laborator “Tehnologia vorbirii. Recunoaşterea vorbitorului.” – Lucrarea nr. 1 __________________________________________________________________________________________

16

• Consoanele glide cuprind consoanele laterale şi cele vibrante. Consoanele laterale (în limba română numai [l]) se articulează prin atingerea vârfului limbii de alveolele incisivilor superiori, în timp ce fluxul de aer iese prin cele două deschizături lăsate de marginile limbii. Consoanele vibrante se realizează printr-o succesiune rapidă de închideri şi deschideri ale canalului fonator, determinat de vibrarea părţii superioare a vârfului limbii (cum este cazul consoanei româneşti [r]) sau a altor părţi de pe calea vocală.

• Consoanele sonante se articulează cu o uşoară constricţie în canalul fonator, mai mică decât în cazul fricativelor. Aici intră o serie de consoane şi toate semivocalele. Exemplu în limba română: [j].

După locul de articulare, consoanele se clasifică în:

• Consoane bilabiale, la articularea cărora participă amândouă buzele. Exemple: [p], [m].

• Consoane labiodentale ce se articulează prin atingerea buzei inferioare de dinţii incisivi superiori, ca de exemplu [f].

• Consoane dentale, ce se articulează prin apropierea vârfului limbii de dinţii incisivi. Exemplu: [s].

• Consoane alveolare, articulate cu limba la nivelul alveolelor dinţilor de pe maxilarul superior. Exemple: [t], [n], [l].

• Consoane postalveolare, ce se articulează în partea anterioară a palatului. Exemple: [tch] din “circ”, [ş] din “şofer”.

• Consoane palatale, ce se articulează prin atingerea sau apropierea dosului limbii de cerul gurii. Exemple: [c] (din “chitară”), [c¸] (din “hiat”).

• Consoane velare, ce se articulează în partea posterioară a cavităţii bucale, prin atingerea sau prin apropierea rădăcinii limbii de vălul palatului. Exemplu [k].

• Consoane glotale, ce se articulează prin îngustarea canalului fonator la nivelul glotei. În limba română singura consoană glotală este [h] din “hain”.

Numeroase consoane formează perechi, în care singura diferenţă dintre cele două consoane este că în articularea uneia coardele vocale oscilează, iar în cazul celeilalte, nu. O astfel de pereche este cea formată din [z] şi [s]. Aceste consoane sunt amîndouă fricative, amîndouă dentale, dar în cazul lui [z] coardele vocale vibrează, în timp ce [s] este mai degrabă şoptită, cu coardele vocale în repaus. Această calitate se numeşte sonoritate. Consoanele la care coardele vocale intră în vibraţie se numesc consoane sonore, iar celelalte se numesc surde.

Enumerarea precedentă scoate în evidenţă locul consoanelor limbii române între cele ale altor limbi.

O parte dintre consoane nu au decât varianta sonoră, ca de exemplu [m] şi [r], deşi în anumite situaţii se poate întâmpla ca aceste consoane să se desonorizeze. Alte consoane, precum [ts] şi [h] au dimpotrivă numai varianta surdă. Din nou, există situaţii când aceste consoane se sonorizează.

Page 17: matlab

Laborator “Tehnologia vorbirii. Recunoaşterea vorbitorului.” – Lucrarea nr. 1 __________________________________________________________________________________________

17

Uneori, pentru acelaşi fonem există două sau mai multe alofone (moduri de pronunţare fizic diferite, dar cu funcţii identice). De exemplu, fonemul /n/ se pronunţă diferit în cuvintele “ban” şi “banc”, corespunzând transcrierilor fonetice [ban] şi [bank]. Diferenţa este că în “ban” /n/ este o consoană alveolară, produsă prin blocarea şi eliberarea fluxului de aer de către vârful limbii pe alveolele dinţilor de sus. În cuvântul banc, sub influenţa consoanei velare [k] fonemul /n/ se articulează într-o cu totul altă poziţie, şi anume în partea posterioară a cavităţii bucale, prin atingerea rădăcinii limbii de vălul palatului (spunem că se velarizează). Această diferenţă se marchează prin folosirea de simboluri fonetice separate.

În mod similar, fonemele /k/ şi /h/ se pronunţă diferit în funcţie de sunetele învecinate.

Lista de mai jos dă exemple pentru fiecare sunet din lista de mai înainte:

• Consoane oclusive:

– [p] - oclusivă bilabială surdă: “pace”, “aparte”, “cap”;

– [b] - oclusivă bilabială sonoră: “bun”, “abac”, “cub”;

– [t] - oclusivă alveolară surdă: “tare”, “ating”, “sat”;

– [d] - oclusivă alveolară sonoră: “dor”, “odihni”, “rod”;

– [c] - oclusivă palatală surdă: “chel”, “achit”, “ochi” (în grupurile scrise /che/, /chi/, /ke/, /ki/);

– [†] - oclusivă palatală sonoră: “ghid”, “leghe”, “priveghi” (în grupurile scrise /ghe/, /ghi/);

– [k] - oclusivă velară surdă: “cal”, “acolo”, “rac”;

– [g] - oclusivă velară sonoră: “gol”, “ogar”, “rog”;

• Consoane africative:

– [ts] - africativă alveolară surdă: “ţap”, “oţet”, “maţ”;

– [tch] - africativă postalveolară surdă: “cer”, “ace”, “taci” (în grupurile scrise /ce/, /ci/);

– [dz] - africativă postalveolară sonoră: “ger”, “magic”, “rogi” (în grupurile scrise /ge/, /gi/);

• Consoane fricative:

– [f] - fricativă labiodentală surdă: “foc”, “afară”, “puf”;

– [v] - fricativă labiodentală sonoră: “var”, “covor”, “mov”;

– [s] - fricativă alveolară surdă: “sare”, “masă”, “cos”;

– [z] - fricativă alveolară sonoră: “zar”, “vază”, “roz”;

– [S] - fricativă prepalatală surdă: “şarpe”, “aşa”, “coş”;

– [j] - fricativă prepalatală sonoră: “jar”, “ajutor”, “vrej”;

Page 18: matlab

Laborator “Tehnologia vorbirii. Recunoaşterea vorbitorului.” – Lucrarea nr. 1 __________________________________________________________________________________________

18

– [c¸] - fricativă palatală surdă: “hienă”, “mohican”, “vlahi” (când /h/ este influenţat de /i/);

– [x] - fricativă velară surdă: “heliu”, “aho”, “câh” (când /h/ este influenţat de orice vocală înafară de /i/ şi /a/);

– [h] - fricativă glotală surdă: “ham”, “rahat”, “vlah” (când /h/ este influenţat de /a/);

• Consoane nazale:

– [m] - nazală bilabială sonoră: “măr”, “amic”, “cum”;

– [n] - nazală alveolară sonoră: “nor”, “sună”, “an”;

– [nj] - nazală velară sonoă: “prunc”, “gong” (înainte de /k/, /g/);

• Consoane glide:

– [l] - glidă laterală alveolară sonoră: “lung”, “ales”, “mal”;

– [r] - glidă vibrantă alveolară sonoră: “rai”, “arid”, “far”;

• Consoane sonante (semivocale):

– [w] - sonantă labiovelară: “cafeaua”, “rouă”, “sau” (articularea se realizează concomitent prin rotunjirea buzelor şi apropierea limbii de vălul palatin);

– [j] - sonantă palatală: “iarnă”, “voios”, “cui”.

4.3. Parametri primari ai semnalului vocal În secţiunea precedentă au fost descrise vocalele şi consoanele. Aceste sunete se

numesc segmentale, deoarece ele sunt înşirate ca nişte segmente într-un cuvânt. O a doua mare clasă de sunete vocale este reprezentată de sunetele suprasegmentale, din cauza faptului că într-un anumit sens se suprapun peste sunetele segmentale. Această denumire este înşelătoare, deoarece intonaţia, accentul şi tonul sunt asociate în principal cu activitatea laringiană, care se găseşte în partea de jos a tractului vocal.

Astfel, parametrii primari ai semnalului vocal sunt:

• Accentul:

Pronunţarea mai intensă sau pe un ton mai înalt a unei silabe dintr-un cuvânt sau a unui cuvânt dintr-un grup sintactic se numeşte accent.

Accentul de intensitate reprezintă pronunţarea cu forţă mai mare a unei silabe dintr-un cuvânt.

Limba română, la fel ca numeroase alte limbi moderne, are accent de intensitate. În cuvintele cu mai multe silabe se distinge un accent de intensitate principal, mai puternic, şi unul sau mai multe accente de intensitate secundare, mai slabe, despărţite prin silabe total neaccentuate. Silabele accentuate sunt adesea mai lungi decât cele neaccentuate.

Page 19: matlab

Laborator “Tehnologia vorbirii. Recunoaşterea vorbitorului.” – Lucrarea nr. 1 __________________________________________________________________________________________

19

Accentul este marcat printr-un semn grafic pus deasupra unei litere, pentru a indica fie locul şi felul accentului într-un cuvânt, fie altă particularitate de pronunţare, după cum urmează:

– accent ascuţit (‘): indică ridicarea vocii pe silaba accentuată sau pe partea finală a silabei accentuate dintr-un cuvânt. El indică, de exemplu, în franceză, timbrul închis al vocalei /e/, iar în cehă, lungimea vocalei.

– accentul circumflex (ˆ): indică ridicarea vocii în prima parte a unei silabe lungi accentuate, însoţită de o coborâre a vocii în partea ei finală. În franceză se pune, în general, pe vocalele lungi care au fost urmate de o consoană (în general, [s], ca în “forˆet”) sau de o vocală dispărută ulterior. (în general, [e], ca în “dˆument”).

– accentul grav: (\): indică menţinerea aceluiaşi ton pe o silabă care, în mod obişnuit, are accent ascuţit. El poate nota, în franceză, pronunţarea deschisă a vocalei /e/, sau diferenţiază unele cuvinte omonime.

Deşi majoritatea ascultătorilor naivi cred că accentul are de a face cu tăria sunetului, el afecteză mai mult înălţimea vocii (frecvenţa fundamentală).

• Intonaţia:

Intonaţia reprezintă variaţia de înălţime a vocii în timpul vorbirii sau interpretării unui text, folosită pentru a indica o anumită funcţie sintactică (de exemplu, întrebare vs. exclamaţie vs. enunţ). Poate indica şi starea afectivă a vorbitorilor (sarcasmul, îngrijorarea, etc.).

• Tonul:

Tonul reprezintă intonarea diferită a unor cuvinte, formate din aceleaşi sunete, dar deosebite prin sens.

• Debitul verbal:

Debitul verbal reprezintă numărul unităţilor minimale (sunete, silabe) emise pe secundă. Deşi numeroase studii au arătat diferenţe ale ratei de articulare pentru voci diferite, faptul că aceasta este puternic influenţată şi de contextul vorbirii (de exemplu, la telefon se vorbeşte mai repede decât la o masă în restaurant) face ca această caracteristică să fie nepotrivită pentru recunoaşterea automată a vorbirii.

• Frecvenţa fundamentală:

Orice sunet are o frecvenţă fundamentală, frecvenţa cea mai joasă, la care sunetul are cea mai mare putere, şi o serie de frecvenţe armonice superioare, care au o amplitudine mai mică. Înălţimea sunetului este dată de frecvenţa sa fundamentală. Timbrul sunetului este dat de prezenţa pe lângă frecvenţa fundamentală a altor frecvenţe corelate cu cea fundamentală (armonicele superioare).

În vorbire frecvenţa fundamentală este dată de vibraţia coardelor vocale. Acest parametru se defineşte doar pentru cadrele vocalice. Determinarea ei este destul de dificilă dar o aproximare satisfăcătoare se poate face prin mediere aplicată asupra mai multor secvenţe succesive de eşantioane de semnal vocal.