Analiza Si a Vorbirii - Doc Diana Iordan (Ciorba), Master TLA

Diana Iordan (Ciorba)

Master Terapia limbajului si audiologie educationala

Disciplina: Neurobiologia auditiei si fonatiei

Referat:

Analiza si reprezentarea vorbirii

1. Introducere

Vorbirea, privita ca fenomen fizic, consta in modificari ale presiunii acustice aparute ca urmare

a intrarii in actiune a organelor fonatorii. Variatiile presiunii genereaza unde acustice care se propaga

intr-un mediu de comunicare (de cele mai multe ori, aer). Semnalul sonor este captat ulterior de catre

segmente ale analizatorului auditiv ale receptorului si procesat la nivelul cortexului (Greenberg et al,

2001).

Un microfon plasat in campul acustic permite o analiza a semnalului sonor. Se obtine un semnal

electric care descrie variatiile presiunii acustice ca variatii de intensitate electrica in functie de timp.

Semnalul vocal contine informatii despre continutul mesajului verbal, informatii legate de

persoana care a vorbit, despre mediul in care s-a realizat convorbirea, tipul de canal de comunicare

folosit (microfon, echipament de inregistrare, etc.) si altele (Everest, 2001).

Analiza vorbirii se poate realiza la mai multe niveluri: analiza bazata pe semnal – analiza

frecventelor semnalului sonor, analiza bazata pe modele de producere a semnalului verbal (de exemplu

modelul liniar al producerii vorbirii) si analiza bazata pe perceptia mesajului sonor (Greenberg et al,

2001).

2. Tehnici utilizate in analiza vorbirii

2.1. Achizitia de date

Primul pas in achizitia de date ale semnalului vocal este reprezentat de inregistrarea semnalului

sonor. Se utilizeaza de obicei un microfon capabil sa capteze stimuli cu frecvente de la 0 la 10kHz. Al

doilea pas este convertirea semnalului sonor analogic in semnal digital.

2.2. Analiza pe termen scurt

Semnalul verbal nu este un semnal stationar, deoarece organele fonatorii sunt intr-o permanenta

miscare in timpul vorbirii. In schimb, un segment al vorbirii realizat intr-o perioada foarte scurta de

timp poate fi considerat stationar si poate fi deci analizat dupa tehnici de procesare a semnalelor

stationare. De aceea, un enunt va fi impartit in mai multe segmente desfasurate in timp scurt. Aceasta

impartire poarta numele de cadrare. Cadrele pot fi egale sau marimea lor poate varia in timp. Uneori

anumite segmente ale semnalului vorbit poate fi partajat intre doua cadre. Pentru atenuarea efectelor

cadrelor adiacente asupra masurarii parametrilor unor segmente ale semnalului sonor, se realizeaza

operatia de ferestruire, adica multiplicarea valorilor esantioanelor respective cu o fereastra. Cea mai

cunoscuta fereastra in prelucrarea semnalului sonor este fereastra Hamming (Boldea, 2003).

Odata cu divizarea semnalului in segmente cvasistationare, poate debuta procesul de analiza

efectiva a vorbirii. Analiza pe termen scurt a semnalului verbal este prezentata schematic in Figura 1.

(Greenberg et al, 2001)

Exista, dupa cum am precizat mai sus, trei categorii de tehnici de analiza a vorbirii: bazate pe

semnal, bazate pe producerea semnalului si bazate pe perceptia semnalului verbal.

Figura 1. Analiza pe termen scurt a vorbirii (dupa Greenberg)

2.3. Tehnici bazate pe semnal

Analiza bazata pe semnal ia in considerare elementele fundamentale ale semnalului sonor

verbal, fara sa tina cont de modul in care acest semnal a fost produs si nici de modul in care el va fi

procesat de aparatul auditiv. Astfel vorbirea va fi analizata pe fragmente mici, considerate semnale

stationare. Una din metodele de baza de analiza bazata pe semnal este analiza Fourier, care

descompune semnalul in constituentii sau sinusoidali in functie de frecventa si faza. Aplicarea analizei

Fourier pe un segment scurt de vorbire duce la o reprezentare cunoscuta sub numele de Transformarea

Fourier pe termen scurt, prescurtat STFT (short-time Fourier transform). STFT este utilizata in general

ca un banc de filtre, analiza semnalului sonor realizandu-se asemanator cu cea de la nivelul

analizatorului auditiv.

In Figura 2 este reprezentata o forma de unda a semnalului vocal “este o scurta” (Boldea, 2003).

Figura 2. Reprezentarea sub forma de unda a semnalului vocal (dupa Boldea)

Se poate observa amplitudinea mare a vocalelor si amplitudinea mica a consoanelor, mai ales

“t” si “c”.

Din STFT se poate obtine o spectrograma. In spectrograma, intensitatea unei marimi este data

de o scala de gri sau de culori diferite. Spectrograma poate fi de banda larga (rezolutie redusa in

frecventa si mare in timp) si de banda ingusta (rezolutie crescuta in frecventa si redusa in timp). In

spectrograma in banda larga (interval de analiza de 5ms) cvasiperiodicitatea se manifesta prin striuri

verticale corespunzatoare variatiilor energiei semnalului analizat. Zonele de intensitate crescuta situate

la diferite frecvente pe durata diferitelor sunete poarta numele de formanti. Formantii sunt rezonante

ale anumitor cavitati ale tractului vocal prin care oscilatiile de presiune acustica se propaga spre in

exterior, pe parcursul producerii sunetelor vorbirii.

Figura 3. Spectrograme de banda larga si de banda ingusta (dupa Boldea)

In Figura 4 este prezentat rezultatul unei estimari automate a valorilor frecventelor primilor 5

formanti, reprezentate prin puncte suprapuse peste spectograma de banda larga. Frecventele formantilor

constituie o reprezentare foarte compacta a sunetelor vorbirii (Boldea, 2003).

Figura 4. Primii cinci formanti ai semnalului din Figura 3 (dupa Boldea)

In spectrograma se pot evidentia deasemenea diferitele aspecte ale acelorasi consoane si vocale

in functie de contextul de coarticulatie. In Figura 5. se observa formele diferite ale fonemelor “l” si “i”

in propozitia “Si-a luat ladite goale in juru-i” (Boldea, 2003).

Figura 5. Spectrograma pentru evidentierea aspectelor diferite a unor foneme in functie de fenomenul

de coarticulatie (dupa Boldea, 2003).

Analiza vorbirii ce utilizeaza bancul de filtre realizat de STFT are mai multe inconveniente:

filtrele au aceeasi forma, frecventele centrale sunt spatiate la intervele egale, fenestrarea liniteaza

rezolutia analizei.

O alta tehnica de analiza a vorbirii foloseste wavelets, functii matematice ce descompun

sunetele in frecventele lor componente. Filtrele ce utilizeaza wavelets sunt utilizate pentru analiza

semnalelor nestationare atat in domeniul audio cat si video (Akansu & Smith, 1996, citat de Greenberg,

2001). Sunt utilizate in aceasta tehnica cadre ce se contracta sau se dilata pentru a pune in evidenta

detalii ale semnalului ce depind de propritatile sale temporale. Moore, 1989 (citat de Greenberg et al,

2001) considera ca un tip similar de analiza a frecventei sunetelor este utilizat de analizatorul auditiv

uman.

2.4. Tehnici bazate pe producere

Semnalul vocal nu este un semnal sonor arbitrar; el este produs de un sistem fizic bine definit

(tractul vocal) intr-o maniera inca neelucidata pe deplin.

Unul din cele mai folosite si cunoscute modele ale producerii semnalului vocal utilizate in

analiza vorbirii este modelul liniar al vorbirii (Fant, 1960, citat de Greenberg et al, 2001). Vorbirea este

rezultatul trecerii semnalului generat de o sursa sonora localizata la nivelul tractului vocal, printr-un

filtru. Acest filtru este reprezentat de variatiile geometrice ale tractului fonator ocazionate de diferitele

miscari articulatorii, cuplarea intermitenta a cavitatii nazale la cavitatea rezonatorie bucala, efectele

tesuturilor netede de la nivelul peretilor tractului vocal asupra fluxului de aer expirat, efectele frecarii si

conducerii caldurii de la nivelul peretilor tractului vocal, ale vibratiei acestuia (Greenberg et al,

2001).Sursa sonora cuprinde o componenta cvasiperiodica in raport cu vibratiile corzilor vocale,

generata deci la nivelul glotei si responsabila de producerea vocalelor, a consoanelor sonore si a

sonantelor precum si o componenta neperiodica in raport cu pozitia indepartata a corzilor vocale, in

cazul vorbirii in soapta sau a pronuntiei consoanelor surde, fricative si ocluzive. In vorbirea fluenta,

caracteristicile sursei si filtrului se modifica in timp, astfel incat apare o variatie in timp a frecventelor

sunetelor emise.

In modelul liniar al producerii vorbirii se considera ca proprietatile filtrului (de exemplu

invelisul spectral) transporta cea mai mare parte a mesajului lingvistic, in timp ce rolul sursei este de a

determina excitatii la nivelul filtrului in scopul producerii semnalului acustic audibil. Varfurile

invelisului spectral corespund varfurilor formantilor. Frecventele formantilor depind de geometria

cavitatilor fonatorii si sunt tipic mai inalte la femei si copii, si mai joase la barbati.

Analiza prin predictie liniara a fost introdusa in analiza vorbirii in anii 1970. Se estimeaza

valoarea unui esantion din semnal pe baza unei combinatii liniare a unui numar de esantioane

anterioare. Numarul de coeficienti de predictie folositi depinde de largimea de banda a semnalului

vocal analizat si de precizia dorita a modelarii. Analiza prin predictie liniara se aplica eficient pentru

portiunile sonore ale semnalului vocal. Consoanele surde si cele nazale nu pot fi bine caracterizate.

Scopul acestei analize este mai ales sa determine invelisul spectral. Cu cat marimea de ordine a

modelului de predictie liniara creste, cu atat spectrul poate fi analizat mai bine aproximat.

O alta posibilitate de estimare a invelisului spectral al semnalului vocal o reprezinta analiza

cepstrala. Daca se logaritmeaza transformata Fourier a unui semnal sonor, se obtine o transformata

Fourier inversa, care face trecerea dintr-un domeniu de frecventa intr-un alt domeniu definit prin

anagramarea unor caracteristici din domeniul frecventa (cvefrenta - frecventa, cepstrul - spectrul).

Importanta acestei analize rezida in posibilitatea folosirii cepstrului in algoritmi de decizie asupra

caracterului sonor sau nesonor al unor segmente ale semnalului vocal. In plus, valorile cepstrului de la

cvefrente joase pot fi puse in corespondenta cu componenta lent variabila a spectrului determinata de

tractul vocal (filtru), iar cele de la cvefrente superioare cu structura spectrala fina datorata excitatiei.

Analiza cepstrala poate fi deci utilizata si pentru separarea componentelor sursei de cele ale filtrului

(Greenberg et al, 2001).

2.5. Tehnici bazate pe perceptie

Aceste tehnici incearca sa prezinte semnalul vocal din perspectiva sistemului de procesare al

vorbirii si isi propune sa extraga din vorbire numai informatiile relevante pentru sistemul auditiv.

Tehnicile de analiza ce utilizeaza scala de frecventa neliniara au aparut in anii 1970, cand

Makhoul (citat de Greenberg et al, 2001) a aproximat diferite parti ale spectrului vorbirii cu modele de

predictie liniara de ordine diferite: banda de frecventa mai joasa a spectrului este aproximata cu un

model de predictie liniara de ordin inalt, in timp ce banda de frecventa mai inalta a spectrului este

aproximata cu un model de predictie liniara de ordin scazut, ceea ce face ca la frecvente inalte sa se

obtina mai putine detalii despre spectru.

Analiza cepstrala Mel este folosita in mod uzul astazi de catre sistemele de recunoasterea

automata a vorbirii. Mel este unitatea de masura a scarii melodice folosita pentru inaltimea sunetelor

(scala a fost construita dupa multe experimente ce au facut corelatia intre frecventa unui sunet si

inaltimea sa – marime perceptiva; vezi Figura 5). Cepstrul melodic este obtinut prin modificarea

analizei cepstrale, luand in considerare perceptia neliniara cu frecventa a inaltimii sunetelor.

Figura 5. Corespondenta dintre inaltime si frecventa (dupa Boldea)

Integrarea in analiza cepstrala a fenomenului perceptiei neliniare cu frecventa a inaltimii, se

face estimand un spectru melodic dupa transformarea Fourier directa prin sumarea ponderata a

componentelor spectrale din benzi de frecventa corespunzatoare unui anumit numar de filtre, fiind

astfel atenuate efectele structurii spectrale fine (Boldea, 2003).

Un alt tip de tehnici propuse pentru analiza vorbirii bazata pe perceptie iau in considerare

proprietatile dinamice ale perceptiei auditive, ca de exemplu rezolutia temporala, efectul de mascare,

adaptarea temporala, si altele.

Reprezentarile auditive complexe bazate pe descrierea mecanismelor fiziologice ale perceptiei

auditive umane au dus la construirea unor sisteme performante de recunoastere automata a vorbirii.

Macarea temporala a fost folosita pentru cresterea eficacitatii codarii semnalelor muzicale si vorbite.

Greenberg si Kingsbury (1997), (citati de Greenberg et al, 2001), au dezvoltat un instrument de

vizualizarea a vorbirii, reprezentand vorbirea in termeni de frecvente modulate dominant (in jur de 2-

8Hz). Spectrograma lor modulata utilizeaza o inalta rezolutie a frecventei modulate si o rezolutie

temorala redusa.

3. Utilitatea analizei si reprezentarii vorbirii in psihopedagogia speciala

Progresele realizate in analiza si reprezentarea vorbirii au permis conceperea, adaptarea si

utilizarea unor programe computerizate de vizualizare a vorbirii, care ofera persoanelor cu deficienta de

auz un feedback, care sa le permita controlul asupra unor parametrii perturbati ai limbajului lor oral.

Subiectii cu surditate prezinta deseori o voce monotona, in falset, ragusita, nazala sau inspirata. In

cursul vorbirii apar deseori “caderi”, ce denota dificultati in realizarea controlului tensiunilor corzilor

vocale si a presiunii subglotice (Ivimey, 1995, citat de Preda, 2007). Deficientii de auz prezinta

deasemenea o frecventa fundamentala mai ridicata decat la normoauzitori, ca urmare a unui slab

control laringian si a tensiunii corzilor vocale, precum si a nivelului ridicat de stres asociat cu efortul

producerii vorbirii, care genereaza o gestiune incorecta a curentullui de aer (Giusti, 2000, citata de

Preda, 2007). Pentru a avea succes in domeniul recuperarii si reabilitarii limbajului verbal la copiii cu

deficienta de auz programele de vizualizarea vorbirii trebuie sa indeplineasca criterii esentiale:

patternul vizual trebuie sa fie simplu si clar pentru ca elevul hipoacuzic sa-l inteleaga si sa-l valorifice

in antrenamentele verbale, patternul vizual trebuie prezentat in timp real si programul trebuie sa fie

usor de transportat si de folosit acasa.

Analizand limbajul copiilor cu deficiente de auz de grade diferite, precum a copiilor sau

adultilor cu implant cohlear, au fost puse in evidenta in mod obiectiv particularitatile de articulare, de

voce, de ritm si fluenta, de intonatie. In ceea ce priveste tulburarile de articulare ale vocalelor, acestea

au fost puse in evidenta mai ales in legarea lor in silabe si cuvinte, si mai putin frecvent in pronuntia

izolata. Cauza principala este lipsa de coordonare intre planul articulator si fonator si necesita seturi

specifice de exercitii de corectare, adecvate pronuntiei fircarei vocale (Anca, 2005).

Pornind de la ipoteza ca vizualizarea vorbirii permite o evaluare obiectiva a pronuntiei

deficientilor de auz, spectrogramele pot fi utile in cadrul programelor personalizate de antrenament

auditiv-verbal, de corectare a pronuntiei prin raportarea pronuntiei defectuoase la cea standard, cat si

prin comparatii succesive ale pronuntiei aflate in diverse stadii de corectare (Anca, 2005).

4. Exemplu de program pentru analiza si reprezentarea vorbirii

Paul Boersma si David Weenink, profesori la departamentul de Fonetica a Universitatii din

Amsterdam au conceput un program numit Praat (varianta actuala este 5.1.23), cu ajutorul caruia se pot

realiza analiza, sinteza si manipularea vorbirii. Programul se poate descarca gratuit de pe site-ul

Laboratorului de Fonetica al Universitatii olandeze.

Bibliografie:

1. Anca, M. (2005) Logopedie (a doua editie). Cluj-Napoca, Presa Universitara Clujeana.

2. Boldea, M. (2003) Contributii la recunoasterea automata a vorbirii continue in limba romana.

Teza de doctorat. Universitatea Politehnica din Timisoara, Facultatea de Automatizari si

Calculatoare.

3. Everest, F.A. (2001) Master Handbook of Acoustics, Fourth Edition, Mc. Grow Hill

4. Greenberg, S., Ainsworth, W.A., Popper, A.N., Fay, R.R. (2001) Speech Processing in the

Auditory System. First Edition, Springer.

5. Http://www.fon.hum.uva.nl/praat/

6. Preda, V. (2007) Elemente de psihopedagogie speciala, Cluj-Napoca, Eikon.

Analiza Si a Vorbirii - Doc Diana Iordan (Ciorba), Master TLA

Documents

Transcript of Analiza Si a Vorbirii - Doc Diana Iordan (Ciorba), Master TLA