Sunete si zgomote

download Sunete si zgomote

If you can't read please download the document

Transcript of Sunete si zgomote

Sunete si zgomote Intocmit de:Rat Alexandru Florin.

Sunetul s-a integrat in viata noastra cotidiana incat rareori suntem constienti de toate functiile sale.El ne ofera momente de distractie cand a ascultam o simfonie sau cantecul pasarilor;ne permite sa comunicam cu familia si prietenii nostrii prin intermediul vorbirii.Tot sunetul ne avertizeaza de apropierea unui automobil,ne atrge atentia atunci cand suna telefonul sau bate cineva la usa sau cand suna sirena unui vapor. I.Sunetele. Din mediul ambiant omul vede doar 7 culori dar spectrul luminii este mult mai complex.Urechea umana percepe sunetele cu frecventa situata intre 16-20000 vibratii/s sau hertzi,in timp ce gama acoperita de un pian de la tonul cel mai grav pana la tonul cel mai ridicat este de la 27,5Hz-4186Hz.Sunetul se propaga sub forma de unde elastice numai in substante(gaze lichide si solide) dar nu se propaga in vid.El se propaga cu 331m/s in aer.Caracteristicile lui sunt: -a)inaltimea(exprimata in frecventa vibratiei); -b)intensitatea(exprimata in energia vibratiei); 54942jet15vhx4c II.Infrasunetele. Infrasunetele sunt oscilatii sonore de frecvente foarte joase,situate sub 16Hz,deci urechea umana nu le aude.Fiintele marine,cum ar fi pestii,meduzele aud infrasunetele si simt aparitia furtunilor si uraganelor care coboara si sub frecventa de 16Hz.Oamenii nu sesizeaza in mod direct prezenta infrasunetelor dar unele modificari ale starilor fizicopshice confirma ca si organismele umane sunt totusi influentate.O recenta ipoteza lansata de savanti incearca sa dea o explicatie absolut stiintifica unor "misterioase" accidente si catastrofe.De-a lungul timpului au fost gasite pe diferite mari nave abandonate sau avand la bordul lor cadavre ale caror fete purtau expresia durerii si a groazei.Conform ipotezei amintite in timpul furtunilor sunt emise infrasunete care se propaga cu viteza sunetului,ajungand la mari departari cu mult inaintea furtunii propriu-zise,astfel incat in ciuda vremii bune se pot resimtii efectele lor.Masuratorile efectuate arata ca infrasunetele provocate de furtuni pe mari si oceane au o frecventa medie de 6Hz.S-a constatat ca infrasunetele de intensitati mari,la frecventa de 7Hz pot traumatiza grav sistemul nervos,sistemul circulator,provocand chiar moartea.Astfel s-ar putea gasi o explicatie pentru catastrofele misterioase care au avut loc pe diferite mari si oceane. Tot pe seama actiunii infrasunetelor cercetatorii explica si senzationala distrugere a unei paduri siberiene in 1908,prin explozia in atmosfera a unui meteorit.Astazi infrasunetele

pot fi produse de unele tipuri de turbine,avioane turboreactoare cum ar fi avionul Concorde. Asa cum nu pecepe vibratiile de frecvente foarte joase(infrasunetele),urechea umana nu le percepe nici pe cele de frecvente foarte inalte(ultrasunetele). eh942j4515vhhx III.Ultrasunetele. Ultrasunetele sunt vibratii sonore situate intre 20000-1000000Hz.Unele fiinte cum ar fi liliacul percepe si ultrasunetele.Ele se propaga ca si sunetele sub forma de unde elastice,mai greu prin aer decat prin lichide sau solide,avand o lungime de unda mai mica decat sunetele. Ultrasunetele pot fi produse prin mijloace mecanice(generatorul Hartman),mijloace electromagnetice,sau mijloace termice.Efectele ultrasunetele diferitelor stari de agregare a materiei si asupra organismelor vii sunt variate:unele fiind utile altele fiind daunatoare.Dintre aplicatiile utile face parte sondajul submarin pe baza de ultrasunete utilizat pentru a stabili adancimea apei sau pentru detectarea unor vase esuate in adancul marilor.O alta aplicatie o constituie defectoscopia cu ultrasunete,care permite punerea in evidenta a unor defecte in elementele de beton armat sau in organele de masini,fara a produce nici cele mai mici deteriorari suplimentare ale acestor piese. Ultrasunetele sunt utilizate la distrugerea unor bacterii sau virusuri ale unor boli contagioase cum sunt bacilul tuberculozei,virusul gripei,insa ultrasunetele au si multe efecte nocive asupra omului atunci cand acesta se afla in imediata apropiere a sursei.Dr.Williams,cercetator la Departamentul de Biofizica al Universitatii Manchester(M.B.)facand experiente pe animale apoi pe oameni,considera ca terapia cu ultrasunete poate dezintegra globulele rosii din sange si afecteaza chiar globulele albe.In cazul folosirii ultrasunetelor pentru stabilirea unui diagnostic intensitatea lor este mult mai redusa dar totusi reclama prudenta. O alta aplicatie utila este si realizarea unui bisturiu cu ultrasunete.Societatea olandeza A.H.S. a fabricat un bisturiu cu ultrasunete numit D.X.-101 utilizabil cu bune rezultate in neurochirurgie. Zgomotul si efectele sale nocive In conditiile civilizatiei contemporane,omul traieste intr-o continua ambianta sonora.Pretutindeni el este insotit neincetat de un cortegiu de sunete si zgomote de cele mai diferite intensitati avand efecte mai mult sau mai putin agresive asupra confortului si chiar asupra sanatatii sale. Zgomotul poate fi definit ca vibratii sonore fara caracter periodic care se propaga prin diverse medii(aer,apa,etc.) si care impresioneaza negativ urechea omeneasca.

Dupa -Larousse - zgomotul constitue un asmblu de sunete fara armonie.Fizicienii definesc zgomotul ca o suprapunere dezordonata cu frecvente si intensitati diferite, iar fiziologii considera zgomotul ,orice sunet suparator care produce o senzatie dezagreabila. Caracteristicile fizice sau obiective ale zgomotului privesc taria sau intensitatea,durata si frecventa. Intensitatea este caracterul cel mai important care depinde de trasaturile sursei,de distanta si posibilitatile de transmitere sau multiplicare.Ea se masoara in decibeli sau foni.Decibelul(d.B.)este o marime fizica si reprezinta unitatea logaritmica calculata pornind de la pragul absolut de audibilitate 0 d.B. pentru un sunet de 1000Hz.Fonul este unitatea de masura fiziologica de perceptie de catre urechea umana a celei mai slabe excitatii sonore.S-a admis ca cifra 80 pe scara de decibeli sau pe scara de foni reprezinta pragul la care intensitatea sunetului devine nociva. Durata reprezinta timpul cat excitantul sonor(zgomotul)actioneaza asupra analizatorului auditiv.Efectul nociv al zgomotului este direct proportional cu durata acestuia iar peste anumite limite de suportabilitate se ajunge la o pshihoza periculoasa.S-a observat ca daca zgomotul intens actioneaza un anumit timp asupra urechii drepte iar apoi asupra celei stangi,persoana respectiva are senzatia ca zgomotul este mult mai intens decat cel pe care il auzea anterior cu urechea dreapta.In acest caz se poate spune ca urechea dreapta s-a adaptat la zgomot. Frecventa reprezinta numarul de vibratii acustice intr-o secunda si se masoara in numar de perioade pe secunde sau Hz.In banda de frecvente 1000-5000Hz in care urechea are sensibilitatea cea mai ridicata,inaltimea este direct proportionala cu frecventa.Sunetele joase cuprind gama de frecvente cuprinse intre 30-400Hz;cele mijlocii 400-1000Hz iar cele inalte peste 100Hz. Nivelul zgomotului se masoara tinandu-se seama atat de intensitatea,cat si de frecventa sunetelor care-l compun.Aceste insusiri confera zgomotului potente nocive,indiferent de preferinte si de starea psihica a individului. Zgomotul poate prosuce la nivelul organului auditiv fenomenul de oboseala auditiva,traumatism sonor si surditate profesionala. 1)Oboseala auditiva este caracterizata printr-o scadere temporara a pragului perceptiei auditive;ea se accentueaza in cazul maririi intensitatiim,frecventei si timpului de expunere a zgomot.Astfel un zgomot cu intensitate de peste 92d.B. si cu ofrecventa cuprinsa intre 500-800Hz produce dupa 60 de minute de expunere o scadere temporara a auditiei. 2)Traumatismul sonor produs brusc de zgomotul puternic chiar pentru un timp foarte scurt poate cauza ruptura timpanului.Astfel de situatii se intampla in cazul unor explozii,impuscaturi,eruptii intense de gaze din recimpiente sub presiune.Dupa vindecarea leziunii poate persista surditatea pentru sunete cu frecvente de peste 9000Hz.

3)Surditatea profesionala se datoreaza efectuarii anumitor activitati expuse in mod deosebit la zgomot.Surditatea datorata zgomotelor se caracterizeaza printr-o pierdere definitiva si ireversibila a auditiei. Surse de poluare sonora

Sursele de poluare sonora sunt foarte numeroase si diferite.Acestea sunt: a)circulatia sau transporturile b)industria c)constructiile si montajele d)comertul e)copiii in terenurile de joaca(tipetele lor inregistrand 70-80d.B. f)terenurile sportive si stadioanele(zgomotele provenite din acestea fiind de peste 100d.B. g)animalele(cainii,pisicile,pasarile)pot tulbura linistea mai ales noaptea. Latratul unui caine inregistreaza intensitati sonore de 70-80d.B. Masurile de combatere a zgomotului se impun ca o necesitate de prim ordin si ele sunt foarte numeroase.Astfel pentru diminuarea zgomotului produs de traficul rutier,perdelele forestiere constituite din arbori si arbusti au capacitatea de a reduce zgomotul cu circa 10d.B. Bibliografie

1)Carsium,M.A.;Postelnicu M.-Indreptar de cultura generala,ed.Porto-Franco,1993. 2)Dorobont,A.;Costin,A. -Poluarea sonora si civilizatia contemporana,ed.Tehnica,Bucuresti,1982. 3)Ursoniu,C;Dumitrescu C.-Poluarea sonora si consecintele ei,ed.Faclia,1976.

Recunoaterea vocal este procesul de convertire a cuvintelor vorbite n format digital care poate fi utilizat ulterior pentru tiprire, arhivare, cutare. Termenul de recunoatere vocal poate nsemna i recunoaterea vorbitorului. Domeniile de aplicabilitate sunt: Medicin (transcriere medical), Armat (comenzi vocale pentru aparate de zbor), antrenarea controlorilor de zbor i pentru persoanele cu handicap.

Din punct de vedere fiziologic, sunetul constituie senzaia produs asupra organului auditiv de ctre vibraiile materiale ale corpurilor i transmise pe calea undelor acustice. Urechea uman este sensibil la vibraii ale aerului cu frecvene ntre 20 Hz i 20 kHz, cu un maxim de sensibilitate auditiv n jur de 3500 Hz. Acest interval depinde mult de amplitudinea vibraiei i de vrsta i starea de sntate a individului. Sub amplitudinea de 20 Pa vibraiile nu mai pot fi percepute. Odat cu vrsta intervalul de sensibilitate se micoreaz, n special frecvenele nalte devin inaudibile. Din punct de vedere fizic, sunetul are o definiie mai larg, el nefiind legat de senzaia auditiv: orice perturbaie (energie mecanic) propagat printr-un mediu material sub forma unei unde se numete sunet. n aceast definiie se includ i vibraii la frecvene din afara domeniului de sensibilitate al urechii: infrasunete (sub 20 Hz) i ultrasunete (peste 20 kHz). Un caz particular de sunet este zgomotul, care se remarc prin lipsa obiectiv sau subiectiv a unei ncrcturi informaionale. Zgomotul deranjeaz fie prin senzaia neplcut pe care o produce, fie prin efectul negativ asupra transmiterii de informaie. Orice zgomot poate fi perceput ca sunet util dac i se atribuie o valoare informaional. Din punct de vedere muzical (sau estetic), sunetul este o entitate caracterizat de patru atribute: nlime, durat, intensitate i timbru. nlimii i corespunde frecvena (msurat n Hz). Intensitii i corespunde nivelul de intensitate sonor (msurat n dB).

[modific] Viteza sunetuluiArticol principal: Viteza sunetului. Viteza cu care se propag undele sonore depinde de mediul de propagare, n particular de elasticitatea i densitatea acestuia. n fluide (gaze i lichide) particip la propagarea sunetului numai deformarea volumic a mediului; la solide mai intervin i forele de forfecare. Exemple:

aer: 343 m/s (la 20 C); ap dulce: 1435 m/s;

oel: 5100 m/s.

Viteza sunetuluiDe la Wikipedia, enciclopedia liber Salt la: Navigare, cutare Viteza sunetului este unul dintre parametrii care descriu propagarea sunetului printr-un mediu. Aceast vitez depinde de proprietile mediului de propagare, n particular de elasticitatea i densitatea acestuia. n fluide (gaze i lichide) particip la propagarea sunetului numai deformarea volumic a mediului; la solide mai intervin i forele de forfecare. Formulele generale pentru viteza sunetului n aceste tipuri de mediu snt Mediu Gaze i lichide Formul

Variabile este modulul de elasticitate volumic, adiabatic

este densitatea fluidului E este modulul lui Young este densitatea solidului

Solide

Cuprins[ascunde]

1 n gaze o 1.1 Numrul lui Mach 2 n lichide 3 n solide 4 Note

[modific] n gazen aer i alte gaze viteza sunetului depinde n primul rnd de temperatur. De exemplu la 0C viteza sunetului este de 331,5 m/s, iar la 20C aproximativ 343,4 m/s. Presiunea are un efect mic, iar umiditatea nu are aproape nici un efect asupra vitezei. Pentru aer, formula aproximativ de mai jos permite calculul vitezei de propagare a sunetelor n funcie de temperatur, pentru un domeniu de temperaturi n jur de 0C:

unde t este temperatura aerului exprimat n grade Celsius. Aceast formul este aproximaia liniar (primii doi termeni din seria Taylor) a funciei:

care permite calculul mai exact al acestei dependene n ipoteza c variaia cu temperatura a capacitii calorice a aerului este nul; erorile derivate din aceast ipotez snt mici n condiiile temperaturilor obinuite din atmosfer, dar cresc n special la temperaturi nalte. Coeficientul pentru aproximaia liniar se obine astfel ca

[modific] Numrul lui MachMach (pronunie /mah/, dup numele fizicianului austriac Ernst Mach) este o unitate de msur folosit n aerodinamic pentru a exprima viteza unui corp care se deplaseaz ntr-un fluid: proiectil, avion, rachet etc. Viteza Mach 1 este egal cu viteza sunetului n fluidul respectiv; n condiii standard Mach 1 este egal cu 1224 km/h (sau 340 m/s). Numrul lui Mach este o mrime adimensional care arat de cte ori este mai mare viteza unui mobil dect viteza sunetului n acel mediu. Valorile subunitare ale numrului lui Mach nseamn viteze subsonice (mai mici dect viteza sunetului), iar valorile supraunitare nseamn viteze supersonice. O clasificare mai detaliat definete n plus vitezele transsonice (ntre Mach 0,8 i Mach 1,2) i vitezele hipersonice (mai mari de Mach 5).

[modific] n lichideViteza sunetului n lichide este mai mare dect n gaze, pentru c dei densitatea este mai mare (ceea ce ar nsemna o inerie mai mare deci o vitez inferioar), compresibilitatea lichidelor este mult mai mic dect a gazelor, ceea ce face ca o perturbaie a presiunii ntr-un punct s se propage rapid la punctele vecine. Astfel, n aer viteza sunetului este de 330-350 m/s, iar n ap este de aproximativ 1500 m/s. Cunoaterea precis a vitezei sunetului n ap este important ntr-o serie de domenii precum cartografierea acustic a fundului oceanic, aplicaii ale sonarului subacvatic, comunicaii etc. Viteza sunetului n ap depinde de o serie de parametri:

presiune (deci i adncime); temperatur: aproximativ 4 m/s la 1C;

salinitate: aproximativ 1 m/s la 1.

Modul n care se comport aceast dependen este complicat, de aceea practic se folosesc formule empirice.[1] O astfel de formul, suficient de simpl i de precis, este cea propus de Kenneth V. Mackenzie n 1981:[2] c(t,s,z) = a1 + a2t + a3t2 + a4t3 + a5(s - 35) + a6z + a7z2 + a8t(s - 35) + a9tz3, unde t este temperatura n grade Celsius, s este salinitatea n pri la mie, iar z este adncimea n metri. Cei nou coeficieni a1, a2, ..., a9 snt: a1 = 1448,96; a2 = 4,591; a3 = -5,30410-2; a4 = 2,37410-4; a5 = 1,340; a6 = 1,63010-2; a7 = 1,67510-7; a8 = -1,02510-2; a9 = -7,13910-13 Pentru parametrii t = 25C, s = 35 i z = 1000 m se obine valoarea vitezei c = 1550,744 m/s. Eroarea de calcul a vitezei n limitele obinuite ale parametrilor este de sub 0,2 m/s.

[modific] n solidentr-o bar a crei seciune este mult mai mic dect lungimea de und a sunetului viteza de propagare depinde de modulul lui Young i de densitatea solidului:

De exemplu, ntr-o bar de oel viteza sunetului este de aproximativ 5100 m/s. Cnd dimensiunile transversale ale mediului devin comparabile cu lungimea de und aceast formul nu mai este corect, viteza real fiind mai mare. Pentru o bar cu seciunea transversal mult mai mare dect lungimea de und modulul lui Young trebuie nlocuit cu modulul undei plane, M, care se poate calcula din modulul lui Young i coeficientul lui Poisson, :

Viteza de propagare a sunetului calculat astfel este mai mare. De exemplu oelul are un coeficient Poisson de aproximativ 0,3, ceea ce face ca viteza sunetului ntr-un bloc de oel s fie de aproximativ 5900 m/s.

Recunoatere vocal n sisteme distribuiteDe la Vasile Alaiba - MediaWikiSalt la: navigare, cutare

Cuprins[ascunde]

1 Introducere 2 Tipuri de recunoatere vocal 3 Arhitectura o 3.1 Arhitectura unui sistem de recunoatere vocal o 3.2 Arhitectura unui sistem distribuit de recunoatere vocal 4 Algoritmi o 4.1 Dynamic Time Warping o 4.2 HMM (Hidden Markov Models/Modele Markov Ascunse) 4.2.1 Generaliti 4.2.2 Algoritmi bazai pe HMM 5 Aplicaii care folosesc recunoaterea vocal 6 Bibliografie

IntroducereRecunoaterea vocal n informatic poate fi descris ca o modalitate de introducere a datelor n calculator prin identificarea cuvintelor vorbite. De-a lungul timpului au fost folosite diverse dispozitive de introducere a datelor, precum tastatura, mouse-ul, joystick-ul, tabletele digitale. Recunoaterea vocal este un alt asemenea dispozitiv. Acest mod de introducere a datelor nu va putea probabil s nlocuiasc n totalitate mouse-ul sau tastatura, pentru c unii utilizatori vor alege pe acestea din urm pentru anumite activiti, iar pentru realizarea altor activiti va fi mai eficient s se foloseasca recunoaterea vocal. n mod obinuit, recunoaterea vocal este folosit pentru a eficientiza utilizarea unor aplicaii, sau pentru a accesa anumite functionaliti mai rapid dect cu ajutorul celorlalte dispozitive de intrare. Aplicaiile care pot beneficia de pe urma folosirii recunoaterii vocale sunt cele n care utilizatorul este nevoit s foloseasca ct mai putin minile: dispozitivele fr-mini, n care ecranul nu este vizibil. Condusul unei maini este un exemplu tipic: oferul poate fi atent la drum i n acelasi timp s schimbe postul de radio, s iniieze o convorbire telefonic sau s regleze aerul condiionat.

n contextul sistemelor distribuite, recunoaterea vocal se aplic n domeniul dispozitivelor mobile. Recunoaterea pe aceste dispozitive este restricionat datorit unor limitri hardware: spaiul de stocare este limitat (aceasta duce la folosirea unor modele acustice i de limbaj mai mici, n acest mod scaznd performana), frecvena mic a procesorului (mpiedica folosirea algoritmilor optimi pentru recunoatere), nu exist suport hardware pentru instruciuni n virgul mobil, microfoane ieftine (degradarea semnalului audio), consum mare de energie n timpul operaiei de recunoastere (scade durata de via a bateriei). Recunoaterea vocal distribuit permite dispozitivelor mobile wireless, cu putere de procesare mic, s expun utilizatorului o interfa vocal, pe lnga cea grafic. Semnalul audio achizitionat de la dispozitivului mobil este transmis prin intermediul retelei wireless ctre un server care conine aplicaia de recunoatere. Pentru a minimiza limea de band folosit i a maximiza durata de via a bateriei dispozitivului mobil, semnalul audio este compresat nainte de a fi transmis. Rezultatele gsite n urma procesrii semnalului vocal sunt transmise dispozitivului mobil pentru a fi prezentate utilizatorului.

Tipuri de recunoatere vocalSistemele de recunoatere vocal pot fi mprite n cteva categorii, n functie de tipul frazelor pe care le pot recunoate. Aceste categorii sunt bazate pe faptul c una din dificultile pe care le ntmpin aceste sisteme este determinarea momentului cnd un utilizator a terminat de vorbit o comand. Categoriile sunt urmatoarele:

cuvinte izolate aplicaiile de recunoatere care sunt bazate pe acest sistem, necesit ca un cuvnt sa fie precedat i urmat de pauza (lipsa de semnal audio). Asta nu nseamna c aceste sisteme accept doar un cuvnt per comanda, ci c pot procesa comenzile n mod iterativ, cu pauze ntre ele. cuvinte conectate sistemele de acest fel sunt asemanatoare celor care folosesc cuvinte izolate, cu diferena c pot procesa mai multe fraze, cu o pauz minim ntre ele. vorbire continua acest tip de sisteme permit utilizatorilor s vorbeasc aproape natural, n timp ce aplicaia determin coninutul vorbit. vorbire spontana aceast categorie de sisteme poate procesa diferite forme de vorbire natural, reuind s proceseze cuvinte vorbite cu accent diferit, cu diferite interjectii ntre ele, si chiar cu mici blbieli. verificarea vocii reprezint sistemele care sunt capabile s recunoasc diferii utilizatori.

O alt modalitate de a diferenia aplicaiile de recunoatere a vocii este dup dependena de utilizator. Daca aplicaia poate recunoate cuvinte de la orice utilizator, far a necesita o antrenare nainte de recunoatere, intr in categoria aplicaiilor de recunoatere independente de utilizator. Dac aplicaia necesit antrenare nainte de recunoatere, atunci aplicaia este dependent de utilizator.

ArhitecturaArhitectura unui sistem de recunoatere vocalUn sistem de recunoatere vocal este compus dintr-o componenta de procesare a semnalului audio, o componenta de recunoatere vocal i o component de postprocesare.

componenta de procesare a semnalului audio extrage din semnalul audio, vectori de caracteristici (prile din semnalul audio care sunt relevante pentru recunoatere) care vor fi procesai de ctre componenta de recunoatere.

Figura 1. Procesarea semnalului audio

componenta de recunoatere vocal realizeaz recunoaterea propriuzis, folosind algoritmi specializai, bazati pe HMM (Hidden Markov Model), si programare dinamica. componenta de postprocesare (opional) realizeaz o procesare adiional asupra rezultatelor obinute n etapa de recunoatere, pentru o filtrare mai buna a rezultatelor i pentru creterea acurateii sistemului.

Figura 2. Arhitectura unui sistem de recunoatere vocal

Arhitectura unui sistem distribuit de recunoatere vocalRecunoaterea vocal distribuit este reprezentat de o arhitectur client-server, unde o parte a sistemului de recunoatere vocal se afl la client (modulul de extragere a caracteristicelor vocale), iar modulul care execut operaiile complexe necesare pentru algoritmii de recunoatere se afl pe server.

Figura 3. Arhitectura unui sistem distribuit de recunoatere vocal Pentru a realiza recunoaterea, nu e nevoie de o calitate inalt a semnalului audio, ci doar de civa parametri caracteristici. Astfel, nu e nevoie de o rat mare de transmitere a datelor, fiind ndeajuns un minim de 4.8kbit/s pentru transmiterea caracteristicilor vocale.

Pentru acest tip de sistem mai apar un numr de componente:

componenta de compresie a caracteristicilor vocale - are rolul de a codifica vectorii de caracteristici, pentru a reduce dimensiunea datelor care trebuie trimise la server, micornd astfel timpul de transfer. componenta de transmitere a datelor - este reprezentat de un protocol de transport VoIP. componenta de decodificare a vectorilor de caracteristici vocale - are rolul de a recontrui informaia care a fost compresat pe partea de client.

AlgoritmiDynamic Time WarpingAlgoritmul DTW este unul din cei mai vechi si cei mai importani algoritmi folosii n recunoaterea vocal. Cea mai simpl metod de a recunoate un cuvnt izolat este s fie comparat cu un numr de abloane predefinite i de a determina ablonul cu care se potrivete mai bine. Aceast metod este complicat de un numr de factori:

n primul rnd, diferite versiuni ale aceluiai cuvnt pot avea dimensiuni diferite, din punctul de vedere al semnalului audio. Aceast problem poate fi rezolvat normaliznd abloanele i datele audio ale cuvntului care trebuie procesat, astfel nct ambele s aib aceeai durat. o alt problem poate fi faptul c rata vorbirii poate s nu fie constant pe toat lungimea semnalului audio (alinierea dintre ablon i informaia vocal poate sa fie neliniar).

DTW este folosit pentru a gsi alinierea neliniar optim. DTW face parte din clasa algoritmilor care aparin programrii dinamice. Complexitatea timp i spaiu a algoritmului este liniar, fiind influenat de durata semnalului audio i de mrimea vocabularului. Algoritmul realizeaz o singur trecere printr-o matrice de scoruri asociate frame-urilor (pe linii conine frame-urile din abloanele predefinite, iar pe coloane conine frame-urile semnalului audio) calculnd segmentele locale optimizate ale alinierii. Descriere:

fie D(x, y) distana euclidean dintre frame-ul x aparinnd semnalului audio i frame-ul y aparinnd ablonului

fie C(x, y) scorul cumulat de-a lungul alinierii optime care duce la perechea (x, y), atunci:

C(x, y) = MIN( C(x-1, y), C(x-1, y-1), C(x, y-1) ) + D(x, y)

Figura 4. Dynamic time warping O aliniere optim este calculat pentru fiecare ablon, i cea cu scorul cumulat minim este considerat cea mai bun alegere pentru semnalul audio respectiv. Exist multe variante ale algoritmului DTW, cea mai important fiind algoritmul One Stage DTW, care este folosit pentru recunoaterea vorbirii continue. Acest algoritm gsete alinerea optim dintre semnalul audio i cea mai bun secven de abloane. Complexitatea pentru acest algoritm rmne liniar depinznd de lungimea semnalului audio i n mrimea vocabularului.

HMM (Hidden Markov Models/Modele Markov Ascunse)

GeneralitiUn model Markov ascuns este reprezentat de o colecie de stri conectate prin tranziii (Figura 5). ncepe ntr-o stare iniial precizat in prealabil, apoi la fiecare pas temporal se activeaz o tranziie care duce ntr-o stare nou , unde se va genera un simbol de ieire. Alegerea tranziiilor i a simbolurilor de ieire sunt aleatoare, fiind controlate de distribuia unor probabiliti care depind de modelul acustic. Modelele Markov ascunse

pot fi comparate cu o cutie neagr, unde este vizibil doar secvena de simboluri de ieire generate pe o anumit durat de timp, dar secvena strilor prin care se trece n acea perioada de timp este ascuns (de unde i denumirea de modele Markov ascunse).

Figura 5. Un model Markov ascuns, cu 2 stri i 2 simboluri de ieire, A i B n recunoaterea vocal, strile din HMM-uri sunt interpretate ca modele acustice, indicnd ce sunete pot fi auzite pe diferite segmente de semnal audio, iar tranziiile introduc constrngeri temporale indicnd n ce secven se vor activa strile. Deoarece vorbirea se deplaseaz intotdeauna inainte din punct de vedere temporal, tranziiile dintro aplicaie de recunoatere vocal, se vor activa ntr-un singur sens, sau activnd aceeai stare, permind acesteia s aib o durat variabil. n reprezentare formal un model Markov ascuns conine urmtoarele elemente:

{s} = o mulime de stri {ai,j} = o mulime de probabiliti de tranziie, unde ai,j este probabilitatea ca tranziia s treac din starea i n starea j bi(u) = o mulime de probabiliti de emisie, unde bi este distribuia probabilitii peste spaiul acustic care descrie posibilitatea emiterii fiecrui sunet u, ct timp starea i este activ

Algoritmi bazai pe HMM

Algoritmul Forward - este folosit pentru recunoaterea cuvintelor izolate Algoritmul Viterbi - folosit pentru recunoaterea vorbirii continue (dictare) Algoritmul Forward-Backward - folosit pentru antrenarea modelelor Markov ascunse

Toi aceti algoritmi sunt derivai din DTW i calculeaz secvena de stri cu probabilitatea cea mai mare, avnd ca date de intrare un set de probabiliti.

Aplicaii care folosesc recunoaterea vocaln principiu, orice aplicaie care necesit interaciune cu utilizatorul uman poate beneficia de o interfa de control vocal. Totui, aplicaiile de recunoatere vocal au o aplicabilitate marit n urmtoarele domenii:

Dictare folosit n contextul domeniilor medicale, legale si de afaceri, unde pot fi folosite un set de vocabulare speciale pentru a mri rata de recunoatere a sistemului. Comand i control sistemele sunt configurate s execute o anumit aciune la recunoaterea unui cuvnt (a unei comenzi). Telefonie avnd n vedere c interaciunea telefonic este in proporie de 90% realizat prin voce, recunoaterea vocal este foarte important n acest domeniu (ex: unele sisteme de pot vocal permit utilizatorilor s vorbeasc comenzile, n loc s apese tastele telefonului) Medical/Persoane cu handicap multe persoane care nu pot folosi tastatura/mouse-ul din cauza unei boli, pot folosi cu uurin diferite interfee vocale (ex: persoane care au auzul deficitar, pot folosi o aplicaie pe telefonul mobil care transform informaia vorbit n text). Aplicaii embedded folosite cu precdere n industria automobilistic, unde utilizatorul trebuie s fie atent la drum, si nu la interfaa grafic a computerului de bord.

Aplicaii: Xvoice este o aplicaie de recunoatere pentru dictare (vorbire continu) care poate fi folosit cu diverse aplicaii Xwindow. Pentru a fi folosit necesit instalarea n prealabil a motorului de recunoatere ViaVoice, creat de IBM, si configurarea acestuia din urm. Pagina aplicaiei: http://xvoice.sourceforge.net/xvoice-sphinx/ CvoiceControl-kVoiceControl este un sistem de recunoatere vocal care ofer funcionalitate de baz pentru a executa aciuni folosind comenzi vocale sub Linux. Aceast aplicaie este uor configurabil, dnd posibilitatea de adaugare de comenzi noi de ctre utilizator. Pagina aplicaiei este: http://www.kiecza.net/daniel/linux/. CMU Sphinx este dezvoltat de CMU (Carnegie Mellon University), iniial a fost closed

source, dar a devenit open source. Acesta este un program destul de avansat, coninnd multe unelte (modele acustice, modele de limbaj, compilatoare de gramatici) i opiuni de configurare, fiind destinat n principal utilizatorilor avansai si programatorilor. Pagina aplicaiei este: http://cmusphinx.sourceforge.net/html/cmusphinx.php. MMP (MultiMediaPlatform) este dezvoltat de compania Continental (fosta Siemens VDO). Aplicaia reprezint o platform de dezvoltare pentru produse multimedia n domeniul automotive. Aceasta conine, pe lng alte funcionalitti multimedia, o interfa vocal destul de performant. Produsul este inc in curs de dezvoltare. Detalii: MMP

Microfonul este un aparat care transform sunetul n semnale electrice. Acesta are multe aplicaii, fiind folosit ndeosebi n radioteleviziune i n telecomunicaii.