Ocena brak

W jaki sposób dokonuje się rozpoznawanie i synteza głosu przez sztuczną inteligencję?

Autor /Chaim Dodano /31.01.2012

Rozpoznawanie i synteza głosu to technologie, umożliwiające człowiekowi - rozmowę z maszyną, w której obie strony potrafią zinterpretować infor­macje i zareagować na nie. Pomysł inteligentnej wymiany zdań pomiędzy człowiekiem i kompute­rem jest ekscytujący, a technologie te należą do najaktywniej rozwijanych spośród wszystkich dzie­dzin sztucznej inteligencji.
Dziś rozpoznawanie i synteza mowy wykorzy­stywane są w automatach bankowych oraz w edy­torach tekstu, w których do komputera się mówi, zamiast wypisywć słowa za pomocą klawiatury. Dzięki temu systemowi osoba niesłysząca może rozmawiać przez telefon - przekazywane wiado­mości będą się pojawiały na ekranie. Osoby niewi­dome mogą wykorzystywać tego rodzaju systemy, w tym wypadku zamieniające tekst wprowadzony do komputera na głos. Na rozpoznawaniu głosu oparte są także niektóre systemy identyfikacji osób - hasłem jest w tym wypadku głos danej osoby.
Systemy rozpoznawania głosu wykorzystują matematyczną analizę mowy. Słowa składają się z serii dźwięków - fonemów. Syczące dźwięki, krótkie pauzy, podnoszenie głosu i inne efekty aku­styczne stanowią sygnały do identyfikacji poszcze­gólnych fonemów. Jednak ten sam fonem może w różnych okolicznościach brzmieć w inny spo­sób, co sprawia dziś ogromną trudność kompute­rom. Dlatego też większość systemów potrafi roz­poznawać zaledwie bardzo ograniczoną liczbę sygnałów, takich jak liczby czy też proste komen­dy. Systemy bardziej zaawansowane muszą roz­poznać różne fonemy, tworzące wszystkie słowa w pełnym zdaniu. Do takiego systemu należy jed­nak najpierw wprowadzić nagranie całej bibliote­ki różnych słów mówionych i ich form pisanych. Następnie system przeprowadza analizę statystycz­ną i wykorzystuje zasady językowe do zidentyfi­kowania poszczególnych fonemów i ich ciągów tworzących słowa, frazy i zdania. Na końcu do sys­temu wbudowywane są zasady gramatyki.
Działanie systemu polega na analizie mowy, porównywaniu jej z biblioteką zapamiętanych i przeanalizowanych słów. Następnie przeprowa­dzana jest analiza statystyczna, by w razie niepew­ności co do „usłyszanego" słowa maszyna wybrała wariant optymalny. Tak zbudowane zdania są na­stępnie sprawdzane pod kątem błędów gramatycz­nych. W końcu zaś to, co komputer „usłyszał", jest wyświetlane na ekranie.
Synteza mowy działa generalnie w ten sam sposób, tyle że w odwrotnym kierunku. Należy jed­nak zaznaczyć, że ten proces jest prostszy w reali­zacji, gdyż zadaniem systemu jest jedynie wytwa­rzanie rozpoznawalnych słów, a nie zrozumienie ogromnej różnorodności możliwych sposobów wymowy. Proste syntezatory mowy układają zda­nia, tworząc sekwencje z nagranych słów lektora, jednak te bardziej zaawansowane mają wbudowane wielkie słowniki wraz z danymi o różnych możli­wościach wymowy i wskazówkami, jak wygene­rować poszczególne dźwięki.
Obecnie prowadzi się prace nad systemami tłu­maczącymi z jednego języka na drugi. System taki nie może ograniczyć się tylko do przetłumaczenia poszczególnych słów - musi znać zasady grama­tyki, „orientować się" w kontekstach i dotrzeć do sensu tłumaczonego zdania.

Podobne prace

Do góry