Porozmawiaj z komputerem

Algorytmy rozpoznawania mowy

Nowy produkt IBM-a VoiceType oraz Dragon Dictate firmy Dragon Systems Inc. powinny umożliwić pecetom rozumienie słów i zdań wypowiadanych przez człowieka. Zasada działania programów do rozpoznawania mowy jest prosta, a ich potencjalne zastosowanie – powszechne.

Rozpoznawanie ludzkiej mowy przez komputer może okazać się przydatne podczas obsługi nowoczesnych urządzeń, zdalnego sterowania pecetami czy redagowania korespondencji. Dla osób z ciężkimi upośledzeniami narządów ruchu jest to często jedyna szansa na w miarę „normalne” życie. Zaś dla niewidomych użyteczne narzędzie komunikacji ze światem zewnętrznym.

Porozumiewanie się z komputerem

Naturalny dla człowieka sposób porozumiewania się z komputerem wspomagają zarówno aplikacje (np. Microsoft Sound System) wyposażone w małe słowniki, jak i systemy pokroju Dragon Dictate. Wbudowany mechanizm rozpoznawania mowy posiada również nowa wersja systemu operacyjnego OS/2 Warp 4 „Merlin”. Nietypowe dla IBM-a jest to, że wspomniany moduł został zaprojektowany w sposób uniwersalny i jest dostępny na rynku jako VoiceType 3.0 for Windows 95. Zalecana przez producenta minimalna konfiguracja umożliwiająca pracę z tym programem to komputer Pentium z 16 MB pamięci roboczej i kartą dźwiękową. Używany do rejestracji mowy mikrofon – podobnie jak w przypadku innych produktów – powinien charakteryzować się dobrymi parametrami. gdyż rezultat procesu dyktowania jest ściśle uzależniony od jakości wprowadzanego materiału dźwiękowego.

Rozpoznawanie pojedynczych słów

Znakomitym przykładem odizolowanej procedury rozpoznawania pojedynczych słów (głównie rozkazów) są działające w niektórych firmach centrale poczty głosowej składające się z modułów skrzynki głosowej i rozpoznawania mowy. Reagują one na polecenia przekazane słownie i łączą klientów z odpowiednimi jednostkami bez pośrednictwa klasycznej centrali telefonicznej. Ich techniczno-informacyjna złożoność jest stosunkowo niewielka, a wykorzystywane przez nie słowniki obejmują zaledwie kilkadziesiąt wyrazów.

Programy do rozpoznawania mowy
VoiceType 3.0 for Windows 95; ok. 950 USD; informacje: IBM Polska, tel.: (0-22) 625 10 10, fax: (0-22) 625 70 36, http://www.software.ibm.com/is/voicetype/index.html

Dragon Dictate 2.5; Classic Edition ze słownikiem 30 000 haseł – 695 USD; informacje: Dragon Systems Inc., USA, tel. 0-01-617-965-5200, fax: 0-01 617 527 0372, http://www.dragonsys.com/index.html

Bardziej skomplikowanymi mechanizmami rozpoznawania mowy dysponują systemy służące do dyktowania. Jednak i one osiągają zadowalające wyniki tylko w przypadku oddzielnie wypowiadanych słów. Aby wyodrębnić pojedyncze wyrazy z ciągłego potoku mowy, system taki musiałby dysponować rozległą wiedzą na temat kontekstu każdej grupy wyrazowej. Program VoiceType wymaga przy tym od użytkowników robienia co najmniej 100 milisekundowych przerw między wypowiadanymi kolejno słowami (co może być trochę uciążliwe).

Problem ze słowami złożonymi

Źródłem poważnego problemu ujawniającego się podczas rozpoznawania mowy są wyrazy złożone. Mnóstwo przykładów tego typu konstrukcji egzystuje w języku niemieckim. Jednym z nich jest Untersuchungsleiter. Znajomość poszczególnych elementów tego wyrazu (Untersuchung — badanie lub śledztwo, Leiter — przewodnik, kierownik itp.) nie pozwala jeszcze algorytmowi na rozszyfrowanie całości. Dopiero dzięki złożonej analizie kontekstowej możliwe jest ustalenie, że w tym przypadku chodzi o urzędnika policji, nie zaś o nowy typ stołu operacyjnego. Podobne kłopoty mogą sprawiać chociażby polskie drobnoustroje. Znaczenie słowa drobny nie pozostawia wątpliwości, jednak ustrój to już coś bardzo odległego od „mikroorganizmu roślinnego lub zwierzęcego widocznego tylko pod mikroskopem”.

0
Zamknij

Choć staramy się je ograniczać, wykorzystujemy mechanizmy takie jak ciasteczka, które pozwalają naszym partnerom na śledzenie Twojego zachowania w sieci. Dowiedz się więcej.