Gadał dziad do ekranu

Już prawie 30 lat temu kapitan Kirk sterował statkiem kosmicznym Enterprise, wykrzykując: “Komputer, proszę natychmiast uaktywnić ekrany ochronne; z potrójną szybkością Warp wyruszamy w kosmos!”. Działo się to jednak w studiu telewizyjnym, w trakcie realizacji serialu “Star Trek”. Także herosi z innych epopei science fiction: “Battlestar Galactica” czy “Gwiezdne wojny” komunikowali się z mówiącymi robotami, słyszącymi drzwiami i innymi urządzeniami wyposażonymi w “uszy”. Legendarny komputer HAL z “Odysei kosmicznej 2001” potrafił nawet odczytywać mowę z ruchu ust.

SF staje się rzeczywistością

Poruszające się z prędkością światła statki kosmiczne nadal pozostają tylko wizją scenarzystów, natomiast w wykorzystaniu technologii rozpoznawania mowy na komputerach osobistych nastąpił w ostatnich latach ogromny postęp. W przyszłości słowo mówione ma szansę zastąpić uciążliwe “klepanie” w klawiaturę, dzięki czemu obsługa komputerów i innych popularnych urządzeń elektronicznych stanie się znacznie prostsza. Dziś na rynku dostępne są systemy, które potrafią odczytywać ludzką mowę. Do tej grupy należą np. pecety z odpowiednim oprogramowaniem i specjalistyczne systemy medyczne, ale również tak popularne urządzenia jak samochody czy telefony komórkowe.

Już od 1993 roku dostępne są programy do rozpoznawania mowy, przeznaczone dla komputerów klasy PC. Najnowsze aplikacje – po przeprowadzeniu intensywnego treningu – pozwalają już na uzyskanie całkiem przyzwoitych rezultatów. Przede wszystkim nowoczesne systemy rozpoznawania mowy, pracujące na pecetach, umożliwiają dyktowanie przy zachowaniu naturalnego sposobu mówienia. Do przeszłości należy więc tzw. dyskretne dyktowanie, polegające na robieniu przerw pomiędzy pojedynczymi wyrazami. Jednak nawet przy zachowaniu optymalnych warunków technika ciągłego rozpoznawania mowy ma średnią skuteczność 95 procent. Taki wynik odpowiada mniej więcej 90 błędom na każdej stronie A4, a więc – na razie – zdecydowanie wyklucza możliwość wykorzystania tej techniki do celów profesjonalnych.

Opowiedz mi receptę

Znacznie bardziej skuteczne są technologie stosowane tam, gdzie w grę wchodzi tylko ściśle ograniczone słownictwo fachowe. Na przykład programy dla radiologów przekształcają ustne diagnozy lekarskie bezpośrednio w tekst pisany. Nawet jednak w przypadku drogich systemów dla lekarzy i prawników ręczna korekta automatycznie wczytanych dokumentów jest wciąż na porządku dziennym.

Zakłócenia uboczne (np. hałas uliczny czy rozmowy telefoniczne innych pracowników biura) mogą powodować poważne błędy w rozpoznawaniu wyrazów. Czasochłonna i irytująca faza intensywnego uczenia systemów jest nadal niezbędna ze względu na różnice w dialektach, sposobie akcentowania czy nawykach językowych danego użytkownika.

Microsoft goni rywali

Postęp w tej dziedzinie napędza konkurencja. Gdy należąca do IBM-a firma Lotus zaczęła dołączać do pakietu biurowego SmartSuite (od wersji 9.0) program rozpoznający mowę ViaVoice, technika ta stała się kwestią priorytetową także dla Microsoftu. Efektem tego jest mechanizm rozpoznawania mowy w najnowszej wersji MS Office’a. Niestety, na razie produkt Microsoftu radzi sobie z rozpoznawaniem tylko języka angielskiego, japońskiego i uproszczonego chińskiego. Na

wytłumaczenie komputerowi, że Polacy nie gęsi, trzeba będzie poczekać.

Prace nad unowocześnieniem Windows poprzez dodanie modułów rozpoznawania i syntezy mowy prowadzone są już od dłuższego czasu. W tym celu Microsoft związał się ze specjalizującą się w rozpoznawaniu mowy firmą Lernout & Hauspie, która z kolei niedawno wykupiła za ponad 500 milionów dolarów producenta pakietu Dragon Dictate – spółkę Dragon Systems, a także Dictaphone oraz francuską Elan Informatique. Na początku lat dziewięćdziesiątych L&H była jedną z nielicznych firm zajmujących się technologią przetwarzania mowy. W 2001 roku wykupywanie konkurencji zakończyło się jednak… bankructwem.

Rozmowa przez 6 kanałów

Również z firmy Microsoft pochodzi nowe urządzenie do wprowadzania danych – GameVoice, które zostało specjalnie zaprojektowane z myślą o zespołowych grach w Internecie. Dzięki niemu gracze mogą komunikować się ze sobą poprzez sześć różnych kanałów oraz sterować grą za pośrednictwem głosu.

Nie tylko Okienka otwierają się na świat dźwięków. Począwszy od pierwszego kwartału 2001 roku, posiadacze wyposażonych w modem palmtopów z systemem PalmOS mogą sprawdzać głosowo osobiste terminy lub kontakty za pośrednictwem telefonu. W tym celu muszą połączyć się ze stroną serwisu AnyDay (www.anyday.com), prowadzoną przez firmę SpeechWorks, i wypowiedzieć odpowiednie polecenia słowne. Na potrzeby tej usługi firma Palm ściśle współpracuje właśnie ze SpeechWorks – znanym producentem systemów rozpoznawania mowy. W przyszłości ma zostać udostępniona dodatkowa funkcja, pozwalająca na słowne wprowadzanie nowych terminów lub adresów.

Zaangażowanie firmą SpeechWorks wskazuje na to, że prawdopodobnie już następna generacja palmtopów będzie wyposażona w funkcje rozpoznawania mowy. ViaVoice IBM-a dostępny jest nie tylko na PC, ale też dla Macintoshy i Linuksa. Fani tego ostatniego systemu mają do dyspozycji także realizujący te same funkcje moduł CMU Sphinx, opracowany na uniwersytecie Carnegie Mellon.

Więcej:bezcatnews