Drugie uderzenie

Kilka miesięcy temu w artykule pt. “Śmierć klawiaturom” (CHIP 9/98) staraliśmy się przybliżyć Czytelnikom zagadnienia dotyczące automatycznego rozpoznawania mowy, w szczególności tzw. mowy ciągłej. Jednym z programów, które wówczas opisywaliśmy, był produkt firmy Philips – FreeSpeech98. Do redakcji trafiła nowa wersja wspomnianego produktu.

FreeSpeech98 2 to oprogramowanie, którego głównym zadaniem jest ułatwienie sterowania komputerem. Dzięki niemu użytkownik może wydawać pecetowi polecenia za pośrednictwem mikrofonu, nie zaś klawiatury czy myszki. W przypadku systemu Philipsa wykorzystanie głosu sprowadza się do sterowania komputerem poprzez wydawanie komend typu “uruchom program xyz”, “ustaw opcje…” itp. Dostępna jest też funkcja dyktowania dokumentu, który chcemy wpisać do edytora tekstu czy też arkusza kalkulacyjnego. Ponadto FreeSpeech98 może być wykorzystywany jak klasyczny dyktafon – wówczas zapisuje na dysku komputera plik dźwiękowy z wypowiedzią.

Po uruchomieniu FreeSpeech98 umieszcza na Pulpicie pasek narzędzi do sterowania rozpoznawaniem mowy dodatkowy pasek narzędzi

W testach znalazła się wersja pakietu dedykowana osobom posługującym się językiem angielskim. Poza tym istnieje wydanie programu dla amerykańskiej odmiany języka angielskiego, a także odmiana dla użytkowników niemieckich.

Nieodłącznym składnikiem każdego systemu do rozpoznawania mowy jest mikrofon, niejednokrotnie dołączany do pakietu. Tak jest w przypadku FreeSpeecha – wraz z produktem sprzedawany jest mikrofon typu SpeechMike. To urządzenie produkcji Philipsa jest zgrabnym połączeniem trackballa z mikrofonem i małym głośniczkiem. Całość – zawarta w eleganckiej i ergonomicznej obudowie – doskonale mieści się w dłoni. Speechmike, podłączany jak standardowa mysz szeregowa, oprócz zestawu przycisków myszy wyposażony został w wygodny w użyciu klawisz, za pomocą którego aktywujemy program FreeSpeech. Bardzo dobrej jakości mikrofon (wyznaczony doświadczalnie odstęp sygnału od szumów dla Speechmike’a jest mniejszy niż -56 dB) z całą pewnością pozytywnie wpływa na jakość rozpoznawania. Problematyczna jest jednak sama koncepcja Speechmike’a jako mikrofonu, który użytkownik trzyma w dłoni. Po pierwsze, powoduje to, iż w czasie dyktowania jedna ręka jest stale zajęta i nie można sprawnie posługiwać się klawiaturą. Po drugie, trzymanie w ręku mikrofonu na dłuższą metę jest dość męczące i sprawia, że użytkownik w nie kontrolowany sposób oddala i przybliża urządzenie do ust, zmieniając przy tym moc sygnału wejściowego. To z kolei prowadzi do zmniejszenia skuteczności rozpoznawania. Przypuszczalnie lepsze rozwiązanie stosuje IBM – mikrofon wraz ze słuchawkami wmontowany jest w tzw. headset.

niezbędny trening komputera i użytkownikaPrzed rozpoczęciem pracy z programem niezbędny jest trening

Przed rozpoczęciem pracy z programem należy przeprowadzić trening, którego rezultatem jest dopasowanie się systemu do specyficznych cech głosu użytkownika. Nauka polega na wyrecytowaniu wielu zdań w języku angielskim: łączny czas ich trwania nie może być krótszy niż 15 minut. Po zakończeniu ćwiczeń można przystąpić do pracy.

w skrócie
mamy to na chip-cd 7/99Philips FreeSpeech98 2
okładka freespeech98Wymagania: PC Pentium, 32 MB RAM (Windows 9x); PC Pentium, 48 MB RAM (Windows NT); karta dźwiękowa Sound Blaster, ok 10 MB na dysku
plusdołączony do pakietu dobrej jakości mikrofon SpeechMike
pluswykorzystanie rozpoznawania mowy w każdej aplikacji
plusprzejrzysta konstrukcja programu i łatwość obsługi
minusbrak wersji polskojęzycznej
minusprzeciętna jakość rozpoznawania
Producent: Philips, Holandia, http://www.philips.com/
Dostarczył: Creative Solutions, Warszawa, tel.: (0-22) 853 00 86, faks: 843 33 91, e-mail: [email protected]
Cena: 999 zł

Podstawowym parametrem charakteryzującym wszystkie programy tego typu jest jakość rozpoznawania mowy. W przypadku opisywanej aplikacji wyniki testów były przeciętne. Przed rozpoczęciem rozpoznawania przeprowadzono trening, w wyniku którego zebrano prawie 60 minut materiału dźwiękowego. Po treningu rozpoznawanie wydawanych głosem poleceń było w miarę niezawodne. Natomiast dyktowanie głosem tekstu okazało się mało efektywne. Wprowadzenie, wraz z korektą, tekstu w języku angielskim zajęło 13 minut. Większość czasu pochłonęło korygowanie źle rozpoznanych wyrazów (ok. 9 minut); dokonanie poprawek nie było możliwe jednocześnie z dyktowaniem (po pierwsze, program blokuje na czas dyktowania klawiaturę; po drugie, w jednej ręce trzymamy SpeechMike’a, a po trzecie, korygowanie głosem wymaga wyjścia z trybu dyktowania do trybu komend). Prawdopodobnie przedłużenie procedury treningu oraz dłuższe obcowanie z programem spowodowałyby podniesienie jakości rozpoznawania mowy; jednak wykracza to poza ramy ćwiczeń, które proponuje wykonać producent pakietu.

Ogólnie jednak program FreeSpeech 98 sprawił dobre wrażenie. Dołączony mikrofon, możliwość używania mowy w każdej aplikacji pod Windows, klarowna konstrukcja interfejsu i łatwość obsługi oraz – co istotne – możliwość zapamiętywania i połączenia z tekstem dźwiękowej postaci wypowiedzi to niewątpliwe plusy. Z drugiej strony stosunkowo wysoka cena, brak obsługi języka polskiego i wymaganie, aby użytkownik posługiwał się nienaganną angielszczyzną, powodują, iż krąg osób zainteresowanych praktycznym wykorzystaniem tego systemu może się okazać dość ograniczony.

Więcej:bezcatnews