Mów do mnie jeszcze

Krótki test programu rozpoznajacego ludzką mowę

Obecnie nikogo już nie dziwi, że popularne pecety wyposaża się w coraz lepsze karty dźwiękowe, choć jeszcze kilka lat temu odgłosów dopływających z komputerowego głośniczka przykro było słuchać. Rosną także możliwości oprogramowania obsługującego te multimedialne maszynki. Nie brak także aplikacji „uczących” komputer mówienia ludzkim głosem i wykonywania poleceń wydawanych przez użytkownika.

Głównym zadaniem Lektora 4.0, programu sopockiej firmy Drive, jest transformacja tekstu na mowę z wykorzystaniem mechanizmu syntezy Linear Predictive Coding (stosowanej, między innymi, w systemach telefonii GSM). Korzystając z niego, użytkownik ustala cechy generowanej „wypowiedzi”, które – generalnie rzecz ujmując – dają się zaszufladkować do dwóch grup: parametrów mowy lub głosu. Te pierwsze dotyczą cech całych konstruowanych zdań: prędkości, intonacji, akcentu oraz długości przerw między wypowiadanymi wyrazami, frazami i zdaniami.

Lektor 4.0 potrafi rozpoznać podstawowe polecenia używane w Windows i przypisać im skróty klawiaturowe skróty klawiaturowe

W wypadku parametrów głosu określamy jego cechy najbardziej rzucające się w oczy (czy może raczej uszy): natężenie (głośność), wysokość, drżenie oraz pewne właściwości dodatkowe, na przykład udział składowej szumowej (odpowiedzialnej między innymi za seplenienie). Tekst do „wypowiedzenia” wprowadzany jest za pomocą wbudowanego, prostego edytora (MiniEdita) lub importowany z plików typu TXT oraz RTF.

Lektor to jednak nie tylko program syntezujący mowę. Aplikacja potrafi także nauczyć się rozpoznawania głosu użytkownika. Możliwe jest wówczas sterowanie komputerem za pośrednictwem mikrofonu, do którego użytkownik wypowiada polecenia. Standardowo na liście „rozumianych” słów znajdują się najpopularniejsze pozycje z menu programów napisanych dla środowiska Windows ( Anuluj, Kopiuj itp.), ale nic nie stoi na przeszkodzie temu, by zdefiniować własne, wraz ze stowarzyszonymi z nimi skrótami klawiaturowymi. Przed rozpoczęciem korzystania z tej użytecznej funkcji koniecznie jednak należy przetrenować po kilka razy każde polecenie, by program „przyzwyczaił się” do głosu użytkownika.

Czy program w wersji 4.0 jest narzędziem idealnym? Niestety, nie. Najbardziej przeszkadza sztuczność generowanych głosów. Wypowiedzi brzmią zdecydowanie „syntetycznie” i bardziej przywołują na myśl roboty z filmów science fiction, niż kojarzą się z ludźmi. Niewiele można w tej dziedzinie poprawić nawet poprzez regulację parametrów określających ich brzmienie. Nie najlepiej wypada również rozpoznawanie mowy. Choć po treningu działa ono raczej poprawnie, to trzeba jednak zwracać uwagę na to, by polecenia były wypowiadane tym samym tonem i z identycznym akcentem – w przeciwnym wypadku program może je błędnie zinterpretować.

w skrócie
mamy to na chip-cd 10/98Lektor 4.0
Wymagania: PC 386; 8 MB RAM; karta dźwiękowa i mikrofon; Windows 95; 1.5 MB na dysku
plusmożliwość zdefiniowania parametrów głosu
plusrozpoznawanie komend wydawanych głosem
minusnie dopracowany algorytm rozpoznawania mowy
minusnienaturalne brzmienie generowanych głosów
Producent: DRIVE, Sopot, tel./faks: (058) 551 18 91, e-mail: [email protected]
Cena: 100 zł

Można stwierdzić, iż Lektor 4.0 jest narzędziem ciekawym, choć będzie jeszcze wymagał od producenta wielu godzin pracy, zwłaszcza nad modułem generacji mowy. Znacznie mniej czasu powinno natomiast zająć poprawianie mechanizmu jej rozpoznawania.

Jeśli ktoś chciałby mieć w domu „mówiący” i „słuchający” komputer, to powinien być zadowolony – zwłaszcza wtedy, gdy z pecetem pracuje osoba niewidoma lub też słabo widząca.

0
Zamknij

Choć staramy się je ograniczać, wykorzystujemy mechanizmy takie jak ciasteczka, które pozwalają naszym partnerom na śledzenie Twojego zachowania w sieci. Dowiedz się więcej.