Na wszystko telefon

Żeglowanie po Internecie przez telefon – dlaczego nie? Wcale nie musi nim być komórka obsługująca protokół WAP, wystarczy zwykły aparat telefoniczny. Być może za jakiś czas będziemy mogli sprawdzać stan naszej skrytki e-mailowej z budki telefonicznej.

Fachowcy są zgodni: przyszłość dostępu do Internetu nie wiąże się z komputerem. Jest drogi, a jego obsługa okazuje się zbyt trudna dla większości ludzi. Wśród urządzeń, których będziemy najczęściej używać do żeglowania po Internecie, wymieniane są przystawki telewizyjne, będące w rzeczywistości okrojonymi komputerami, oraz telefony – nie tylko te obsługujące WAP. Wystarczy, by po drugiej stronie linii telefonicznej stała maszyneria umiejąca czytać strony WWW i rozumiejąca wypowiadane przez nas zdania.

Podstawowym zmysłem człowieka jest wzrok. Najbardziej przemawia do nas to, co widzimy, a poznawanie świata to przede wszystkim obserwacja. Jednak już w komunikacji między ludźmi obraz jest na drugim planie, ustępując pola dźwiękowi. I choć gesty oraz mimika twarzy pełnią ważną funkcję podczas rozmowy, to składa się ona głównie ze słuchania i mówienia.

Komputery dość szybko opanowały sztukę prezentowania obrazu. Umiejętności odtwarzania muzyki oraz głosu czy wreszcie czytania też nie są im obce. Dużo trudniej jest jednak nawiązać z pecetem sensowny dialog. Interpretacja mowy sprawia maszynom dużo większe trudności, choć i to jest już w zasięgu ich możliwości. Podstawowe pytanie brzmi jednak: po co? Producenci programów do rozpoznawania mowy twierdzą, że rozmowa to najłatwiejszy i najbardziej naturalny sposób na komunikację z komputerem. Jednak chyba każdy z nas przyzna, że o wiele łatwiej jest odnaleźć i myszką wydać polecenie ukryte w kilkupoziomowym menu, niż zrobić to samo głosem. Podobnie wybranie głosem jednego z kilkunastu czy kilkudziesięciu odnośników znajdujących się na stronie może być trudne.

Internet inaczej

Jednak nie zawsze tradycyjny dostęp do komputera jest możliwy. Są sytuacje, jak choćby jazda samochodem, w których korzystanie z klawiatury, myszki i monitora jest utrudnione. Istnieje także duża liczba osób niewidomych lub niedowidzących. Dla nich korzystanie z komputera w tradycyjny sposób jest niemożliwe.

Ubogi interfejs graficzny w przypadku przeglądarek głosowych nie jest wadą. Ważny jest sposób odczytywania informacji oraz łatwość nawigowania.

Istnieją dwa sposoby zamiany na dźwięk informacji wypisywanych na ekranie przez aplikacje. Pierwszy polega na używaniu specjalnych urządzeń, odczytujących to, co zostało już wyświetlone. Specjalny czytnik jest nakładany na ekran monitora. Ta metoda ma dużą zaletę – nie wymaga instalowania na komputerze nowych programów. Tym samym czytnik współpracuje z dowolną aplikacją – menedżerem plików, edytorem tekstów czy wreszcie przeglądarką WWW. Dodatkowo urządzenie jest przenośne. Ma jednak wadę – sporo kosztuje. Poza tym – jak to zwykle bywa – najlepsze efekty daje specjalizacja. Jeśli chodzi o żeglowanie po Internecie, wygodniejsza jest przeglądarka głosowa.

Istnieje sporo takich aplikacji. Jednak w przypadku większości z nich funkcje głosowe wydają się wyłącznie niepotrzebnym i mało funkcjonalnym dodatkiem. Chyba najbardziej użytecznym programem tego typu jest Home Page Reader firmy IBM. Aplikacja ta, opracowana przez niewidomego pracownika tokijskiego biura “błękitnego kolosa”, znakomicie nadaje się do przeglądania WWW. HPR nie wsłuchuje się jednak w wydawane przez nas komendy. Cała nawigacja odbywa się za pomocą klawiatury numerycznej. Program odczytuje na głos treść strony, pozwala poruszać się po poszczególnych akapitach oraz odnośnikach.

Style głosowe

Odczytywanie na głos zwyczajnych stron HTML jest dość trudne. Od dawna nie mają one bowiem budowy liniowej, jak w przypadku artykułu w gazecie. Bardziej przypominają stronę kolorowego magazynu, pełną krótkich notek, zdjęć i ramek. Twórcy dokumentów HTML-owych dbają o to, aby dobrze one wyglądały w przeglądarkach. To, jak zostaną przeczytane, nie ma dla nich znaczenia. Jednak przygotowanie estetycznej i funkcjonalnej strony WWW, w dodatku tak, by była łatwa do przeglądania (a raczej przesłuchiwania) programami głosowymi, nie jest trudne. Wystarczy wszystkie informacje odnoszące się do wyglądu prezentowanego tekstu i obrazków umieścić w stylach kaskadowych. W dokumencie HTML zostanie wtedy wyłącznie łatwa do odczytania treść.

Twórcy stylów kaskadowych (CSS) od początku myśleli o nietypowych przeglądarkach. W dokumencie opisującym CSS1 znalazła się tylko uwaga, że w przyszłości style powinny wspierać przeglądarki głosowe oraz terminale Braille’a. Druga wersja CSS zawiera specjalny rozdział zatytułowany “Dźwiękowe arkusze stylów”. Akustyczne prezentowanie stron WWW to mieszanka syntezy mowy oraz krókich dźwięków, tzw. ikon dźwiękowych. W specyfikacji styli kaskadowych znajduje się szczegółowy opis atrybutów określających parametry syntezowanej mowy. Należą do nich m.in. wysokość dźwięku, głośność, rodzaj (męski, żeński) oraz artykulacja. Za pomocą stylów możemy także określać położenie wybranego głosu w dwuwymiarowej płaszczyźnie odsłuchu.

Specjalizacja

HTML, dźwiękowe arkusze stylów oraz odczytujące to przeglądarki to tylko proteza, nie nadająca się do głosowego dostępu do Internetu na masową skalę. Wspomnieliśmy na początku, że przyszłość należy do telefonów. A chyba nikt nie będzie telefonicznie godzinami szperał po Sieci i w poszukiwaniu informacji przekopywał się przez setki stron WWW. Bardziej prawdopodobne jest zastosowanie telefonów do korzystania z wyspecjalizowanych serwisów informacyjnych. Niezbędne jest utworzenie odrębnych standardów, tak jak w przypadku protokołu WAP i języka WML, które ułatwią przesłuchiwanie Internetu przez telefon.

W3C już w styczniu 1998 roku opracowało listę wymagań stawianych przeglądarkom głosowym. W grudniu 1999 roku pojawił się kolejny dokument o podobnym charakterze, zawierający bardziej szczegółowe rozważania. Znajdziemy tam m.in. postulat opracowania języka opisu dokumentów dźwiękowych. Być może nie będzie to konieczne, bo takowe zostały już stworzone. Są to TalkML HP, SpeachML IMB-a, VoxML oraz VoiceXML opracowany przez grupę o nazwię VoiceXML Forum. Ta ostatnia propozycja wydaje się mieć obecnie najsilniejszą pozycję. W pracach nad rozwojem VoiceXML-a uczestniczą Motorola, AT&T, IBM oraz Lucent.

Współpraca z przeglądarką obsługującą np. VoiceXML-a nie będzie miała wiele wspólnego z tym, co kojarzy nam się z przeglądaniem Internetu. WWW oferuje pewną informację zawartą w dokumentach HTML, odnośniki hipertekstowe oraz formularze do wprowadzania danych. Dokumenty są statyczne (“dynamika” w stronach stworzonych w DHTML-u nie dotyczy prawie nigdy prezentowanych tam treści), ich budowa nie zawsze jest liniowa (tabelki, paski, szpalty itp.), a niektóre strony WWW mogą składać się z wielu części (ramki). W dokumentach głosowych treści jest mniej, a ważniejszą rolę od odsyłaczy odbrywają elementy służące do pobierania danych. Interakcj z przeglądarką polega na wysłuchaniu pewnej porcji informacji a następnie wprowadzeniu danyc i podjęciu decyzji. Przykładowy dialog przeprowadzon z systemem rezerwacji biletów znajduje się w ramce “Rozmow z komputerem”.

Nie tylko Internet

Po zapoznaniu się z przykładem można sobie zadać pytanie: czy to jest jeszcze Internet? Oczywiście wykorzystanie systemów głosowych do przeglądania WWW to tylko jedno z możliwych zastosowań. Wyspecjalizowane serwisy informacyjne wcale nie muszą mieć połączenia z Siecią. Przykładem jest choćby system obsługi klienta w sieci Plus GSM, który może być obsługiwany głosem. Rozpoznaje on wyłącznie słowa “tak”, “nie” oraz cyfry od zera do dziewięciu, co w zupełności wystarcza do uzyskania informacji na temat taryf, promocji oraz oferowanych usług. W przypadku innych serwisów (na przykład rezerwacji biletów) komputer musi być bardziej rozmowny.

Takie systemy już istnieją. Przykładem jest choćby Jupiter opracowany w Massachusetts Institute of Technology, pozwalający telefonicznie uzyskać informacje meteorologiczne w 500 miastach całego świata. Zaawansowane prace nad podobnymi produktami prowadzą też laboratoria Bella, należące do firmy Lucent. Ich produkt o nazwie TalkingBrowser ma być niedługo użyty w serwisie dla kierowców DriveThere.Com. Dzięki temu o warunkach pogodowych czy natężeniu ruchu będzie można dowiedzieć się nawet podczas jazdy samochodem. TalkingBrowser odczytuje strony WWW napisane w HTML-u, ale producent zapewnia, że w przyszłości będzie obsługiwał języki opracowane specjalnie w tym celu przez W3C. Podobny produkt w swej ofercie ma firma Nuance. Serwery dostępu głosowego tego producenta prowadzą konwersację w kilku odmianach języka angielskiego, francuskiego oraz chińskiego. Talking Browser firmy Lucent obsługuje angielski, francuski, włoski oraz hiszpański.

Czy przeglądarki głosowe wygrają z najgroźniejszym konkurentem – WAP-em? Ich zaletą jest to, że nie wymagają drogich telefonów komórkowych. Z drugiej strony według wszelkich prognoz liczba komórek ma ros-nąć, a aparatów stacjonarnych maleć. Jaki będzie finał – okaże się dopiero za jakiś czas.

Rozmowa z komputerem

Tak może wyglądać przykładowy dialog z systemem rezerwacji biletów:

Komputer:

Witamy w systemie rezerwacji biletów. Dokąd chcesz pojechać?

Użytkownik:

Chcę pojechać do Opola.

Czy powiedziałeś “Do Opola”?

Tak.

Podaj datę odjazdu.

No… siedemnasty marca.

Czy powiedziałeś jedenasty marca?

Nie, siedemnasty.

Siedemnasty marca. Podaj godzinę odjazdu.

Dwudziesta.

O dwudziestej odjeżdża pociąg Inter-City. Czy zarezerwować bilet?

Tak.

…

Dziękujemy za korzystanie z systemu.

Prognoza przez telefon

O tym, że rozmowa z komputerem może przypominać swobodny dialog z człowiekiem, przekonuje nas dostarczający informacji meteorologicznych system Jupiter, opracowany na MIT. Oto kilka przykładowych pytań, jakie można mu zadać:

– O jakich miastach w Kalifornii coś wiesz?

– A co z Francją?

– Czy jutro będzie padało w Denver?

– Czy są jakieś ostrzeżenia o powodziach w Stanach Zjednoczonych?

– A wilgotność?

Jupiter rozumie prawidłowo ok. 89% słów wypowiadanych przez osoby używające go po raz pierwszy. W przypadku użytkowników wcześniej korzystających z tego systemu poprawność sięga 98%. Współczynnik rozumienia zadawanych pytań sięga odpowiednio 80 i ponad 95%.

—

Info
Grupy dyskusyjne
Uwagi i komentarze dotyczące artykułu:#
Pytania techniczne dotyczące zagadnień poruszanych w tekście: #
Internet
Home Page Reader: http://www.austin.ibm.com/sns/hpr.html
Nuace: http://www.nuance.com/
http://www.nuance.com/index.htma?SCREEN=demo-voicebrowsing
Jupiter: http://www.sls.lcs.mit.edu/sls/whatwedo/applications/jupiter.html
TalkML: http://www.w3.org/Voice/TalkML/
VoxML: http://www.w3.org/Voice/1999/VoxML.pdf
Aural CSS: http://www.w3.org/TR/REC-CSS2/aural.html
VoiceXML: http://www.vxml.org/
W dziale Internet | Przeglądarki głosowe znajdują się wymagania dotyczące przeglądarek głosowych oraz specyfikacje VoxML-a, TalkML-a oraz Aural CSS.