Przyszłość rozpoznawania mowy

5000 słów mógł w 1984 roku zidentyfikować system rozpoznawania mowy firmy IBM, a każda pojedyncza analiza zajmowała kilka minut. Jego nowocześni następcy potrafią rozróżnić ponad 300 000 słów, a rozpoznawanie pojedynczych wyrazów trwa tylko sekundy. O ile jednak producenci chwalą się trafnością rozpoznawania na poziomie 99 proc., o tyle szczególnie język polski sprawia komputerom spore trudności. Po pierwsze przeciętny użytkownik języka polskiego, operujący średnio 4000 wyrazów, ma rozbudowane słownictwo. By wyrazić podobną treść Amerykanin będzie potrzebował tylko ok. 800 słów. Poza tym ogromne trudności wiążą się z rozróżnianiem homofonów, czyli słów o takiej samej wymowie, ale różniących się znaczeniowo.

3 sekund potrzebował średnio na zrozumienie pytania zadanego w teleturnieju “Jeopardy” i udzielenie poprawnej odpowiedzi stworzony przez IBM komputer Watson posługujący się językiem naturalnym. Dla jego twórcy – Davida Ferrucciego – obok właściwego rozpoznawania słów najważniejsza jest przede wszystkim analiza semantyczna i statystyczna. Dzięki tym narzędziom urządzenia przyszłości będą w stanie rozumieć właściwą treść wypowiedzi i wyszukiwać potrzebne informacje lub zarządzać kontaktami czy terminami.

Siri – fakty

Wojskowy wynalazek:

W roku 2003 agencja DARPA (Defense Advanced Research Projects Agency) zleciła instytutowi SRI stworzenie inteligentnego asystenta o nazwie CALO (Cognitive Agent that Learns and Organises). Wartość zlecenia sięgnęła ok. 175 milionów dolarów. W 2008 roku na podstawie dotychczasowych prac przygotowano wersję dla konsumentów – Siri. Apple przejął projekt Siri w 2010 roku.

Inne urządzenia z systemem iOS:

Stosując nową sztuczkę, możemy zainstalować Siri również w starszym iPhonie 4 i odtwarzaczu iPod Touch. Urządzenia muszą jednak wcześniej zostać odblokowane poprzez procedurę jailbreak.

Zużycie transferu: Serwis Ars Technica zmierzył ilość danych wysyłanych przez Siri do serwerów Apple’a podczas przetwarzania jednego zapytania – to średnio 37 KB.

Obszary zastosowań rozpoznawania mowy

Narzędzia notujące

W odróżnieniu od innych obszarów zastosowań w oprogramowaniu do komputerów osobistych istotne jest dopasowanie do konkretnego użytkownika. By osiągnąć wysoką trafność rozpoznawania, należy wcześniej zapoznać narzędzie z głosem dyktującego.

Skuteczność:

Grupy osób często używających tego samego fachowego słownictwa, na przykład adwokaci czy lekarze, osiągają trafność rozpoznawania na poziomie 99 proc. Pisarze czy dziennikarze, korzystający z szerokiego zasobu słów, muszą liczyć się ze znacznie niższą skutecznością.

Automatyczne infolinie

Firmy i urzędy wykorzystują uproszczone systemy rozpoznawania mowy, rozumiejące tylko cyfry lub pojedyncze słowa.

Skuteczność:

Rezultaty przy wybieraniu prostych opcji są bardzo dobre. Ale już lekki akcent uniemożliwia uzyskanie informacji – wówczas, podobnie jak w przypadku wielu innych infolinii, do akcji wkracza żywy pracownik.

Tłumaczenia

Appy do smartfonów takie jak bezpłatne narzędzie Google Translate tłumaczą na bieżąco języki obce.

Skuteczność:

Efekty są zaskakująco dobre. Wspomniana aplikacja Google’a rozpoznaje kilkadziesiąt języków.

Samochody

Mercedes, Audi, Ford i Fiat wykorzystują do sterowania wyposażeniem multimedialnym i telefonem pokładowym samochodu rozwiązania lidera rynku – firmy Nuance. Podobnie jak Siri w iPhonie 4S, sterowany głosem system nawigacji jest w stanie rozpoznawać nazwiska z książki adresowej podłączonego do niego telefonu.

Skuteczność:

W zależności od natężenia hałasu podczas jazdy i jakości mikrofonu system jest w stanie rozpoznać prawie wszystkie polecenia, o ile nie są wkomponowane w zdania złożone.

W taki sposób rozumie nas telefon

Mówiąca asystentka Siri w telefonach Apple’a potrafi nie tylko rozpoznawać słowa, ale też interpretować treść wypowiedzi. Pokazujemy, jak działa ta technologia.

1. Digitalizacja

Fale dźwiękowe są przekształcane przez mikrofon na ciąg bitów. Zakłócenia są identyfikowane i filtrowane dzięki porównaniu dźwięków rejestrowanych przez dwa niezależne mikrofony i analizie przerw w wypowiedzi.

2. Analiza częstotliwości

Program analizuje spektrum częstotliwości z wykorzystaniem tzw. szybkiej transformacji Fouriera (FFT). Zarejestrowane częstotliwości są zestawiane z wcześniej zapisanymi wartościami dla poszczególnych głosek.

3. Rozpoznawanie słów

Korzystając z tzw. ukrytych modeli Markowa (HMM), system rozpoznawania mowy łączy głoski w słowa. Polega to na zestawianiu sekwencji dźwięków z bazą słów, co pozwala na wybór właściwego wyrazu metodą rachunku prawdopodobieństwa. Efektywność zależy przede wszystkim od mocy obliczeniowej serwera – nowoczesne komputery mogą w krótkim czasie porównywać nawet złożone modele HMM, dzięki czemu możliwe jest płynne rozpoznawanie mówionego tekstu.

4. Rozumienie znaczenia

Komputer próbuje zrozumieć kontekst wypowiedzi. W tym celu porównywane są grupy wyrazowe złożone z czterech słów. Jeśli pada na przykład słowo “spotkanie”, Siri wie, że kolejne słowa prawdopodobnie zawierają informacje o terminie i uczestnikach.

5. Interpretacja treści

Komputer sprawdza, czy wypowiedziane słowa są powiązane z elementami zapisanymi w jego pamięci. Przykładowo Siri umożliwia określenie, jaki kontakt pasuje do słowa “ojciec”: znajduje odpowiednie imię na liście kontaktów i wyświetla je w informacjach o spotkaniu.

Historia i przyszłość Rozpoznawania mowy

Pierwsze komputery rozpoznające mowę rozróżniały tylko nieliczne słowa – dziś bazy zawierają nawet 300 000 wyrazów.

W przyszłości rozpoznawanie mowy będzie wykorzystywane przede wszystkim w urządzeniach mobilnych.

Wersja 1.0 (1968) – IBM Shoebox: Rozpoznaje 16 słów i 9 cyfr. System bazuje jedynie na wysokości tonu głosu.

Wersja 2.0 (1984) – System rozpoznawania mowy IBM: Rozpoznaje 5000 słów. Jako pierwszy system na podstawie sprawdzania kontekstu rozróżnia homofony.

Wersja 3.0 (1997) – Pierwsze produkty komercyjne: Na rynek trafia system Dragon Naturally Speaking 1.0. Aktualna wersja rozpoznaje 300 000 słów.

Wersja 4.0 (2011) – Apple Siri: Mówiący asystent w iPhonie 4S odpowiada na pytania i może wykonywać proste zadania.

Wersja 5.0 (2015) – Język naturalny w standardzie: Według analityków do tego czasu polecenia głosowe staną się standardem w smartfonach z systemami Google’a, Microsoftu i Apple’a.