Mówiące maszyny

Z "Odysei kosmicznej 2001" pamiętamy HAL-a – inteligentny i mówiący z doskonałym akcentem superkomputer. Czy już wkrótce nasze pecety również przemówią ludzkim głosem?

Nauczenie komputera ludzkiej mowy wydaje się pomysłem rodem ze starych książek science-fiction. Każdy pewnie pamięta z „Odysei kosmicznej 2001” HAL-a – komputer sprawnie posługujący się językiem angielskim. Niestety, pomysły literackie są jeszcze dalekie od realizacji.

Sytuacja ma jednak szansę całkowicie się zmienić. A wszystko za sprawą firmy Lobal Technologies, która opracowuje Language Acquisition Device (LAD) – program pozwalający maszynie swobodnie władać językiem. Nieopatentowane jeszcze oprogramowanie stanowi nowinkę w świecie technik przetwarzania języka. LAD bazuje na pozornie prostym pomyśle: stworzenia aplikacji, która nauczyłaby się języka tak, jak robią to dzieci. Dlatego program napisano z wykorzystaniem sieci neuronowych, których zadaniem jest symulacja rozwoju centrów mózgowych, odpowiedzialnych za posługiwanie się mową.

Pierwszą aplikacją LAD będzie rozwiązanie przeznaczone dla twórców gier. Jądro LAD razem z narzędziami i API (Application Programming Interface) pozwoli projektantom gier multimedialnych na integrację procesów rozumienia i uczenia się języka przez komputer. Umożliwi to powstanie niezwykle realistycznych interaktywnych produkcji, w których gracz będzie zwracał się we własnym języku do bohaterów wirtualnego świata. Co więcej, postaci z gier będą rozumiały nasz język i mogły w naturalny sposób odpowiadać na komendy czy pytania. Pierwsza komercyjna wersja programu dla gier, który będzie nie tylko systemem do rozpoznawania mowy, ale ma również odpowiadać i „rozumieć” to, co mówi, zapowiadana była na luty 2003 roku. Niestety, ze względu na ogrom zadania i zbyt optymistyczne prognozy nie udało się dotrzymać terminu. Tym samym fani w pełni interaktywnych gier będą musieli jeszcze poczekać.

Pierwszy trop

Pomysł na stworzenie LAD-a narodził się w Anglii. Twórcą idei programu jest profesor John Taylor, matematyk z londyńskiego King’s Collage. LAD ma być realizacją koncepcji lingwistycznej sławnego amerykańskiego językoznawcy Noama Chomsky’ego, który wierzył, że ludzie mają wrodzony system mowy, działający jak szkielet dla przyszłej nauki języka. Opisując to zjawisko, Chomsky posłużył się pojęciem gramatyki uniwersalnej – „wbudowanego” w mózg zespołu reguł językowych, niezmiennych dla każdego systemu znaków. Koncepcja ta opiera się na przeświadczeniu, że każdy ma w umyśle zakodowane pewne lingwistyczne predyspozycje i model językowy, który jest na tyle ogólny, że dotyczy każdego języka. Za sprawą tego uniwersalnego zestawu reguł wiemy, jak używać słów, konstruować z nich zdania itd. Chomsky nazwał ten wrodzony system Language Acquisition Device (narzędzie do nabywania mowy). Później tę nazwę wykorzystał John Taylor podczas realizacji swojego pomysłu.

Zasada działania sieci neuronowej ACTION
Do symulacji przednich płatów mózgu służy sieć neuronowa ACTION. Jej zadaniem jest naśladowanie pracy poszczególnych ośrodków mowy. Sieć zaczyna „uczyć” się języka jak dziecko, czyli od rozpoznawania dwuwyrazowych konstrukcji, składających się z czasownika i rzeczownika (ta para wyrazów jest podstawą do wyrażania informacji o czynnościach i obiektach, z którymi te czynności są związane, a jednocześnie tworzy ona konstrukcję, nazywaną minimalnym zdaniem). Zadaniem sieci jest rozpoznanie poszczególnych części mowy. Do analizy znaczenia wykorzystane zostają połączone ze sobą moduły, zawierające informacje na temat przedmiotu i opisującego go wyrazu oraz czynności i nazywającego ją słowa. Aby sieć chciała się uczyć, dołączony został specjalny moduł „zachęty” (intencja). Umożliwia on nie tylko dokonywanie analizy „znanych” przez sieć połączeń czasowników i rzeczowników, ale również naukę nowych. Z kolei do tego, żeby sieć mogła sama tworzyć dwuelementowe konstrukcje, wykorzystuje się tzw. „wyzwalacz” i „przeniesienie”. Dzięki tym opcjom na początku sieć dobiera odpowiednie słowa, a następnie „przenosi” je do poprawnych form gramatycznych (np. dodając przypadek, liczbę, czas itp.).

LAD od podszewki

Żeby zrozumieć działanie opracowanego przez profesora Taylora programu, trzeba sobie przypomnieć, w jaki sposób dzieci zaczynają naukę mowy. Początkowo malec operuje prymitywną składnią: najpierw używa pojedynczych słów, później, mając ok. 18 miesięcy, zaczyna wymawiać dwusłowne sekwencje. Zwykle składają się one z pary rzeczownik i czasownik. Wykorzystując te obserwacje, twórcy LAD-a stworzyli ogólny, opierający się na sieciach neuronowych model przyswajania języka przez dziecko. Użyli do tego sieci ACTION, która uczy się sekwencyjnie.

Program bazuje na rekurencyjnej strukturze neuronowej, symulującej pracę przednich płatów mózgu, które są odpowiedzialne za sterowanie procesami językowymi.

To jednak dopiero szkielet. LAD wyposażony jest bowiem również w system analizy semantycznej (wnioskujący o znaczeniu słowa czy danej wypowiedzi i pozwalający operować abstrakcyjnymi pojęciami) oraz system, który służy do uczenia się nowych słów i znaczeń oraz rozwijania zdolności poznawczych programu. Co więcej, LAD ma moduł pamięci długotrwałej, pozwalającej na przechowywanie informacji, które mogą być wykorzystane w późniejszych rozmowach. Warto też wspomnieć o specjalnym systemie motywacyjnym, dzięki któremu zwiększają się możliwości uczenia się języka przez program. Tylko niektóre sieci mają tego typu system. Proces motywacyjny polega na wykorzystaniu wyniku obserwacji neurobiologicznych. Okazało się, że jeżeli znaczenie powiązań pomiędzy dwoma neuronami wzrasta i jednocześnie cały czas istnieje stan pobudzenia obu neuronów, to sieć dostaje dodatkową stymulację do działania. W przeciwnym wypadku, kiedy obie wartości maleją, sieć „wie”, że nie tędy droga.

Uczymy komputer mówić

Prace nad projektem LAD przebiegały w kilku fazach. Po pierwsze, przygotowano formalną, lingwistyczną analizę materiału językowego, czyli tego, co tworzy struktury języka. Tym samym badano fonetykę, fleksję i składnię w powiązaniu z semantyką. Z pewnością wykorzystano do tego osiągnięcia Chomsky’ego, a przede wszystkim opracowaną przez niego gramatykę, będącą najbardziej szczegółowym i formalnym opisem języka angielskiego. Następnie obserwowano, jak władają mową dorośli i jak przebiega proces nauki języka u dzieci. Niczego jednak nie udałoby się stworzyć bez dokonania wielu badań nad ośrodkami mowy w mózgu.

Wiedząc, jak rozwijają się poszczególne centra językowe w mózgu i w jaki sposób wędrują impulsy, można było zasymulować procesy umysłowe, wykorzystując do tego komputerową sieć neuronową. W ten sposób możliwe stało się „nauczenie” komputera mówić, tak jak robią to dzieci. Ostatecznym celem byłoby sprawienie, żeby komputer władał językiem w tak skomplikowany sposób, jak robi to człowiek dorosły.

Na razie nie wiemy wszystkiego na temat funkcjonowania ośrodków mowy. Niektórzy twierdzą nawet, że informacje, którymi dysponujemy, są bardzo skąpe. Niemniej jednak profesor Taylor zaznacza, że zdobyta dotychczas wiedza wystarcza do wielu eksperymentów.

Quo vadis, LAD?

Pierwszy etap tworzenia oprogramowania rozumiejącego ludzkie rozmowy i biorącego w nich udział wydaje się zbliżać ku końcowi. Profesor John Taylor zapowiada, że następnym krokiem w rozwijaniu LAD-a będą prace nad symulacją reakcji emocjonalnych. A później? Może trudno w to w tej chwili uwierzyć, ale program ma zacząć być świadomy swojego istnienia. O takich możliwościach myślano już w latach sześciesiątych. Pomysł nie jest całkiem nowy, ale jego realizacja to wciąż marzenia. Twórca LAD-a wiele uwagi poświęca obecnie temu zagadnieniu i jest przekonany, że wytworzenie świadomości w programie jest osiągalne.

Zamknij

Choć staramy się je ograniczać, wykorzystujemy mechanizmy takie jak ciasteczka, które pozwalają naszym partnerom na śledzenie Twojego zachowania w sieci. Dowiedz się więcej.