Co powiedzieć AI, żeby dostać kawę?

Innovation@Amazon — Na początek Rafał Kukliński z polskiego oddziału Amazona pochwalił się, czym zajmuje się Amazon w Gdańsku (fot. CHIP).

Konferencję rozpoczął Rafał Kukliński, dyrektor zarządzający gdańskiego Amazon Development Center in Poland. Czemu Amazon wybrał nasz kraj do założenia jednego ze swoich centrów deweloperskich? Odpowiedzą jest doskonale znany, polski syntezator mowy Ivona. Amazon przejął firmę IVONA Software wraz z całym jej dorobkiem technicznym i intelektualnym w styczniu 2013 roku. Na konferencji nie ukrywano, że współczesny inteligentny asystent głosowy opracowany przez Amazona – mowa oczywiście o Alexie – powstał właśnie dzięki wiedzy zespołu pracującego nad Ivoną.

Po krótkiej prezentacji osiągnięć gdańskiego centrum Amazona, Kukliński przedstawił prelegentów konferencji Innovation@Amazon. Pierwszy na scenie pojawił się Rumi Sarikaya, pełniący w Amazonie funkcję Director of Applied Science. Pracujący w zespole Alexa Machine Learning Team Sarikaya podjął się zadania wyjaśnienia zebranym czym jest “Alexa Brain” i dlaczego ważne jest, by maszyny porozumiewały się z nami w języku naturalnym.

Zdaniem Rumiego Sarikayi, interfejs głosowy na linii człowiek – maszyna to przyszłość. Ważne jest jednak, by komunikacja tą drogą odbywała się bez najmniejszych tarć i przeszkód. Maszyna musi bardzo dobrze rozumieć ludzką mowę, niezależnie od akcentu, specyficznego dla konkretnej osoby sposobu mówienia itp. Jeżeli tak nie jest, człowiek szybko zniechęci się do takiej formy interakcji z inteligentnym asystentem. Takie podejście jest między innymi przyczyną, dla której Alexa – inteligentny asystent Amazona – ujrzała światło dzienne nie pod postacią aplikacji w smartfonie (czy dajmy na to w czytniku Kindle) tak jak w przypadku konkurencyjnych rozwiązań, tj. Siri Apple, Asystent Google czy Cortana Microsoftu, lecz w postaci głośnika Amazon Echo.

Proces maszynowego “zrozumienia” człowieka, a dokładniej wydawanego przez niego polecenia czy zadawanego pytania przebiega wieloetapowo. Poszczególne etapy przedstawia powyższy slajd prezentujący co dzieje się w przypadku, gdy zapytamy Alexę o pogodę. Najpierw pracę rozpoczyna moduł ASR (Automated Speech Recognition), dzięki któremu maszyna “wie” co użytkownik wypowiedział.

Jednak zrozumienie słów, a zrozumienie znaczenia i pojęcie intencji użytkownika to zupełnie różne sprawy. Dlatego kolejny etap do działanie modułu NLP (Natural Language Processing), którego zadaniem jest rozpoznanie intencji użytkownika, czyli znaczenia wydanego polecenia/pytania w kontekście w jakim ono zostało wypowiedziane. Jeżeli intencja zostaje rozpoznana, następnym etapem jest przypisanie tzw. “umiejętności” (ang. skill), czyli konkretnej funkcji obsługiwanej przez inteligentnego asystenta. W przypadku pytania o pogodę następuje wywołanie źródła danych na temat pogody. Gdy dane zostają otrzymane pozostaje je przetworzyć na mowę (mechanizm TTS – text-to-speech) i użytkownik słyszy odpowiedź na zadane pytanie.

Z kolei Max Amordeluso, kolejny prelegent na konferencji, przekonywał zebranych, że interfejs głosowy to naturalny, kolejny etap w rozwoju interfejsów człowiek-maszyna. Zaczynaliśmy od tekstu, przez interfejs graficzny, webowy i mobilny. Teraz czas na jak najbardziej naturalną rozmowę z maszyną.

"250 000 użytkowników oświadczyło się Alexie." -Max Amordeluso @Amazon #InnovationAmazon pic.twitter.com/BSO6VxMKaT

— AmazonNewsPL (@AmazonNewsPL) September 30, 2017

Max Amordeluso dowodził, że Alexa radzi sobie z rozmową z człowiekiem tak dobrze, że Amazon odnotował, że wielu użytkowników, posiadaczy głośnika z Alexą, oświadczało się inteligentnemu asystentowi.

Tak jak wcześniej wspomniano, sednem inteligencji Alexy są nie tylko procedury rozpoznawania i rozumienia tego co mówi człowiek, ale przede wszystkim tzw. skills, czyli umiejętności, czy też funkcje, które Alexa może – na żądanie człowieka – realizować. Wcześniej wspomnieliśmy przykład z pytaniem o pogodę, jednak Alexa potrafi dużo więcej. Funkcji realizowanych przez asystenta Amazonu jest ponad 25 tysięcy.

Na powyższej ilustracji przykład tego, jak Alexa rozkłada na czynniki pierwsze polecenie użytkownika, który za jej pośrednictwem chce zamówić kawę w Coffee Now. Pierwsze słowo to wywołanie asystenta, następnie słowa-klucze określające typ polecenia, dalej mamy intencję użytkownika oraz przedmiot zamówienia.

Jeszcze ciekawsza była prezentacja Juliena Simona dotycząca głębokiego uczenia maszynowego dla deweloperów. Simon przybył na prezentację z własnoręcznie skonstruowanym robotem, który był zdalnie sterowany za pomocą Alexy.

Przykład z robotem miał udowodnić, że każdy programista może wykorzystać sztuczną inteligencję Amazona i poszczególne funkcje przez nią oferowane we własnych projektach. Podczas tego wykładu Julien Simon wyjaśniał również podstawy maszynowego uczenia, jak wygląda cyfrowy neuron, jak przebiega proces uczenia maszynowego, a na koniec uruchomił głosem własnego robota i zrobił widowni za jego pomocą zdjęcie, które następnie wyświetlił na własnej stronie internetowej.

W polskim centrum programistycznym Amazona pracuje się niewątpliwie nad ciekawymi projektami, ale w jaki sposób się pracuje? W sensie jak pracują zatrudnieni w Amazonie programiści? Na te pytania odpowiadał kolejny prelegent, Staszek Pasko, który odsłonił niuanse związane z tym, w jaki sposób programiści pracują u amerykańskiego giganta. Amazon wyznaje zasadę “two pizza teams”, czyli niewielkie zespoły projektowe, pracujące nad konkretnym zagadnieniem (i w pełni za niego odpowiedzialne). Jak niewielkie? Kilku-osobowe, a dokładniej takie, które są w stanie wyżywić się dwiema pizzami.

O ile prezentacja metodyki pracy w Amazonie mogła zainteresować raczej tych, którzy swoją karierę wiążą z Amazonem właśnie, o tyle kolejny wykład poprowadzony przez dr Animę Anandkumar okazał się potężną dawką wiedzy na temat najnowocześniejszych metod maszynowego uczenia w wielkiej skali, problemów stojących przed maszynowym uczeniem i narzędzi jakimi dziś dysponują badacze sztucznej inteligencji.

Wiele publikacji popularno-naukowych poruszających temat maszynowego uczenia, dość lekce sobie waży kwestię skomplikowania tego zagadnienia. Współcześnie problemem jest nauczenie konkretnego systemu w jak najlepszy sposób w jak najkrótszym czasie. Im dłużej trwa proces uczenia, tym mniej opłacalna staje się powstała w jego wyniku sztuczna inteligencja. Z kolei uczenie nie może być zbyt krótkie, bo wtedy maszyna nie będzie realizowała poprawnie stawianych przed nią zadań.

Jedną z ostatnich prezentacji na odwiedzonej przez nas konferencji Innovation@Amazon poprowadził Vikas Enti, starszy menedżer w dziale Amazon Robotics. Znowu było o robotach, o tysiącach robotów zatrudnionych w gigantycznych centrach magazynowych Amazona na całym świecie.

Dzięki robotom ludzie nie muszą już pokonywać dziennie dziesiątek kilometrów (dosłownie) podczas przetransportowywania milionów paczek w magazynach i sortowniach. Najcięższe prace wykonują roboty przypominające nieco płaskie automatyczne roboty sprzątające. Te zatrudnione w Amazon Robotics jednak nie sprzątają, tylko przewożą całe “szafy” z już uporządkowanymi przez ludzi produktami. Ze względu na olbrzymie zróżnicowanie towarów, ich kształtów, wagi, delikatności, trwałości itp. To wciąż ludzie zajmują się sortowaniem. ale roboty skutecznie pomagają rozwozić towary w magazynach Amazona.

Niewątpliwie Alexa to wyjątkowo udany inteligentny asystent głosowy, teraz wiemy też jak Alexa działa i w jaki sposób przetwarza polecenia i pytania użytkowników. Po konferencji mogliśmy jeszcze osobiście zmierzyć się z inteligencją Alexy, która na specjalnym stanowisku była dostępna pod postawią różnych modeli głośników i urządzeń z wbudowanym asystentem Amazona. Alexa działa bardzo dobrze, potrafi żartować i np. na pytanie “o życie, wszechświat i całą resztę” odpowiedziała “42”. Miłośnicy prozy nieodżałowanego Douglasa Adamsa z pewnością wiedzą o co chodzi. Kiedy Alexa będzie mówić po polsku i czy w ogóle? Dobra wiadomość jest taka, że Amazon ma w planach nauczenie Alexy polskiego, zła – nie wiadomo kiedy to nastąpi. | CHIP