Co powiedzieć AI, żeby dostać kawę?

Konferencja Amazona nie była wydarzeniem produktowym. Amerykański potentat e-commerce nie zamierzał podczas trwania wydarzenia ogłaszać żadnej nowej premiery. Całe wydarzenie adresowane było głównie do programistów, którzy dzięki Innovation@Amazon mogli się dowiedzieć nie tylko nad czym aktualnie pracuje Amazon, ale także w jaki sposób zespoły deweloperskie działają w tej firmie.
Innovation@Amazon
Innovation@Amazon

Innovation@Amazon
Na początek Rafał Kukliński z polskiego oddziału Amazona pochwalił się, czym zajmuje się Amazon w Gdańsku (fot. CHIP).

Konferencję rozpoczął Rafał Kukliński, dyrektor zarządzający gdańskiego Amazon Development Center in Poland. Czemu Amazon wybrał nasz kraj do założenia jednego ze swoich centrów deweloperskich? Odpowiedzą jest doskonale znany, polski syntezator mowy Ivona. Amazon przejął firmę IVONA Software wraz z całym jej dorobkiem technicznym i intelektualnym w styczniu 2013 roku. Na konferencji nie ukrywano, że współczesny inteligentny asystent głosowy opracowany przez Amazona – mowa oczywiście o Alexie – powstał właśnie dzięki wiedzy zespołu pracującego nad Ivoną.

Innovation@Amazon
Osiem wykładów na temat interfejsów głosowych, sztucznej inteligencji, programowania czy uczenia maszynowego, zapowiada się solidna porcja wiedzy (fot. CHIP).

Po krótkiej prezentacji osiągnięć gdańskiego centrum Amazona, Kukliński przedstawił prelegentów konferencji Innovation@Amazon. Pierwszy na scenie pojawił się Rumi Sarikaya, pełniący w Amazonie funkcję Director of Applied Science. Pracujący w zespole Alexa Machine Learning Team Sarikaya podjął się zadania wyjaśnienia zebranym czym jest “Alexa Brain” i dlaczego ważne jest, by maszyny porozumiewały się z nami w języku naturalnym.

Innovation@Amazon
Rumi Sarikaya wyjaśnia czym jest inteligentny asystent osobisty (fot. CHIP).

Zdaniem Rumiego Sarikayi, interfejs głosowy na linii człowiek – maszyna to przyszłość. Ważne jest jednak, by komunikacja tą drogą odbywała się bez najmniejszych tarć i przeszkód. Maszyna musi bardzo dobrze rozumieć ludzką mowę, niezależnie od akcentu, specyficznego dla konkretnej osoby sposobu mówienia itp. Jeżeli tak nie jest, człowiek szybko zniechęci się do takiej formy interakcji z inteligentnym asystentem. Takie podejście jest między innymi przyczyną, dla której Alexa – inteligentny asystent Amazona – ujrzała światło dzienne nie pod postacią aplikacji w smartfonie (czy dajmy na to w czytniku Kindle) tak jak w przypadku konkurencyjnych rozwiązań, tj. Siri Apple, Asystent Google czy Cortana Microsoftu, lecz w postaci głośnika Amazon Echo.

Innovation@Amazon
Jak Alexa odpowiada na pytania? Oto jeden z licznych slajdów przedstawiających odpowiedź na to pytanie (fot. CHIP).

Proces maszynowego “zrozumienia” człowieka, a dokładniej wydawanego przez niego polecenia czy zadawanego pytania przebiega wieloetapowo. Poszczególne etapy przedstawia powyższy slajd prezentujący co dzieje się w przypadku, gdy zapytamy Alexę o pogodę. Najpierw pracę rozpoczyna moduł ASR (Automated Speech Recognition), dzięki któremu maszyna “wie” co użytkownik wypowiedział.

Jednak zrozumienie słów, a zrozumienie znaczenia i pojęcie intencji użytkownika to zupełnie różne sprawy. Dlatego kolejny etap do działanie modułu NLP (Natural Language Processing), którego zadaniem jest rozpoznanie intencji użytkownika, czyli znaczenia wydanego polecenia/pytania w kontekście w jakim ono zostało wypowiedziane. Jeżeli intencja zostaje rozpoznana, następnym etapem jest przypisanie tzw. “umiejętności” (ang. skill), czyli konkretnej funkcji obsługiwanej przez inteligentnego asystenta. W przypadku pytania o pogodę następuje wywołanie źródła danych na temat pogody. Gdy dane zostają otrzymane pozostaje je przetworzyć na mowę (mechanizm TTS – text-to-speech) i użytkownik słyszy odpowiedź na zadane pytanie.

Innovation@Amazon
Max Amordeluso przekonuje, że interfejs głosowy to przyszłość (fot. CHIP)

 

Z kolei Max Amordeluso, kolejny prelegent na konferencji, przekonywał zebranych, że interfejs głosowy to naturalny, kolejny etap w rozwoju interfejsów człowiek-maszyna. Zaczynaliśmy od tekstu, przez interfejs graficzny, webowy i mobilny. Teraz czas na jak najbardziej naturalną rozmowę z maszyną.

 

Max Amordeluso dowodził, że Alexa radzi sobie z rozmową z człowiekiem tak dobrze, że Amazon odnotował, że wielu użytkowników, posiadaczy głośnika z Alexą, oświadczało się inteligentnemu asystentowi.

Innovation@Amazon
Obecnie istnieje już ponad 25 tysięcy “skills”, czyli funkcji, czy umiejętności, które “umie” Alexa (fot. CHIP).

Tak jak wcześniej wspomniano, sednem inteligencji Alexy są nie tylko procedury rozpoznawania i rozumienia tego co mówi człowiek, ale przede wszystkim tzw. skills, czyli umiejętności, czy też funkcje, które Alexa może – na żądanie człowieka – realizować. Wcześniej wspomnieliśmy przykład z pytaniem o pogodę, jednak Alexa potrafi dużo więcej. Funkcji realizowanych przez asystenta Amazonu jest ponad 25 tysięcy.

Innovation@Amazon
Oto polecenie zamówienia kawy wydane Alexie przedstawione w języku formalnym (fot. CHIP).

Na powyższej ilustracji przykład tego, jak Alexa rozkłada na czynniki pierwsze polecenie użytkownika, który za jej pośrednictwem chce zamówić kawę w Coffee Now. Pierwsze słowo to wywołanie asystenta, następnie słowa-klucze określające typ polecenia, dalej mamy intencję użytkownika oraz przedmiot zamówienia.

Innovation@Amazon
Julien Simon na scenę przyprowadził zbudowanego przez siebie robota sterowanego – a jakże – Alexą (fot. CHIP).

Jeszcze ciekawsza była prezentacja Juliena Simona dotycząca głębokiego uczenia maszynowego dla deweloperów. Simon przybył na prezentację z własnoręcznie skonstruowanym robotem, który był zdalnie sterowany za pomocą Alexy.

Innovation@Amazon
Sztuczna inteligencja Amazon jest dostępna dla każdego zainteresowanego nią programisty (fot. CHIP).

Przykład z robotem miał udowodnić, że każdy programista może wykorzystać sztuczną inteligencję Amazona i poszczególne funkcje przez nią oferowane we własnych projektach. Podczas tego wykładu Julien Simon wyjaśniał również podstawy maszynowego uczenia, jak wygląda cyfrowy neuron, jak przebiega proces uczenia maszynowego, a na koniec uruchomił głosem własnego robota i zrobił widowni za jego pomocą zdjęcie, które następnie wyświetlił na własnej stronie internetowej.

Innovation@Amazon
Staszek Pasko wyjaśniał w jaki sposób zespoły programistów pracują w Amazonie (fot. CHIP).

W polskim centrum programistycznym Amazona pracuje się niewątpliwie nad ciekawymi projektami, ale w jaki sposób się pracuje? W sensie jak pracują zatrudnieni w Amazonie programiści? Na te pytania odpowiadał kolejny prelegent, Staszek Pasko, który odsłonił niuanse związane z tym, w jaki sposób programiści pracują u amerykańskiego giganta. Amazon wyznaje zasadę “two pizza teams”, czyli niewielkie zespoły projektowe, pracujące nad konkretnym zagadnieniem (i w pełni za niego odpowiedzialne). Jak niewielkie? Kilku-osobowe, a dokładniej takie, które są w stanie wyżywić się dwiema pizzami.

Innovation@Amazon
Jedyna kobieta wśród prelegentów, dr Anima Anandkumar to główny badacz SI i uczenia maszynowego w Amazonie. Takie ilości wiedzy na temat uczenia maszynowego w tak krótkim czasie nie wchłonęliśmy nigdy wcześniej (fot. CHIP).

O ile prezentacja metodyki pracy w Amazonie mogła zainteresować raczej tych, którzy swoją karierę wiążą z Amazonem właśnie, o tyle kolejny wykład poprowadzony przez dr Animę Anandkumar okazał się potężną dawką wiedzy na temat najnowocześniejszych metod maszynowego uczenia w wielkiej skali, problemów stojących przed maszynowym uczeniem i narzędzi jakimi dziś dysponują badacze sztucznej inteligencji.

Innovation@Amazon
O tym, że SI “liczy się” szybciej dzięki obliczeniom równoległym wiadomo, ale programowanie równoległe to nie jest trywialne zadanie (fot. CHIP).

 

Wiele publikacji popularno-naukowych poruszających temat maszynowego uczenia, dość lekce sobie waży kwestię skomplikowania tego zagadnienia. Współcześnie problemem jest nauczenie konkretnego systemu w jak najlepszy sposób w jak najkrótszym czasie. Im dłużej trwa proces uczenia, tym mniej opłacalna staje się powstała w jego wyniku sztuczna inteligencja. Z kolei uczenie nie może być zbyt krótkie, bo wtedy maszyna nie będzie realizowała poprawnie stawianych przed nią zadań.

Innovation@Amazon
Niemal 30 wielkich centrów magazynowych Amazona zatrudnia ponad 80 tysięcy robotów. Ludzie jednak wciąż w niektórych zadaniach są nie do zastąpienia (fot. CHIP).

Jedną z ostatnich prezentacji na odwiedzonej przez nas konferencji Innovation@Amazon poprowadził Vikas Enti, starszy menedżer w dziale Amazon Robotics. Znowu było o robotach, o tysiącach robotów zatrudnionych w gigantycznych centrach magazynowych Amazona na całym świecie.

Innovation@Amazon
Roboty nie potrafią tak umiejętnie jak ludzie posługiwać się przedmiotami (fot. CHIP)

Dzięki robotom ludzie nie muszą już pokonywać dziennie dziesiątek kilometrów (dosłownie) podczas przetransportowywania milionów paczek w magazynach i sortowniach. Najcięższe prace wykonują roboty przypominające nieco płaskie automatyczne roboty sprzątające. Te zatrudnione w Amazon Robotics jednak nie sprzątają, tylko przewożą całe “szafy” z już uporządkowanymi przez ludzi produktami. Ze względu na olbrzymie zróżnicowanie towarów, ich kształtów, wagi, delikatności, trwałości itp. To wciąż ludzie zajmują się sortowaniem. ale roboty skutecznie pomagają rozwozić towary w magazynach Amazona.

Niewątpliwie Alexa to wyjątkowo udany inteligentny asystent głosowy, teraz wiemy też jak Alexa działa i w jaki sposób przetwarza polecenia i pytania użytkowników. Po konferencji mogliśmy jeszcze osobiście zmierzyć się z inteligencją Alexy, która na specjalnym stanowisku była dostępna pod postawią różnych modeli głośników i urządzeń z wbudowanym asystentem Amazona. Alexa działa bardzo dobrze, potrafi żartować i np. na pytanie “o życie, wszechświat i całą resztę” odpowiedziała “42”. Miłośnicy prozy nieodżałowanego Douglasa Adamsa z pewnością wiedzą o co chodzi. Kiedy Alexa będzie mówić po polsku i czy w ogóle? Dobra wiadomość jest taka, że Amazon ma w planach nauczenie Alexy polskiego, zła – nie wiadomo kiedy to nastąpi. | CHIP