Schody są dla robotów jak boss w Soulsach. Dlatego ten dostał rękę do awaryjnego parowania

Chcesz czytać więcej treści jak „Schody są dla robotów jak boss w Soulsach. Dlatego ten dostał rękę do awaryjnego parowania"?Dodaj CHIP.pl do preferowanych źródeł w Google

Patrząc na nowy projekt badaczy z Singapore University of Technology and Design widzę w nim coś ciekawszego niż byle kolejną opowieść o robocie “pokonującym schody”. Nawet jeśli to ogromny problem, bo wedle badaczy roboty zaprojektowane do poruszania się po schodach zawodzą tam co najmniej 35 razy częściej niż na płaskiej powierzchni. Widzę w tym bardziej próbę pogodzenia się z faktem, że robot przyszłości czasem po prostu przegra, a wtedy najważniejsze będzie to, czy po wpadce się pozbiera.

Zamiast udawać, że robot nigdy się nie przewróci, naukowcy dali mu rękę ratunkową

Pomysł brzmi na pierwszy rzut oka niemal komicznie, bo w ramach tej pracy komercyjna platforma gąsienicowa dostała z tyłu trójprzegubowe ramię, które nie służy do podawania kawy, chwytania paczek ani otwierania drzwi. Jego zadanie jest znacznie bardziej desperackie, bo gdy robot zaczyna tracić równowagę na schodach, właśnie ramię ma zaprzeć się o otoczenie i pomóc mu wyhamować upadek.

Czytaj też: Robot zamiast żołnierza w najgorszym miejscu bitwy. Przyszłość piechoty wygląda brutalnie

Dla mnie najciekawsze jest tu jednak nie samo ramię, a sama filozofia stojąca za tym projektem. Typowe podejście w robotyce mobilnej skupia się bowiem na unikaniu problemów, co jest osiągane przez lepsze planowanie trasy, dokładniejsze sensory, sprawniejsze sterowanie równowagą czy bardziej przewidywalny kontakt robota z podłożem. Wprawdzie to wszystko jest potrzebne, ale nie rozwiązuje jednego kłopotu, czyli tego, że otaczającego nas świata nie da się w pełni kontrolować. Ktoś może wejść robotowi w drogę, ktoś może go szturchnąć, stopień może być uszkodzony albo krawędź może okazać się śliska. Podobny problem widać przy robotach próbujących widzieć więcej niż klasyczna kamera, bo czujniki mogą dawać maszynom coraz bogatszy obraz otoczenia, ale samo widzenie nie usuwa z rachunku fizyki.

Tym więc razem inżynierowie pokazują, że nie każdy robot musi być idealnym akrobatą. Upadek nawet najlepszego robota może po prostu się zdarzyć, a wtedy musi się jakoś pozbierać do kupy i to najlepiej samodzielnie. Zwłaszcza na schodach, które są istnymi nemezis każdego robota. Są wszędzie, powstały pod ludzką anatomię i nikt nie projektował budynków właśnie z myślą o autonomicznych gąsienicach, czujnikach głębi oraz algorytmach równowagi. Człowiek widzi kilka stopni, czuje nacisk w stopie, odruchowo koryguje pozycję tułowia i nawet nie rejestruje, ile mikrodecyzji wykonuje w ciągu sekundy. Robot musi część tego odtworzyć mechanicznie, część obliczyć, część przewidzieć, a resztę przeżyć, gdy przewidywanie zawiedzie.

Uczenie przez wzmacnianie zamiast ręcznego klepania odruchów

Badacze z ROAR Lab nie napisali klasycznego zestawu reguł typu “jeśli robot przechyla się w lewo, przesuń ramię o X stopni”. Zamiast tego zastosowali uczenie przez wzmacnianie, czyli metodę, w której algorytm uczy się strategii poprzez próby, kary i nagrody. Dlatego w ramach symulacji robot był wytrącany z równowagi siłą działającą do tyłu lub na bok, a kontroler co ułamek sekundy decydował, jak ustawić przeguby ramienia. Mechanizm nagradzał również stabilne zakończenie manewru, a karał wywrócenie się, spadnięcie ze schodów i niepotrzebne machanie ramieniem. W tym procesie wziął udział algorytm Proximal Policy Optimization, a więc jedna z popularniejszych metod trenowania polityk sterowania w środowiskach symulacyjnych.

W praktyce chodzi o bardzo ludzką intuicję. Gdy bowiem tracimy równowagę, to nie liczymy nagle w głowie pełnej dynamiki ciała. Wystawiamy rękę, szukamy ściany, poręczy albo najbliższego punktu podparcia. Robot dostał więc maszynowy odpowiednik takiego odruchu, choć oczywiście w bardzo ograniczonej formie.

Jak takie roboty wypadły w praktyce?

Zespół wyróżnił pięć rodzajów upadku na schodach, bo prosty upadek do tyłu, dwa warianty upadku z obrotem i dwa upadki boczne. Z tej analizy wyszło, że trzy stopnie swobody ramienia są minimalnym sensownym układem, jeśli element ma być zamontowany z tyłu i geometrycznie pokrywać te scenariusze. Samo ramię oczywiście nie wystarczy, bo można nim machać w sposób, który pogorszy sytuację. Sama sztuczna inteligencja też nie wystarczy, jeśli nie ma czym oprzeć robota o świat. Dopiero połączenie prostej, wyspecjalizowanej mechaniki i sterowania wyuczonego w symulacji zaczyna mieć sens.

Efekt? Średnia skuteczność systemu wyniosła 69,4 procent dla pięciu wytrenowanych kontrolerów. Ręcznie zaprogramowana metoda porównawcza osiągała 38,6 procent i często pogarszała sytuację przez chaotyczne ruchy ramienia. Kiedy system oparty na uczeniu przez wzmacnianie faktycznie łapał upadek, stabilizował robota średnio w 4,25 sekundy, mieszcząc się w założonym przez badaczy limicie 10 sekund.

Czytaj też: Smartfony i roboty zaczną widzieć przez ściany? To dzieło naukowców od razu mnie zainteresowało

Najbardziej obiecujący fragment nie dotyczy samej średniej skuteczności. Ważniejsze jest to, że kontroler trenowany na jednym robocie i jednej geometrii schodów sprawdzono później bez ponownego treningu na platformach większych lub mniejszych o 10 procent oraz na schodach o zmienionych wymiarach. Na większym robocie najlepszy kontroler osiągnął 87 procent skuteczności. Na mniejszej, mniej stabilnej platformie wynik spadł, ale system nadal działał. Nie chodzi więc tylko o nauczenie jednego robota jednej sztuczki. Chodzi o strategię odzyskiwania stabilności, która może być wspólna dla wielu maszyn. Jeśli taki moduł dałoby się w przyszłości przenosić między podobnymi platformami, producenci robotów usługowych mogliby budować całe rodziny maszyn z tym samym typem zabezpieczenia.

Ta właśnie praca dobrze łączy się z szerszym trendem. Jedni bowiem próbują budować roboty, które lepiej rozumieją przestrzeń. Inni, jak w przypadku Tien Kunga pokonującego schody, rozwijają percepcję i dynamiczną lokomocję humanoidów. Jeszcze inni patrzą na upadek nie jak na katastrofę, lecz element treningu, co było widać przy robotach uczących się wstawać po porażkach. SUTD dokłada do tego mniej efektowny, ale bardzo praktyczny element, bo to, jak ograniczyć szkody, gdy robot mimo wszystko zacznie lecieć w dół.

Źródła: TechXplore, ResearchGate

Zamiast udawać, że robot nigdy się nie przewróci, naukowcy dali mu rękę ratunkową

Uczenie przez wzmacnianie zamiast ręcznego klepania odruchów

Jak takie roboty wypadły w praktyce?

Mateusz Łysoń