Coraz mocniej dostrzegam, że przyszłość robotów nie rozstrzyga się wyłącznie w procesorach, kamerach czy kolejnych modelach sztucznej inteligencji. Ona rozstrzyga się w kontakcie. W krótkim momencie, w którym palec dotyka powierzchni, siła nacisku musi się zmienić, a robot nie może panikować tylko dlatego, że przedmiot lekko przesunął się względem planu. Dlatego najnowsze badanie NYU Tandon i Robotics and AI Institute jest w moich oczach bardzo ciekawe. Nie przez samą obietnicę “zręczniejszych robotów”, ale przez przewrotność wniosku. Naukowcy sugerują, że w uczeniu takich maszyn kluczem może być nie większa złożoność, lecz większa spójność przykładów.
Roboty nie mają problemu z siłą. Mają problem ze szkoleniowym chaosem
Zręczność człowieka jest dla robotyki wyjątkowo niewygodnym wzorcem. Nie dlatego, że nasze dłonie są magiczne, ale dlatego, że łączą kilka rzeczy naraz, bo precyzję, czucie, elastyczność, korektę błędów i ciągłe przechodzenie między kolejnymi punktami kontaktu. Kiedy obracamy kostkę w palcach, nie wykonujemy jednego ruchu. Jest to bardziej seria ciągłych mikrozmian, nacisków i korekt, których nie opisujemy świadomie, bo nauczyliśmy się ich przez lata dotykania świata.
Czytaj też: Humanoidalny robot z precyzją chirurga. Japońskie targi pokazały, dokąd zmierza cała branża

Roboty przemysłowe przez dekady radziły sobie świetnie tam, gdzie środowisko było przewidywalne. Gdzie ramię znało trajektorię, chwytak znał detal, a linia produkcyjna pilnowała całej geometrii i przepływu. Problem zaczyna się niezmiennie tam, gdzie maszyna ma wyjść poza prosty układ “podnieś, przenieś, odłóż”. Widać to bardzo dobrze przy humanoidach trafiających do fabryk, które imponują chodem i konstrukcją, ale nadal muszą mierzyć się z ograniczeniami autonomii oraz spontanicznego reagowania na zmienne warunki.
Sprowadza się to do prostego faktu, a mianowicie tego, że robot, który wygląda jak człowiek, nie musi jeszcze rozumieć fizycznego świata tak jak człowiek. Może mieć dłonie, nadgarstki, ramiona i zaawansowane algorytmy, a mimo to przegrywać z głupią nakrętką, śliskim pudełkiem albo przedmiotem, którego nie da się chwycić dokładnie tak, jak we wcześniejszej symulacji.
Ludzkie demonstracje nie wystarczają, kiedy zadanie robi się zbyt fizyczne
Współczesne systemy robotycznego uczenia często bazują na imitacji. Człowiek steruje robotem, robot obserwuje demonstrację, a później próbuje odtworzyć zachowanie. W prostych zadaniach działa to dobrze, ale przy manipulacji wymagającej wielu punktów kontaktu zaczyna się już ogromny problem. Teleoperacja nie jest naturalnym przedłużeniem ludzkiego ciała. Operator może pokazać robotowi, gdzie przesunąć chwytak, ale dużo trudniej pokazać mu pełną choreografię palców, nadgarstków, ramion, tarcia i zmian nacisku.
Dlatego wspomniani badacze poszli w stronę demonstracji syntetycznych. Zamiast zbierać przykłady od ludzi, wykorzystali algorytmy planowania ruchu w symulacji fizycznej. W teorii wygląda to znakomicie, bo skoro człowiek jest wąskim gardłem, to pozwólmy maszynom wygenerować tysiące przykładów w wirtualnym środowisku. Robot będzie uczyć się od algorytmicznego nauczyciela, a nie od operatora siedzącego przy stanowisku.

Tylko że tutaj pojawił się haczyk. Popularne planery typu RRT (rapidly exploring random trees), są bardzo dobre w znajdowaniu rozwiązań, bo losowo eksplorują przestrzeń możliwych ruchów. Problem w tym, że potrafią rozwiązać to samo zadanie na wiele bardzo różnych sposobów. Dla planera jest to zaleta, bo zwiększa szansę znalezienia ścieżki. Dla sieci neuronowej uczącej się przez naśladowanie może to być koszmar, bo przykłady zaczynają mówić różnymi “dialektami” tego samego ruchu.
Sekret nie leży w liczbie przykładów, tylko w ich zachowaniu
Najciekawszy wniosek z tej pracy sprowadza się do jakości danych. Nie w prostym znaczeniu “więcej danych jest lepsze”, tylko w znacznie mniej wygodnym znaczeniu tego, że przykład musi być zrozumiały dla uczącego się systemu. Jeśli robot widzi, że ten sam cel można osiągnąć raz przez szybkie przestawienie chwytu, raz przez dziwny objazd, raz przez serię pozornie przypadkowych ruchów, a raz przez zupełnie inną sekwencję kontaktów, to zaczyna mieć problem z wyciągnięciem wspólnego wzorca.
Czytaj też: To będzie największa szkoła dla robotów przyszłości. W Chinach idą na całość

Badacze opisują to jako dane o wysokiej entropii. W praktyce chodzi o rozrzut zachowań. Demonstracje mogą być skuteczne, ale zbyt niespójne, żeby model mógł łatwo nauczyć się polityki działania. Dlatego zespół przygotował alternatywne podejścia do planowania. Jedno premiowało stabilny postęp w stronę celu zamiast losowego rozglądania się po całej przestrzeni rozwiązań, a drugie korzystało z biblioteki wcześniej zdefiniowanych ruchów, żeby ograniczyć zmienność demonstracji.
W świecie AI bardzo łatwo ulec przekonaniu, że brak jakości zawsze da się przykryć skalą, ale tutaj widać coś bardziej inżynierskiego. Wszystko w myśl zasady, że jeśli nauczyciel zachowuje się zbyt chaotycznie, to uczeń nie staje się mądrzejszy od samej liczby lekcji. Potrzebuje przykładów, które będzie potrafił złożyć w powtarzalny mechanizm.
Dwa ramiona, jedna kostka i konkretne wyniki
Naukowcy sprawdzili tę metodę na dwóch zadaniach. Pierwsze dotyczyło dwóch robotycznych ramion, które miały obrócić duży cylinder o 180 stopni, wielokrotnie zmieniając przy tym chwyty. Drugie objęło zręczną robotyczną dłoń manipulującą kostką w dłoni tak, aby dopasować ją do zadanych orientacji. Nie są to proste demonstracje typu “podnieś klocek”. Mówimy o manipulacji bogatej w kontakt, z częstymi zmianami punktów podparcia i wymaganiem utrzymania kontroli nad obiektem przez dłuższą sekwencję ruchów.
W zadaniu z dwoma ramionami poprawiony system osiągnął niemal pełną skuteczność już przy 100 demonstracjach. Co ważniejsze, wytrenowane polityki udało się przenieść bez dodatkowego douczania z symulacji na sprzęt fizyczny. Robot z dwoma ramionami zaliczył 90 procent prób na hardware, a zręczna dłoń około 62 procent. Dla zadania IiwaBimanual skuteczność na sprzęcie wyniosła 90 procent, a dla wariantów AllegroHand 62,5%.
Czytaj też: Robot zamiast żołnierza w najgorszym miejscu bitwy. Przyszłość piechoty wygląda brutalnie
Oczywiście 62 procent w przypadku dłoni nie oznacza końca problemu. Jest to nadal poziom, przy którym robot nie nadaje się do dowolnej pracy w kuchni, laboratorium albo warsztacie. Jednak jako typowy sygnał badawczy jest to wynik bardzo solidny, bo pokazuje przejście z symulacji do fizycznego sprzętu bez dodatkowego etapu ratunkowego. W robotyce to właśnie ta przepaść między symulacją a światem rzeczywistym bywa miejscem, w którym piękne wyniki z wirtualnego świata kończą się twardym zderzeniem z tarciem, tolerancją wykonania, masą obiektu, sprężystością materiału i zwykłym brakiem idealnych warunków.
Przyszłość jest blisko i kryje się w detalach
Odkąd piszę o robotach, coraz mniej interesują mnie nagrania, na których humanoid wygląda szczególnie widowiskowo, bo to już powszechne. Teraz zaczynają mnie interesować momenty mniej efektowne, bo czy potrafi podnieść nieregularny przedmiot, odłożyć go bez uderzenia, zmienić chwyt bez zgubienia równowagi i wreszcie pracować obok człowieka bez robienia mu problemów. Właśnie tam jest przyszłość i dlatego ten kierunek badań pasuje mi do szerszego obrazu robotyki. Z jednej strony mamy maszyny projektowane do fabryk, magazynów i wojska, o czym pisałem przy robotach w najgorszych miejscach pola walki, gdzie sama sylwetka humanoida nie wystarczy, jeśli robot nie umie radzić sobie z fizycznym otoczeniem. Z drugiej strony mamy też eksperymenty z ciałem maszyny, jak przy miękkim robocie inspirowanym płaszczką, gdzie inteligencja zaczyna być rozumiana nie tylko jako oprogramowanie, ale też jako właściwość konstrukcji, materiału i sposobu zasilania.

