Ludzkość od wieków opiera swoją zdolność do manipulacji przedmiotami na złożonej koordynacji. Nie polegamy wyłącznie na wzroku; nieustannie łączymy zręczność całego ciała z precyzją rąk i intuicyjnym zrozumieniem dynamiki interakcji z obiektem. To właśnie ta zdolność, ta symfonia ruchów i wyczucia, stała się główną inspiracją dla naukowców z Carnegie Mellon University (CMU) i Bosch Center for AI.
„Kiedy wykonujemy codzienne czynności, takie jak składanie ubrań, wkładanie przedmiotu, nabieranie czy przenoszenie delikatnych rzeczy, nie polegamy tylko na wzroku. Nieustannie koordynujemy postawę ciała, ruchy rąk i przewidywania dotyczące tego, jak rozwinie się kontakt” – wyjaśnia Yaru Niu, główny autor badania i doktorant w CMU Safe AI Lab. „Chcieliśmy zadać proste pytanie: jeśli wszechstronna manipulacja robotów humanoidalnych w prawdziwym świecie zależy od tej kombinacji koordynacji całego ciała, zręcznych rąk i zrozumienia kontaktu, jak możemy zbudować system robotyczny, który zacznie naśladować te same składniki?”
Czytaj także: Roboty humanoidalne Figure AI pracują jak ludzie. 8-godzinne zmiany bez odpoczynku
HTD: Model, który śni o dotyku
W odpowiedzi na te pytania powstał system sztucznej inteligencji, który radykalnie poprawia zdolność robotów humanoidalnych do zręcznej manipulacji w rzeczywistych środowiskach bogatych w interakcje. Nowy model, nazwany Humanoid Transformer with Touch Dreaming (HTD), został przedstawiony w artykule opublikowanym w maju 2026 roku na serwerze arXiv. HTD to nie tylko krok naprzód w technologii, to prawdziwy przełom w rozumieniu interakcji maszyny ze światem fizycznym.
Kluczem do sukcesu HTD jest unikalne podejście do treningu. Model, zamiast jedynie uczyć się przewidywać przyszłe działania, został wytrenowany również do przewidywania, jak ewoluować będzie dotyk i siła podczas manipulacji – proces ten zespół określił mianem „dotykowego śnienia”. Przewidywanie przyszłych sił w stawach ręki i reprezentacji dotykowych zachęca system do większej świadomości zmieniających się fizycznych interakcji, gdy robot manipuluje obiektem. Co więcej, HTD przewiduje kompaktowe, „utajone” reprezentacje dotykowe, zamiast bezpośrednio odtwarzać surowe odczyty z sensorów. Dzięki temu model koncentruje się na znaczących wzorcach kontaktu, ignorując szumy i fluktuacje, co pozwala na płynną integrację uczenia dotykowego w jedną, spójną architekturę.
Architektura precyzji: Jak HTD kontroluje robota
Złożoność ruchu ludzkiego ciała wymaga precyzyjnej kontroli. Naukowcy rozwiązali ten problem, dzieląc zadanie. „Nasz kontroler całego ciała oparty na RL został zaprojektowany tak, aby zapewnić stabilną podstawę wykonawczą dla manipulacji humanoidalnej” – wyjaśnia Ding Zhao, starszy autor pracy i profesor nadzwyczajny w CMU. „Dolna część ciała koncentruje się na stabilizacji, śledząc prędkość, orientację tułowia i wysokość, pozostając w równowadze pomimo zakłóceń wynikających z manipulacji górną częścią ciała. Cele pozycji górnej części ciała są obsługiwane poprzez kinematykę odwrotną, a zręczny ruch ręki poprzez retargeting dłoni. To daje nam praktyczny, rzeczywisty stos wykonawczy dla lokomocji i manipulacji humanoidalnej.”
Kontroler dolnej części ciała robota humanoidalnego był trenowany w symulacjach z wykorzystaniem podejścia “nauczyciel-uczeń”. W tym wirtualnym środowisku “nauczyciel” miał dostęp do uprzywilejowanych informacji, podczas gdy “uczeń” planował przyszłe działania na podstawie obserwacji z prawdziwego świata, w tym pomiarów prędkości kątowej podstawy, grawitacji oraz pozycji i prędkości stawów dolnej części ciała. „Podczas treningu odtwarzaliśmy przekierowane ruchy ramion z zestawu danych AMASS, aby kontroler nauczył się pozostawać stabilnym w warunkach realistycznych zakłóceń z górnej części ciała” – dodają Yaru Niu i Ding Zhao.
Czytaj także: W Chinach roboty mają już własne dokumenty. Powstaje społeczeństwo rodem z filmów
Przełomowe wyniki i konkretne zastosowania
Wyniki są niezwykle obiecujące. W eksperymentach przeprowadzonych na pięciu rzeczywistych zadaniach – wkładanie obiektu w kształcie litery T, układanie książek, składanie ręczników, nabieranie żwirku dla kota i serwowanie herbaty – system HTD osiągnął o 90,9% wyższy wskaźnik sukcesu w porównaniu z wcześniej uznaną metodą ACT. Co więcej, okazało się, że przewidywanie sygnałów dotykowych w przestrzeni utajonej było o 30% skuteczniejsze niż przewidywanie surowych danych dotykowych, co podkreśla znaczenie “dotykowego śnienia”.
„Wiele wcześniejszych systemów dostarczało niektóre z tych składników, ale niewiele z nich łączyło je w jednej praktycznej platformie rzeczywistego świata” – podsumowuje Yaru Niu. „Nasz system łączy kontroler całego ciała oparty na RL, kinematykę odwrotną górnej części ciała, retargeting zręcznych dłoni, teleoperację VR i rozproszone czujniki dotyku. To daje nam praktyczną platformę do zbierania wysokiej jakości demonstracji dla manipulacji humanoidalnej bogatej w kontakt”.
Platforma robotyczna i kontroler AI opracowane przez naukowców mają potencjał do znaczącego przyspieszenia wdrażania robotów humanoidalnych w różnych środowiskach. Mogą one usprawnić wykonywanie prac domowych, odgrywać role usługowe w sklepach lub pomagać ludziom w zakładach przemysłowych i produkcyjnych.
Przyszłość interakcji człowiek-robot
Jak podkreśla Jonathan Francis, współautor artykułu i szef Robot Learning Lab w Bosch Center for Artificial Intelligence: „Szersza lekcja naszej pracy jest taka, że jeśli chcemy, aby humanoidy wykonywały użyteczną pracę w prawdziwym świecie, prawdopodobnie potrzebują nie tylko lepszego widzenia i generowania ruchu, ale także lepszego uczenia się świadomego kontaktu”.
Naukowcy planują dalsze badania, mające na celu udoskonalenie możliwości uczenia się reprezentacji przez ich model AI. Chcą sprawić, by przestrzeń utajona była bardziej przenoszalna i fizycznie interpretowalna, a także aby system mógł czerpać z danych wizualnych i demonstracji ludzkich. Długoterminowym celem jest stworzenie ram AI, które można łatwo zastosować do różnych robotów o odmiennych strukturach ciała i konfiguracjach sensorów, a także adaptować do różnorodnych, złożonych zadań manipulacyjnych. „Ostatecznie, szerszym celem jest przejście od specyficznych dla zadań polityk humanoidów świadomych dotyku do bardziej skalowalnych i odpornych na ucieleśnienie systemów manipulacji humanoidalnej, które mogą uczyć się zarówno z doświadczenia ludzkiego, jak i robotycznego” – dodaje Zhao.
Projekt „Learning Versatile Humanoid Manipulation with Touch Dreaming” jest efektem współpracy naukowców z Carnegie Mellon University i Bosch Center for AI, opublikowany na serwerze arXiv. Część kodu wykorzystanego w systemie jest dostępna publicznie na GitHubie, co umożliwia innym badaczom dalszy rozwój tej przełomowej technologii.
