Kamień milowy w robotyce. Inżynierowie rozwiązali problem, z którym od zawsze mierzyły się maszyny

Ostatnimi czasy często piszę o postępach w projektowaniu robotów, ale zwykle podkreślam, że dziedzina ta wciąż zmaga się z poważnymi ograniczeniami. Tych jednak ciągle ubywa, a najnowszym z rozwiązanych problemów okazuje się kwestia wykonywania bardziej złożonych instrukcji wymagających orientacji w przestrzeni.
Kamień milowy w robotyce. Inżynierowie rozwiązali problem, z którym od zawsze mierzyły się maszyny

Naukowcy od lat próbowali zaimplementować robotom tę zdolność

Co ten postęp oznacza w praktyce? Zacznijmy od tego, że o ile prosta dla człowieka komenda może okazać się nie do zrealizowania przez robota. Maszyna musi bowiem jednocześnie analizować odległości, rozmiary obiektów, kierunki ruchu i ryzyko potencjalnych kolizji. Naukowcy z Chińskiego Uniwersytetu w Hongkongu twierdzą, że udało im się zrobić ważny krok w stronę uporania się z tym ograniczeniem.

Czytaj też: Dotykowe sny. Przełomowa sztuczna inteligencja uczy roboty humanoidalne ludzkiej zręczności

Dokonali tego dzięki nowemu systemowi pozwalającego robotom zamieniać skomplikowany język na precyzyjne działania wykonywane w trójwymiarowej przestrzeni. RAM (Retrieval-Augmented Manipulation) ma za zadanie połączenie dwóch światów, które dotąd często działały oddzielnie. Z jednej strony mamy więc rozumienia języka, a z drugiej – orientację przestrzenną. Dotychczasowe modele AI potrafiły interpretować obrazy i tekst, lecz miały przy tym ograniczoną zdolność rozumienia fizycznego układu przedmiotów wokół siebie.

W ostatecznym rozrachunku prowadziło to do sytuacji, w której robot potrafił rozpoznać na przykład kubek i stół, lecz nie zawsze rozumiał, gdzie dokładnie powinien postawić przedmiot, jak uniknąć przeszkód albo jak dostosować ruch do rzeczywistego układu otoczenia. Pojawiały się błędy i kolizje, co przekreślało szanse na wdrożenie humanoidów tam, gdzie pomyłek po prostu się nie toleruje.

RAM zapewni przełom? Tak twierdzą Chińczycy

RAM ma działać inaczej. System analizuje obraz z kamer robota i tworzy szczegółową trójwymiarową mapę otoczenia. Rozpoznaje obiekty, określa ich wielkość, położenie i wzajemne relacje przestrzenne. Następnie przekazuje te informacje do modelu językowego AI, który może dzięki temu lepiej zrozumieć sens polecenia wydanego przez człowieka. W efekcie robot nie tylko słyszy komendę, ale dodatkowo rozumie fizyczny kontekst sytuacji.

Według twórców nowy system potrafi wykonywać zadania bez wcześniejszego specjalistycznego treningu dla konkretnej czynności. Oznacza to, iż robot może adaptować się do nowych sytuacji oraz przedmiotów w czasie rzeczywistym. W testach maszyny były w stanie wykonywać złożone manipulacje, planować kolejne ruchy oraz zmieniać strategię działania, jeśli pojawiała się przeszkoda lub ryzyko kolizji.

Czytaj też: Chińczycy piszą historię. Będą sprzedawali humanoidalne roboty na największej aukcji świata

Jednym z największych problemów współczesnej robotyki wydaje mi się luka między rozumieniem abstrakcyjnego języka a interpretacją rzeczywistej przestrzeni fizycznej. To, co dla człowieka jest intuicyjne, w przypadku robota wymaga połączenia analizy języka, geometrii i fizyki. Nowy system ma być właśnie pomostem między tymi kwestiami. Czy będzie on kamieniem węgielnym dla nowej generacji humanoidalnych robotów? Bardzo możliwe.

Kluczowym wyzwaniem pozostaje kwestia naturalnej współpracy z człowiekiem i wykonywania poleceń bez konieczności programowania każdej czynności osobno. Taki roboty mogłyby pomagać przy pakowaniu produktów, opiece na starszymi osobami, pracy w magazynach czy nawet podczas operacji medycznych wymagających niezwykłej precyzji. W przyszłości maszyny mogłyby również lepiej rozumieć nieprecyzyjne lub wieloznaczne polecenia wydawane naturalnym językiem. Cóż, zobaczymy, czy chińscy naukowcy faktycznie doprowadzili do przełomu, o jakim mówią.

Źródło: Science Robotics

Napisane przez

Aleksander Kowal

Redaktor
Z wykształcenia romanista (język francuski oraz hiszpański) ze specjalizacją z traduktologii. Dziennikarską przygodę rozpocząłem około piętnastu lat temu, początkowo w związku z recenzjami gier komputerowych i filmów. Obecnie publikuję zdecydowanie częściej na tematy związane z nauką oraz technologią. W wolnym czasie uwielbiam podróżować, śledzić kinowe i książkowe nowości, a także uprawiać oraz oglądać sport.