Naukowcy od lat próbowali zaimplementować robotom tę zdolność
Co ten postęp oznacza w praktyce? Zacznijmy od tego, że o ile prosta dla człowieka komenda może okazać się nie do zrealizowania przez robota. Maszyna musi bowiem jednocześnie analizować odległości, rozmiary obiektów, kierunki ruchu i ryzyko potencjalnych kolizji. Naukowcy z Chińskiego Uniwersytetu w Hongkongu twierdzą, że udało im się zrobić ważny krok w stronę uporania się z tym ograniczeniem.
Czytaj też: Dotykowe sny. Przełomowa sztuczna inteligencja uczy roboty humanoidalne ludzkiej zręczności
Dokonali tego dzięki nowemu systemowi pozwalającego robotom zamieniać skomplikowany język na precyzyjne działania wykonywane w trójwymiarowej przestrzeni. RAM (Retrieval-Augmented Manipulation) ma za zadanie połączenie dwóch światów, które dotąd często działały oddzielnie. Z jednej strony mamy więc rozumienia języka, a z drugiej – orientację przestrzenną. Dotychczasowe modele AI potrafiły interpretować obrazy i tekst, lecz miały przy tym ograniczoną zdolność rozumienia fizycznego układu przedmiotów wokół siebie.
W ostatecznym rozrachunku prowadziło to do sytuacji, w której robot potrafił rozpoznać na przykład kubek i stół, lecz nie zawsze rozumiał, gdzie dokładnie powinien postawić przedmiot, jak uniknąć przeszkód albo jak dostosować ruch do rzeczywistego układu otoczenia. Pojawiały się błędy i kolizje, co przekreślało szanse na wdrożenie humanoidów tam, gdzie pomyłek po prostu się nie toleruje.
RAM zapewni przełom? Tak twierdzą Chińczycy
RAM ma działać inaczej. System analizuje obraz z kamer robota i tworzy szczegółową trójwymiarową mapę otoczenia. Rozpoznaje obiekty, określa ich wielkość, położenie i wzajemne relacje przestrzenne. Następnie przekazuje te informacje do modelu językowego AI, który może dzięki temu lepiej zrozumieć sens polecenia wydanego przez człowieka. W efekcie robot nie tylko słyszy komendę, ale dodatkowo rozumie fizyczny kontekst sytuacji.
Według twórców nowy system potrafi wykonywać zadania bez wcześniejszego specjalistycznego treningu dla konkretnej czynności. Oznacza to, iż robot może adaptować się do nowych sytuacji oraz przedmiotów w czasie rzeczywistym. W testach maszyny były w stanie wykonywać złożone manipulacje, planować kolejne ruchy oraz zmieniać strategię działania, jeśli pojawiała się przeszkoda lub ryzyko kolizji.
Czytaj też: Chińczycy piszą historię. Będą sprzedawali humanoidalne roboty na największej aukcji świata
Jednym z największych problemów współczesnej robotyki wydaje mi się luka między rozumieniem abstrakcyjnego języka a interpretacją rzeczywistej przestrzeni fizycznej. To, co dla człowieka jest intuicyjne, w przypadku robota wymaga połączenia analizy języka, geometrii i fizyki. Nowy system ma być właśnie pomostem między tymi kwestiami. Czy będzie on kamieniem węgielnym dla nowej generacji humanoidalnych robotów? Bardzo możliwe.
Kluczowym wyzwaniem pozostaje kwestia naturalnej współpracy z człowiekiem i wykonywania poleceń bez konieczności programowania każdej czynności osobno. Taki roboty mogłyby pomagać przy pakowaniu produktów, opiece na starszymi osobami, pracy w magazynach czy nawet podczas operacji medycznych wymagających niezwykłej precyzji. W przyszłości maszyny mogłyby również lepiej rozumieć nieprecyzyjne lub wieloznaczne polecenia wydawane naturalnym językiem. Cóż, zobaczymy, czy chińscy naukowcy faktycznie doprowadzili do przełomu, o jakim mówią.
Źródło: Science Robotics
