To właśnie oni opracowali system, który pozwala robotom rozumieć polecenia wydawane w języku naturalnym i natychmiast przekładać je na konkretne działania w świecie fizycznym. Dzięki połączeniu potęgi dużych modeli językowych z systemem operacyjnym dla robotów (ROS), maszyny przestają być tylko wykonawcami sztywnych instrukcji, a stają się partnerami, którzy potrafią zinterpretować prośbę: „posprzątaj ze stołu”, nie potrzebując do tego tysięcy linii nowego kodu.
Od słów do czynów. Integracja LLM z systemem operacyjnym robotów
Kluczem do sukcesu nowej technologii, o której czytamy w Nature Machine Intelligence, jest stworzenie pomostu między logicznym rozumowaniem sztucznej inteligencji a fizyczną kontrolą serwomechanizmów. Badacze wykorzystali wspomniany ROS (Robot Operating System), czyli najpopularniejszą na świecie otwartoźródłową platformę do sterowania robotami, i połączyli ją z agentami AI.
System działa w sposób niezwykle intuicyjny dla człowieka, ale rewolucyjny dla maszyny. Gdy wydajemy polecenie: „podnieś zielony klocek i połóż go na czarnej półce”, AI nie traktuje tego jako jednego bloku danych. Zamiast tego, rozbija zdanie na mniejsze, kroki: zlokalizuj obiekt, wylicz trajektorię ruchu ramienia, chwyć z odpowiednią siłą, przenieś i puść. Ten proces „tłumaczenia” odbywa się w czasie rzeczywistym, co pozwala na interakcję z robotem niemal tak, jak z drugim człowiekiem.
Czytaj też: Robot od Figure AI w programie Shawna Ryana. Humanoid zachwyca swoimi możliwościami
Co ciekawe, system oferuje dwa tryby egzekucji zadań:
- Generowanie kodu „w locie”: AI tworzy krótkie skrawki kodu, które bezpośrednio wydają instrukcje silnikom robota.
- Drzewa behawioralne (Behavior Trees): To bardziej zaawansowana metoda, która tworzy strukturę decyzji. Dzięki niej, jeśli robotowi coś wypadnie z „rąk” podczas przenoszenia, system potrafi samoczynnie skorygować działanie i wrócić do poprzedniego kroku, zamiast bezmyślnie kontynuować pusty ruch.
Dzięki takiej elastyczności, roboty mogą radzić sobie w dynamicznych środowiskach, takich jak domy czy biura, gdzie sytuacja zmienia się z minuty na minutę.
Nauka przez naśladownictwo
Jednym z najbardziej ekscytujących aspektów tego projektu jest fakt, że roboty potrafią się uczyć. System wspiera tzw. uczenie przez imitację – robot obserwuje działanie lub otrzymuje feedback od człowieka (np. „zrobiłeś to zbyt gwałtownie”), a następnie optymalizuje swoje zachowanie i zapisuje nową umiejętność w swojej cyfrowej pamięci. Dzięki temu maszyna staje się coraz lepsza w wykonywaniu specyficznych zadań bez konieczności ponownego programowania przez specjalistę.
Czytaj też: Robot, który obiera jabłka. Sharpa uczy maszyny ludzkiej zręczności
Badacze przetestowali ramy systemowe na wielu różnych typach robotów, wykonując zadania od prostego sortowania przedmiotów na stole, po złożone, długofalowe operacje logistyczne. Wyniki potwierdziły, że system jest skalowalny i niezwykle uniwersalny. Co więcej, cały projekt opiera się na ogólnodostępnych, wstępnie wytrenowanych modelach AI, a kod źródłowy całego rozwiązania został udostępniony za darmo. To gigantyczny krok w stronę demokratyzacji robotyki – teraz nawet mniejsze firmy czy hobbyści będą mogli „nauczyć” swoje maszyny rozumienia mowy.
Źródło: Nature Machine Intelligence
