Jest to bowiem robot, który wykazuje pierwsze oznaki tzw. uogólniania kompozycyjnego. W prostym języku oznacza to, że robot potrafi łączyć znane mu już umiejętności w zupełnie nowe kombinacje, by poradzić sobie z urządzeniem lub czynnością, której nie miał w swoim programie treningowym.
Kiedy robot zaczyna kombinować
Największym problemem tradycyjnej robotyki było budowanie osobnych modeli dla każdego zadania: jeden do parzenia kawy, drugi do składania ubrań. Model π0.7 zrywa z tym podejściem. Naukowcy z Physical Intelligence zauważyli, że system potrafi samodzielnie wywnioskować, jak obsłużyć nieznany mu wcześniej sprzęt kuchenny lub – co najbardziej spektakularne – jak składać pranie na nowym typie robota, mimo że w bazie danych nie było ani jednego przykładu składania ubrań dla tej konkretnej maszyny.
Jak to możliwe? W przeciwieństwie do wcześniejszych systemów wizyjno-językowych, które często „zacinały się” przy próbie przeniesienia wiedzy do nowego kontekstu, π0.7 potrafi płynnie stosować posiadane kompetencje w nowych scenariuszach bez dodatkowego douczania (tzw. fine-tuningu). To przejście od sztywnej maszyny do elastycznego systemu, który uczy się wielozadaniowości poprzez łączenie kropek. Zamiast uczyć się „jak trzymać kubek”, robot uczy się „zasad chwytania obiektów”, co pozwala mu złapać niemal wszystko, co spotka na swojej drodze.
Multimodalne prompty i nauka na błędach
Sekret elastyczności modelu π0.7 tkwi w procesie jego szkolenia. Zamiast opierać się na jednym źródle danych, system karmiony jest miksem informacji: od pokazów ludzkich, przez autonomicznie zebrane doświadczenia robotów, aż po dane z wielu różnych platform mechanicznych. Kluczowe jest jednak to, jak robot „rozmawia” z otoczeniem. System wykorzystuje bogate, multimodalne prompty. Nie są to tylko suche komendy tekstowe typu „posprzątaj”, ale zestaw wskazówek obejmujących instrukcje wizualne (np. jak powinny być ułożone przedmioty na końcu zadania) oraz parametry takie jak czas trwania czynności.
Czytaj też: Witaj Skynecie!? Google nauczyło maszyny myśleć jak ludzie!
Dzięki temu podczas pracy (wnioskowania) robot może otrzymywać wskazówki w czasie rzeczywistym. Jeśli ma problem z nowym zadaniem, człowiek może mu podać prostą strategię lub wyznaczyć cele wizualne, a π0.7 dostosuje swój ruch bez potrzeby restartowania systemu. W testach robot wykazał, że przy minimalnym wsparciu potrafi odgadnąć przeznaczenie nieznanych mu przedmiotów, a jego skuteczność drastycznie rośnie, gdy otrzyma instrukcje krok po kroku.
Czytaj też: Gdzie człowiek nie może, tam robota pośle. Chiński humanoid wchodzi do służby w strefach śmierci
Warto jednak zachować odrobinę sceptycyzmu – twórcy przyznają, że π0.7 wciąż potrzebuje szczegółowego prowadzenia przy bardzo złożonych, wieloetapowych operacjach. Nie jest to jeszcze sztuczna inteligencja, której rzucimy jedno zdanie: „zrób mi obiad”, a ona ogarnie wszystko od zakupów po zmywanie. Dodatkowo, brak ujednoliconych testów porównawczych (benchmarków) utrudnia niezależną weryfikację tych wyników. Niemniej jednak, sukces Physical Intelligence sugeruje, że rozwój AI w robotyce nabiera tempa, o którym jeszcze dwa lata temu mogliśmy tylko marzyć.
Źródło: Physical Intelligence
