
Startup Rhoda AI właśnie wyszedł z cienia, ogłaszając pozyskanie 450 milionów dolarów na rozwój systemu FutureVision. Ich podejście jest rewolucyjne: zamiast programować sztywne ścieżki, nauczyli maszyny przewidywać fizyczne zmiany w otoczeniu na podstawie milionów godzin nagrań wideo z internetu. Dzięki temu roboty przestają być tylko wykonawcami poleceń, a stają się obserwatorami, którzy potrafią dostosować swoje działania w ułamku sekundy, reagując na chaos panujący w prawdziwym świecie.
FutureVision od Rhoda AI — model wideo, który uczy fizyki bez podręczników
Kluczem do sukcesu Rhoda AI jest architektura nazwana Direct Video Action. Większość nowoczesnych systemów AI dla robotów opiera się na modelach językowo-wizualnych, które świetnie opisują świat, ale niekoniecznie rozumieją jego dynamikę. Rhoda AI poszła o krok dalej. Ich system uczył się na „internetowej skali” materiałów wideo, co pozwoliło mu zrozumieć fundamentalne zasady fizyki, wzorce ruchu i interakcje między obiektami, zanim jeszcze jakakolwiek maszyna została podłączona do prądu.
Jak to działa w praktyce? FutureVision obserwuje otoczenie i w czasie rzeczywistym generuje „przyszłe klatki wideo”. Robot przewiduje, co stanie się za chwilę, a następnie przekłada te prognozy na konkretne akcje fizyczne. Proces ten powtarza się co kilkaset milisekund w pętli zamkniętej. Oznacza to, że jeśli podczas pracy robota ktoś przesunie paletę lub na drodze pojawi się niespodziewana przeszkoda, system nie zatrzyma się z błędem, lecz skoryguje swój ruch w locie.
Czytaj też: W Monachium powstaje największa na świecie siłownia dla robotów
Takie podejście drastycznie skraca czas szkolenia. Podczas gdy tradycyjne metody wymagają setek godzin pokazowych sesji (teleoperacji), Rhoda AI twierdzi, że do nauki zupełnie nowego zadania wystarcza zaledwie dziesięć godzin danych. To ogromna oszczędność dla firm, które muszą szybko adaptować swoje linie produkcyjne do nowych produktów.
Od laboratorium do hal produkcyjnych
Wierzymy, że kolejna era robotyki wymaga modeli, które rozumieją, jak świat się porusza, a nie tylko jak wygląda lub jak opisuje go język – twierdzi Jagdeep Singh, dyrektor generalny Rhoda AI.
I rzeczywiście, testy w rzeczywistych warunkach przemysłowych potwierdzają te słowa. W jednym z zakładów produkcyjnych robot wyposażony w technologię FutureVision wykonał skomplikowany proces przetwarzania komponentów w czasie poniżej dwóch minut na cykl, całkowicie bez ingerencji człowieka, przewyższając założone cele wydajnościowe.
Czytaj też: Figure 03 sprząta salon. Humanoidy wchodzą do naszych domów z pełną autonomią
To właśnie ta niezawodność w „brudnej rzeczywistości” przyciągnęła inwestorów. Jens Wiese, partner w firmie VC Leitmotif i były dyrektor w Grupie Volkswagen, zauważa, że zadania o wysokiej zmienności do tej pory opierały się automatyzacji. Wyzwaniem nie jest bowiem jednorazowe rozwiązanie problemu w laboratorium, ale powtarzalność i pewność działania w prawdziwej fabryce, gdzie materiały i przepływy pracy stale się zmieniają.
Czytaj też: Nowa e-skóra dla robotów rewolucjonizuje dotyk. Inspiracją było ludzkie oko
Rhoda AI planuje, że FutureVision stanie się modelem bazowym, który będzie licencjonowany partnerom budującym własny sprzęt i oprogramowanie. Pozyskane fundusze zostaną przeznaczone na rozbudowę zespołu inżynierów oraz skalowanie pilotażowych wdrożeń u kolejnych klientów przemysłowych. Oczywiście wszystko zależy, czy startupowi uda się utrzymać tempo rozwoju, ale jeśli tak, to wkrótce roboty współpracujące staną się znacznie bardziej „inteligentne” i samodzielne, co może wywołać kolejną rewolucję w wydajności globalnego przemysłu.
Źródło: Rhoda AI