Świat wokół nas nie jest tak uporządkowany, jak laboratoria, w których testowane są roboty. Nawet nasze mieszkania pełne są przeszkód, do których pokonania robot potrzebowałby normalnie różnego rodzaju instrukcji. Po co jednak aż tak to komplikować, skoro Gemini Robotics-ER 1.6 może sprawić, że maszyny same będą planować swoje ruchy w oparciu o to, co widzą?
Gemini Robotics-ER 1.6 może być kluczem do rewolucji w robotyce
W rzeczywistym świecie jedna kamera to za mało. Jeśli chcemy, by roboty naprawdę działały w rzeczywistym świecie, muszą perfekcyjnie reagować na wszystko, co je otacza i nauczyć się z tym radzić. Model Gemini Robotics-ER 1.6 rozwiązuje ten problem dzięki zaawansowanemu rozumowaniu wielowidokowemu. Robot potrafi teraz jednocześnie przetwarzać obraz z kamery nad głową oraz tej umieszczonej na chwytaku (nadgarstku), łącząc te perspektywy w spójny obraz sytuacji. Nawet jeśli obiekt jest częściowo zasłonięty, AI potrafi wydedukować jego położenie i relację z innymi przedmiotami.
Jednak to, co najbardziej ekscytuje inżynierów, to nowa funkcja odczytywania instrumentów pomiarowych. Wiele gałęzi przemysłu wciąż opiera się na tradycyjnych, analogowych wskaźnikach – igłach, podziałkach i szkiełkach kontrolnych. Dzięki współpracy z Boston Dynamics, Google nauczyło model analizować te sygnały z niemal ludzką precyzją. W praktyce oznacza to, że robot wchodzi do pomieszczenia, widzi, że ciśnienie na zaworze jest zbyt wysokie, „rozumie” zagrożenie i samodzielnie decyduje o kolejnych krokach lub powiadomieniu obsługi.
Kolejnym kluczowym usprawnieniem jest zdolność do rozbijania złożonych problemów na mniejsze etapy. Gemini Robotics-ER 1.6 potrafi wskazać konkretne obiekty w procesie rozumowania, co pomaga mu lepiej planować interakcje w bałaganie. Co jednak ważniejsze, model wprowadza funkcję „detekcji sukcesu”. Do tej pory robot często powtarzał czynność w nieskończoność lub przechodził do kolejnego kroku, mimo że pierwszy się nie udał (np. nie udało mu się podnieść przedmiotu). Teraz AI analizuje wizualnie efekt swoich działań i samo decyduje, czy musi spróbować jeszcze raz, czy zadanie jest „zaliczone”.
Czytaj też: Gdzie człowiek nie może, tam robota pośle. Chiński humanoid wchodzi do służby w strefach śmierci
Jednak wszystkie te usprawnienia byłyby na nic, gdyby Google nie zadbał o bezpieczeństwo. Firma twierdzi, że model 1.6 jest najbezpieczniejszym systemem robotycznym firmy do tej pory. Ai potrafi bowiem wykryć zagrożenia fizyczne i przestrzegać ograniczeń bezpieczeństwa, a co ważniejsze, robi to znacznie lepiej niż wcześniej, opierając się na instrukcjach tekstowych i wizualnej ocenie otoczenia.
Czytaj też: W Chinach roboty tańczą, a w Polsce… gonią dziki. Edward Warchocki znów w akcji
Deweloperzy mogą już testować te możliwości poprzez Gemini API oraz Google AI Studio, co zwiastuje szybki wysyp aplikacji wykorzystujących te inteligentne algorytmy w magazynach, fabrykach, a może niedługo i w naszych domach, bo jest to jedno z tych rozwiązań, którego wykorzystanie nie ogranicza się tylko do jednego, konkretnego segmentu i znajdzie zastosowanie wszędzie tam, gdzie roboty muszą poruszać się poza ściśle kontrolowanymi warunkami.
Źródło: Google DeepMind
