Witaj Skynecie!? Google nauczyło maszyny myśleć jak ludzie!

Sprawienie, by robot poruszał się tak, jak sobie tego życzymy, to kwestia zaprogramowanych linii kodu albo konkretnych poleceń głosowych. Jednak nie do tego dążą inżynierowie. Ich celem jest rozumowanie. To maszyna sama ma oceniać sytuacje i podejmować decyzje, a nowy model Gemini może im to umożliwić.
Witaj Skynecie!? Google nauczyło maszyny myśleć jak ludzie!

Świat wokół nas nie jest tak uporządkowany, jak laboratoria, w których testowane są roboty. Nawet nasze mieszkania pełne są przeszkód, do których pokonania robot potrzebowałby normalnie różnego rodzaju instrukcji. Po co jednak aż tak to komplikować, skoro Gemini Robotics-ER 1.6 może sprawić, że maszyny same będą planować swoje ruchy w oparciu o to, co widzą?

 Gemini Robotics-ER 1.6 może być kluczem do rewolucji w robotyce

W rzeczywistym świecie jedna kamera to za mało. Jeśli chcemy, by roboty naprawdę działały w rzeczywistym świecie, muszą perfekcyjnie reagować na wszystko, co je otacza i nauczyć się z tym radzić. Model Gemini Robotics-ER 1.6 rozwiązuje ten problem dzięki zaawansowanemu rozumowaniu wielowidokowemu. Robot potrafi teraz jednocześnie przetwarzać obraz z kamery nad głową oraz tej umieszczonej na chwytaku (nadgarstku), łącząc te perspektywy w spójny obraz sytuacji. Nawet jeśli obiekt jest częściowo zasłonięty, AI potrafi wydedukować jego położenie i relację z innymi przedmiotami.

Jednak to, co najbardziej ekscytuje inżynierów, to nowa funkcja odczytywania instrumentów pomiarowych. Wiele gałęzi przemysłu wciąż opiera się na tradycyjnych, analogowych wskaźnikach – igłach, podziałkach i szkiełkach kontrolnych. Dzięki współpracy z Boston Dynamics, Google nauczyło model analizować te sygnały z niemal ludzką precyzją. W praktyce oznacza to, że robot wchodzi do pomieszczenia, widzi, że ciśnienie na zaworze jest zbyt wysokie, „rozumie” zagrożenie i samodzielnie decyduje o kolejnych krokach lub powiadomieniu obsługi.

Kolejnym kluczowym usprawnieniem jest zdolność do rozbijania złożonych problemów na mniejsze etapy. Gemini Robotics-ER 1.6 potrafi wskazać konkretne obiekty w procesie rozumowania, co pomaga mu lepiej planować interakcje w bałaganie. Co jednak ważniejsze, model wprowadza funkcję „detekcji sukcesu”. Do tej pory robot często powtarzał czynność w nieskończoność lub przechodził do kolejnego kroku, mimo że pierwszy się nie udał (np. nie udało mu się podnieść przedmiotu). Teraz AI analizuje wizualnie efekt swoich działań i samo decyduje, czy musi spróbować jeszcze raz, czy zadanie jest „zaliczone”.

Czytaj też: Gdzie człowiek nie może, tam robota pośle. Chiński humanoid wchodzi do służby w strefach śmierci

Jednak wszystkie te usprawnienia byłyby na nic, gdyby Google nie zadbał o bezpieczeństwo. Firma twierdzi, że model 1.6 jest najbezpieczniejszym systemem robotycznym firmy do tej pory. Ai potrafi bowiem wykryć zagrożenia fizyczne i przestrzegać ograniczeń bezpieczeństwa, a co ważniejsze, robi to znacznie lepiej niż wcześniej, opierając się na instrukcjach tekstowych i wizualnej ocenie otoczenia.

Czytaj też: W Chinach roboty tańczą, a w Polsce… gonią dziki. Edward Warchocki znów w akcji

Deweloperzy mogą już testować te możliwości poprzez Gemini API oraz Google AI Studio, co zwiastuje szybki wysyp aplikacji wykorzystujących te inteligentne algorytmy w magazynach, fabrykach, a może niedługo i w naszych domach, bo jest to jedno z tych rozwiązań, którego wykorzystanie nie ogranicza się tylko do jednego, konkretnego segmentu i znajdzie zastosowanie wszędzie tam, gdzie roboty muszą poruszać się poza ściśle kontrolowanymi warunkami.

Źródło: Google DeepMind

Napisane przez

Joanna Marteklas

Redaktor
Zajmuję się tematyką nowych technologii i ich wpływu na codzienne życie. Piszę o cyfrowej kulturze, innowacjach oraz trendach zmieniających sposób, w jaki pracujemy i komunikujemy się ze sobą. Szczególnie interesuje mnie relacja między rozwojem technologii a współczesną popkulturą. W wolnych chwilach zakopuję się w książkach i komiksach — najczęściej w fantastyce i wuxia.