Tak długo, że zajęło mu to 70 000 godzin oglądania ludzi spędzających czas w wirtualnym świecie od Mojang. Wnioski wyciągnięte z tego eksperymentu mogą okazać się przełomowe dla całej sztucznej inteligencji. W grę wchodzi między innymi poprawa jej szkolenia, które mogłoby przebiegać w oparciu o oglądanie materiałów dostępnych w serwisie YouTube.
Czytaj też: Sztuczna inteligencja mistrzem dyplomacji. Powoli możemy czuć się zagrożeni
W tym przypadku wspomniany bot nauczył się między innymi ścinania drzew i tworzenia narzędzi. Jest to pierwszy program zdolny do craftingu diamentowych przedmiotów. W przypadku doświadczonych graczy osiągnięcie tego celu zajmuje co najmniej 20 minut bądź 24 000 akcji.
Naukowcy postanowili więc sprawić, by bot – a w zasadzie napędzająca go sieć neuronowa – uczył się poprzez naśladowanie. I choć już wcześniej próbowano tego typu metod, to pojawiał się pewien problem: materiały szkoleniowe musiały być odpowiednio oznaczane. W tym przypadku, chcąc uniknąć ręcznego nanoszenia danych, badacze postanowili przekształcić miliony filmów dostępnych w sieci w nowy zbiór danych.
Sztuczna inteligencja może uczyć się naśladując to, co zobaczyła u innych graczy
Zaproponowana przez nich metoda nosi nazwę VPT (Video Pre-Training). Pierwszym krokiem w całym przedsięwzięciu było zaproszenie ludzi do gry w Minecraft. Kiedy osoby te grały, ich ruchy myszką oraz wybierane na klawiaturze klawisze były monitorowane. Łącznie powstało około 2000 godzin nagrań, które zostały wykorzystane do wytrenowania modelu dopasowującego działania do wyników na ekranie. Następnie naukowcy użyli tego modelu do wygenerowania etykiet działań dla 70 000 godzin nieoznakowanego wideo pobranego z Internetu.
Ostateczny etap miał natomiast polegać na wytrenowaniu bota w oparciu o tak duży zestaw danych. Takie podejście do sprawy stanowi alternatywę dla uczenia przez wzmacnianie – w jego przypadku sieć neuronowa uczy się wykonywać zadanie od podstaw metodą prób i błędów. Uczenie wzmacniające nie sprawdziłoby się jednak w przypadku gry, w której panuje ogromna wolność i nie ma konkretnego celu.
Czytaj też: W takich warunkach sieci neuronowe uczą się najlepiej. Ludzie powinni wyciągnąć wnioski?
Korzystając z metody VPT, bot był w stanie wykonać zadania, które byłyby nie do zrealizowania z użyciem samego uczenia przez wzmacnianie. Tym bardziej interesujący wydaje się fakt, że najlepsze rezultaty przyniosło połączenie obu metod: uczenia przez wzmacnianie i naśladowanie. W takich okolicznościach bot potrafił wykonywać akcje wymagające zastosowania nawet 20 000 kolejnych ruchów.