Sztuczna inteligencja przebiła samą siebie. To zasługa oryginalnego podejścia

Uczenie przez wzmacnianie to jeden z głównych nurtów, jeśli chodzi o sztuczną inteligencję. Naukowcy skorzystali z niego w czasie nauki… grania w grę wideo.
Microsoft ChatGPT
Microsoft ChatGPT

Kiedy model sztucznej inteligencji posiądzie już konkretną wiedzę czy umiejętności, może bezproblemowo mierzyć się z człowiekiem. Sam etap uczenia jest jednak piętą achillesową tego typu algorytmów. W efekcie problemy, których rozwiązanie zajmie człowiekowi kilka sekund, dla maszyn mogą okazać się nie do przejścia. A nawet jeśli już uda się z nimi uporać, to ilość czasu i zasobów okazuje się niewspółmierna do faktycznej skali trudności.

Czytaj też: Sztuczna inteligencja doradza premierowi. Europejski kraj zatrudnił robota

Jak zauważyli autorzy publikacji, która obecnie jest dostępna w formie preprintu, zachęcanie sztucznej inteligencji do czytania instrukcji obsługi przed przystąpieniem do realizacji narzuconego zadania może przyspieszyć proces uczenia się. Tak właśnie wygląda uczenie przez wzmacnianie: wyznacza się cel, a następnie nagradza sztuczną inteligencję za wykonywanie akcji prowadzących do jego realizacji.

Chcąc dodatkowo usprawnić cały proces, naukowcy z Carnegie Mellon University postanowili pomóc algorytmom uczyć się jeszcze szybciej. W tym celu połączyli je z modelem językowym, który jest w stanie czytać instrukcje obsługi. Na efekty nie trzeba było długo czekać: sztuczna inteligencja nauczyła się grać w grę wideo znacznie szybciej niż miało to miejsce w przypadku modelu opracowanego przez DeepMind.

Sztuczna inteligencja została przeszkolona w ramach tzw. uczenia przez wzmacnianie

Najpierw trzeba było jednak przeprowadzić szkolenie modelu językowego tak, by był on w stanie wyodrębniać i podsumowywać kluczowe informacje znajdujące się w oficjalnej instrukcji obsługi wspomnianej gry. Dane te wykorzystano później do zadawania pytań dotyczących tej gry. Odpowiedzi udzielał rzecz jasna szkolony, mechaniczny adept. Użyto ich następnie do stworzenia dodatkowych nagród oraz wprowadzono do algorytmu uczenia przez wzmacnianie.

Czytaj też: DuckDuckGo idzie jak burza. DuckAssist ma być twoim asystentem – inteligentnym, ale bezpiecznym

Na koniec przyszedł czas próby. Aby ocenić swoje podejście, naukowcy przetestowali je w grze znanej jako Skiing. Kiedy porównali wyniki osiągane przez inne narzędzia z tymi, które udało się “wykręcić” dzięki nowemu podejściu, ręce same zaczęły składać się do oklasków. Wystarczy wspomnieć, że wcześniej sztuczna inteligencja musiała zaliczyć 80 miliardów podejść, aby osiągnąć wydajność porównywalną z człowiekiem. Naukowcom udało się natomiast ograniczyć tę liczbę do 13 milionów. Mówimy więc o wyniku około 6000 razy lepszym. W dalszej kolejności czekają inne, bardziej rozbudowane produkcje, takie jak na przykład popularny Minecraft.