Sztuczna inteligencja powinna rozwijać się inaczej. Więcej nie oznacza lepiej

Kluczem miałoby być bowiem upodobnienie jej do człowieka. Ma to stanowić przeciwwagę dla postępu osiąganego wyłącznie poprzez powiększanie komputerów i szkolenie ich w oparciu o coraz większe ilości danych. Takie podejście ma oczywiście swoje zalety, ale i liczne wady. Wśród nich można wymienić co najmniej trzy: rosnące koszty, wysokie zapotrzebowanie na zasoby i nieporęczność maszyn napędzających systemy SI. Na przykład ten stworzony przez Microsoft i Nvidię wymagał ponad miesiąca dostępu do superkomputera. Jakby do było mało, do jego przeszkolenia potrzebowano niemal 4500 kart graficznych o dużej mocy.

Czytaj też: Odkrywają nieznane wcześniej matematyczne wzory. Uczenie maszynowe kluczem do sukcesu

Potencjał obliczeniowy wcale nie musi być tym, co przesądzi o sukcesie sztucznej inteligencji. DeepMind najprawdopodobniej wyszła z podobnego założenia, decydując się na zaprojektowanie modelu, który wyszukuje informacje w ogromnej bazie danych w sposób podobny do ludzkiego. Dzięki temu model ten nie musiał uczyć się wszystkiego w czasie swojego szkolenia. W przyszłości mogłoby to sprawić, że powstaną modele mniej skomplikowane, a równie wydajne co te bardziej rozbudowane.

Modele językowe, pomimo znacznie lepszych parametrów, osiągają nieznacznie wyższe wyniki w testach

Wraz z upływem czasu notuje się coraz większe postępy. O ile GPT-3 wykorzystywał 175 miliardów parametrów napędzających sieci neuronowe, tak wspomniany model od Microsoftu i Nvidii, czyli Megatron-Turing Natural Language Generation, posiada 530 miliardów parametrów. Problem w tym, że – poza różnicą w tych wartościach – oba modele wcale nie odstają od siebie pod względem wydajności. Na przykład wykonywanie jednego z zadań zakończyło się sukcesem w 86,4% przypadków gdy wykonywał je GPT-3 i w 87,2% przypadków, gdy zajmował się nim Megatron.

Aby ocenić te różnice w innych przypadkach, naukowcy związani z DeepMind wzięli pod lupę sześć modeli językowych. Ten najmniej rozbudowany zawierał 44 miliony parametrów podczas gdy najbardziej zaawansowany – 280 miliardów. Zlecając im wykonanie 152 różnych zadań, autorzy eksperymentu zauważyli, że najbardziej rozbudowany model poradził sobie zarówno z Megatronem jak i GPT-3. W teście czytania ze zrozumieniem uzyskał wynik 71,6. Dwa pozostałe: kolejno 47,9 oraz 46,8.

Czytaj też: Doktor SI: sztuczna inteligencja została lekarzem w Południowej Korei

Idąc w tym tokiem myślenia, przedstawiciele DeepMind postanowili stworzyć model, który analizuje informacje, zamiast je zapamiętywać. W ten sposób powstał RETRO (Retrieval-Enhanced Transformer). Posiada on 7 miliardów parametrów, czyli 25 razy mniej niż GPT-3. Może jednak korzystać z zewnętrznej bazy danych zawierającej około 2 bilionów informacji, dzięki czemu wymaga mniej czasu, energii i mocy obliczeniowej, aby osiągać podobne wyniki, co GPT-3. Porównując jego wydajność do innego modelu o podobnych parametrach (lecz pozbawionego możliwości szukania informacji), RETRO uzyskał w jednym z testów 45,5 punktów, podczas gdy jego przeciwnik – 30,4 punktów.