Sztuczna inteligencja powinna rozwijać się inaczej. Więcej nie oznacza lepiej

Firma DeepMind twierdzi, że sztuczna inteligencja nie powinna się rozwijać jedynie w zakresie powiększania jej mocy obliczeniowej.
Sztuczna inteligencja powinna rozwijać się inaczej. Więcej nie oznacza lepiej

Kluczem miałoby być bowiem upodobnienie jej do człowieka. Ma to stanowić przeciwwagę dla postępu osiąganego wyłącznie poprzez powiększanie komputerów i szkolenie ich w oparciu o coraz większe ilości danych. Takie podejście ma oczywiście swoje zalety, ale i liczne wady. Wśród nich można wymienić co najmniej trzy: rosnące koszty, wysokie zapotrzebowanie na zasoby i nieporęczność maszyn napędzających systemy SI. Na przykład ten stworzony przez Microsoft i Nvidię wymagał ponad miesiąca dostępu do superkomputera. Jakby do było mało, do jego przeszkolenia potrzebowano niemal 4500 kart graficznych o dużej mocy.

Czytaj też: Odkrywają nieznane wcześniej matematyczne wzory. Uczenie maszynowe kluczem do sukcesu

Potencjał obliczeniowy wcale nie musi być tym, co przesądzi o sukcesie sztucznej inteligencji. DeepMind najprawdopodobniej wyszła z podobnego założenia, decydując się na zaprojektowanie modelu, który wyszukuje informacje w ogromnej bazie danych w sposób podobny do ludzkiego. Dzięki temu model ten nie musiał uczyć się wszystkiego w czasie swojego szkolenia. W przyszłości mogłoby to sprawić, że powstaną modele mniej skomplikowane, a równie wydajne co te bardziej rozbudowane.

Modele językowe, pomimo znacznie lepszych parametrów, osiągają nieznacznie wyższe wyniki w testach

Wraz z upływem czasu notuje się coraz większe postępy. O ile GPT-3 wykorzystywał 175 miliardów parametrów napędzających sieci neuronowe, tak wspomniany model od Microsoftu i Nvidii, czyli Megatron-Turing Natural Language Generation, posiada 530 miliardów parametrów. Problem w tym, że – poza różnicą w tych wartościach – oba modele wcale nie odstają od siebie pod względem wydajności. Na przykład wykonywanie jednego z zadań zakończyło się sukcesem w 86,4% przypadków gdy wykonywał je GPT-3 i w 87,2% przypadków, gdy zajmował się nim Megatron.

Aby ocenić te różnice w innych przypadkach, naukowcy związani z DeepMind wzięli pod lupę sześć modeli językowych. Ten najmniej rozbudowany zawierał 44 miliony parametrów podczas gdy najbardziej zaawansowany – 280 miliardów. Zlecając im wykonanie 152 różnych zadań, autorzy eksperymentu zauważyli, że najbardziej rozbudowany model poradził sobie zarówno z Megatronem jak i GPT-3. W teście czytania ze zrozumieniem uzyskał wynik 71,6. Dwa pozostałe: kolejno 47,9 oraz 46,8.

Czytaj też: Doktor SI: sztuczna inteligencja została lekarzem w Południowej Korei

Idąc w tym tokiem myślenia, przedstawiciele DeepMind postanowili stworzyć model, który analizuje informacje, zamiast je zapamiętywać. W ten sposób powstał RETRO (Retrieval-Enhanced Transformer). Posiada on 7 miliardów parametrów, czyli 25 razy mniej niż GPT-3. Może jednak korzystać z zewnętrznej bazy danych zawierającej około 2 bilionów informacji, dzięki czemu wymaga mniej czasu, energii i mocy obliczeniowej, aby osiągać podobne wyniki, co GPT-3. Porównując jego wydajność do innego modelu o podobnych parametrach (lecz pozbawionego możliwości szukania informacji), RETRO uzyskał w jednym z testów 45,5 punktów, podczas gdy jego przeciwnik – 30,4 punktów.