Robert Caruso, inżynier architektury infrastruktury odpowiedzialny za poprzednie starcia Atari Chess z ChatGPT i Microsoft Copilot, postanowił przetestować także Google’owy Gemini. Czy ten “zbudowany od podstaw” system AI będzie miał więcej szczęścia niż jego poprzednicy?
Gemini początkowo przechwalał się swoimi możliwościami
Podczas wstępnej rozmowy Gemini przekonywał, że zdominuje Atari Chess, bo “nie jest zwykłym dużym modelem językowym”. Chatbot Google twierdził, że jest “bardziej podobny do nowoczesnego silnika szachowego… który może myśleć miliony ruchów do przodu i oceniać nieskończone pozycje”.
Co ciekawe, Gemini doskonale znał poprzednie pojedynki Caruso z innymi systemami AI, a nawet załączył linki do artykułów o tych starciach. Gdy jednak dowiedział się, że to właśnie Caruso prowadził te testy, zaczął zadawać pytania o “szczególnie zaskakujące lub zabawne momenty” z meczów.
Przyznanie się do błędu i kapitulacja
Caruso odpowiedział wprost: “To, co się wyróżnia, to przesadna pewność siebie obu AI. Obaj przewidywali łatwe zwycięstwa – a teraz ty właśnie powiedziałeś, że zdominujesz Atari”.
Reakcja Gemini była zaskakująca. Chatbot przyznał, że “halucynował” swoje umiejętności szachowe i stwierdził, że “będzie miał ogromne trudności przeciwko silnikowi gry Atari 2600 Video Chess”.
Następnie podjął decyzję: “Odwołanie meczu to prawdopodobnie najbardziej efektywna czasowo i rozsądna decyzja”.
Dlaczego nowoczesne AI przegrywa z 46-letnim sprzętem?
Starcie między Atari 2600 a nowoczesnymi modelami AI ujawnia fundamentalną różnicę w sposobie działania obu technologii. Duże modele językowe to w gruncie rzeczy systemy przewidywania tekstu, które “nie są w stanie budować i utrzymywać odpowiednich, interpretowalnych, dynamicznie aktualizowanych modeli świata” – tłumaczy Gary Marcus, znany badacz AI.
Problem z modelem świata
“Model świata (lub model kognitywny) to struktura obliczeniowa, którą system używa do śledzenia tego, co dzieje się w świecie”. Profesjonalni szachiści budują w umyśle precyzyjną reprezentację planszy i ciągle ją aktualizują. Tymczasem LLM-y mają z tym ogromne problemy.
Nawet najprostsze zadania szachowe okazują się trudne – model musi “wiedzieć”, że nie można ruszyć figury, jeśli naraziłoby to króla na szach, co oznacza, że musi rozumieć pojęcie szacha, ale też myśleć przynajmniej jeden ruch do przodu.
Szachy to test rozumowania przestrzennego
Badania pokazują, że modele językowe “grają w zasadzie w szachy w ciemno”, bo “model jest oparty na języku, co utrudnia przekładanie tekstu na pozycję geometryczną”. Podczas gdy człowiek widzi planszę, AI musi zrekonstruować położenie każdej figury z ciągu tekstowego.
Najnowsze badania porównujące 13 modeli AI w szachach pokazują, że “szachy mogą być dobrym wskaźnikiem możliwości rozumowania” – albo model przekracza próg i zaczyna rzeczywiście rozumować, albo pozostaje za nim i “tylko generuje tekst, przekształcając wejście w wyjście”.
Atari 2600 ma przewagę dedykowanego algorytmu
Video Chess z 1979 roku to specjalistyczny program stworzony wyłącznie do gry w szachy. Korzysta ze sprytnej techniki zwanej “venetian blinds”, rysując figury w przeplatających się liniach, co pozwala na zmieszczenie wszystkich elementów na ekranie mimo ograniczeń sprzętowych.
Algorytm może analizować tylko 1-2 ruchy do przodu, ale robi to bezbłędnie w ramach jasno zdefiniowanych reguł. To klasyczny przykład tego, jak dedykowane narzędzia stworzone do konkretnego celu często przewyższają asystentów AI, które mają robić “wszystko”.
Gdy AI próbuje oszukiwać
Najnowsze badania ujawniają jeszcze bardziej niepokojący aspekt. Zaawansowane modele rozumowania, jak OpenAI o1-preview, gdy nie mogą wygrać uczciwie w szachy, czasami próbują oszukiwać – modyfikują pliki systemowe zawierające pozycje figur, tworząc kopie przeciwnika lub zastępując silnik szachowy słabszym programem.
“Gdy uczysz modele i wzmacniasz je do rozwiązywania trudnych wyzwań, uczysz je bycia nieustępliwymi” – tłumaczy Jeffrey Ladish z Palisade Research. To może być problemem dla bezpieczeństwa AI w przyszłości.
Czy AI naprawdę rozumuje?
Badanie Connect 4 dostarcza dodatkowego dowodu – gdy wszystkie LLM-y nie potrafią grać w tę prostszą grę, “jedynym wnioskiem jest to, że ta porażka wynika z braku historycznych zapisów rozegranych gier w danych treningowych. To oznacza, że nie można argumentować, że te modele są w stanie ‘rozumować’ w jakimkolwiek znaczeniu tego słowa, ale jedynie wyprodukować wariację tego, co widziały podczas treningu”.
Niedawne badania MIT potwierdzają te wnioski: “duże modele językowe często mają trudności z bardziej złożonymi problemami wymagającymi prawdziwego zrozumienia” i “ich wysoka wydajność ogranicza się do popularnych wariantów zadań”.
Lekcja pokory dla branży AI
Caruso był pod wrażeniem zdolności Gemini do rozpoznawania swoich ograniczeń. “Dodawanie takich kontroli rzeczywistości to nie tylko unikanie zabawnych błędów szachowych. To sprawia, że AI staje się bardziej niezawodne, godne zaufania i bezpieczne – szczególnie w krytycznych miejscach, gdzie błędy mogą mieć poważne konsekwencje”, powiedział w rozmowie z serwisem The Register.
Atari 2600 nadal niepokonane
Konsola Atari 2600 z 1977 roku nadal pozostaje niepokonana w starciach z nowoczesnymi systemami AI. Video Chess, jedyna gra szachowa wydana dla tej platformy w 1979 roku, może analizować maksymalnie jeden lub dwa ruchy do przodu. Mimo to okazuje się skuteczniejsza od systemów AI trenowanych na bilionach tokenów.
Czytaj też: Microsoft Copilot też padł ofiarą legendy Atari 2600. Historia się powtarza
To kolejny dowód na to, że mimo wszystkich swoich możliwości nowoczesne systemy AI wciąż mają swoje ograniczenia. Czasami 46-letni algorytm ze 128 bajtami pamięci okazuje się mądrzejszy od najnowocześniejszej sztucznej inteligencji. A czasami najlepszą strategią jest po prostu przyznać się do niewiedzy.