Badanie, które wstrząsnęło branżą AI
Badanie Apple zatytułowane “The Illusion of Thinking” to 53-stronicowy manifest przeciwko powszechnemu przekonaniu o zdolnościach rozumowania sztucznej inteligencji. Naukowcy z Apple poddali testom najnowsze modele rozumujące (LRM), w tym OpenAI o3-mini, Claude 3.7 Sonnet Thinking oraz DeepSeek-R1.
Zamiast standardowych testów matematycznych, zespół Apple stworzył specjalne puzzle logiczne oparte na czterech klasycznych problemach: Wieża z Hanoi, Blocks World, River Crossing oraz Checkers Jumping. Wybór nie był przypadkowy – te zadania od dekad służą naukowcom do badania zdolności rozumowania.
Wyniki okazały się druzgocące. Wszystkie testowane modele wykazywały podobny wzorzec: im trudniejsze zadanie, tym gorsza wydajność, aż do całkowitego załamania się przy określonym poziomie złożoności. Co gorsza, modele zaczynały używać mniej tokenów (jednostek obliczeniowych) przy najtrudniejszych zadaniach, jakby po prostu się poddawały.
Reakcja branży: od szoku do gniewu
Publikacja Apple wywołała burzę w świecie AI. Ruben Hassid, twórca narzędzia EasyGen, nie gryzł się w język: “Apple właśnie udowodniło, że modele AI ‘rozumujące’, jak Claude, DeepSeek-R1 i o3-mini, wcale nie rozumują. Po prostu bardzo dobrze zapamiętują wzorce.”
Część ekspertów zarzuciła Apple cynizm marketingowy. Firma od lat pozostaje w tyle za OpenAI czy Google w wyścigu o sztuczną inteligencję, a jej asystent Siri to żenująco słaby produkt w porównaniu z konkurencją. Czy badanie to próba zdyskredytowania technologii, w której Apple nie radzi sobie najlepiej?
Kontratak: “Iluzja iluzji myślenia”
Na odpowiedź nie trzeba było długo czekać. Alex Lawsen z organizacji Open Philanthropy wraz z modelem Claude Opus 4 opublikowali ripostę zatytułowaną przewrotnie “The Illusion of the Illusion of Thinking” – dosłownie “Iluzja iluzji myślenia”.
Ten duet człowieka i AI (tak, model Claude Opus 4 oficjalnie figuruje jako współautor) zarzuca zespołowi Apple fundamentalne błędy w metodologii badań. Główne zarzuty to:
Problem limitów tokenów: w zadaniach takich jak Wieża z Hanoi z 15 krążkami modele musiały wyprodukować ponad 32 000 kroków rozwiązania. To przekracza możliwości większości systemów AI – nie z powodu braku rozumowania, ale ograniczeń technicznych.
Nieprawidłowa ocena: skrypt Apple’a uznawał za błędne odpowiedzi, które były strategicznie poprawne, ale nie mieściły się w limicie tokenów. To jak ocenianie negatywnie studenta, który nie zmieścił wszystkich obliczeń na kartce, mimo że znał prawidłową metodę.
Niemożliwe do rozwiązania puzzle: część zadań River Crossing była matematycznie nierozwiązywalna, a mimo to wliczano je do statystyk porażek modeli.
Eksperyment, który zmienił wszystko
Lawsen i Claude Opus 4 przeprowadzili własny test. Zamiast zmuszać modele do wypisywania każdego kroku, pozwolili im napisać funkcję w języku Lua, która generuje rozwiązanie Wieży z Hanoi. Rezultat? Modele bez problemu poradziły sobie z 15-krążkową wersją zadania – daleko poza poziomem, przy którym Apple raportowało zero sukcesów.
To odkrycie sugeruje, że modele AI wcale nie traciły zdolności rozumowania przy trudnych zadaniach. Po prostu były zmuszane do niewłaściwego formatu odpowiedzi.
Co to oznacza dla przyszłości AI?
Ta akademicka potyczka to coś więcej niż spór o metodologię badań. To fundamentalna debata o tym, czym jest inteligencja i jak ją mierzyć.
Z perspektywy praktycznej różnica jest ogromna. Jeśli Apple ma rację, obecne modele AI osiągnęły sufit swoich możliwości i nie doprowadzą nas do prawdziwej sztucznej inteligencji. Jeśli rację mają krytycy, to problemy leżą w sposobie testowania, nie w samej technologii.
Dla firm wykorzystujących AI w praktyce ten spór ma konkretne konsekwencje. Czy opłaca się inwestować w drogie modele rozumujące, jeśli mają fundamentalne ograniczenia? A może problem leży w tym, jak formułujemy zadania i oceniamy wyniki?
Werdykt: prawda gdzieś pośrodku
Najprawdopodobniej obie strony mają częściowo rację. Modele AI rzeczywiście mają ograniczenia w rozumowaniu długoterminowym i radzeniu sobie z naprawdę złożonymi problemami. Ale sposób testowania tych ograniczeń może być równie ważny jak same ograniczenia.
Czytaj też: AI w pigułce: halucynacje, cyfrowy analfabetyzm i niepewność twórców
Praktyczna lekcja jest jasna: zanim proklamujemy śmierć lub narodziny sztucznej inteligencji, upewnijmy się, że test sam w sobie nie stawia systemu w zbyt ciasnym pudełku, by mógł w nim “myśleć”. A Apple? Firma może być z tyłu w wyścigu AI, ale właśnie udowodniła, że potrafi wywołać najważniejsze dyskusje w branży. To już coś.