Niespodziewany lider w testach rozumowania
Hierarchiczny model rozumowania to zupełnie inne podejście niż to, które znamy z obecnych modeli językowych. Podczas gdy najnowsze systemy mierzą swoje moce obliczeniowe w bilionach parametrów, HRM korzysta z zaledwie 27 milionów. To mniej więcej tak, jakby porównywać superkomputer do kalkulatora. Architektura modelu wzoruje się na ludzkim mózgu, przetwarzając informacje hierarchicznie na różnych poziomach abstrakcji. System wykorzystuje dwa moduły: jeden do planowania wysokiego poziomu, drugi do szczegółowych obliczeń. Zamiast standardowego rozumowania łańcuchowego, stosuje iteracyjne udoskonalanie z mechanizmem decydującym o kontynuacji procesu. W testach ARC-AGI-1, które sprawdzają abstrakcyjne rozumowanie, HRM osiągnął 40,3% skuteczności. To wynik lepszy niż OpenAI o3-mini-high (34,5%) czy Claude 3.7 Anthropic (21,2%). W trudniejszej wersji ARC-AGI-2 model uzyskał 5%, podczas gdy jego najbliższy konkurent tylko 3%.
Czytaj też: Gemini idzie w ślady ChatGPT. Sztuczna inteligencja Google dostaje funkcje pamięci i prywatnych czatów
Prawda wychodzi na jaw
Entuzjazm szybko zmącili eksperci z zespołu ARC Prize, którzy postanowili zweryfikować te rewelacje. Ich niezależna analiza pokazała nieco mniej spektakularne wyniki: 32% na ARC-AGI-1 i 2% na ARC-AGI-2. Nadal imponujące jak na tak mały model, ale już nie tak rewolucyjne jak wcześniej sugerowano. Najciekawsze odkrycie dotyczyło źródła tych sukcesów. Okazało się, że nie hierarchiczna architektura, lecz słabo opisany w publikacji proces “pętli zewnętrznej” odpowiadał za większość poprawy wydajności. To mechanizm iteracyjnego udoskonalania działający podczas treningu.
Architektura hierarchiczna miała minimalny wpływ na wydajność w porównaniu do transformera o podobnej wielkości — wyjaśnia zespół ARC Prize
Dalsze testy ujawniły ograniczone zdolności transferu wiedzy między różnymi zadaniami. Większość wydajności modelu pochodziła z zapamiętywania rozwiązań konkretnych problemów widzianych podczas uczenia. Największym problemem HRM jest jego transdukcyjny charakter. Model potrafi rozwiązywać tylko te zagadki, których identyfikatory widział podczas treningu. To poważne ograniczenie dla praktycznego zastosowania, ponieważ dane testowe muszą być częścią zbioru treningowego. Eksperci odkryli również, że do osiągnięcia podobnych wyników wystarczyło 300 augmentacji danych zamiast deklarowanych 1000. Augmentacja podczas wnioskowania miała marginalny wpływ, co podważa uniwersalność całego rozwiązania. Te odkrycia sugerują, że HRM to raczej wyspecjalizowane narzędzie niż przełom w kierunku sztucznej ogólnej inteligencji. Kod źródłowy pozostaje ukryty, co według specjalistów uniemożliwi dobrą generalizację na nowe problemy.
Czytaj też: Sztuczna inteligencja już tworzy gry, choć nie tak, jak myślicie
Mimo wszystko, HRM pokazuje ciekawy kierunek rozwoju – modele o znacznie mniejszych wymaganiach obliczeniowych mogą osiągać dobre wyniki w wąskich dziedzinach. To może otworzyć drogę do bardziej efektywnych rozwiązań, które nie będą wymagały gigantycznych mocy obliczeniowych. Chociaż HRM nie okazał się tym rewolucyjnym przełomem, jakiego niektórzy się spodziewali, to nadal stanowi interesujący krok w rozwoju sztucznej inteligencji. Pokazuje, że mniejsze, bardziej specjalizowane modele mogą konkurować z gigantami, przynajmniej w niektórych obszarach. Pytanie tylko, czy ta specjalizacja nie ogranicza zbyt mocno ich praktycznego zastosowania. Być może prawdziwa wartość HRM leży nie w tym, co już potrafi, ale w inspiracji, jaką daje do dalszych badań nad efektywnymi architekturami AI.