Gemini 3.1 Pro w testach – benchmarki potwierdzają dwukrotny wzrost wydajności logicznego rozumowania

Nie ulega wątpliwości, że pod względem czystej mocy nowa wersja robi wrażenie. Wyniki testu ARC-AGI-2, który bada zdolność modelu do radzenia sobie z zupełnie nowymi problemami logicznymi, wskazują wynik na poziomie 77,1%. Oznacza to, że Gemini 3.1 Pro radzi sobie z tym zadaniem ponad dwa razy lepiej niż jego poprzednik. Google demonstruje te możliwości na przykładzie zaawansowanej symulacji urbanistycznej, gdzie model analizuje mapy terenu, projektuje infrastrukturę i przewiduje natężenie ruchu, generując przy tym szczegółowe wizualizacje.

To właśnie dla takich skomplikowanych, wieloetapowych zadań, wymagających łączenia analizy obrazu, danych przestrzennych i czystej logiki został zoptymalizowany Gemini 3.1 Pro, by móc stanowić narzędzie dla specjalistów, w sytuacjach, gdy proste wyszukiwanie informacji jest niewystarczające.

Nowy model stał się zbyt mechaniczny i nie każdemu się to podoba

Spora grupa użytkowników nie jest jednak ze zmian zadowolona – na forach i w mediach społecznościowych pojawiają się głosy, że model stał się chłodny, analityczny i pozbawiony tej iskry, która czyniła go przyjemnym w codziennej interakcji. Pisarze i twórcy contentu narzekają na utratę elastyczności, empatii i pewnej kreatywnej swobody w odpowiedziach. O ile w przypadku Gemini takie głosy to nowość, to warto pamiętać, że podobne podniosły się po premierze OpenAI oGPT-5, gdy użytkownicy porównywali go do „sympatyczniejszego” GPT-4o.

Google podkreśla, że prace nad modelem wciąż trwają, a w planach są bardziej zaawansowane funkcje agentowe. Czy aktualizacje będą szły tylko w kierunku dalszego zwiększania mocy, czy też Google pokusi się o przywrócenie „przyjaznego” charakteru swojego chatbota? Czy w ogóle jest w stanie to zrobić?

Walka z przyzwyczajeniami użytkowników jest niewątpliwie trudna – niektórzy testerzy nie zauważyli drastycznej różnicy w tonie odpowiedzi i doprawdy część odczuć może być czysto subiektywna. Jest to jednak kolejny przykład, że użytkownicy chcą i precyzji, i przyjemnej interakcji, a o ile łatwo jest zmierzyć pierwsze, o tyle to drugie pozostaje nieuchwytne. Sukces kolejnych odsłon Gemini Pro na dłuższą metę może zależeć właśnie od tego, czy uda się pogodzić te dwie, pozornie sprzeczne, cechy.