W benchmarku Aider Polyglot, który testuje umiejętności programistyczne w różnych językach, Gemini 2.5 Pro zajął pierwsze miejsce. Podobne wyniki model osiągnął w testach GPQA oraz Humanity’s Last Exam (HLE), które sprawdzają wiedzę matematyczną, naukową oraz zdolności rozumowania. Szczególnie interesujące są wyniki w praktycznych zastosowaniach. Na platformie LMArena model odnotował 24-punktowy wzrost wyniku Elo, utrzymując pozycję lidera z wynikiem 1470 punktów, natomiast w WebDevArena zanotował 35-punktowy skok do wyniku 1443 punktów.
Aktualizacja Gemini 2.5 Pro nie ogranicza się tylko do surowych wyników benchmarkowych. Na podstawie opinii użytkowników, nowy model został wzbogacony o ulepszoną strukturę i styl odpowiedzi, co przekłada się na bardziej kreatywne i lepiej sformatowane komunikaty dla końcowych użytkowników. W benchmarku SWE-Bench Verified, będącym standardem branżowym dla oceny systemów agentowych w kodowaniu, Gemini 2.5 Pro osiągnął wynik 63,8% przy użyciu niestandardowej konfiguracji agenta. Model potrafi generować kompletny kod prostych gier komputerowych na podstawie pojedynczego polecenia tekstowego.
Jedną z najbardziej intrygujących cech nowego modelu jest jego zdolność do lepszego rozumienia wideo. Google szczególnie chwali się wydajnością Gemini 2.5 Pro w tym zakresie, osiągając wynik 84,8% w benchmarku VideoMME. Deweloperzy mogą już teraz uzyskać dostęp do najnowszego modelu Gemini 2.5 Pro Preview poprzez Gemini API za pośrednictwem Google AI Studio oraz Vertex AI. Zwykli użytkownicy będą mogli korzystać z modelu przez aplikację Gemini. Google potwierdził również, że model Gemini 2.5 Pro będzie ogólnie dostępny w ciągu kilku najbliższych tygodni, umożliwiając deweloperom rozpoczęcie używania go w aplikacjach korporacyjnych gotowych do produkcji.
Czytaj też: Gemini 2.5: Moment, gdy Google nauczył AI myśleć jak człowiek
Claude Opus 4 jest obecnie liderem w zadaniach stricte programistycznych (SWE-bench: 72,5%), wyraźnie wyprzedzając Gemini 2.5 Pro (63,2–63,8%) i OpenAI o3-mini. Claude lepiej radzi sobie z naprawą błędów, refaktoryzacją i rozumieniem dużych codebase’ów, co potwierdzają zarówno benchmarki, jak i praktyczne testy deweloperów. Z kolei Gemini 2.5 Pro jest liderem w zadaniach multimodalnych (tekst, obraz, wideo, audio, kod) oraz przetwarzaniu bardzo długiego kontekstu. Obsługuje bowiem do 1 miliona tokenów, co przewyższa większość konkurentów (Claude 3.7 Sonnet i OpenAI o3-mini: 200 tys., DeepSeek R1: 128 tys.).