Najważniejsze udoskonalenia skupiają się na praktycznych aspektach pracy deweloperskiej. Przyjrzyjmy się konkretom: w benchmarku SWE-bench Verified, który sprawdza umiejętność rozwiązywania rzeczywistych problemów programistycznych, nowy model osiągnął wynik 74,5%. To zauważalny postęp w porównaniu z poprzednią wersją, choć warto pamiętać, że laboratoryjne testy nie zawsze w pełni przekładają się na codzienne zastosowania.

Kolejnym aspektem wartym uwagi są obserwacje partnerów technologicznych. GitHub odnotował poprawę w większości funkcjonalności, ze szczególnym wzrostem efektywności przy refaktoringu kodu rozproszonego między wiele plików. To istotna cecha dla programistów zarządzających rozbudowanymi projektami, gdzie modyfikacje w jednym miejscu niosą konsekwencje w innych obszarach. Rakuten Group zwraca natomiast uwagę na precyzyjną identyfikację problemów w rozległych bazach kodu, co może ograniczyć liczbę błędów wprowadzanych podczas automatycznych poprawek. Brzmi obiecująco, choć praktyka pokaże, czy rzeczywiście przełoży się to na oszczędność czasu przy debugowaniu.

Przechodząc do mierzalnych efektów, Windstream odnotował poprawę o całe odchylenie standardowe w swoim wewnętrznym benchmarku dla mniej doświadczonych deweloperów. Taki skok wydajności przypomina przejście z wcześniejszych wersji Sonnet, co sugeruje, że aktualizacja nie jest jedynie kosmetyczna. Może to oznaczać dokładniejsze podpowiedzi kodu i lepsze zrozumienie kontekstu projektów, choć entuzjazm warto zachować do pierwszych niezależnych testów.

Równie istotne jest to, że model wykazuje lepsze wyniki w zadaniach analitycznych, zwłaszcza przy przetwarzaniu dużych zbiorów danych i śledzeniu skomplikowanych wątków. Dla badaczy i analityków może to oznaczać bardziej wartościowe wsparcie, jednak czy AI rzeczywiście zastąpi ludzką intuicję w interpretacji danych – to wciąż otwarte pytanie.

Deweloperzy mogą już korzystać z nowej wersji poprzez API pod nazwą claude-opus-4-1-20250805, a także w ramach usług Claude Code oraz platform takich jak Amazon Bedrock czy Google Cloud’s Vertex AI. Sam producent zachęca do aktualizacji wszystkich użytkowników Opus 4, co wskazuje na uniwersalny charakter ulepszeń. Społeczność wyraźnie śledzi te zmiany – powyższe nagranie Matthew Bermana o aktualizacji zebrało ponad 23 tysiące wyświetleń w zaledwie kilkanaście godzin, co pokazuje, jak bardzo oczekiwano poprawy funkcjonalności programistycznych. Domyślny model dla większości mniej zaawansowanych zadań, a więc Claude Sonnet, nadal pozostaje dostępny w wersji 4.0.

Anthropic nie ukrywa, że to dopiero początek drogi. Firma zapowiada znacznie większe ulepszenia swoich modeli w nadchodzących tygodniach, co może przynieść kolejne zmiany w krajobrazie AI. Claude Opus 4.1 wygląda na solidny krok naprzód, szczególnie dla programistów, choć dopiero codzienne użycie zweryfikuje, czy deklarowane ulepszenia przekładają się na realną efektywność pracy. Z mojego punktu widzenia rodzina modeli Claude radzi sobie stosunkowo najlepiej z polskim językiem i pozostaje w moim ścisłym topie narzędzi genAI.

Szerzej o samych modelach Anthropic możecie przeczytać pod powyższym linkiem (tekst przygotował niezastąpiony PROMPTOWY). Wiecie, że Anthropic to firma założona przez byłych badaczy OpenAI? Rywalizacja z ChatGPT nabiera tu więc wyjątkowego charakteru.