28 maja 20264 min czytania

Anthropic wypuszcza Claude Opus 4.8 z przełomowymi ulepszeniami w kodowaniu i zadaniach agentowych

Claude Opus 4.8 jako pierwszy model ukończył wszystkie testy Super-Agent, oferując 84% skuteczności w Online-Mind2Web i tryb szybki 3x tańszy.

Źródło zdjęcia: anthropic.com

Anthropic udostępniła nową wersję swojego najlepszego modelu AI — Claude Opus 4.8. Aktualizacja przynosi znaczące usprawnienia w zakresie kodowania, zadań agentowych i praktycznych aplikacji biznesowych. Model jest dostępny już dziś w tej samej cenie co poprzednik, informuje oficjalnie Anthropic.

Nowa wersja wprowadza także kilka przełomowych funkcji. Użytkownicy claude.ai otrzymali kontrolę nad poziomem zaangażowania modelu w wykonywane zadania. Claude Code zyskał funkcję „dynamicznych workflow”, która umożliwia rozwiązywanie problemów na bardzo dużą skalę. Dodatkowo tryb szybki dla Opus 4.8 — pozwalający modelowi pracować z 2,5-krotnie wyższą prędkością — jest teraz trzy razy tańszy niż w poprzednich wersjach.

Kluczowe wnioski

Claude Opus 4.8 jako pierwszy model ukończył wszystkie testy w benchmark Super-Agent, pokonując poprzednie wersje Opus i GPT-5.5 przy równych kosztach.
Model jest cztery razy mniej skłonny do pozostawiania niezauważonych błędów w kodzie w porównaniu do swojego poprzednika.
W testach Online-Mind2Web model osiągnął 84% skuteczności, co stanowi znaczący skok względem Opus 4.7 i GPT-5.5.
Tryb szybki jest teraz trzy razy tańszy niż w poprzednich modelach, przy jednoczesnym wzroście prędkości o 2,5-krotnie.
Model przeszedł kompleksową ocenę alignment, wykazując najwyższe wyniki w zakresie cech prospołecznych i najniższe wskaźniki niewłaściwych zachowań.

Przełom w zadaniach agentowych i kodowaniu

Testerzy zgłaszają, że Opus 4.8 wykazuje znacznie lepszą ocenę sytuacji podczas wykonywania zadań agentowych. Model zadaje właściwe pytania, wychwytuje własne błędy i kwestionuje niesolidne plany przed wprowadzeniem większych zmian. W benchmark CursorBench nowa wersja przewyższa poprzednie modele Opus na każdym poziomie zaangażowania, wykorzystując mniej kroków przy tej samej inteligencji.

Szczególnie imponujące są wyniki w dziedzinie prawa — Opus 4.8 osiągnął najwyższy wynik w Legal Agent Benchmark i jako pierwszy model przekroczył 10% w standardzie all-pass. Jeden z testerów zauważa: „To rodzaj poprawy dokładności, który przekłada się bezpośrednio na to, ile prawdziwej pracy prawniczej nasi klienci mogą przekazać z pewnością siebie”.

Większa szczerość i niezawodność

Jednym z najbardziej zauważalnych ulepszeń Opus 4.8 jest jego szczerość. Model rzadziej wyciąga pochopne wnioski i częściej sygnalizuje niepewności dotyczące swojej pracy. Ewaluacje pokazują, że jest około cztery razy mniej prawdopodobne, że pozwoli na przeoczenie wad w napisanym przez siebie kodzie.

Zespół Alignment stwierdził, że Opus 4.8 „osiąga nowe maksima w naszych pomiarach cech prospołecznych, takich jak wspieranie autonomii użytkownika i działanie w jego najlepszym interesie”. Model wykazuje także znacznie niższe wskaźniki niewłaściwych zachowań w porównaniu do Opus 4.7.

Claude Opus 4.8 reprezentuje kolejny krok w rozwoju zaawansowanych modeli AI, oferując użytkownikom narzędzie bardziej niezawodne i efektywne w zadaniach wymagających złożonego rozumowania i autonomicznego działania.

#Anthropic #Opus 4.8 #Claude #AI agenty #modele językowe

Udostępnij

Źródła

Hacker News AI

Poprzedni

Claude Opus 4.8 będzie bardziej uczciwy w raportowaniu błędów

Następny

OpenAI udostępnia bezpłatnie model AI do nauk biologicznych w ramach programu bioobronności

Podobne Publikacje

Badania i Nauka

Claude Fable obalił słynną Hipotezę Jakobianową znajdując matematyczny kontrprzykład

Model AI Claude Fable znalazł kontrprzykład obalający 90-letnią Hipotezę Jakobianową, jeden z najważniejszych problemów matematyki algebraicznej.

4 min20 lipca

Biznes i Rynek

Kiedy wszyscy mówią o AI, kto zajmuje się resztą? Debata na ABSL Summit 2026

ABSL Summit 2026 pokazał paradoks branży tech: w pogoni za AI możemy przegapiać inne przełomowe technologie jak computing kwantowy czy biotechnologie.

4 min21 lipca

Badania i Nauka

Chatboty AI analizujące rentgeny są niebezpiecznie pewne siebie nawet przy błędnych diagnozach

Nowy benchmark RadLE 2.0 pokazuje, że modele AI w radiologii często wydają błędne diagnozy z pełną pewnością siebie, co stanowi zagrożenie dla pacjentów.

4 min19 lipca

28 maja 20264 min czytania

Anthropic wypuszcza Claude Opus 4.8 z przełomowymi ulepszeniami w kodowaniu i zadaniach agentowych

Claude Opus 4.8 jako pierwszy model ukończył wszystkie testy Super-Agent, oferując 84% skuteczności w Online-Mind2Web i tryb szybki 3x tańszy.

Źródło zdjęcia: anthropic.com

Kluczowe wnioski

Claude Opus 4.8 jako pierwszy model ukończył wszystkie testy w benchmark Super-Agent, pokonując poprzednie wersje Opus i GPT-5.5 przy równych kosztach.
Model jest cztery razy mniej skłonny do pozostawiania niezauważonych błędów w kodzie w porównaniu do swojego poprzednika.
W testach Online-Mind2Web model osiągnął 84% skuteczności, co stanowi znaczący skok względem Opus 4.7 i GPT-5.5.
Tryb szybki jest teraz trzy razy tańszy niż w poprzednich modelach, przy jednoczesnym wzroście prędkości o 2,5-krotnie.
Model przeszedł kompleksową ocenę alignment, wykazując najwyższe wyniki w zakresie cech prospołecznych i najniższe wskaźniki niewłaściwych zachowań.

Przełom w zadaniach agentowych i kodowaniu

Większa szczerość i niezawodność

#Anthropic #Opus 4.8 #Claude #AI agenty #modele językowe

Udostępnij

Źródła

Hacker News AI

Poprzedni

Claude Opus 4.8 będzie bardziej uczciwy w raportowaniu błędów

Następny

OpenAI udostępnia bezpłatnie model AI do nauk biologicznych w ramach programu bioobronności

Podobne Publikacje

Badania i Nauka

Claude Fable obalił słynną Hipotezę Jakobianową znajdując matematyczny kontrprzykład

Model AI Claude Fable znalazł kontrprzykład obalający 90-letnią Hipotezę Jakobianową, jeden z najważniejszych problemów matematyki algebraicznej.

4 min20 lipca

Biznes i Rynek

Kiedy wszyscy mówią o AI, kto zajmuje się resztą? Debata na ABSL Summit 2026

ABSL Summit 2026 pokazał paradoks branży tech: w pogoni za AI możemy przegapiać inne przełomowe technologie jak computing kwantowy czy biotechnologie.

4 min21 lipca

Badania i Nauka

Chatboty AI analizujące rentgeny są niebezpiecznie pewne siebie nawet przy błędnych diagnozach

Nowy benchmark RadLE 2.0 pokazuje, że modele AI w radiologii często wydają błędne diagnozy z pełną pewnością siebie, co stanowi zagrożenie dla pacjentów.

4 min19 lipca