Claude Opus 4.8 jako pierwszy model ukończył wszystkie testy Super-Agent, oferując 84% skuteczności w Online-Mind2Web i tryb szybki 3x tańszy.

Źródło zdjęcia: anthropic.com
Anthropic udostępniła nową wersję swojego najlepszego modelu AI — Claude Opus 4.8. Aktualizacja przynosi znaczące usprawnienia w zakresie kodowania, zadań agentowych i praktycznych aplikacji biznesowych. Model jest dostępny już dziś w tej samej cenie co poprzednik, informuje oficjalnie Anthropic.
Nowa wersja wprowadza także kilka przełomowych funkcji. Użytkownicy claude.ai otrzymali kontrolę nad poziomem zaangażowania modelu w wykonywane zadania. Claude Code zyskał funkcję „dynamicznych workflow”, która umożliwia rozwiązywanie problemów na bardzo dużą skalę. Dodatkowo tryb szybki dla Opus 4.8 — pozwalający modelowi pracować z 2,5-krotnie wyższą prędkością — jest teraz trzy razy tańszy niż w poprzednich wersjach.
Testerzy zgłaszają, że Opus 4.8 wykazuje znacznie lepszą ocenę sytuacji podczas wykonywania zadań agentowych. Model zadaje właściwe pytania, wychwytuje własne błędy i kwestionuje niesolidne plany przed wprowadzeniem większych zmian. W benchmark CursorBench nowa wersja przewyższa poprzednie modele Opus na każdym poziomie zaangażowania, wykorzystując mniej kroków przy tej samej inteligencji.
Szczególnie imponujące są wyniki w dziedzinie prawa — Opus 4.8 osiągnął najwyższy wynik w Legal Agent Benchmark i jako pierwszy model przekroczył 10% w standardzie all-pass. Jeden z testerów zauważa: „To rodzaj poprawy dokładności, który przekłada się bezpośrednio na to, ile prawdziwej pracy prawniczej nasi klienci mogą przekazać z pewnością siebie”.
Jednym z najbardziej zauważalnych ulepszeń Opus 4.8 jest jego szczerość. Model rzadziej wyciąga pochopne wnioski i częściej sygnalizuje niepewności dotyczące swojej pracy. Ewaluacje pokazują, że jest około cztery razy mniej prawdopodobne, że pozwoli na przeoczenie wad w napisanym przez siebie kodzie.
Zespół Alignment stwierdził, że Opus 4.8 „osiąga nowe maksima w naszych pomiarach cech prospołecznych, takich jak wspieranie autonomii użytkownika i działanie w jego najlepszym interesie”. Model wykazuje także znacznie niższe wskaźniki niewłaściwych zachowań w porównaniu do Opus 4.7.
Claude Opus 4.8 reprezentuje kolejny krok w rozwoju zaawansowanych modeli AI, oferując użytkownikom narzędzie bardziej niezawodne i efektywne w zadaniach wymagających złożonego rozumowania i autonomicznego działania.

Co najmniej 20 225 kont Instagram zostało przejętych przez hakerów, którzy wykorzystali lukę w chatbocie AI Meta do resetowania haseł użytkowników.

Nowa metoda PACT redukuje zużycie tokenów w systemach wieloagentowych o połowę przy zachowaniu wydajności, obniżając koszty działania systemów AI.

Anthropic ujawnia szczegóły architektury bezpieczeństwa agentów AI. Claude Opus 4.7 ma zaledwie 0,1% podatności na prompt injection w pojedynczych próbach.