Anthropic naprawiła trzy błędy w Claude Code wpływające na rozumowanie, cache'owanie i długość tekstu. Firma wprowadza nowe procedury testów.

Źródło zdjęcia: The Decoder

Chińska firma DeepSeek zapowiada model AI V4, który ma konkurować z systemami od Google, OpenAI i Anthropic. Szczególnie mocny w kodowaniu.

GPT-5.5 napędza Codex OpenAI na systemach NVIDIA GB200. Ponad 10 000 pracowników NVIDIA już korzysta z przełomowego modelu, skracając czas debugowania z dni do godzin.
Anthropic potwierdziła problemy z narzędziem Claude Code i zapowiedziała wprowadzenie bardziej rygorystycznych kontroli jakości. Firma zidentyfikowała i naprawiła trzy niezależne błędy, które wpływały na pogorszenie wydajności jej narzędzia do kodowania. Szczegółowy post-mortem ujawnił przyczyny spadku jakości, o którym informowali użytkownicy w ostatnim miesiącu.
Przez ostatnie tygodnie rosnąca liczba użytkowników zgłaszała zauważalnie gorsze rezultaty w Claude Code. Anthropic wyjaśniła, że trzy niezależne zmiany w Claude Code, Claude Agent SDK i Claude Cowork połączyły się, tworząc szeroko odczuwalny spadek jakości. Wszystkie problemy zostały naprawione 20 kwietnia wraz z wersją 2.1.116.
• Trzy niezależne błędy wpłynęły na wydajność Claude Code: obniżenie głębokości rozumowania, błąd w cache'owaniu i ograniczenia długości tekstu • Naprawy wprowadzono stopniowo między 7 kwietnia a 20 kwietnia 2026, przy czym ostatni problem dotyczył instrukcji systemowych mających ograniczyć gadatliwość modelu Opus 4.7 • Braki w kontroli jakości pozwoliły na wprowadzenie zmian bez odpowiednich testów - firma wprowadza teraz obowiązkowe testy na szerszym zestawie ewaluacyjnym • Kompensacja dla użytkowników obejmuje reset limitów użytkowania dla wszystkich subskrybentów oraz utworzenie konta @ClaudeDevs dla lepszej komunikacji • Kryzys obliczeniowy w branży powoduje spadki dostępności (98,95% dla Anthropic) i wzrost cen GPU o 48% według Ornn Compute Price Index
Pierwszy problem sięgał 4 marca, kiedy Anthropic obniżyła domyślny poziom "reasoning effort" z "wysokiego" na "średni" z powodu skarg użytkowników na ekstremalne opóźnienia. Wewnętrzne testy wykazały, że tryb średni dawał tylko nieznacznie gorsze wyniki przy znacznie mniejszych opóźnieniach. Kompromis się nie sprawdził - użytkownicy szybko zgłosili, że Claude Code wydaje się mniej inteligentne. 7 kwietnia Anthropic trwale wycofała tę zmianę.
Drugi problem to błąd w optymalizacji cache'owania wprowadzonej 26 marca. Plan zakładał usuwanie starszych sekcji rozumowania po godzinie nieaktywności, aby zmniejszyć opóźnienia przy wznowieniu sesji. Błąd w kodzie powodował jednak usuwanie historii rozumowania przy każdej kolejnej turze. Claude stopniowo traciła kontekst własnych decyzji, co użytkownicy zauważali jako zapominanie, powtarzanie i dziwne wybory narzędzi. Dodatkowo wynikające z tego cache misses szybciej wyczerpywały limity użytkowania. Według Anthropic błąd przeszedł niezauważony przez recenzje i nie został naprawiony do 10 kwietnia.
Trzeci problem pojawił się 16 kwietnia: instrukcja w systemowym prompcie mająca ograniczyć znaną gadatliwość Opus 4.7. Instrukcja brzmiała: "Limity długości: utrzymuj tekst między wywołaniami narzędzi do ≤25 słów. Utrzymuj końcowe odpowiedzi do ≤100 słów, chyba że zadanie wymaga więcej szczegółów." Późniejsze testy z szerszym zestawem ewaluacyjnym ujawniły 3-procentowy spadek jakości. Anthropic wycofała zmianę 20 kwietnia.
Ponieważ każda zmiana wpływała na różne grupy użytkowników w różnym czasie, łączny efekt wydawał się niejasnym, stopniowym spadkiem, który początkowo trudno było odróżnić od normalnych wahań.
W przyszłości więcej pracowników Anthropic będzie używać dokładnie takiej samej publicznej wersji Claude Code zamiast wewnętrznych wersji testowych. Każda zmiana systemowego prompta będzie musiała przejść przez szeroki, specyficzny dla modelu zestaw ewaluacyjny. Dla zmian mogących wpłynąć na inteligencję, Anthropic planuje wprowadzić okresy testowania i stopniowe wdrażanie. Jako rekompensatę firma zresetowała limity użytkowania dla wszystkich subskrybentów i utworzyła konto X @ClaudeDevs dla bardziej transparentnej komunikacji decyzji produktowych.
Nie jest to pierwszy raz, gdy użytkownicy skarżą się na spadającą jakość AI. W drugiej połowie 2023 roku użytkownicy oskarżali OpenAI o czynienie GPT-4 "głupszym" z czasem. OpenAI zaprzeczyła wprowadzaniu znaczących zmian w modelach po wydaniu. Obecny przypadek wzmacnia wzorzec: to, co użytkownicy postrzegają jako regresje modelu, często okazuje się zmianami w warstwie narzędziowej lub infrastrukturze, a nie w samych modelach.
Motywacja stojąca za takimi zmianami coraz częściej wiąże się z ogólnobranżowym kryzysem obliczeniowym. Dostępność API Anthropic ostatnio wynosiła zaledwie 98,95% - znacznie poniżej standardu branży chmurowej wynoszącego 99,99%. Ceny GPU na rynku spot wzrosły o 48% według Ornn Compute Price Index, a analitycy Bank of America spodziewają się, że popyt będzie przewyższać podaż przynajmniej do 2029 roku.
Ta presja wpływa również na modele cenowe. Szef rozwoju Anthropic niedawno przyznał, że istniejące plany Pro i Max nie zostały stworzone z myślą o obecnych obciążeniach agentycznych, ponieważ powstały przed istnieniem narzędzi wymagających intensywnych obliczeń, takich jak Claude Code. Tymczasem OpenAI podwoiła ceny API z GPT-5.5 w porównaniu do poprzednika, pobierając 5 dolarów za milion tokenów wejściowych i 30 dolarów za milion tokenów wyjściowych.
Era tanich, płaskich stawek za najpotężniejsze narzędzia agentyczne AI najwyraźniej dobiega końca, co zmusza firmy do bardziej przemyślanych kompromisów między wydajnością a kosztami.