24 kwietnia 20264 min czytania

Anthropic potwierdza problemy z Claude Code i wprowadza rygorystyczniejsze kontrole jakości

Anthropic naprawiła trzy błędy w Claude Code wpływające na rozumowanie, cache'owanie i długość tekstu. Firma wprowadza nowe procedury testów.

Źródło zdjęcia: The Decoder

Poprzedni

OpenAI wprowadza GPT-5.5 w aplikacji Codex na infrastrukturze NVIDIA

Następny

DeepSeek prezentuje model V4 — chiński rywal dla OpenAI i Google

Podobne Publikacje

Modele AI

DeepSeek prezentuje model V4 — chiński rywal dla OpenAI i Google

Chińska firma DeepSeek zapowiada model AI V4, który ma konkurować z systemami od Google, OpenAI i Anthropic. Szczególnie mocny w kodowaniu.

3 min24 kwietnia 2026

Modele AI

OpenAI wprowadza GPT-5.5 w aplikacji Codex na infrastrukturze NVIDIA

GPT-5.5 napędza Codex OpenAI na systemach NVIDIA GB200. Ponad 10 000 pracowników NVIDIA już korzysta z przełomowego modelu, skracając czas debugowania z dni do godzin.

4 min

Kluczowe wnioski

• Trzy niezależne błędy wpłynęły na wydajność Claude Code: obniżenie głębokości rozumowania, błąd w cache'owaniu i ograniczenia długości tekstu • Naprawy wprowadzono stopniowo między 7 kwietnia a 20 kwietnia 2026, przy czym ostatni problem dotyczył instrukcji systemowych mających ograniczyć gadatliwość modelu Opus 4.7 • Braki w kontroli jakości pozwoliły na wprowadzenie zmian bez odpowiednich testów - firma wprowadza teraz obowiązkowe testy na szerszym zestawie ewaluacyjnym • Kompensacja dla użytkowników obejmuje reset limitów użytkowania dla wszystkich subskrybentów oraz utworzenie konta @ClaudeDevs dla lepszej komunikacji • Kryzys obliczeniowy w branży powoduje spadki dostępności (98,95% dla Anthropic) i wzrost cen GPU o 48% według Ornn Compute Price Index

Chronologia problemów i ich przyczyny

Pierwszy problem sięgał 4 marca, kiedy Anthropic obniżyła domyślny poziom "reasoning effort" z "wysokiego" na "średni" z powodu skarg użytkowników na ekstremalne opóźnienia. Wewnętrzne testy wykazały, że tryb średni dawał tylko nieznacznie gorsze wyniki przy znacznie mniejszych opóźnieniach. Kompromis się nie sprawdził - użytkownicy szybko zgłosili, że Claude Code wydaje się mniej inteligentne. 7 kwietnia Anthropic trwale wycofała tę zmianę.

Drugi problem to błąd w optymalizacji cache'owania wprowadzonej 26 marca. Plan zakładał usuwanie starszych sekcji rozumowania po godzinie nieaktywności, aby zmniejszyć opóźnienia przy wznowieniu sesji. Błąd w kodzie powodował jednak usuwanie historii rozumowania przy każdej kolejnej turze. Claude stopniowo traciła kontekst własnych decyzji, co użytkownicy zauważali jako zapominanie, powtarzanie i dziwne wybory narzędzi. Dodatkowo wynikające z tego cache misses szybciej wyczerpywały limity użytkowania. Według Anthropic błąd przeszedł niezauważony przez recenzje i nie został naprawiony do 10 kwietnia.

Trzeci problem pojawił się 16 kwietnia: instrukcja w systemowym prompcie mająca ograniczyć znaną gadatliwość Opus 4.7. Instrukcja brzmiała: "Limity długości: utrzymuj tekst między wywołaniami narzędzi do ≤25 słów. Utrzymuj końcowe odpowiedzi do ≤100 słów, chyba że zadanie wymaga więcej szczegółów." Późniejsze testy z szerszym zestawem ewaluacyjnym ujawniły 3-procentowy spadek jakości. Anthropic wycofała zmianę 20 kwietnia.

Nowe procedury i szerszy kontekst branżowy

Ponieważ każda zmiana wpływała na różne grupy użytkowników w różnym czasie, łączny efekt wydawał się niejasnym, stopniowym spadkiem, który początkowo trudno było odróżnić od normalnych wahań.

W przyszłości więcej pracowników Anthropic będzie używać dokładnie takiej samej publicznej wersji Claude Code zamiast wewnętrznych wersji testowych. Każda zmiana systemowego prompta będzie musiała przejść przez szeroki, specyficzny dla modelu zestaw ewaluacyjny. Dla zmian mogących wpłynąć na inteligencję, Anthropic planuje wprowadzić okresy testowania i stopniowe wdrażanie. Jako rekompensatę firma zresetowała limity użytkowania dla wszystkich subskrybentów i utworzyła konto X @ClaudeDevs dla bardziej transparentnej komunikacji decyzji produktowych.

Nie jest to pierwszy raz, gdy użytkownicy skarżą się na spadającą jakość AI. W drugiej połowie 2023 roku użytkownicy oskarżali OpenAI o czynienie GPT-4 "głupszym" z czasem. OpenAI zaprzeczyła wprowadzaniu znaczących zmian w modelach po wydaniu. Obecny przypadek wzmacnia wzorzec: to, co użytkownicy postrzegają jako regresje modelu, często okazuje się zmianami w warstwie narzędziowej lub infrastrukturze, a nie w samych modelach.

Motywacja stojąca za takimi zmianami coraz częściej wiąże się z ogólnobranżowym kryzysem obliczeniowym. Dostępność API Anthropic ostatnio wynosiła zaledwie 98,95% - znacznie poniżej standardu branży chmurowej wynoszącego 99,99%. Ceny GPU na rynku spot wzrosły o 48% według Ornn Compute Price Index, a analitycy Bank of America spodziewają się, że popyt będzie przewyższać podaż przynajmniej do 2029 roku.

Ta presja wpływa również na modele cenowe. Szef rozwoju Anthropic niedawno przyznał, że istniejące plany Pro i Max nie zostały stworzone z myślą o obecnych obciążeniach agentycznych, ponieważ powstały przed istnieniem narzędzi wymagających intensywnych obliczeń, takich jak Claude Code. Tymczasem OpenAI podwoiła ceny API z GPT-5.5 w porównaniu do poprzednika, pobierając 5 dolarów za milion tokenów wejściowych i 30 dolarów za milion tokenów wyjściowych.

Era tanich, płaskich stawek za najpotężniejsze narzędzia agentyczne AI najwyraźniej dobiega końca, co zmusza firmy do bardziej przemyślanych kompromisów między wydajnością a kosztami.

Anthropic potwierdza problemy z Claude Code i wprowadza rygorystyczniejsze kontrole jakości

Podobne Publikacje

DeepSeek prezentuje model V4 — chiński rywal dla OpenAI i Google

OpenAI wprowadza GPT-5.5 w aplikacji Codex na infrastrukturze NVIDIA

Kluczowe wnioski

Chronologia problemów i ich przyczyny

Nowe procedury i szerszy kontekst branżowy

Źródła

Claude integruje się z aplikacjami osobistymi - Spotify, Uber Eats i TurboTax już dostępne