Nowy model Anthropic osiągnął 88% dokładności w FrontierMath tier 4, podczas gdy GPT-5.5 uzyskał 75%. Przełom w matematycznym rozumowaniu AI.

Źródło zdjęcia: The Decoder
Nowy model Claude Fable 5 od Anthropic osiągnął rekordowe wyniki w najtrudniejszym benchmarku matematycznym FrontierMath, przewyższając o 13 punktów procentowych najnowszy GPT-5.5 od OpenAI. Według danych opublikowanych przez Epoch AI, Fable 5 uzyskał 88% dokładności w najtrudniejszej kategorii tier 4.
Wyniki pokazują dramatyczny postęp w zdolnościach matematycznych modeli Anthropic w bardzo krótkim czasie. Jeszcze na początku 2026 roku poprzednik Opus 4.5 osiągał poniżej 10% w kategorii tier 4.
FrontierMath jest powszechnie uznawany za jeden z najtrudniejszych benchmarków do testowania matematycznego rozumowania sztucznej inteligencji. Wyniki Claude Fable 5 pokazują nie tylko przewagę nad konkurencją, ale też niezwykle szybki rozwój możliwości AI w tej dziedzinie.
Dla porównania, OpenAI już pracuje nad GPT-5.6, co sugeruje intensywną konkurencję między gigantami AI w obszarze matematycznego rozumowania. Różnica 13 punktów procentowych między Fable 5 a GPT-5.5 w najtrudniejszej kategorii jest znacząca i może wpłynąć na dalsze strategie rozwojowe obu firm.
Jak podkreśla Epoch AI, postępy w matematyce nie ograniczają się wyłącznie do wyników w benchmarkach. W rzeczywistym świecie coraz więcej przykładów pokazuje praktyczne zastosowanie tych zdolności. Niedawno model OpenAI rozwiązał długotrwały problem Erdősa, podobnie jak model Claude Mythos.
Te sukcesy w rozwiązywaniu konkretnych problemów matematycznych mogą mieć dalekosiężne konsekwencje dla nauki, inżynierii i innych dziedzin wymagających zaawansowanego rozumowania matematycznego.
Wyniki Claude Fable 5 w FrontierMath potwierdzają, że konkurencja między modelami AI prowadzi do coraz szybszego rozwoju ich możliwości, szczególnie w obszarach wymagających złożonego rozumowania logicznego.

Rząd USA nakazał Anthropic wyłączenie Claude Fable 5 i Mythos 5 po odkryciu metody omijania zabezpieczeń modeli AI. Firma spiera się z administracją Trumpa.

Avataar AI wprowadził model Varya, który tworzy wideo z kulturową świadomością Indii za 0,005 dolara za sekundę – 20 razy taniej od Runway czy Veo.

Claude Fable 5 trafia do publicznego użytku z zabezpieczeniami blokującymi pytania o cyberbezpieczeństwo. Mythos 5 pozostaje dla wybranych partnerów.