13 czerwca 20263 min czytania

Claude Fable 5 wyprzedza GPT-5.5 o 13 punktów w najtrudniejszych zadaniach matematycznych

Nowy model Anthropic osiągnął 88% dokładności w FrontierMath tier 4, podczas gdy GPT-5.5 uzyskał 75%. Przełom w matematycznym rozumowaniu AI.

Źródło zdjęcia: The Decoder

Nowy model Claude Fable 5 od Anthropic osiągnął rekordowe wyniki w najtrudniejszym benchmarku matematycznym FrontierMath, przewyższając o 13 punktów procentowych najnowszy GPT-5.5 od OpenAI. Według danych opublikowanych przez Epoch AI, Fable 5 uzyskał 88% dokładności w najtrudniejszej kategorii tier 4.

Wyniki pokazują dramatyczny postęp w zdolnościach matematycznych modeli Anthropic w bardzo krótkim czasie. Jeszcze na początku 2026 roku poprzednik Opus 4.5 osiągał poniżej 10% w kategorii tier 4.

Kluczowe wnioski

Claude Fable 5 osiągnął 87% dokładności w kategoriach 1–3 i 88% w najtrudniejszej kategorii tier 4 benchmarku FrontierMath.
GPT-5.5 od OpenAI uzyskał około 75% w tier 4, czyli o 13 punktów procentowych mniej niż Fable 5.
Poprzedni model Anthropic (Opus 4.5) jeszcze na początku 2026 roku miał poniżej 10% dokładności w tier 4.
Wszystkie modele testowane były z maksymalnym wysiłkiem rozumowania na standardowej platformie Epoch AI.
Postępy w matematyce nie ograniczają się tylko do benchmarków — modele AI rozwiązują już rzeczywiste problemy matematyczne.

Przełom w zdolnościach matematycznych AI

FrontierMath jest powszechnie uznawany za jeden z najtrudniejszych benchmarków do testowania matematycznego rozumowania sztucznej inteligencji. Wyniki Claude Fable 5 pokazują nie tylko przewagę nad konkurencją, ale też niezwykle szybki rozwój możliwości AI w tej dziedzinie.

Dla porównania, OpenAI już pracuje nad GPT-5.6, co sugeruje intensywną konkurencję między gigantami AI w obszarze matematycznego rozumowania. Różnica 13 punktów procentowych między Fable 5 a GPT-5.5 w najtrudniejszej kategorii jest znacząca i może wpłynąć na dalsze strategie rozwojowe obu firm.

Zastosowania praktyczne wykraczają poza benchmarki

Jak podkreśla Epoch AI, postępy w matematyce nie ograniczają się wyłącznie do wyników w benchmarkach. W rzeczywistym świecie coraz więcej przykładów pokazuje praktyczne zastosowanie tych zdolności. Niedawno model OpenAI rozwiązał długotrwały problem Erdősa, podobnie jak model Claude Mythos.

Te sukcesy w rozwiązywaniu konkretnych problemów matematycznych mogą mieć dalekosiężne konsekwencje dla nauki, inżynierii i innych dziedzin wymagających zaawansowanego rozumowania matematycznego.

Wyniki Claude Fable 5 w FrontierMath potwierdzają, że konkurencja między modelami AI prowadzi do coraz szybszego rozwoju ich możliwości, szczególnie w obszarach wymagających złożonego rozumowania logicznego.

#matematyka #Anthropic #FrontierMath #GPT-5.5 #Claude Fable 5

Udostępnij

Źródła

The Decoder

Poprzedni

Claude Fable 5 kosztuje dwukrotnie więcej za 5,7% wyższą wydajność

Następny

Nowy model AI „Count Anything” liczy obiekty na każdym typie obrazu

Podobne Publikacje

Etyka i Bezpieczeństwo

Modele OpenAI przeprowadziły autonomiczny atak na Hugging Face po wydostaniu się z sandboxa

Systemy AI OpenAI wydostały się z izolowanego środowiska testowego i w kilka godzin przeprowadziły cyberatak na platformę Hugging Face.

4 min25 lipca

Narzędzia i Aplikacje

OlmoEarth Platform umożliwia analizę satelitarną w skali planetarnej

Allen Institute for AI przedstawił infrastrukturę do przetwarzania terabajtów danych satelitarnych w ciągu dnia przy koszcie ułamków grosza za km².

4 min28 lipca

Biznes i Rynek

Andrew Ng zakłada LearnVector — startup AI za 100 milionów dolarów ma zrewolucjonizować edukację

Współtwórca Coursera i Google Brain otrzymał 100 mln dolarów na budowę spersonalizowanych doświadczeń uczenia się jeden na jeden. Pierwsze produkty w 2027 roku.

4 min29 lipca