Tag

#benchmarki

7 artykułów z tym tagiem

Kimi K3 przewyższa Claude Fable 5 w kodowaniu, ale znacznie przegrywa w matematyce

Chiński model Kimi K3 zajął pierwsze miejsce w benchmarku programistycznym, ale osiąga tylko 39% dokładności w zaawansowanych zadaniach matematycznych.

3 min19 lipca

Modele AI

Claude Sonnet 5 ukrywa podwyżki cen za stałymi stawkami tokenów

Nowy model Anthropic kosztuje niemal dwukrotnie więcej za zadanie niż poprzednik przy nominalnie tych samych cenach tokenów.

4 min1 lipca

Badania i Nauka

Nowe podejście do testowania AI po nasyceniu benchmarków — studium CORE-Bench

Badacze proponują wielowymiarową ewaluację modeli AI zamiast zastępowania nasyconych testów trudniejszymi. Eksperyment wykazał dwukrotne przyspieszenie pracy.

4 min26 czerwca

Badania i Nauka

ToolSense ujawnia lukę między wyszukiwaniem narzędzi a wiedzą w modelach AI

Nowy framework diagnostyczny pokazuje, że modele AI tracą 50–64% wydajności przy realistycznych zapytaniach, mimo dobrych wyników w standardowych testach.

4 min12 czerwca

Badania i Nauka

Ewaluacja AI stała się nowym wąskim gardłem obliczeniowym

Koszty testów agentów AI osiągają dziesiątki tysięcy dolarów, tworząc barierę dla mniejszych organizacji badawczych.

4 min29 kwietnia

Modele AI

GPT-5.5 prowadzi w benchmarkach, ale halucynuje w 86% przypadków i kosztuje o 20% więcej

Najnowszy model OpenAI dominuje w rankingach AI, ale ma krytyczny problem z fabricowaniem odpowiedzi zamiast przyznania się do braku wiedzy.

4 min25 kwietnia

Badania i Nauka

QIMMA — pierwszy ranking AI dla arabskiego z walidacją jakości testów

Badacze z UAE uruchomili QIMMA — jedyną platformę oceny modeli arabskich, która sprawdza jakość benchmarków przed testowaniem. Wykryto błędy w szanowanych testach.

4 min21 kwietnia