Tag

#benchmarki AI

5 artykułów z tym tagiem

Claude Fable 5 kosztuje dwukrotnie więcej za 5,7% wyższą wydajność

Nowy flagowy model Anthropic zajął pierwsze miejsce w rankingu AI, ale oferuje jedynie marginalny wzrost wydajności przy podwojeniu cen tokenów.

4 min12 czerwca

Modele AI

Microsoft MAI-Image-2.5 dorównuje Google Nano Banana 2 w rankingach benchmarkowych

Nowy model MAI-Image-2.5 zajmuje trzecie miejsce na Arena's text-to-image leaderboard, wprowadzając usprawnienia w renderowaniu tekstu i wizualizacjach.

3 min28 maja

Badania i Nauka

Poprawa teorii umysłu w AI nie zawsze przekłada się na lepsze interakcje z ludźmi

Nowe badania pokazują, że usprawnienia ToM w modelach AI nie gwarantują lepszych rzeczywistych interakcji człowiek-komputer.

4 min19 maja

Badania i Nauka

System BenchJack wykrył 219 luk w popularnych testach AI umożliwiających oszukiwanie

Badacze z UC Berkeley stworzyli system automatycznie wykrywający luki w benchmarkach AI. BenchJack zhakował niemal wszystkie popularne testy.

4 min14 maja

Badania i Nauka

PExA: Nowa metoda AI do generowania SQL osiąga rekordową skuteczność 70,2%

System PExA wykorzystuje równoległe przetwarzanie prostych zapytań testowych, osiągając przełomową dokładność 70,2% na benchmarku Spider 2.0.

4 min29 kwietnia