5 artykułów z tym tagiem
Nowy flagowy model Anthropic zajął pierwsze miejsce w rankingu AI, ale oferuje jedynie marginalny wzrost wydajności przy podwojeniu cen tokenów.
Nowy model MAI-Image-2.5 zajmuje trzecie miejsce na Arena's text-to-image leaderboard, wprowadzając usprawnienia w renderowaniu tekstu i wizualizacjach.
Nowe badania pokazują, że usprawnienia ToM w modelach AI nie gwarantują lepszych rzeczywistych interakcji człowiek-komputer.
Badacze z UC Berkeley stworzyli system automatycznie wykrywający luki w benchmarkach AI. BenchJack zhakował niemal wszystkie popularne testy.
System PExA wykorzystuje równoległe przetwarzanie prostych zapytań testowych, osiągając przełomową dokładność 70,2% na benchmarku Spider 2.0.