Badacze proponują wielowymiarową ewaluację modeli AI zamiast zastępowania nasyconych testów trudniejszymi. Eksperyment wykazał dwukrotne przyspieszenie pracy.

Źródło zdjęcia: arXiv.org
Zespół badaczy z uniwersytetów amerykańskich przedstawił nowe podejście do ewaluacji modeli AI po osiągnięciu „nasycenia dokładności” w popularnych benchmarkach. W publikacji dostępnej na arXiv, naukowcy pod kierunkiem Nityi Nadgir argumentują, że obecna praktyka zastępowania nasyconych testów nowymi, trudniejszymi wersjami pomija kluczowe aspekty wydajności agentów AI.
Autorzy badania identyfikują fundamentalny problem w sposobie, w jaki społeczność AI podchodzi do nasyconych benchmarków. Gdy modele osiągają wysoką dokładność w standardowych testach, zazwyczaj są one zastępowane trudniejszymi wersjami. To podejście, choć pozornie logiczne, ignoruje bogactwo informacji, które można wydobyć z istniejących testów.
CORE-Bench Hard, wykorzystany jako studium przypadku, służy do testowania zdolności agentów do reprodukowania wyników badań naukowych na podstawie kodu. Mimo że najnowsze modele osiągają w nim wysokie wyniki dokładności, badacze wykazali, że test pozostaje wartościowym narzędziem diagnostycznym.
Zespół zidentyfikował zagrożenia dla trafności konstrukcyjnej CORE-Bench Hard, które są trudne do przewidzenia przy mniej zdolnych agentach. W odpowiedzi opracowano ulepszoną wersję 1.1 benchmarku oraz pakiet zadań testujących generalizację poza dystrybucją treningową.
Analiza wykazała, że nawet po nasyceniu dokładności, CORE-Bench v1.1 dostarcza cennych informacji o efektywności obliczeniowej, niezawodności działania, oraz względnej wydajności modelu w porównaniu do systemu wspierającego (scaffold). Te aspekty są kluczowe dla praktycznego wdrażania systemów AI, ale często pomijane w standardowych ewaluacjach.
Najbardziej praktyczne wnioski przynosi eksperyment z udziałem ludzi, w którym mierzono korzyści z współpracy z agentami AI przy rzeczywistych zadaniach reprodukowalności obliczeniowej. Randomizowane badanie wykazało statystycznie istotne przyspieszenie pracy o około dwukrotność.
Co istotne, jedna piąta uczestników pracujących bez wsparcia AI nie zdążyła ukończyć przydzielonych zadań w wyznaczonym czasie, podczas gdy wszyscy uczestnicy współpracujący z agentami ukończyli swoje zadania. To sugeruje, że rzeczywiste korzyści mogą być znacznie większe niż zmierzone w kontrolowanych warunkach czasowych.
Badanie przedstawia alternatywę dla dominującego paradygmatu ewaluacji skupionego wyłącznie na dokładności, oferując bardziej rygorystyczne podejście do oceny rzeczywistej użyteczności systemów AI w praktycznych zastosowaniach.

Anthropic wprowadza Claude Tag — AI-członka zespołu w Slacku z trwałą pamięcią, który uczy się kontekstu organizacyjnego i proaktywnie uczestniczy w pracy.

Indyjska firma MoEngage kupiła startup Aampe, rozwijający agentów AI do personalizacji marketingu. Transakcja ma pomóc konkurować z Salesforce i Adobe.

Badanie AllenAI ujawnia, że modele hybrydowe przewyższają transformery przy słowach znaczących, ale przegrywają przy powtórzeniach i zamykających nawiasach.