26 czerwca 20264 min czytania

Nowe podejście do testowania AI po nasyceniu benchmarków — studium CORE-Bench

Badacze proponują wielowymiarową ewaluację modeli AI zamiast zastępowania nasyconych testów trudniejszymi. Eksperyment wykazał dwukrotne przyspieszenie pracy.

Źródło zdjęcia: arXiv.org

Zespół badaczy z uniwersytetów amerykańskich przedstawił nowe podejście do ewaluacji modeli AI po osiągnięciu „nasycenia dokładności” w popularnych benchmarkach. W publikacji dostępnej na arXiv, naukowcy pod kierunkiem Nityi Nadgir argumentują, że obecna praktyka zastępowania nasyconych testów nowymi, trudniejszymi wersjami pomija kluczowe aspekty wydajności agentów AI.

Kluczowe wnioski

Standardowe podejście skupiające się wyłącznie na dokładności pomija sześć innych kluczowych wymiarów wydajności: problem skrótów myślowych, generalizację poza dystrybucją, efektywność, niezawodność, rolę modelu vs rusztowania oraz korzyści z współpracy człowiek-agent.
Badacze opracowali ulepszoną wersję CORE-Bench v1.1 oraz zestaw zadań out-of-distribution (CORE-Bench OOD) do testowania obliczeniowej reprodukowalności kodu naukowego.
Eksperyment z udziałem ludzi wykazał statystycznie istotne przyspieszenie pracy o około dwukrotność przy współpracy z agentami AI.
Nawet po nasyceniu dokładności, benchmarki pozostają użyteczne do pomiaru efektywności, niezawodności i wydajności różnych komponentów systemu.
Jedna piąta uczestników pracujących bez wsparcia AI nie zdążyła ukończyć zadań w wyznaczonym czasie, co sugeruje że rzeczywiste korzyści mogą być większe niż zmierzone.

Problemy z obecnym podejściem do benchmarków

Autorzy badania identyfikują fundamentalny problem w sposobie, w jaki społeczność AI podchodzi do nasyconych benchmarków. Gdy modele osiągają wysoką dokładność w standardowych testach, zazwyczaj są one zastępowane trudniejszymi wersjami. To podejście, choć pozornie logiczne, ignoruje bogactwo informacji, które można wydobyć z istniejących testów.

CORE-Bench Hard, wykorzystany jako studium przypadku, służy do testowania zdolności agentów do reprodukowania wyników badań naukowych na podstawie kodu. Mimo że najnowsze modele osiągają w nim wysokie wyniki dokładności, badacze wykazali, że test pozostaje wartościowym narzędziem diagnostycznym.

Wielowymiarowa ewaluacja wydajności

Zespół zidentyfikował zagrożenia dla trafności konstrukcyjnej CORE-Bench Hard, które są trudne do przewidzenia przy mniej zdolnych agentach. W odpowiedzi opracowano ulepszoną wersję 1.1 benchmarku oraz pakiet zadań testujących generalizację poza dystrybucją treningową.

Analiza wykazała, że nawet po nasyceniu dokładności, CORE-Bench v1.1 dostarcza cennych informacji o efektywności obliczeniowej, niezawodności działania, oraz względnej wydajności modelu w porównaniu do systemu wspierającego (scaffold). Te aspekty są kluczowe dla praktycznego wdrażania systemów AI, ale często pomijane w standardowych ewaluacjach.

Współpraca człowiek-agent w praktyce

Najbardziej praktyczne wnioski przynosi eksperyment z udziałem ludzi, w którym mierzono korzyści z współpracy z agentami AI przy rzeczywistych zadaniach reprodukowalności obliczeniowej. Randomizowane badanie wykazało statystycznie istotne przyspieszenie pracy o około dwukrotność.

Co istotne, jedna piąta uczestników pracujących bez wsparcia AI nie zdążyła ukończyć przydzielonych zadań w wyznaczonym czasie, podczas gdy wszyscy uczestnicy współpracujący z agentami ukończyli swoje zadania. To sugeruje, że rzeczywiste korzyści mogą być znacznie większe niż zmierzone w kontrolowanych warunkach czasowych.

Badanie przedstawia alternatywę dla dominującego paradygmatu ewaluacji skupionego wyłącznie na dokładności, oferując bardziej rygorystyczne podejście do oceny rzeczywistej użyteczności systemów AI w praktycznych zastosowaniach.

#ewaluacja AI #CORE-Bench #wydajność modeli #benchmarki #współpraca człowiek-AI

Udostępnij

Źródła

arXiv AI

Poprzedni

Nowa metoda wykrywa i kontroluje sykofancję w modelach AI za pomocą kaskadowych cech liniowych

Następny

AlphaFold 3 osiąga 99% dokładność w przewidywaniu struktury białek

Podobne Publikacje

Narzędzia i Aplikacje

Claude Tag od Anthropic uczy się Twojej firmy analizując każdą wiadomość w Slacku

Anthropic wprowadza Claude Tag — AI-członka zespołu w Slacku z trwałą pamięcią, który uczy się kontekstu organizacyjnego i proaktywnie uczestniczy w pracy.

3 min23 czerwca

Biznes i Rynek

MoEngage przejmuje Aampe za dziesiątki milionów dolarów, stawiając na agentów AI w marketingu

Indyjska firma MoEngage kupiła startup Aampe, rozwijający agentów AI do personalizacji marketingu. Transakcja ma pomóc konkurować z Salesforce i Adobe.

3 min24 czerwca

Badania i Nauka

Jakie tokeny lepiej przewidują modele hybrydowe? Badanie AllenAI porównuje Olmo Hybrid z transformerem

Badanie AllenAI ujawnia, że modele hybrydowe przewyższają transformery przy słowach znaczących, ale przegrywają przy powtórzeniach i zamykających nawiasach.

4 min25 czerwca

Kluczowe wnioski

Standardowe podejście skupiające się wyłącznie na dokładności pomija sześć innych kluczowych wymiarów wydajności: problem skrótów myślowych, generalizację poza dystrybucją, efektywność, niezawodność, rolę modelu vs rusztowania oraz korzyści z współpracy człowiek-agent.

Badacze opracowali ulepszoną wersję CORE-Bench v1.1 oraz zestaw zadań out-of-distribution (CORE-Bench OOD) do testowania obliczeniowej reprodukowalności kodu naukowego.

Eksperyment z udziałem ludzi wykazał statystycznie istotne przyspieszenie pracy o około dwukrotność przy współpracy z agentami AI.

Nawet po nasyceniu dokładności, benchmarki pozostają użyteczne do pomiaru efektywności, niezawodności i wydajności różnych komponentów systemu.

Jedna piąta uczestników pracujących bez wsparcia AI nie zdążyła ukończyć zadań w wyznaczonym czasie, co sugeruje że rzeczywiste korzyści mogą być większe niż zmierzone.

Problemy z obecnym podejściem do benchmarków

Wielowymiarowa ewaluacja wydajności

Współpraca człowiek-agent w praktyce