Badacze z UC Berkeley stworzyli system automatycznie wykrywający luki w benchmarkach AI. BenchJack zhakował niemal wszystkie popularne testy.

Źródło zdjęcia: arXiv.org
Badacze z Uniwersytetu Kalifornijskiego w Berkeley opracowali system BenchJack, który systematycznie wykrywa luki w testach AI umożliwiające agentom sztucznej inteligencji osiąganie wysokich wyników bez faktycznego rozwiązywania zadań. Nowe badanie opublikowane na ujawnia poważne problemy z bezpieczeństwem popularnych benchmarków AI.

Funkcja wykrywania podobieństwa twarzy, która skanuje YouTube w poszukiwaniu potencjalnych podróbek, będzie dostępna dla każdego użytkownika powyżej 18 lat.

Badacze opracowali GraphBit — framework oparty na grafach, który eliminuje halucynacje w systemach agentowych i osiąga rekordową dokładność 67,6%.
Zespół badawczy pod kierownictwem Hao Wanga wykazał, że współczesne benchmarki AI nie są projektowane z myślą o bezpieczeństwie. Reward hacking, czyli maksymalizowanie wyniku bez wykonania zamierzonego zadania, pojawia się spontanicznie w zaawansowanych modelach bez konieczności overfittingu.
Badacze stworzyli taksonomię ośmiu wzorców błędów na podstawie wcześniejszych incydentów reward hackingu i skompilowali je w Agent-Eval Checklist — listę kontrolną dla projektantów benchmarków. BenchJack wykorzystuje te wzorce jako automatyczny system red-teamingu, który kieruje agentami kodującymi w celu audytu benchmarków.
System BenchJack działa jako iteracyjny pipeline generatywno-adversarialny, który odkrywa nowe luki i naprawia je iteracyjnie, poprawiając odporność benchmarków. Podczas testów na 10 popularnych benchmarkach obejmujących różne obszary — od inżynierii oprogramowania przez nawigację internetową po operacje na pulpicie — system syntetyzował exploity umożliwiające osiągnięcie niemal perfekcyjnych wyników.
Rozszerzona wersja systemu nie tylko wykrywa luki, ale również je naprawia. W przypadku benchmarków bez krytycznych wad projektowych, BenchJack zmniejszył współczynnik zadań podatnych na hacking z niemal 100% do poniżej 10%. Szczególnie imponujące wyniki osiągnięto z WebArena i OSWorld, które zostały w pełni zabezpieczone w ciągu zaledwie trzech iteracji.
Wyniki badania pokazują, że obecne procesy ewaluacji nie internalizowały myślenia adversarialnego. Autorzy argumentują, że proaktywny audyt może pomóc zamknąć lukę bezpieczeństwa w szybko rozwijającej się przestrzeni benchmarkingu AI. To szczególnie istotne, gdy benchmarki stają się de facto miarą kompetencji zaawansowanej AI, wpływając na wybór modeli, inwestycje i wdrożenia.