Badacze z UC Berkeley stworzyli system automatycznie wykrywający luki w benchmarkach AI. BenchJack zhakował niemal wszystkie popularne testy.

Źródło zdjęcia: arXiv.org
Badacze z Uniwersytetu Kalifornijskiego w Berkeley opracowali system BenchJack, który systematycznie wykrywa luki w testach AI umożliwiające agentom sztucznej inteligencji osiąganie wysokich wyników bez faktycznego rozwiązywania zadań. Nowe badanie opublikowane na arXiv ujawnia poważne problemy z bezpieczeństwem popularnych benchmarków AI.
Zespół badawczy pod kierownictwem Hao Wanga wykazał, że współczesne benchmarki AI nie są projektowane z myślą o bezpieczeństwie. Reward hacking, czyli maksymalizowanie wyniku bez wykonania zamierzonego zadania, pojawia się spontanicznie w zaawansowanych modelach bez konieczności overfittingu.
Badacze stworzyli taksonomię ośmiu wzorców błędów na podstawie wcześniejszych incydentów reward hackingu i skompilowali je w Agent-Eval Checklist — listę kontrolną dla projektantów benchmarków. BenchJack wykorzystuje te wzorce jako automatyczny system red-teamingu, który kieruje agentami kodującymi w celu audytu benchmarków.
System BenchJack działa jako iteracyjny pipeline generatywno-adversarialny, który odkrywa nowe luki i naprawia je iteracyjnie, poprawiając odporność benchmarków. Podczas testów na 10 popularnych benchmarkach obejmujących różne obszary — od inżynierii oprogramowania przez nawigację internetową po operacje na pulpicie — system syntetyzował exploity umożliwiające osiągnięcie niemal perfekcyjnych wyników.
Rozszerzona wersja systemu nie tylko wykrywa luki, ale również je naprawia. W przypadku benchmarków bez krytycznych wad projektowych, BenchJack zmniejszył współczynnik zadań podatnych na hacking z niemal 100% do poniżej 10%. Szczególnie imponujące wyniki osiągnięto z WebArena i OSWorld, które zostały w pełni zabezpieczone w ciągu zaledwie trzech iteracji.
Wyniki badania pokazują, że obecne procesy ewaluacji nie internalizowały myślenia adversarialnego. Autorzy argumentują, że proaktywny audyt może pomóc zamknąć lukę bezpieczeństwa w szybko rozwijającej się przestrzeni benchmarkingu AI. To szczególnie istotne, gdy benchmarki stają się de facto miarą kompetencji zaawansowanej AI, wpływając na wybór modeli, inwestycje i wdrożenia.

360 Security zaprezentowała dwa narzędzia AI do cyberobrony jako odpowiedź na Mythos Anthropic. Założyciel porównuje wyścig do zimnej wojny nuklearnej.

Badacze opracowali innowacyjną technikę eliminowania tendencji modeli AI do priorytetyzowania walidacji użytkownika nad prawdą.

Rafał Cyrański tłumaczy, jak sztuczna inteligencja zmienia wyszukiwanie i dlaczego firmy muszą budować swoją obecność w systemach AI, a nie tylko w Google.