Naukowcy stworzyli RIFT-Bench — pierwszy zunifikowany framework do oceny bezpieczeństwa różnorodnych systemów agentowych AI w dynamicznym red-teamingu.

Źródło zdjęcia: arXiv.org
Naukowcy opracowali RIFT-Bench — nową metodologię dynamicznego testowania bezpieczeństwa systemów agentowych AI opartych na dużych modelach językowych. Badanie zostało opublikowane w preprint na arXiv przez zespół ośmiu badaczy i prezentuje pierwszy zunifikowany framework do oceny bezpieczeństwa heterogenicznych architektur agentowych.
Systemy agentowe AI napędzane przez duże modele językowe szybko ewoluują w kierunku autonomicznych systemów podejmowania decyzji. To rozwój ekspozycji na nowe wektory ataków, wykraczające poza tradycyjne vulnerabilities znane z klasycznych LLM-ów.
Dotychczasowe metody oceny bezpieczeństwa były często powiązane z konkretnymi implementacjami lub domenami, co ograniczało możliwość porównywania różnych systemów. RIFT-Bench rozwiązuje ten problem poprzez wprowadzenie metodologii opartej na reprezentacji grafowej, która umożliwia dynamiczne red-teaming.
Framework wykorzystuje nowatorską reprezentację hierarchiczną i działa w dwóch kluczowych fazach. Faza Discovery automatycznie wydobywa strukturę badanego systemu, podczas gdy faza Scanning wdraża adaptacyjne ataki adversarialne i generuje kompleksowy raport ewaluacyjny.
Kluczową cechą RIFT-Bench jest jego zdolność do samooceny badanego systemu, wykorzystując szeroki zestaw dynamicznie adaptowalnych sond adversarialnych. Te sondy pokrywają różnorodne wektory ataków i cele, dostosowując się do specyfiki każdego testowanego systemu.
Ponadto platforma wspiera bezpośrednią ocenę strategii mitygacji, co czyni ją kompleksowym narzędziem nie tylko do identyfikacji zagrożeń, ale także do testowania skuteczności zabezpieczeń.
RIFT-Bench stanowi skalowalną podstawę dla oceny bezpieczeństwa systemów agentowych AI, oferując pierwszą zunifikowaną metodologię testowania heterogenicznych architektur w tym szybko rozwijającym się obszarze sztucznej inteligencji.

Startup General Intuition zebrał 320 mln dolarów na model AI, który uczy się działania w rzeczywistym świecie poprzez analizę danych z gier wideo.

OpenAI wypuściło GPT-5.6 w wersjach Sol, Terra i Luna zaledwie dzień po żądaniu opóźnienia przez administrację Trumpa. Nowe modele kosztują mniej niż konkurencja.

FIFA udostępni Football AI Pro wszystkim drużynom na mundialu 2026. Agent AI ma wyrównać szanse między bogatymi i biednymi federacjami.