15 maja 20264 min czytania

System REVELIO wykrywa krytyczne błędy modeli wizyjno-językowych w zastosowaniach bezpieczeństwa

Naukowcy opracowali framework systematycznie ujawniający podatności VLM w jeździe autonomicznej i robotyce, odkrywając problemy z oceną przestrzeni.

Źródło zdjęcia: arXiv.org

Poprzedni

System BenchJack wykrył 219 luk w popularnych testach AI umożliwiających oszukiwanie

Następny

CLIPR — nowy framework uczy AI preferencji użytkowników z minimalnych rozmów

Podobne Publikacje

Narzędzia i Aplikacje

Notion wprowadza platformę deweloperską dla agentów AI i automatyzacji przepływów pracy

Notion uruchamia Developer Platform z Workers, synchronizacją danych i integracją zewnętrznych agentów AI, przekształcając się w centrum orkiestracji pracy AI.

4 min14 maja

Biznes i Rynek

Khosla Ventures inwestuje 10 mln dolarów w kontrowersyjnego założyciela upadłego Bench Accounting

Ian Crosby, założyciel upadłego Bench Accounting, pozyskał 10 mln dolarów na nowy startup Synthetic, który ma stworzyć w pełni autonomicznego księgowego AI.

Kluczowe wnioski

System REVELIO identyfikuje tryby błędów jako kombinacje interpretowalnych konceptów domenowych, takich jak bliskość pieszych czy niekorzystne warunki pogodowe.

W środowiskach drogowych modele wykazują słabe umocowanie przestrzenne i nie uwzględniają głównych przeszkód, prowadząc do rekomendacji skutkujących symulowanymi wypadkami.

W robotyce domowej VLM albo pomijają zagrożenia bezpieczeństwa, albo zachowują się nadmiernie zachowawczo, generując fałszywe alarmy.

Framework łączy wyszukiwanie beam search z strategią próbkowania Thompsona opartą na procesach Gaussa dla efektywnego mapowania krajobraz błędów.

Badanie dotyczy modeli z maja 2026 roku, ujawniając strukturalne problemy w najnowszych systemach AI.

Innowacyjny framework REVELIO

Autorzy badania — Isha Chaudhary, Vedaant V Jain, Kavya Sachdeva, Sayan Ranu i Gagandeep Singh — zdefiniowali tryb błędu jako kompozycję interpretowalnych, istotnych dla domeny konceptów, w których docelowy VLM konsekwentnie zachowuje się niepoprawnie. Identyfikacja takich błędów wymaga przeszukiwania wykładniczo dużej dyskretnej przestrzeni kombinatorycznej.

REVELIO adresuje to wyzwanie poprzez połączenie dwóch procedur wyszukiwania. Pierwsza to świadome różnorodności wyszukiwanie beam search, które efektywnie mapuje krajobraz błędów. Druga to strategia próbkowania Thompsona oparta na procesach Gaussa, umożliwiająca szerszą eksplorację złożonych trybów błędów.

Krytyczne błędy w zastosowaniach praktycznych

Zespół zastosował REVELIO w domenach jazdy autonomicznej i robotyki domowej, odkrywając wcześniej niezgłaszane podatności w najnowocześniejszych modelach wizyjno-językowych. W środowiskach drogowych modele często demonstrują słabe umocowanie przestrzenne i nie uwzględniają głównych przeszkód, co prowadzi do rekomendacji skutkujących symulowanymi wypadkami.

W zadaniach robotyki domowej VLM albo pomijają zagrożenia bezpieczeństwa, albo zachowują się nadmiernie zachowawczo, produkując fałszywe alarmy i redukując efektywność operacyjną. Te odkrycia ujawniają fundamentalne ograniczenia w sposobie, w jaki współczesne modele przetwarzają i interpretują informacje wizualne w kontekście bezpieczeństwa.

Wpływ na rozwój bezpieczniejszej AI

Poprzez identyfikację strukturalnych i interpretowalnych trybów błędów, REVELIO oferuje praktyczne wglądy, które mogą wspierać celowane ulepszenia bezpieczeństwa VLM. Framework umożliwia developerom i badaczom systematyczne testowanie modeli w krytycznych scenariuszach, co może przyczynić się do opracowania bardziej niezawodnych systemów AI dla zastosowań wymagających najwyższego poziomu bezpieczeństwa.