14 maja 20264 min czytania

VeGAS: Nowa metoda weryfikacji akcji poprawia niezawodność agentów AI o 36%

Naukowcy opracowali VeGAS — system weryfikacji akcji, który poprawia wydajność agentów AI w świecie fizycznym o 36% w najtrudniejszych zadaniach.

Źródło zdjęcia: arXiv.org

Poprzedni

RankQ: Przełomowa metoda uczenia AI zwiększa efektywność robotów o ponad 40%

Następny

Nowa metoda MAVIC poprawia reakcję systemów AI na instrukcje użytkowników

Podobne Publikacje

Poradniki

Jak stworzyć skuteczną politykę AI dla zespołu programistów

Brian Meeker krytykuje tokenmaxxing i przedstawia praktyczne zasady zarządzania narzędziami AI w zespołach deweloperskich bez przymusu i manipulacji.

4 min15 maja

Biznes i Rynek

OpenAI chce użyć statuetki osła jako dowodu w procesie przeciwko Muskowi

Prawnicy OpenAI złożyli wniosek o wykorzystanie złotej statuetki przedstawiającej pośladki osła jako dowodu w sprawie sądowej z Elonem Muskiem.

3 min

Kluczowe wnioski

VeGAS to framework testowy, który poprawia odporność agentów MLLM poprzez jawny krok weryfikacji zamiast pojedynczej akcji.

System próbkuje zespół kandydujących akcji i używa generatywnego weryfikatora do wyboru najbardziej niezawodnego rozwiązania.

Wykorzystanie MLLM jako weryfikatora „z półki” nie przynosi poprawy, co motywuje strategię syntezy danych napędzaną przez LLM.

VeGAS osiąga do 36% względną poprawę wydajności nad silnymi bazami CoT w najbardziej wymagających zadaniach wieloobiektowych.

Metoda została przetestowana w środowiskach Habitat i ALFRED, konsekwentnie poprawiając generalizację.

Rewolucja w podejściu do weryfikacji akcji

Tradycyjne agenty AI zazwyczaj podejmują decyzje na podstawie pojedynczej dekodowanej akcji, co czyni je podatnymi na błędy w skomplikowanych scenariuszach. VeGAS wprowadza fundamentalną zmianę w tym podejściu — zamiast natychmiastowego działania, system najpierw generuje kilka możliwych akcji, a następnie używa specjalistycznego weryfikatora do oceny ich jakości.

Kluczowym odkryciem badaczy było to, że standardowe multimodalne modele językowe nie sprawdzają się jako weryfikatory bez dodatkowego treningu. To obserwacja doprowadziła do opracowania innowacyjnej strategii syntezy danych napędzanej przez LLM, która automatycznie konstruuje zróżnicowane curriculum przypadków niepowodzeń.

Automatyczna synteza danych treningowych

Zespół badawczy opracował system, który automatycznie tworzy bogaty zestaw potencjalnych błędów podczas treningu weryfikatora. Ta strategia syntezy danych pozwala weryfikatorowi poznać szeroką dystrybucję możliwych problemów, z jakimi może się spotkać w praktyce.

Podejście to jest kluczowe dla skuteczności całego systemu — weryfikator musi być w stanie rozpoznać subtelne różnice między dobrymi i złymi akcjami w złożonych środowiskach fizycznych. Automatyczna generacja przypadków niepowodzeń zapewnia, że model jest przygotowany na rzeczywiste wyzwania.

Wyniki i zastosowania

Testy przeprowadzone w środowiskach Habitat i ALFRED pokazały konsekwentną poprawę generalizacji we wszystkich badanych scenariuszach. Szczególnie imponujące są wyniki w najbardziej wymagających zadaniach wieloobiektowych o długim horyzoncie czasowym, gdzie VeGAS osiągnął 36% względną poprawę wydajności w porównaniu z silnymi metodami bazowymi wykorzystującymi rozumowanie łańcuchowe.

System VeGAS stanowi znaczący krok naprzód w budowie bardziej niezawodnych agentów AI zdolnych do działania w rzeczywistym świecie, oferując praktyczne rozwiązanie problemu kruchości obecnych systemów w nieznanych sytuacjach.