Naukowcy opracowali VeGAS — system weryfikacji akcji, który poprawia wydajność agentów AI w świecie fizycznym o 36% w najtrudniejszych zadaniach.

Źródło zdjęcia: arXiv.org
Brian Meeker krytykuje tokenmaxxing i przedstawia praktyczne zasady zarządzania narzędziami AI w zespołach deweloperskich bez przymusu i manipulacji.

Prawnicy OpenAI złożyli wniosek o wykorzystanie złotej statuetki przedstawiającej pośladki osła jako dowodu w sprawie sądowej z Elonem Muskiem.
Naukowcy z kilku instytutów badawczych opracowali nową metodę VeGAS (Verifier-Guided Action Selection), która znacząco poprawia niezawodność agentów AI działających w fizycznym świecie. Praca została opublikowana w arXiv i zostanie zaprezentowana na konferencji CVPR 2026.
Multimodalne duże modele językowe (MLLM) znacznie poprawiły możliwości rozumowania takich agentów dzięki silnej wiedzy wizualno-językowej i rozumowaniu łańcuchowym. Jednak pozostają kruche w obliczu wyzwań wykraczających poza dane treningowe.
Tradycyjne agenty AI zazwyczaj podejmują decyzje na podstawie pojedynczej dekodowanej akcji, co czyni je podatnymi na błędy w skomplikowanych scenariuszach. VeGAS wprowadza fundamentalną zmianę w tym podejściu — zamiast natychmiastowego działania, system najpierw generuje kilka możliwych akcji, a następnie używa specjalistycznego weryfikatora do oceny ich jakości.
Kluczowym odkryciem badaczy było to, że standardowe multimodalne modele językowe nie sprawdzają się jako weryfikatory bez dodatkowego treningu. To obserwacja doprowadziła do opracowania innowacyjnej strategii syntezy danych napędzanej przez LLM, która automatycznie konstruuje zróżnicowane curriculum przypadków niepowodzeń.
Zespół badawczy opracował system, który automatycznie tworzy bogaty zestaw potencjalnych błędów podczas treningu weryfikatora. Ta strategia syntezy danych pozwala weryfikatorowi poznać szeroką dystrybucję możliwych problemów, z jakimi może się spotkać w praktyce.
Podejście to jest kluczowe dla skuteczności całego systemu — weryfikator musi być w stanie rozpoznać subtelne różnice między dobrymi i złymi akcjami w złożonych środowiskach fizycznych. Automatyczna generacja przypadków niepowodzeń zapewnia, że model jest przygotowany na rzeczywiste wyzwania.
Testy przeprowadzone w środowiskach Habitat i ALFRED pokazały konsekwentną poprawę generalizacji we wszystkich badanych scenariuszach. Szczególnie imponujące są wyniki w najbardziej wymagających zadaniach wieloobiektowych o długim horyzoncie czasowym, gdzie VeGAS osiągnął 36% względną poprawę wydajności w porównaniu z silnymi metodami bazowymi wykorzystującymi rozumowanie łańcuchowe.
System VeGAS stanowi znaczący krok naprzód w budowie bardziej niezawodnych agentów AI zdolnych do działania w rzeczywistym świecie, oferując praktyczne rozwiązanie problemu kruchości obecnych systemów w nieznanych sytuacjach.