14 maja 20264 min czytania

Nowa metoda MAVIC poprawia reakcję systemów AI na instrukcje użytkowników

Naukowcy opracowali MAVIC — metodę pozwalającą wieloagentowym systemom AI lepiej reagować na instrukcje przerywające bieżące zadania.

Źródło zdjęcia: arXiv.org

Naukowcy z uniwersytetów opracowali nową metodę MAVIC (Macro-Action Value Correction for Instruction Compliance), która pozwala wieloagentowym systemom sztucznej inteligencji lepiej reagować na instrukcje w języku naturalnym, które przerywają bieżące działania. Badanie zostało opublikowane na arXiv przez zespół pod kierownictwem Wo Wei Lin wraz z Ethanem Rathbunem i Enrico Marchesini.

Problem dotyczy sytuacji, gdy systemy AI muszą przerwać długoterminowe zadania, aby wykonać natychmiastowe polecenia użytkownika. Tradycyjne metody uczenia ze wzmocnieniem często prowadzą do niespójnych wartości, gdy instrukcje przerywają sekwencje działań.

Kluczowe wnioski

MAVIC koryguje aktualizacje Bellmana na granicach instrukcji, przywracając wartość kontynuacji pod bieżącym celem.
Metoda modyfikuje cel bootstrappingu zamiast kształtowania nagród, umożliwiając spójną estymację wartości.
System osiąga wysoką zgodność z instrukcjami przy zachowaniu wydajności zadań bazowych.
Rozwiązanie działa w coraz bardziej złożonych kooperacyjnych środowiskach wieloagentowych.
Autorzy dostarczyli implementację actor-critic wraz z analizą teoretyczną.

Problem tradycyjnych metod

W rzeczywistych zastosowaniach wieloagentowego uczenia ze wzmocnieniem (MARL) systemy muszą adaptować się do zewnętrznych instrukcji w języku naturalnym, które mogą przerwać bieżące zachowanie i pozostawać w konflikcie z długoterminowymi celami. Kondycjonowanie nagród na instrukcjach wprowadza fundamentalny tryb awarii — aktualizacje Bellmana łączą estymaty wartości między kontekstami instrukcji, co prowadzi do niespójnych wartości gdy instrukcje przerywają makro-działania.

Rozwiązanie MAVIC

Proponowana metoda Macro-Action Value Correction for Instruction Compliance różni się od tradycyjnego kształtowania nagród tym, że modyfikuje sam cel bootstrappingu. Umożliwia to spójną estymację wartości przy stochastycznym przełączaniu instrukcji w ramach zunifikowanej polityki. MAVIC koryguje kopie zapasowe Bellmana na granicach instrukcji poprzez korektę przychodzącego celu instrukcji i przywrócenie wartości kontynuacji pod bieżącym celem.

Wyniki i zastosowania

Badacze przeprowadzili testy w coraz bardziej złożonych kooperacyjnych środowiskach wieloagentowych, wykazując że MAVIC osiąga wysoką zgodność z instrukcjami przy jednoczesnym zachowaniu wydajności zadań bazowych. Metoda została wyposażona w implementację actor-critic i wsparta analizą teoretyczną, co czyni ją gotową do praktycznego zastosowania.

Nowe podejście otwiera możliwości dla bardziej elastycznych systemów AI, które mogą skutecznie balansować między długoterminowymi celami a natychmiastowymi instrukcjami użytkowników w złożonych środowiskach współpracy.

#MAVIC #uczenie ze wzmocnieniem #systemy wieloagentowe #instrukcje naturalne #sztuczna inteligencja

Udostępnij

Źródła

arXiv AI

Poprzedni

VeGAS: Nowa metoda weryfikacji akcji poprawia niezawodność agentów AI o 36%

Następny

NVIDIA i Ineffable Intelligence budują infrastrukturę przyszłości dla uczenia ze wzmocnieniem

Podobne Publikacje

Biznes i Rynek

TIDAL wprowadza zakaz monetyzacji muzyki generowanej przez AI

Platforma streamingowa TIDAL uniemożliwi zarabianie na w pełni wygenerowanej przez AI muzyce i wprowadzi specjalne oznaczenia takich utworów.

4 min29 czerwca

Modele AI

OpenAI prezentuje GPT-5.6 z trzema modelami w cieniu regulacyjnego sporu z administracją Trumpa

OpenAI wypuściło GPT-5.6 w wersjach Sol, Terra i Luna zaledwie dzień po żądaniu opóźnienia przez administrację Trumpa. Nowe modele kosztują mniej niż konkurencja.

4 min26 czerwca

Etyka i Bezpieczeństwo

Ponad 2000 osób próbowało zhakować asystenta AI — wszystkie próby się nie powiodły

Eksperyment hackmyclaw.com pokazał, że nawet 6000 wyrafinowanych ataków prompt injection nie było w stanie złamać zabezpieczeń Claude Opus 4.6.

4 min26 czerwca

14 maja 20264 min czytania

Nowa metoda MAVIC poprawia reakcję systemów AI na instrukcje użytkowników

Naukowcy opracowali MAVIC — metodę pozwalającą wieloagentowym systemom AI lepiej reagować na instrukcje przerywające bieżące zadania.

Źródło zdjęcia: arXiv.org

Kluczowe wnioski

MAVIC koryguje aktualizacje Bellmana na granicach instrukcji, przywracając wartość kontynuacji pod bieżącym celem.
Metoda modyfikuje cel bootstrappingu zamiast kształtowania nagród, umożliwiając spójną estymację wartości.
System osiąga wysoką zgodność z instrukcjami przy zachowaniu wydajności zadań bazowych.
Rozwiązanie działa w coraz bardziej złożonych kooperacyjnych środowiskach wieloagentowych.
Autorzy dostarczyli implementację actor-critic wraz z analizą teoretyczną.

Problem tradycyjnych metod

Rozwiązanie MAVIC

Wyniki i zastosowania

#MAVIC #uczenie ze wzmocnieniem #systemy wieloagentowe #instrukcje naturalne #sztuczna inteligencja

Udostępnij

Źródła

arXiv AI

Poprzedni

VeGAS: Nowa metoda weryfikacji akcji poprawia niezawodność agentów AI o 36%

Następny

NVIDIA i Ineffable Intelligence budują infrastrukturę przyszłości dla uczenia ze wzmocnieniem

Podobne Publikacje

Biznes i Rynek

TIDAL wprowadza zakaz monetyzacji muzyki generowanej przez AI

Platforma streamingowa TIDAL uniemożliwi zarabianie na w pełni wygenerowanej przez AI muzyce i wprowadzi specjalne oznaczenia takich utworów.

4 min29 czerwca

Modele AI

OpenAI prezentuje GPT-5.6 z trzema modelami w cieniu regulacyjnego sporu z administracją Trumpa

OpenAI wypuściło GPT-5.6 w wersjach Sol, Terra i Luna zaledwie dzień po żądaniu opóźnienia przez administrację Trumpa. Nowe modele kosztują mniej niż konkurencja.

4 min26 czerwca

Etyka i Bezpieczeństwo

Ponad 2000 osób próbowało zhakować asystenta AI — wszystkie próby się nie powiodły

Eksperyment hackmyclaw.com pokazał, że nawet 6000 wyrafinowanych ataków prompt injection nie było w stanie złamać zabezpieczeń Claude Opus 4.6.

4 min26 czerwca