Naukowcy opracowali MAVIC — metodę pozwalającą wieloagentowym systemom AI lepiej reagować na instrukcje przerywające bieżące zadania.

Źródło zdjęcia: arXiv.org
Naukowcy z uniwersytetów opracowali nową metodę MAVIC (Macro-Action Value Correction for Instruction Compliance), która pozwala wieloagentowym systemom sztucznej inteligencji lepiej reagować na instrukcje w języku naturalnym, które przerywają bieżące działania. Badanie zostało opublikowane na arXiv przez zespół pod kierownictwem Wo Wei Lin wraz z Ethanem Rathbunem i Enrico Marchesini.

Popularny region wypoczynkowy elit z Doliny Krzemowej ma do maja 2027 roku na znalezienie alternatywy dla NV Energy, która przekierowuje moc do centrów AI.

Mowy końcowe w procesie Muska przeciwko Altmanowi ujawniły chaos w obronie i plotki o kulisach AI, w tym wykorzystanie OpenAI przez xAI.
Problem dotyczy sytuacji, gdy systemy AI muszą przerwać długoterminowe zadania, aby wykonać natychmiastowe polecenia użytkownika. Tradycyjne metody uczenia ze wzmocnieniem często prowadzą do niespójnych wartości, gdy instrukcje przerywają sekwencje działań.
W rzeczywistych zastosowaniach wieloagentowego uczenia ze wzmocnieniem (MARL) systemy muszą adaptować się do zewnętrznych instrukcji w języku naturalnym, które mogą przerwać bieżące zachowanie i pozostawać w konflikcie z długoterminowymi celami. Kondycjonowanie nagród na instrukcjach wprowadza fundamentalny tryb awarii — aktualizacje Bellmana łączą estymaty wartości między kontekstami instrukcji, co prowadzi do niespójnych wartości gdy instrukcje przerywają makro-działania.
Proponowana metoda Macro-Action Value Correction for Instruction Compliance różni się od tradycyjnego kształtowania nagród tym, że modyfikuje sam cel bootstrappingu. Umożliwia to spójną estymację wartości przy stochastycznym przełączaniu instrukcji w ramach zunifikowanej polityki. MAVIC koryguje kopie zapasowe Bellmana na granicach instrukcji poprzez korektę przychodzącego celu instrukcji i przywrócenie wartości kontynuacji pod bieżącym celem.
Badacze przeprowadzili testy w coraz bardziej złożonych kooperacyjnych środowiskach wieloagentowych, wykazując że MAVIC osiąga wysoką zgodność z instrukcjami przy jednoczesnym zachowaniu wydajności zadań bazowych. Metoda została wyposażona w implementację actor-critic i wsparta analizą teoretyczną, co czyni ją gotową do praktycznego zastosowania.
Nowe podejście otwiera możliwości dla bardziej elastycznych systemów AI, które mogą skutecznie balansować między długoterminowymi celami a natychmiastowymi instrukcjami użytkowników w złożonych środowiskach współpracy.