
Źródło zdjęcia: arXiv.org
Zespół badaczy z uniwersytetów w USA opracował nową metodę oceny agentów opartych na modelach językowych, która pozwala mierzyć błędy eksploracji i eksploatacji bez dostępu do wewnętrznej polityki agenta. Badanie zostało opublikowane w arxiv pod numerem 2604.13151 i pokazuje, że nawet najnowocześniejsze modele językowe mają problemy z efektywnym równoważeniem tych dwóch kluczowych strategii podejmowania decyzji.
Autorzy badania — Jaden Park wraz z zespołem z kilku amerykańskich uniwersytetów — zaprojektowali specjalne środowiska testowe inspirowane praktycznymi scenariuszami embodied AI. Każde środowisko składa się z częściowo obserwowalnej mapy 2D oraz nieznanego grafu zadań w formie Directed Acyclic Graph (DAG).
Kluczową innowacją jest możliwość programowego dostosowywania generacji map w celu podkreślenia trudności związanych z eksploracją lub eksploatacją. Takie podejście pozwala na systematyczne testowanie różnych aspektów podejmowania decyzji przez agentów AI.
Zespół przetestował szereg najnowocześniejszych modeli językowych i odkrył, że wszystkie mają problemy z efektywnym wykonywaniem zadań wymagających strategicznego podejmowania decyzji. Co istotne, różne modele wykazywały charakterystyczne dla siebie wzorce niepowodzeń — niektóre miały większe trudności z eksploracją nowych możliwości, inne z wykorzystaniem już zdobytej wiedzy.
Szczególnie interesujące jest odkrycie, że modele zdolne do rozumowania (reasoning models) radzą sobie znacznie lepiej z przedstawionymi zadaniami. To sugeruje, że zdolność do wieloetapowego myślenia i analizy jest kluczowa dla efektywnego podejmowania decyzji w złożonych środowiskach.
Badacze udostępnili kod swojego projektu, co umożliwi dalsze badania nad optymalizacją strategii podejmowania decyzji przez agentów AI. Wyniki mają istotne implikacje dla rozwoju AI w zastosowaniach wymagających autonomicznego działania, od kodowania po fizyczne roboty.