
Źródło zdjęcia: huggingface.co
Badacze z IBM Research przedstawili szczegółową analizę benchmarku VAKRA — nowego narzędzia do oceny zdolności agentów AI w środowiskach przypominających przedsiębiorstwa. Publikacja dostępna na Hugging Face rzuca światło na słabe punkty obecnych modeli AI w wykonywaniu złożonych zadań biznesowych.
VAKRA to wykonywalny benchmark oparty na narzędziach, który mierzy zdolności kompozycyjnego rozumowania agentów AI w środowisku z ponad 8000 lokalnie hostowanymi API wspieranymi przez rzeczywiste bazy danych z 62 domen. W przeciwieństwie do tradycyjnych benchmarków testujących izolowane umiejętności, VAKRA ocenia, czy agenci potrafią niezawodnie wykonywać wieloetapowe przepływy pracy.
Środowisko wymaga od agentów łączenia strukturalnej interakcji z API z nieustrukturyzowanym wyszukiwaniem informacji, wykorzystując łańcuchy rozumowania składające się z 3-7 kroków pod naturalnymi ograniczeniami językowymi.
Benchmark składa się z czterech głównych zadań testujących różne możliwości:
Capability 1: Łączenie API biznesowej inteligencji obejmuje 2077 przypadków testowych w 54 domenach, wykorzystując narzędzia z kolekcji SLOT-BIRD i SEL-BIRD. Zadania wymagają tworzenia łańcuchów składających się z 1-12 wywołań narzędzi. Każda instancja ma powiązane źródło danych JSON, z którego musi zostać wyprowadzona odpowiedź.
Capability 2: Wybór narzędzi z API paneli kontrolnych zawiera 1597 instancji w 17 domenach, używając rozszerzonej kolekcji REST-BIRD. Te interfejsy w stylu endpoint zapewniają wysoce specyficzne, dopasowane do zapytań punkty końcowe. Każda domena zawiera minimum 6, a maksimum 328 narzędzi (średnio 116).
Capability 3: Wieloetapowe rozumowanie obejmuje 869 przypadków testowych z 38 domen tematycznych, ponownie opierając się na kolekcji REST-BIRD API, ale dodając wieloetapowe wyzwania rozumowania.
Capability 4 łączy elementy poprzednich zadań w bardziej złożone scenariusze.
Jak pokazują wyniki, modele AI radzą sobie słabo w benchmarku VAKRA. Autorzy przeprowadzili szczegółową analizę trybów awarii obserwowanych w różnych zadaniach, co ujawnia znaczące luki w obecnych możliwościach agentów AI.
VAKRA wykorzystuje serwery MCP (Model Control Protocol) do obsługi różnych kolekcji narzędzi. Specjalne narzędzie musi być wywoływane na początku każdej instancji, inicjalizując źródło danych i zwracając lekki podgląd danych przy jednoczesnym przechowywaniu pełnego zestawu danych po stronie serwera.
get_data(tool_universe_id=id)Kolekcja SLOT-BIRD dostarcza globalny zestaw 7 narzędzi do ogólnej manipulacji danymi, inspirowanych systemami takimi jak Tableau i Google Analytics. SEL-BIRD rozszerza to o bardziej wyspecjalizowane narzędzia, niektóre wspólne z SLOT-BIRD, inne pochodzące z spłaszczenia argumentów kategorycznych w oddzielne funkcje.
API OpenAI ogranicza listę narzędzi do maksymalnie 128 pozycji, co wymaga od twórców agentów bezpośredniego zarządzania długością listy narzędzi poprzez mechanizm skracania list. W podstawowych agentach dostępnych w repozytorium autorów, proste możliwości skracania list radzą sobie z tym wyzwaniem.
VAKRA reprezentuje znaczący krok w kierunku bardziej realistycznej oceny zdolności agentów AI w kontekstach przedsiębiorstw. Benchmark ujawnia, że pomimo postępów w dziedzinie AI, obecne modele nadal mają znaczące problemy z wykonywaniem złożonych, wieloetapowych zadań wymagających kombinacji różnych typów rozumowania i interakcji z narzędziami.
Badanie pokazuje konkretne obszary, w których agenci AI potrzebują ulepszeń, aby stać się praktycznie użytecznymi w rzeczywistych środowiskach biznesowych. Analiza trybów awarii dostarcza cennych wskazówek dla przyszłego rozwoju systemów AI.