Badania i Nauka15 kwietnia 20264 min czytania

Benchmark VAKRA ujawnia słabe punkty agentów AI w zadaniach biznesowych

Nowy benchmark IBM testuje agentów AI w środowisku z 8000+ API, pokazując znaczące luki w wieloetapowym rozumowaniu biznesowym.

Źródło zdjęcia: huggingface.co

Badacze z IBM Research przedstawili szczegółową analizę benchmarku VAKRA — nowego narzędzia do oceny zdolności agentów AI w środowiskach przypominających przedsiębiorstwa. Publikacja dostępna na Hugging Face rzuca światło na słabe punkty obecnych modeli AI w wykonywaniu złożonych zadań biznesowych.

Czym jest benchmark VAKRA

VAKRA to wykonywalny benchmark oparty na narzędziach, który mierzy zdolności kompozycyjnego rozumowania agentów AI w środowisku z ponad 8000 lokalnie hostowanymi API wspieranymi przez rzeczywiste bazy danych z 62 domen. W przeciwieństwie do tradycyjnych benchmarków testujących izolowane umiejętności, VAKRA ocenia, czy agenci potrafią niezawodnie wykonywać wieloetapowe przepływy pracy.

Środowisko wymaga od agentów łączenia strukturalnej interakcji z API z nieustrukturyzowanym wyszukiwaniem informacji, wykorzystując łańcuchy rozumowania składające się z 3-7 kroków pod naturalnymi ograniczeniami językowymi.

Cztery kluczowe zdolności w teście

Benchmark składa się z czterech głównych zadań testujących różne możliwości:

Capability 1: Łączenie API biznesowej inteligencji obejmuje 2077 przypadków testowych w 54 domenach, wykorzystując narzędzia z kolekcji SLOT-BIRD i SEL-BIRD. Zadania wymagają tworzenia łańcuchów składających się z 1-12 wywołań narzędzi. Każda instancja ma powiązane źródło danych JSON, z którego musi zostać wyprowadzona odpowiedź.

Capability 2: Wybór narzędzi z API paneli kontrolnych zawiera 1597 instancji w 17 domenach, używając rozszerzonej kolekcji REST-BIRD. Te interfejsy w stylu endpoint zapewniają wysoce specyficzne, dopasowane do zapytań punkty końcowe. Każda domena zawiera minimum 6, a maksimum 328 narzędzi (średnio 116).

Capability 3: Wieloetapowe rozumowanie obejmuje 869 przypadków testowych z 38 domen tematycznych, ponownie opierając się na kolekcji REST-BIRD API, ale dodając wieloetapowe wyzwania rozumowania.

Capability 4 łączy elementy poprzednich zadań w bardziej złożone scenariusze.

Słabe wyniki modeli

Jak pokazują wyniki, modele AI radzą sobie słabo w benchmarku VAKRA. Autorzy przeprowadzili szczegółową analizę trybów awarii obserwowanych w różnych zadaniach, co ujawnia znaczące luki w obecnych możliwościach agentów AI.

Techniczne szczegóły implementacji

VAKRA wykorzystuje serwery MCP (Model Control Protocol) do obsługi różnych kolekcji narzędzi. Specjalne narzędzie musi być wywoływane na początku każdej instancji, inicjalizując źródło danych i zwracając lekki podgląd danych przy jednoczesnym przechowywaniu pełnego zestawu danych po stronie serwera.

Podobne Publikacje

Badania i Nauka

Nowa metoda oceny agentów AI pozwala mierzyć błędy eksploracji i eksploatacji

Badacze opracowali sposób kwantyfikacji strategii podejmowania decyzji przez modele językowe bez dostępu do ich wewnętrznej architektury.

4 min16 kwietnia 2026