Nowy framework diagnostyczny pokazuje, że modele AI tracą 50–64% wydajności przy realistycznych zapytaniach, mimo dobrych wyników w standardowych testach.

Źródło zdjęcia: arXiv.org
Naukowcy opracowali ToolSense — nowy framework diagnostyczny do badania wiedzy o narzędziach w dużych modelach językowych. Badanie ujawnia znaczące rozbieżności między zdolnościami wyszukiwania narzędzi a faktyczną wiedzą modeli na ich temat. Pełne wyniki badania zostały opublikowane w artykule naukowym przez zespół z Uniwersytetu Carnegie Mellon i innych instytucji.
Duże modele językowe działające jako agenci w obszernych katalogach narzędzi napotykają krytyczny problem wąskiego gardła podczas wyszukiwania odpowiednich narzędzi. Tradycyjne podejścia oparte na embeddings wykorzystują kompaktowe enkodery, które mogą nie wychwytywać specjalistycznej semantyki narzędzi. Parametryczne wyszukiwanie narzędzi adresuje ten problem przez kodowanie każdego narzędzia jako wirtualnego tokena dodanego do słownika modelu językowego.
Proces ten wymaga dwuetapowego treningu: najpierw memoryzacji, a następnie supervised fine-tuning do wyszukiwania. Takie podejście pozwala wykorzystać sam model językowy jako retriever, osiągając silną wydajność na standardowych benchmarkach ToolBench. Jednak dotychczasowe benchmarki używają szczegółowych, w pełni określonych zapytań, a ich ewaluacja stosuje ograniczone dekodowanie, które nie ujawnia, czy model rzeczywiście rozumie swoje narzędzia.
ToolSense wprowadza całkowicie nowe podejście do oceny wiedzy modeli o narzędziach. Framework przyjmuje dowolny katalog narzędzi jako input i automatycznie generuje trzy typy benchmarków diagnostycznych. Pierwszy to Realistic Retrieval Benchmark (RRB) z zapytaniami na trzech poziomach niejednoznaczności, drugi to benchmark MCQ (wielokrotny wybór), a trzeci to benchmark QA (pytania i odpowiedzi).
Aplikacja ToolSense do katalogu ToolBench zawierającego około 47 tysięcy narzędzi i ewaluacja pięciu konfiguracji treningowych modeli parametrycznych ujawniła znaczącą rozbieżność między wiedzą a wyszukiwaniem. Na zapytaniach RRB kilka konfiguracji zanotowało spadek wydajności o około 50–64 punkty procentowe w porównaniu z w pełni określonymi benchmarkami ToolBench, spadając poniżej poziomu bazowego modeli embedding.
Wyniki badania wskazują na fundamentalny problem w obecnych podejściach do treningu modeli AI do pracy z narzędziami. Pomimo silnej wydajności wyszukiwania, niektóre modele osiągają wyniki bliskie losowym w sondach faktograficznych, co sugeruje rozłączność między zdolnościami wyszukiwania a rzeczywistą wiedzą o narzędziach.
Zespół badawczy udostępnił framework ToolSense oraz benchmarki diagnostyczne ToolBench jako open source, umożliwiając dalsze badania nad tym krytycznym aspektem rozwoju AI. To odkrycie może mieć znaczące implikacje dla projektowania przyszłych systemów AI, które mają skutecznie współpracować z różnorodnymi narzędziami i aplikacjami.
Badanie podkreśla potrzebę bardziej wyrafinowanych metod oceny i treningu modeli AI, które będą w stanie nie tylko wyszukiwać odpowiednie narzędzia, ale także faktycznie je rozumieć i skutecznie wykorzystywać.

OpenAI dołącza do SpaceX i Anthropic w przygotowaniach do historycznego IPO o wartości biliona dolarów, mimo nierentowności i skomplikowanej struktury prawnej.

NVIDIA i LG Group ogłosiły budowę fabryki AI do rozwoju robotyki, autonomicznej jazdy i infrastruktury centrów danych z wykorzystaniem platform Isaac i DSX.

Tylko 26% firm ma pełną widoczność kosztów AI. KPMG współpracuje z firmami, które wyczerpały roczne budżety na tokeny w kilka miesięcy.