Koszty testów agentów AI osiągają dziesiątki tysięcy dolarów, tworząc barierę dla mniejszych organizacji badawczych.

Źródło zdjęcia: huggingface.co

OpenAI planuje masową produkcję pierwszego telefonu agentowego w 2027 roku. Urządzenie będzie wyposażone w specjalny procesor MediaTek Dimensity 9600.
Narzędzie open source zastępuje backend Claude Code modelem DeepSeek V4 Pro, oferując te same funkcje za 0,87$ zamiast 15$ za milion tokenów.
Ewaluacja sztucznej inteligencji stała się nowym wąskim gardłem obliczeniowym, który fundamentalnie zmienia sposób testowania modeli AI. Według najnowszego raportu zespołu Hugging Face, koszty przeprowadzania kompleksowych testów AI przekroczyły próg, który ogranicza dostęp do tego procesu jedynie organizacjom z największymi budżetami.
Holistic Agent Leaderboard (HAL) wydał około 40 000 dolarów na przeprowadzenie 21 730 testów agentów AI obejmujących 9 modeli i 9 benchmarków. Pojedynczy test GAIA na modelu frontierowym może kosztować nawet 2 829 dolarów przed zastosowaniem technik cachingu.
Już w 2022 roku Stanford CRFM przy wydaniu HELM odnotował znaczące koszty ewaluacji. Pojedyncze modele kosztowały od 85 dolarów dla OpenAI code-cushman-001 do 10 926 dolarów dla AI21 J1-Jumbo. Dla modeli open source wymagano od 540 do 4 200 godzin GPU, z BLOOM i OPT na szczycie. Łączne koszty HELM dla 30 modeli i 42 scenariuszy wyniosły około 100 000 dolarów.
Szczególnie problematyczne okazało się testowanie checkpointów podczas rozwoju modelu. Analiza EleutherAI Pythia pokazała, że deweloperzy płacą za ewaluację wielokrotnie — z 154 checkpointami dla każdego z 16 modeli, łącznie 2 464 punktów kontrolnych. Badacze Perlitz i współpracownicy zauważyli, że koszty ewaluacji „mogą nawet przewyższyć te związane z pre-treningiem przy ocenie checkpointów”.
Odpowiedzią na problem były techniki kompresji. Flash-HELM wykazał, że redukcja obliczeń o 100–200 razy zachowuje niemal identyczne rankingu modeli. tinyBenchmarks skompresował MMLU z 14 000 do 100 przykładów przy zaledwie 2% błędu. Open LLM Leaderboard zmniejszył liczbę przykładów z 29 000 do 180.
Testy agentów AI okazały się znacznie bardziej skomplikowane niż statyczne benchmarki. HAL przeprowadził 21 730 testów na dziewięciu benchmarkach obejmujących kodowanie, nawigację internetową, zadania naukowe i obsługę klienta. Koszty pojedynczego testu różnią się nawet o cztery rzędy wielkości między różnymi zadaniami HAL.
Głównym problemem jest struktura cenowa modeli. Claude Opus 4.1 pobiera 15 dolarów za milion tokenów wejściowych i 75 za wyjściowe, podczas gdy Gemini 2.0 Flash — 0,10 i 0,40 dolara, co daje dwukrotną różnicę. Testy agentów rzadko oceniają sam model w izolacji — testują produkt złożony z modelu, scaffoldu i budżetu tokenów.
Szczególnie frustrujące jest to, że wyższe koszty nie przekładają się na lepsze wyniki. Na benchmarku Online Mind2Web Browser-Use z Claude Sonnet 4 kosztował 1 577 dolarów przy 40% dokładności, podczas gdy SeeAct z GPT-5 Medium osiągnął 42% za 171 dolarów. W GAIA jeden agent z o3 Medium kosztował 2 828 dolarów przy 28,5% dokładności, a inny osiągnął 57,6% za 1 686 dolarów.
Rosnące koszty ewaluacji AI tworzą nową barierę wejścia na rynek badań nad sztuczną inteligencją, ograniczając możliwość przeprowadzania kompleksowych testów do organizacji z największymi budżetami technologicznymi.