29 kwietnia 20264 min czytania

Ewaluacja AI stała się nowym wąskim gardłem obliczeniowym

Koszty testów agentów AI osiągają dziesiątki tysięcy dolarów, tworząc barierę dla mniejszych organizacji badawczych.

Źródło zdjęcia: huggingface.co

Poprzedni

Roboty Eka osiągają przełomową zręczność dzięki nowej metodzie symulacji

Następny

Badacze OpenAI wyjaśniają, dlaczego matematyka to droga do AGI

Podobne Publikacje

Narzędzia i Aplikacje

OpenAI szykuje telefon na 2027 rok. Ujawniono kluczowe szczegóły procesora

OpenAI planuje masową produkcję pierwszego telefonu agentowego w 2027 roku. Urządzenie będzie wyposażone w specjalny procesor MediaTek Dimensity 9600.

4 min5 maja

Narzędzia i Aplikacje

DeepClaude — Claude Code z DeepSeek V4 Pro za 17 razy niższą cenę

Narzędzie open source zastępuje backend Claude Code modelem DeepSeek V4 Pro, oferując te same funkcje za 0,87$ zamiast 15$ za milion tokenów.

4 min

Kluczowe wnioski

Eksplozja kosztów ewaluacji: Pojedynczy test agenta AI może kosztować tysiące dolarów, a pełna ewaluacja modelu na platformie HAL pochłania około 40 000 dolarów.

Ogromne różnice w wydajności cenowej: Identyczne zadania mogą różnić się kosztem nawet 33-krotnie w zależności od wyboru scaffoldu i konfiguracji agenta.

Ograniczenia kompresji dla agentów: Tradycyjne techniki redukcji kosztów, skuteczne dla statycznych benchmarków, nie sprawdzają się w przypadku dynamicznych testów agentów AI.

Brak korelacji koszt-wydajność: Wyższe wydatki nie gwarantują lepszych wyników — różnica w kosztach może być 9-krotna przy zaledwie 2 punktach procentowych różnicy w dokładności.

Problem kosztów rozpoczął się przed erą agentów

Już w 2022 roku Stanford CRFM przy wydaniu HELM odnotował znaczące koszty ewaluacji. Pojedyncze modele kosztowały od 85 dolarów dla OpenAI code-cushman-001 do 10 926 dolarów dla AI21 J1-Jumbo. Dla modeli open source wymagano od 540 do 4 200 godzin GPU, z BLOOM i OPT na szczycie. Łączne koszty HELM dla 30 modeli i 42 scenariuszy wyniosły około 100 000 dolarów.

Szczególnie problematyczne okazało się testowanie checkpointów podczas rozwoju modelu. Analiza EleutherAI Pythia pokazała, że deweloperzy płacą za ewaluację wielokrotnie — z 154 checkpointami dla każdego z 16 modeli, łącznie 2 464 punktów kontrolnych. Badacze Perlitz i współpracownicy zauważyli, że koszty ewaluacji „mogą nawet przewyższyć te związane z pre-treningiem przy ocenie checkpointów”.

Odpowiedzią na problem były techniki kompresji. Flash-HELM wykazał, że redukcja obliczeń o 100–200 razy zachowuje niemal identyczne rankingu modeli. tinyBenchmarks skompresował MMLU z 14 000 do 100 przykładów przy zaledwie 2% błędu. Open LLM Leaderboard zmniejszył liczbę przykładów z 29 000 do 180.

Agenci AI sprawiają nowe wyzwania

Testy agentów AI okazały się znacznie bardziej skomplikowane niż statyczne benchmarki. HAL przeprowadził 21 730 testów na dziewięciu benchmarkach obejmujących kodowanie, nawigację internetową, zadania naukowe i obsługę klienta. Koszty pojedynczego testu różnią się nawet o cztery rzędy wielkości między różnymi zadaniami HAL.

Głównym problemem jest struktura cenowa modeli. Claude Opus 4.1 pobiera 15 dolarów za milion tokenów wejściowych i 75 za wyjściowe, podczas gdy Gemini 2.0 Flash — 0,10 i 0,40 dolara, co daje dwukrotną różnicę. Testy agentów rzadko oceniają sam model w izolacji — testują produkt złożony z modelu, scaffoldu i budżetu tokenów.

Szczególnie frustrujące jest to, że wyższe koszty nie przekładają się na lepsze wyniki. Na benchmarku Online Mind2Web Browser-Use z Claude Sonnet 4 kosztował 1 577 dolarów przy 40% dokładności, podczas gdy SeeAct z GPT-5 Medium osiągnął 42% za 171 dolarów. W GAIA jeden agent z o3 Medium kosztował 2 828 dolarów przy 28,5% dokładności, a inny osiągnął 57,6% za 1 686 dolarów.

Rosnące koszty ewaluacji AI tworzą nową barierę wejścia na rynek badań nad sztuczną inteligencją, ograniczając możliwość przeprowadzania kompleksowych testów do organizacji z największymi budżetami technologicznymi.