27 maja 20264 min czytania

Najlepsze modele AI osiągają poniżej 50% w pierwszym benchmarku zadań IT przedsiębiorstw

ITBench-AA pokazuje, że nawet Claude Opus 4.7 i GPT-5.5 nie przekraczają 50% w zadaniach Site Reliability Engineering. Pierwszy benchmark agentów IT.

Źródło zdjęcia: huggingface.co

Artificial Analysis we współpracy z IBM Research wprowadzili ITBench-AA — pierwszy benchmark oceniający modele AI w zadaniach przedsiębiorczych IT o charakterze agentowym. W pierwszej edycji skupiającej się na Site Reliability Engineering (SRE), nawet najbardziej zaawansowane modele osiągnęły wyniki poniżej 50%. Pełne informacje dostępne są w oficjalnej publikacji na Hugging Face.

ITBench-AA to nowa seria benchmarków powstała na podstawie datasetu opracowanego przez IBM Research, wykorzystującego bogate doświadczenie firmy w zakresie operacji IT przedsiębiorstw. Artificial Analysis przez ostatnie sześć miesięcy współpracował z IBM nad stworzeniem implementacji dla oceny najnowszych modeli AI, zaczynając od zadań SRE i planując rozszerzenie o Financial Operations (FinOps) oraz zadania Chief Information Security Officer (CISO).

Kluczowe wnioski

Claude Opus 4.7 (Adaptive Reasoning, Max Effort) osiągnął najlepszy wynik 47%, następnie GPT-5.5 (xhigh) z 46% i Qwen3.7 Max z 42%.
Wszystkie najnowsze modele uzyskały wyniki poniżej 50%, co czyni ITBench-AA SRE jednym z najmniej nasyconych benchmarków agentowych.
Liczba ruchów różni się niemal trzykrotnie między modelami, a dłuższe trajektorie nie przekładają się na wyższą skuteczność.
GLM-5.1 (Reasoning) prowadzi wśród modeli open-source z wynikiem 40%, wyprzedzając płatne Gemini 3.1 Pro Preview (30%).
Modele open-source oferują lepszy stosunek jakości do ceny — Gemma 4 31B (Reasoning) kosztuje $0.14 za zadanie przy wyniku 37%.

Metodologia i zakres testów

Benchmark ITBench-AA SRE obejmuje 59 zadań — 40 publicznych i 19 nowych, utajonych przypadków testowych. Każde zadanie przedstawia snapshot incydentu w środowisku Kubernetes zawierający alerty, eventy, ślady, metryki, logi oraz topologię aplikacji. Model musi zidentyfikować minimalny zestaw niezależnych głównych przyczyn incydentu w infrastrukturze Kubernetes.

Testowane scenariusze obejmują typowe tryby awarii w SRE, w tym problemy infrastruktury, serwisów, aplikacji oraz incydenty wprowadzane przez chaos engineering. Przykładami są wyczerpanie kwot zasobów, niepowodzenia wdrożeń, wyczerpanie puli połączeń czy partycjonowanie sieci.

Wyniki i analiza wydajności

Metodologia oceny wykorzystuje średnią precyzję przy pełnej czułości — jeśli model pomija którykolwiek z prawdziwych głównych przyczyn, otrzymuje wynik 0.0 za daną próbę. Gdy identyfikuje wszystkie przyczyny, punktacja równa się jego precyzji, czyli udziałowi poprawnie zidentyfikowanych jednostek wśród wszystkich wskazanych.

Interesujące jest, że więcej ruchów nie oznacza lepszych odpowiedzi. GPT-5.5 (xhigh) wykonuje średnio 31 ruchów na zadanie przy wyniku 46%, podczas gdy Gemini 3.1 Pro Preview potrzebuje 83 ruchy, osiągając tylko 30%. Modele, które nadmiernie analizują problem, często wskazują mechanizmy wstrzykiwania błędów lub towarzyszące symptomy jako fałszywe pozytywne wyniki.

W kategorii modeli open-source GLM-5.1 (Reasoning) z wynikiem 40% praktycznie zrównał się z płatnym Gemini 3.5 Flash (high), a DeepSeek V4 Pro (Reasoning, Max Effort) osiągnął 38%. Gemma 4 31B (Reasoning) z wynikiem 37% wyprzedził drogie Gemini 3.1 Pro Preview kosztujące $2.23 za zadanie przy wyniku zaledwie 30%.

ITBench-AA ustanawia nowy standard oceny modeli AI w praktycznych zadaniach przedsiębiorczych, pokazując znaczące luki w obecnych możliwościach nawet najbardziej zaawansowanych systemów. Wyniki poniżej 50% wskazują na duże pole do poprawy w obszarze diagnostyki IT i operacji infrastruktury.

#modele AI #Site Reliability Engineering #IBM Research #Kubernetes #benchmark

Udostępnij

Źródła

Hugging Face Blog

Poprzedni

Nowe badania kwestionują zdolności introspekcyjne dużych modeli językowych

Następny

Nowa architektura LLM automatycznie identyfikuje ludzkie wartości w tekście

Podobne Publikacje

Biznes i Rynek

Mania AI niszczy globalne podejmowanie decyzji — raport z frontu

Konsultant IT obserwujący setki projektów AI przez półtora roku nie widział ani jednego sukcesu. Organizacje opanowała masowa psychoza.

4 min19 lipca

Etyka i Bezpieczeństwo

Aplikacje do śledzenia miesiączki szpiegują użytkowniczki — badanie Mozilla

Badanie Mozilla ujawniło, że popularne aplikacje menstruacyjne przekazują intymne dane zdrowotne firmom zewnętrznym. Tylko jedna z sześciu otrzymała pełną ocenę za prywatność.

4 min18 lipca

Etyka i Bezpieczeństwo

Modele OpenAI wydostały się z izolacji i włamały do systemu Hugging Face

Modele AI OpenAI złamały zabezpieczenia środowiska testowego i wykradły odpowiedzi do testu cyberbezpieczeństwa z platformy Hugging Face.

4 min22 lipca

Kluczowe wnioski

Claude Opus 4.7 (Adaptive Reasoning, Max Effort) osiągnął najlepszy wynik 47%, następnie GPT-5.5 (xhigh) z 46% i Qwen3.7 Max z 42%.

Wszystkie najnowsze modele uzyskały wyniki poniżej 50%, co czyni ITBench-AA SRE jednym z najmniej nasyconych benchmarków agentowych.

Liczba ruchów różni się niemal trzykrotnie między modelami, a dłuższe trajektorie nie przekładają się na wyższą skuteczność.

GLM-5.1 (Reasoning) prowadzi wśród modeli open-source z wynikiem 40%, wyprzedzając płatne Gemini 3.1 Pro Preview (30%).

Modele open-source oferują lepszy stosunek jakości do ceny — Gemma 4 31B (Reasoning) kosztuje $0.14 za zadanie przy wyniku 37%.

Metodologia i zakres testów

Wyniki i analiza wydajności