ITBench-AA pokazuje, że nawet Claude Opus 4.7 i GPT-5.5 nie przekraczają 50% w zadaniach Site Reliability Engineering. Pierwszy benchmark agentów IT.

Źródło zdjęcia: huggingface.co
Artificial Analysis we współpracy z IBM Research wprowadzili ITBench-AA — pierwszy benchmark oceniający modele AI w zadaniach przedsiębiorczych IT o charakterze agentowym. W pierwszej edycji skupiającej się na Site Reliability Engineering (SRE), nawet najbardziej zaawansowane modele osiągnęły wyniki poniżej 50%. Pełne informacje dostępne są w oficjalnej publikacji na Hugging Face.
ITBench-AA to nowa seria benchmarków powstała na podstawie datasetu opracowanego przez IBM Research, wykorzystującego bogate doświadczenie firmy w zakresie operacji IT przedsiębiorstw. Artificial Analysis przez ostatnie sześć miesięcy współpracował z IBM nad stworzeniem implementacji dla oceny najnowszych modeli AI, zaczynając od zadań SRE i planując rozszerzenie o Financial Operations (FinOps) oraz zadania Chief Information Security Officer (CISO).
Benchmark ITBench-AA SRE obejmuje 59 zadań — 40 publicznych i 19 nowych, utajonych przypadków testowych. Każde zadanie przedstawia snapshot incydentu w środowisku Kubernetes zawierający alerty, eventy, ślady, metryki, logi oraz topologię aplikacji. Model musi zidentyfikować minimalny zestaw niezależnych głównych przyczyn incydentu w infrastrukturze Kubernetes.
Testowane scenariusze obejmują typowe tryby awarii w SRE, w tym problemy infrastruktury, serwisów, aplikacji oraz incydenty wprowadzane przez chaos engineering. Przykładami są wyczerpanie kwot zasobów, niepowodzenia wdrożeń, wyczerpanie puli połączeń czy partycjonowanie sieci.
Metodologia oceny wykorzystuje średnią precyzję przy pełnej czułości — jeśli model pomija którykolwiek z prawdziwych głównych przyczyn, otrzymuje wynik 0.0 za daną próbę. Gdy identyfikuje wszystkie przyczyny, punktacja równa się jego precyzji, czyli udziałowi poprawnie zidentyfikowanych jednostek wśród wszystkich wskazanych.
Interesujące jest, że więcej ruchów nie oznacza lepszych odpowiedzi. GPT-5.5 (xhigh) wykonuje średnio 31 ruchów na zadanie przy wyniku 46%, podczas gdy Gemini 3.1 Pro Preview potrzebuje 83 ruchy, osiągając tylko 30%. Modele, które nadmiernie analizują problem, często wskazują mechanizmy wstrzykiwania błędów lub towarzyszące symptomy jako fałszywe pozytywne wyniki.
W kategorii modeli open-source GLM-5.1 (Reasoning) z wynikiem 40% praktycznie zrównał się z płatnym Gemini 3.5 Flash (high), a DeepSeek V4 Pro (Reasoning, Max Effort) osiągnął 38%. Gemma 4 31B (Reasoning) z wynikiem 37% wyprzedził drogie Gemini 3.1 Pro Preview kosztujące $2.23 za zadanie przy wyniku zaledwie 30%.
ITBench-AA ustanawia nowy standard oceny modeli AI w praktycznych zadaniach przedsiębiorczych, pokazując znaczące luki w obecnych możliwościach nawet najbardziej zaawansowanych systemów. Wyniki poniżej 50% wskazują na duże pole do poprawy w obszarze diagnostyki IT i operacji infrastruktury.

Badacze opracowali rewolucyjny układ FeMEMS, który zapisuje dane elektrycznie, ale odczytuje je przez mikroskopijne drgania, drastycznie zmniejszając zużycie energii AI.

Ponad 500 partnerów NVIDIA na Tajwanie produkuje komponenty dla infrastruktury AI Vera Rubin, wdrażając równocześnie zaawansowane technologie w swoich zakładach.

JetPack 7.2 i NemoClaw umożliwiają deployment AI agentowej na urządzeniach brzegowych w robotyce i automatyzacji przemysłowej.