1 artykuł z tym tagiem
ITBench-AA pokazuje, że nawet Claude Opus 4.7 i GPT-5.5 nie przekraczają 50% w zadaniach Site Reliability Engineering. Pierwszy benchmark agentów IT.