1 artykuł z tym tagiem
Nowy benchmark IBM testuje agentów AI w środowisku z 8000+ API, pokazując znaczące luki w wieloetapowym rozumowaniu biznesowym.