3 artykuły z tym tagiem
Koszty testów agentów AI osiągają dziesiątki tysięcy dolarów, tworząc barierę dla mniejszych organizacji badawczych.
Najnowszy model OpenAI dominuje w rankingach AI, ale ma krytyczny problem z fabricowaniem odpowiedzi zamiast przyznania się do braku wiedzy.
Badacze z UAE uruchomili QIMMA — jedyną platformę oceny modeli arabskich, która sprawdza jakość benchmarków przed testowaniem. Wykryto błędy w szanowanych testach.