SOOHAK odsłania słabości AI: najlepszy model osiągnął 30% w trudnych zadaniach i nie potrafi odmówić odpowiedzi na problemy bez rozwiązania.

Źródło zdjęcia: The Decoder
Konsorcjum 64 matematyków opracowało nowy benchmark SOOHAK, który odsłania dwie kluczowe słabości modeli AI: trudności z matematyką na poziomie badawczym oraz niezdolność do rozpoznawania zadań niemożliwych do rozwiązania. Badanie przeprowadzone przez Carnegie Mellon University, EleutherAI i Seoul National University pokazuje, że nawet najlepsze modele AI pewnie próbują rozwiązywać problemy matematyczne, które w rzeczywistości nie mają rozwiązania.
SOOHAK składa się z 439 oryginalnych zadań podzielonych na dwie sekcje. Zestaw „Challenge” zawiera 340 problemów na poziomie magisterskim i badawczym, podczas gdy zestaw „Refusal” obejmuje 99 celowo wadliwych zadań zawierających sprzeczności lub uniemożliwiających jednoznaczną odpowiedź.
W przeciwieństwie do istniejących benchmarków, wszystkie zadania zostały napisane od zera przez zespół 38 profesorów, 25 doktorantów i postdoków oraz pięciu medalistów Międzynarodowej Olimpiady Matematycznej (IMO). Każdy współtwórca musiał potwierdzić, że pracował bez pomocy AI, a osoby próbujące przemycić zadania wygenerowane przez LLM były wykluczane z projektu.
Prawdziwym przełomem w porównaniu z wcześniejszymi benchmarkami jest zestaw „Refusal”. Zawiera on problemy oznaczone jako nierozwiązywalne podczas kontroli jakości z powodu brakujących założeń lub zawieranych sprzeczności. Model otrzymuje punkty tylko wtedy, gdy wykryje i nazwie błąd, zamiast pewnie podawać liczbę.
Żaden model nie osiągnął 50% skuteczności w tej kategorii. Najlepiej radził sobie open-source'owy GLM-5 z wynikiem tuż poniżej 50%, pokonując zarówno GPT-5, jak i Gemini 3 Pro. Rodzina modeli Qwen3 załamała się do mniej niż 3%, prawie zawsze nie potrafiąc poprawnie oznaczyć wadliwego problemu.
Autorzy opisują wykrywanie błędnych problemów jako „nowy cel optymalizacyjny, którego obecne modele nie uwzględniają bezpośrednio”. Podczas gdy wskaźniki rozwiązywania rosną niemal liniowo wraz z większymi modelami i dłuższymi budżetami rozumowania, zdolność odmowy nie podąża tym samym wzorcem.
Dla porównania z ludźmi zespół zrekrutował 25 uczestników z pięciu grup — od medalistów IMO po doktorów matematyki. Na wybranym zestawie 79 zadań grupy razem rozwiązały 51% problemów. Tylko Gemini-3-Pro przekroczył ten łączny wynik ludzki, osiągając 61%.
Doktoranci w matematyce radzili sobie gorzej niż studenci z doświadczeniem olimpijskim. Autorzy tłumaczą to formatem: 4,5-godzinne okno czasowe nagradza krótkie ścieżki rozwiązań trenowane w konkursach matematycznych, podczas gdy szeroki zakres tematyczny benchmarku nie pomaga wąskim specjalistom badawczym.
Pełny zestaw danych nie będzie publiczny do końca 2026 roku jako środek ostrożności przeciwko kontaminacji danych treningowych. Do tego czasu zespół będzie oceniać modele na żądanie. Autorzy otwarcie przyznają ograniczenia SOOHAK: wymaganie czystych odpowiedzi numerycznych wyklucza duże obszary wyższej matematyki, które lepiej testować przez dowody, konstrukcje lub kontrprzykłady.

Andrej Karpathy, współzałożyciel OpenAI i były szef AI w Tesli, przechodzi do Anthropic, gdzie będzie kierować zespołem pre-treningu modeli Claude.

Dziennikarz stworzył cyfrowego klona w Gemini. Funkcja awatarów Google generuje realistyczne filmy AI, ale budzi obawy o bezpieczeństwo deepfake.

Google testuje technologię renderowania uczestników zdalnych w naturalnych rozmiarach, zwiększając poczucie włączenia o 50%.