17 maja 20264 min czytania

Nowy benchmark matematyczny pokazuje, że modele AI pewnie rozwiązują nierozwiązywalne zadania

SOOHAK odsłania słabości AI: najlepszy model osiągnął 30% w trudnych zadaniach i nie potrafi odmówić odpowiedzi na problemy bez rozwiązania.

Źródło zdjęcia: The Decoder

Konsorcjum 64 matematyków opracowało nowy benchmark SOOHAK, który odsłania dwie kluczowe słabości modeli AI: trudności z matematyką na poziomie badawczym oraz niezdolność do rozpoznawania zadań niemożliwych do rozwiązania. Badanie przeprowadzone przez Carnegie Mellon University, EleutherAI i Seoul National University pokazuje, że nawet najlepsze modele AI pewnie próbują rozwiązywać problemy matematyczne, które w rzeczywistości nie mają rozwiązania.

Kluczowe wnioski

Najlepszy model (Gemini 3 Pro) osiągnął tylko 30% poprawnych odpowiedzi w najtrudniejszych zadaniach, podczas gdy GPT-5 uzyskał 26%, a Claude Opus 4.5 jedynie 10%.
Żaden z testowanych modeli nie poradził sobie z 124 zadaniami z zestawu wyzwań, a nawet najlepsze systemy nie przekroczyły 50% skuteczności w rozpoznawaniu nierozwiązywalnych problemów.
Zwiększanie mocy obliczeniowej i wydłużanie czasu rozumowania poprawia zdolność rozwiązywania problemów, ale nie pomaga modelom w odmowie odpowiedzi na błędne zadania.
W porównaniu z ludźmi, tylko Gemini-3-Pro przewyższył łączne wyniki 25 uczestników z różnych grup matematycznych, osiągając 61% na wybranym zestawie 79 zadań.
Studenci z doświadczeniem olimpijskim radzili sobie lepiej niż doktoranci w matematyce, co wskazuje na przewagę szybkiego rozwiązywania problemów nad głęboką wiedzą badawczą.

Benchmark SOOHAK — nowy standard trudności

SOOHAK składa się z 439 oryginalnych zadań podzielonych na dwie sekcje. Zestaw „Challenge” zawiera 340 problemów na poziomie magisterskim i badawczym, podczas gdy zestaw „Refusal” obejmuje 99 celowo wadliwych zadań zawierających sprzeczności lub uniemożliwiających jednoznaczną odpowiedź.

W przeciwieństwie do istniejących benchmarków, wszystkie zadania zostały napisane od zera przez zespół 38 profesorów, 25 doktorantów i postdoków oraz pięciu medalistów Międzynarodowej Olimpiady Matematycznej (IMO). Każdy współtwórca musiał potwierdzić, że pracował bez pomocy AI, a osoby próbujące przemycić zadania wygenerowane przez LLM były wykluczane z projektu.

Gdy nie ma rozwiązania, modele i tak odpowiadają

Prawdziwym przełomem w porównaniu z wcześniejszymi benchmarkami jest zestaw „Refusal”. Zawiera on problemy oznaczone jako nierozwiązywalne podczas kontroli jakości z powodu brakujących założeń lub zawieranych sprzeczności. Model otrzymuje punkty tylko wtedy, gdy wykryje i nazwie błąd, zamiast pewnie podawać liczbę.

Żaden model nie osiągnął 50% skuteczności w tej kategorii. Najlepiej radził sobie open-source'owy GLM-5 z wynikiem tuż poniżej 50%, pokonując zarówno GPT-5, jak i Gemini 3 Pro. Rodzina modeli Qwen3 załamała się do mniej niż 3%, prawie zawsze nie potrafiąc poprawnie oznaczyć wadliwego problemu.

Autorzy opisują wykrywanie błędnych problemów jako „nowy cel optymalizacyjny, którego obecne modele nie uwzględniają bezpośrednio”. Podczas gdy wskaźniki rozwiązywania rosną niemal liniowo wraz z większymi modelami i dłuższymi budżetami rozumowania, zdolność odmowy nie podąża tym samym wzorcem.

Porównanie z ludzkimi matematykami

Dla porównania z ludźmi zespół zrekrutował 25 uczestników z pięciu grup — od medalistów IMO po doktorów matematyki. Na wybranym zestawie 79 zadań grupy razem rozwiązały 51% problemów. Tylko Gemini-3-Pro przekroczył ten łączny wynik ludzki, osiągając 61%.

Doktoranci w matematyce radzili sobie gorzej niż studenci z doświadczeniem olimpijskim. Autorzy tłumaczą to formatem: 4,5-godzinne okno czasowe nagradza krótkie ścieżki rozwiązań trenowane w konkursach matematycznych, podczas gdy szeroki zakres tematyczny benchmarku nie pomaga wąskim specjalistom badawczym.

Pełny zestaw danych nie będzie publiczny do końca 2026 roku jako środek ostrożności przeciwko kontaminacji danych treningowych. Do tego czasu zespół będzie oceniać modele na żądanie. Autorzy otwarcie przyznają ograniczenia SOOHAK: wymaganie czystych odpowiedzi numerycznych wyklucza duże obszary wyższej matematyki, które lepiej testować przez dowody, konstrukcje lub kontrprzykłady.

#matematyka #modele AI #benchmark matematyczny #SOOHAK #badania

Udostępnij

Źródła

The Decoder

Poprzedni

Nowy benchmark pokazuje, że Claude Mythos i GPT-5.5 potrafią autonomicznie tworzyć exploity przeglądarek

Następny

World Action Models pozwalają robotom symulować konsekwencje przed wykonaniem ruchu

Podobne Publikacje

Etyka i Bezpieczeństwo

Eksperci ostrzegają przed katastrofą AI. Mówią o „momencie Czarnobyla”

Naukowcy z USA i Chin alarmują, że niekontrolowany rozwój AI może doprowadzić do katastrofy podobnej do Czarnobyla — z trwałą utratą zaufania do technologii.

4 min3 lipca

Biznes i Rynek

Anthropic chce opracowywać własne leki przy pomocy sztucznej inteligencji

Twórcy Claude zapowiadają wejście w branżę farmaceutyczną i koncentrację na zaniedbanych chorobach. Eksperci ostrzegają przed długą drogą do sukcesu.

4 min4 lipca

Badania i Nauka

Badanie 26 000 uczniów: ukryte koszty AI w nauce ujawniają się dopiero po dwóch latach

Uczniowie używający AI mieli lepsze oceny z prac domowych, ale ich wyniki na egzaminach spadły nawet o 24%. Pełna skala problemów ujawniła się dopiero po latach.

4 min4 lipca

Kluczowe wnioski

Najlepszy model (Gemini 3 Pro) osiągnął tylko 30% poprawnych odpowiedzi w najtrudniejszych zadaniach, podczas gdy GPT-5 uzyskał 26%, a Claude Opus 4.5 jedynie 10%.

Żaden z testowanych modeli nie poradził sobie z 124 zadaniami z zestawu wyzwań, a nawet najlepsze systemy nie przekroczyły 50% skuteczności w rozpoznawaniu nierozwiązywalnych problemów.

Zwiększanie mocy obliczeniowej i wydłużanie czasu rozumowania poprawia zdolność rozwiązywania problemów, ale nie pomaga modelom w odmowie odpowiedzi na błędne zadania.

W porównaniu z ludźmi, tylko Gemini-3-Pro przewyższył łączne wyniki 25 uczestników z różnych grup matematycznych, osiągając 61% na wybranym zestawie 79 zadań.

Studenci z doświadczeniem olimpijskim radzili sobie lepiej niż doktoranci w matematyce, co wskazuje na przewagę szybkiego rozwiązywania problemów nad głęboką wiedzą badawczą.

Benchmark SOOHAK — nowy standard trudności

Gdy nie ma rozwiązania, modele i tak odpowiadają

Porównanie z ludzkimi matematykami