2 maja 20264 min czytania

Najnowsze modele AI popełniają trzy systematyczne błędy rozumowania, pokazuje analiza ARC-AGI-3

GPT-5.5 i Opus 4.7 osiągają poniżej 1% w teście ARC-AGI-3. Analiza 160 sesji ujawniła trzy wzorce błędów: brak spójnego modelu świata, fałszywe analogie i sukces bez zrozumienia.

Źródło zdjęcia: The Decoder

Poprzedni

Sztuczna inteligencja wspiera poszukiwanie ropy naftowej w basenach morskich

Następny

Framework TRUST wprowadza zdecentralizowany audyt systemów sztucznej inteligencji

Podobne Publikacje

Narzędzia i Aplikacje

Google wprowadza funkcje AI do planowania i pielęgnacji ogrodów

Google prezentuje pięć sposobów wykorzystania AI w Search do wspomagania ogrodników — od wizualizacji projektów po diagnostykę chorób roślin w czasie rzeczywistym.

3 min6 maja

Poradniki

Naucz się budować własny model językowy od podstaw w jednej sesji

Nowy warsztat pozwala wytrenować funkcjonalny GPT na laptopie w mniej niż godzinę, budując każdy komponent od zera bez gotowych bibliotek.

4 min

Kluczowe wnioski

GPT-5.5 osiągnął wynik 0,43% przy koszcie około 10 000 dolarów, podczas gdy Opus 4.7 zanotował jedynie 0,18%

Modele rozpoznają lokalne efekty działań, ale nie potrafią zbudować spójnego modelu świata gry

AI mylą nieznane środowiska z znanymi grami z danych treningowych (Tetris, Breakout, Pong)

Sukces w rozwiązaniu poziomu nie przekłada się na głębsze zrozumienie mechaniki gry

Szczegóły lokalnie, chaos globalnie

Najczęstszy wzorzec błędów dotyczy niezdolności do budowania spójnego modelu świata. Modele potrafią poprawnie zidentyfikować lokalne efekty działań, ale nie łączą ich w funkcjonalną teorię gry. Opus 4.7 w grze cd82 już w kroku 4 wiedział, że ACTION3 obraca kontener, a w kroku 6 rozpoznał, że ACTION5 nalewa farbę. Mimo to model nigdy nie połączył tych obserwacji w zrozumienie, że musi najpierw wyrównać wiadro, a następnie zanurzyć je, aby odtworzyć obraz docelowy.

Podobny wzorzec pojawił się w grze cn04, gdzie Opus znalazł poprawną sekwencję „obróć-następnie-umieść” w kroku 23, ale potem zoptymalizował działania dla błędnego celu i zaczął śledzić nieistniejący pasek postępu.

Fałszywe analogie z danych treningowych

Drugi systematyczny błąd to mylenie nieznanych środowisk z znanymi grami z danych treningowych. Modele wielokrotnie interpretowały nieznane mechaniki jako Tetris, Frogger, Sokoban, Breakout, Pong czy Boulder Dash.

Powierzchowne podobieństwo wizualne przekształca się w pełną teorię rozgrywki, a model marnuje działania na błędne mechaniki. GPT-5.5 zinterpretował środowisko ls20 jako Breakout, gdy w rzeczywistości chodziło o kombinacje klawiszy.

„Z drugiej strony, może to bardziej przypomina 'Breakout', z cegłami u góry i paletką. Centralny obiekt może być piłką” — napisał model w śladach rozumowania. To całkowicie bezpodstawne założenie uniemożliwiło jakikolwiek postęp — błąd, którego człowiek znający Breakout prawie nigdy by nie popełnił.

Sukces bez zrozumienia

Trzeci wzorzec błędów może być najbardziej znaczący. Nawet gdy model rozwiąże poziom, ten sukces nie przekłada się na głębsze zrozumienie, ponieważ model nigdy nie sprawdza, dlaczego jego strategia zadziałała.

W grze ka59 Opus rozwiązał poziom 1 w 37 działaniach, ale w oparciu o fałszywą teorię — założył, że kliknięcie teleportuje aktywną postać. W rzeczywistości gra wymaga dopasowywania kształtów i pchania. Poziom 1 został rozwiązany tylko dlatego, że jego prosta struktura przypadkowo prowadziła do celu mimo błędnej mechaniki.

Ponieważ model potraktował swój sukces jako potwierdzenie teorii teleportacji, błędne założenie utrwaliło się w „kliknij każdy cel, aby go wypełnić” do poziomu 2. Model nie otrząsnął się z tego błędu.

Analiza pokazuje także różnice między modelami: Opus 4.7 lepiej wychwytuje mechaniki na wczesnym etapie, ale agresywnie przywiązuje się do fałszywych reguł. GPT-5.5 ma szersze generowanie hipotez, więc częściej trafia na właściwy pomysł, ale nie potrafi przekształcić go w plan działania.

Wyniki sugerują, że mimo znacznych postępów w technologii AI, podstawowe zdolności rozumowania i adaptacji do nowych środowisk pozostają głównym wyzwaniem dla współczesnych modeli.