GPT-5.5 i Opus 4.7 osiągają poniżej 1% w teście ARC-AGI-3. Analiza 160 sesji ujawniła trzy wzorce błędów: brak spójnego modelu świata, fałszywe analogie i sukces bez zrozumienia.

Źródło zdjęcia: The Decoder

Google prezentuje pięć sposobów wykorzystania AI w Search do wspomagania ogrodników — od wizualizacji projektów po diagnostykę chorób roślin w czasie rzeczywistym.
Nowy warsztat pozwala wytrenować funkcjonalny GPT na laptopie w mniej niż godzinę, budując każdy komponent od zera bez gotowych bibliotek.
Najnowsze modele AI, w tym GPT-5.5 od OpenAI i Opus 4.7 od Anthropic, nadal radzą sobie katastrofalnie słabo z testem rozumowania ARC-AGI-3, osiągając wyniki poniżej 1 procenta. Analiza 160 sesji gry przeprowadzona przez ARC Prize Foundation ujawniła trzy systematyczne wzorce błędów, które wyjaśniają, dlaczego nawet najbardziej zaawansowane systemy AI wciąż nie potrafią rozwiązywać zadań, z którymi ludzie radzą sobie bez problemu.
Benchmark ARC-AGI-3, wydany pod koniec marca 2026 roku, testuje systemy AI w interaktywnych środowiskach gier turowych. W przeciwieństwie do poprzednich testów opartych na statycznym rozpoznawaniu wzorców, agenci AI muszą samodzielnie eksplorować środowisko, formułować hipotezy i realizować plany działania bez żadnych instrukcji.
Najczęstszy wzorzec błędów dotyczy niezdolności do budowania spójnego modelu świata. Modele potrafią poprawnie zidentyfikować lokalne efekty działań, ale nie łączą ich w funkcjonalną teorię gry. Opus 4.7 w grze cd82 już w kroku 4 wiedział, że ACTION3 obraca kontener, a w kroku 6 rozpoznał, że ACTION5 nalewa farbę. Mimo to model nigdy nie połączył tych obserwacji w zrozumienie, że musi najpierw wyrównać wiadro, a następnie zanurzyć je, aby odtworzyć obraz docelowy.
Podobny wzorzec pojawił się w grze cn04, gdzie Opus znalazł poprawną sekwencję „obróć-następnie-umieść” w kroku 23, ale potem zoptymalizował działania dla błędnego celu i zaczął śledzić nieistniejący pasek postępu.
Drugi systematyczny błąd to mylenie nieznanych środowisk z znanymi grami z danych treningowych. Modele wielokrotnie interpretowały nieznane mechaniki jako Tetris, Frogger, Sokoban, Breakout, Pong czy Boulder Dash.
Powierzchowne podobieństwo wizualne przekształca się w pełną teorię rozgrywki, a model marnuje działania na błędne mechaniki. GPT-5.5 zinterpretował środowisko ls20 jako Breakout, gdy w rzeczywistości chodziło o kombinacje klawiszy.
„Z drugiej strony, może to bardziej przypomina 'Breakout', z cegłami u góry i paletką. Centralny obiekt może być piłką” — napisał model w śladach rozumowania. To całkowicie bezpodstawne założenie uniemożliwiło jakikolwiek postęp — błąd, którego człowiek znający Breakout prawie nigdy by nie popełnił.
Trzeci wzorzec błędów może być najbardziej znaczący. Nawet gdy model rozwiąże poziom, ten sukces nie przekłada się na głębsze zrozumienie, ponieważ model nigdy nie sprawdza, dlaczego jego strategia zadziałała.
W grze ka59 Opus rozwiązał poziom 1 w 37 działaniach, ale w oparciu o fałszywą teorię — założył, że kliknięcie teleportuje aktywną postać. W rzeczywistości gra wymaga dopasowywania kształtów i pchania. Poziom 1 został rozwiązany tylko dlatego, że jego prosta struktura przypadkowo prowadziła do celu mimo błędnej mechaniki.
Ponieważ model potraktował swój sukces jako potwierdzenie teorii teleportacji, błędne założenie utrwaliło się w „kliknij każdy cel, aby go wypełnić” do poziomu 2. Model nie otrząsnął się z tego błędu.
Analiza pokazuje także różnice między modelami: Opus 4.7 lepiej wychwytuje mechaniki na wczesnym etapie, ale agresywnie przywiązuje się do fałszywych reguł. GPT-5.5 ma szersze generowanie hipotez, więc częściej trafia na właściwy pomysł, ale nie potrafi przekształcić go w plan działania.
Wyniki sugerują, że mimo znacznych postępów w technologii AI, podstawowe zdolności rozumowania i adaptacji do nowych środowisk pozostają głównym wyzwaniem dla współczesnych modeli.