1 artykuł z tym tagiem
GPT-5.5 i Opus 4.7 osiągają poniżej 1% w teście ARC-AGI-3. Analiza 160 sesji ujawniła trzy wzorce błędów: brak spójnego modelu świata, fałszywe analogie i sukces bez zrozumienia.