4 artykuły z tym tagiem
WorldReasonBench testuje fizykę i logikę w wideo AI. Modele komercyjne jak Seedance 2.0 i Sora 2 wygrywają z open-source, ale wszystkie mają problem z logiką.
Naukowcy opracowali GraphDC — wieloagentowy system wykorzystujący strategię 'dziel i zwyciężaj' do skuteczniejszego rozwiązywania problemów grafowych.
GPT-5.5 i Opus 4.7 osiągają poniżej 1% w teście ARC-AGI-3. Analiza 160 sesji ujawniła trzy wzorce błędów: brak spójnego modelu świata, fałszywe analogie i sukces bez zrozumienia.
Badacze opracowali LACE — technikę umożliwiającą równoległym procesom rozumowania w AI wzajemne dzielenie się wiedzą i korekcję błędów.