WorldReasonBench testuje fizykę i logikę w wideo AI. Modele komercyjne jak Seedance 2.0 i Sora 2 wygrywają z open-source, ale wszystkie mają problem z logiką.

Źródło zdjęcia: The Decoder
Singapurski gigant technologiczny Sea Limited osiągnął 87% adopcji Codex wśród developerów, zmieniając sposób tworzenia oprogramowania w Azji.

Dramatyczny finał sądowej batalii o OpenAI. Musk żąda 134 mld dolarów odszkodowań, a ława przysięgłych rozpocznie obrady w poniedziałek.
Nowy benchmark WorldReasonBench od Uniwersytetu Tsinghua potwierdza, że współczesne generatory wideo jak Sora 2, Seedance 2.0 czy Veo 3.1 produkują wizualnie spektakularne klipy, ale wciąż mają fundamentalne problemy z rozumieniem świata. Badanie pokazuje wyraźną różnicę między jakością wizualną a rzeczywistym zrozumieniem fizyki i logiki.
Zamiast skupiać się na jakości obrazu, WorldReasonBench testuje, czy model potrafi wziąć początkową scenę i kontynuować ją w sposób sensowny pod względem fizycznym, społecznym, logicznym i informacyjnym. Przykład: generator otrzymuje obraz jabłka na gałęzi z poleceniem upuszczenia go. Rezultat może wyglądać świetnie — płynny ruch, realistyczne tekstury, piękne oświetlenie — ale wciąż błędnie oddawać fizykę, gdy jabłko leci w górę, pęka jak balon lub spada w linii prostej zamiast po łuku.
WorldReasonBench dzieli ocenę generatorów wideo na cztery wymiary rozumowania z 22 podkategoriami, od mechaniki fizycznej po logikę diagramów. Test obejmuje około 400 przypadków w czterech obszarach: wiedzę o świecie (fizyka, pogoda, normy kulturowe), sceny skoncentrowane na człowieku (obsługa obiektów, interakcje społeczne), rozumowanie logiczne (matematyka, geometria, eksperymenty naukowe) oraz rozumowanie informacyjne (odczytywanie danych i diagramów).
Ocenianie przebiega w dwóch etapach. Najpierw metoda uwzględniająca proces używa strukturalnych pytań do sprawdzenia, czy wideo osiąga właściwy stan końcowy w wiarygodny sposób. Następnie drugi przebieg ocenia jakość rozumowania, spójność czasową i estetykę wizualną. Wraz z benchmarkiem zespół wydał również WorldRewardBench — zbiór danych zawierający około 6000 porównań wideo ocenionych przez przeszkolonych adnotatorów.
Badacze przetestowali pięć systemów komercyjnych (Sora 2, Kling, Wan 2.6, Seedance 2.0, Veo 3.1-Fast) i sześć modeli open-source (LTX 2.3, Wan 2.2–14B, UniVideo, HunyuanVideo 1.5, Cosmos-Predict 2.5, LongCat-Video). Generatory komercyjne osiągnęły wyniki około dwukrotnie lepsze niż modele open-source w podstawowej metryce rozumowania, bez statystycznego nakładania się między grupami.
Seedance 2.0 od ByteDance wyszedł na prowadzenie, zajmując pierwsze miejsce w prawie dziewięciu na dziesięć statystycznych powtórzeń. Veo 3.1-Fast najlepiej radził sobie z wiedzą o świecie, Sora 2 przewodziła w scenach skoncentrowanych na człowieku. Seedance 2.0 również pokonał Veo 3.1-Fast, Kling i Wan 2.6 w ocenach ludzkich.
Ważniejsze od rankingów jest wspólna słabość: rozumowanie logiczne stanowi najtrudniejszą kategorię dla każdego testowanego modelu. Nawet najlepsze systemy komercyjne znacznie spadają poniżej swoich ogólnych średnich w tym obszarze, a większość modeli open-source niemal całkowicie zawodzi. Rozumowanie informacyjne to druga najtrudniejsza dziedzina, szczególnie gdy zadania wymagają przejść opartych na fizyce lub dokładnego zachowania tekstu i liczb.
Badanie wprowadza również metrykę śledzącą, ile poprawnych odpowiedzi pochodzi z dynamicznych faz opartych na procesie, a nie ze statycznych migawek. Modele komercyjne osiągają tu znacznie wyższe wyniki, co wskazuje, gdzie modele open-source naprawdę zawodzą: nie w tym, jak rzeczy wyglądają, ale w rozumieniu przyczyny i skutku.
Wniosek wpisuje się w rosnący zbiór dowodów: pomimo rzeczywistego postępu w rozdzielczości, długości i kontrolowalności, skok od generatora pikseli do niezawodnego modelu świata nie nastąpił. Osiągnięcie tego celu prawdopodobnie będzie zależeć mniej od wizualnej elegancji, a bardziej od lepszego zrozumienia mechanizmów przyczynowych i umiejętności zachowania spójności informacji w czasie.