16 maja 20264 min czytania

Nowy benchmark potwierdza: generatory wideo AI wyglądają świetnie, ale nie rozumieją świata

WorldReasonBench testuje fizykę i logikę w wideo AI. Modele komercyjne jak Seedance 2.0 i Sora 2 wygrywają z open-source, ale wszystkie mają problem z logiką.

Źródło zdjęcia: The Decoder

Poprzedni

Sztuczna inteligencja tworzy praktyczne jadłospisy z naturalnymi porcjami jedzenia

Następny

Naukowcy stworzyli dwuwymiarową ramę dla projektowania agentów AI z 27 wzorcami

Podobne Publikacje

Narzędzia i Aplikacje

Sea Limited wdraża Codex na szeroką skalę — 87% programistów używa AI codziennie

Singapurski gigant technologiczny Sea Limited osiągnął 87% adopcji Codex wśród developerów, zmieniając sposób tworzenia oprogramowania w Azji.

4 min15 maja

Biznes i Rynek

Musk kontra Altman: trzeci tydzień procesu o przyszłość OpenAI

Dramatyczny finał sądowej batalii o OpenAI. Musk żąda 134 mld dolarów odszkodowań, a ława przysięgłych rozpocznie obrady w poniedziałek.

4 min

Kluczowe wnioski

WorldReasonBench testuje 400 przypadków w czterech obszarach: wiedzę o świecie, sceny skoncentrowane na człowieku, rozumowanie logiczne i rozumowanie informacyjne.

Modele komercyjne osiągają średnio dwukrotnie lepsze wyniki niż open-source w podstawowej metryce rozumowania.

Seedance 2.0 od ByteDance zajęła pierwsze miejsce, wygrywając w prawie dziewięciu na dziesięć powtórzeń statystycznych.

Rozumowanie logiczne okazuje się najtrudniejszą kategorią dla wszystkich testowanych modeli, nawet najlepsze systemy komercyjne osiągają wyniki znacznie poniżej swoich ogólnych średnich.

Modele open-source znacznie poprawiają się przy bardziej szczegółowych promptach, co wskazuje na większą zależność od jakości instrukcji niż ich komercyjni konkurenci.

Struktura benchmarku i metodologia

WorldReasonBench dzieli ocenę generatorów wideo na cztery wymiary rozumowania z 22 podkategoriami, od mechaniki fizycznej po logikę diagramów. Test obejmuje około 400 przypadków w czterech obszarach: wiedzę o świecie (fizyka, pogoda, normy kulturowe), sceny skoncentrowane na człowieku (obsługa obiektów, interakcje społeczne), rozumowanie logiczne (matematyka, geometria, eksperymenty naukowe) oraz rozumowanie informacyjne (odczytywanie danych i diagramów).

Ocenianie przebiega w dwóch etapach. Najpierw metoda uwzględniająca proces używa strukturalnych pytań do sprawdzenia, czy wideo osiąga właściwy stan końcowy w wiarygodny sposób. Następnie drugi przebieg ocenia jakość rozumowania, spójność czasową i estetykę wizualną. Wraz z benchmarkiem zespół wydał również WorldRewardBench — zbiór danych zawierający około 6000 porównań wideo ocenionych przez przeszkolonych adnotatorów.

Wyniki testów i analiza słabości

Badacze przetestowali pięć systemów komercyjnych (Sora 2, Kling, Wan 2.6, Seedance 2.0, Veo 3.1-Fast) i sześć modeli open-source (LTX 2.3, Wan 2.2–14B, UniVideo, HunyuanVideo 1.5, Cosmos-Predict 2.5, LongCat-Video). Generatory komercyjne osiągnęły wyniki około dwukrotnie lepsze niż modele open-source w podstawowej metryce rozumowania, bez statystycznego nakładania się między grupami.

Seedance 2.0 od ByteDance wyszedł na prowadzenie, zajmując pierwsze miejsce w prawie dziewięciu na dziesięć statystycznych powtórzeń. Veo 3.1-Fast najlepiej radził sobie z wiedzą o świecie, Sora 2 przewodziła w scenach skoncentrowanych na człowieku. Seedance 2.0 również pokonał Veo 3.1-Fast, Kling i Wan 2.6 w ocenach ludzkich.

Ważniejsze od rankingów jest wspólna słabość: rozumowanie logiczne stanowi najtrudniejszą kategorię dla każdego testowanego modelu. Nawet najlepsze systemy komercyjne znacznie spadają poniżej swoich ogólnych średnich w tym obszarze, a większość modeli open-source niemal całkowicie zawodzi. Rozumowanie informacyjne to druga najtrudniejsza dziedzina, szczególnie gdy zadania wymagają przejść opartych na fizyce lub dokładnego zachowania tekstu i liczb.

Implikacje dla rozwoju AI

Badanie wprowadza również metrykę śledzącą, ile poprawnych odpowiedzi pochodzi z dynamicznych faz opartych na procesie, a nie ze statycznych migawek. Modele komercyjne osiągają tu znacznie wyższe wyniki, co wskazuje, gdzie modele open-source naprawdę zawodzą: nie w tym, jak rzeczy wyglądają, ale w rozumieniu przyczyny i skutku.

Wniosek wpisuje się w rosnący zbiór dowodów: pomimo rzeczywistego postępu w rozdzielczości, długości i kontrolowalności, skok od generatora pikseli do niezawodnego modelu świata nie nastąpił. Osiągnięcie tego celu prawdopodobnie będzie zależeć mniej od wizualnej elegancji, a bardziej od lepszego zrozumienia mechanizmów przyczynowych i umiejętności zachowania spójności informacji w czasie.