Allen Institute for AI opublikował MolmoMotion — model prognozujący trajektorie ruchu 3D obiektów sterowany językiem naturalnym, wraz z największym zbiorem danych 1,16M filmów.

Źródło zdjęcia: huggingface.co
Zespół Allen Institute for AI opublikował MolmoMotion, nowy model prognozowania ruchu 3D sterowany językiem naturalnym. Model potrafi przewidywać przyszłe trajektorie obiektów na podstawie pojedynczej klatki wideo, punktów 3D zaznaczonych na obiekcie oraz instrukcji tekstowych opisujących zamierzoną akcję. Badacze udostępnili szczegóły swojej pracy na oficjalnej stronie Hugging Face.
MolmoMotion opiera się na modelu Molmo 2 jako podstawie architektonicznej, co umożliwia mu łączenie instrukcji językowych z obiektami i punktami na obrazie. Model reprezentuje ruch w formie punktów 3D przypisanych do obiektów w przestrzeni świata, co zapewnia kompaktowe i efektywne przetwarzanie bez konieczności renderowania pełnych klatek wideo.
Badacze zdecydowali się na tę reprezentację ze względu na trzy kluczowe właściwości: niezależność od kategorii obiektów, stabilność względem zmian punktu widzenia kamery oraz bezpośrednią użyteczność w systemach downstream wymagających rozumowania o ruchu fizycznym.
Zespół opracował dwie wersje modelu. MolmoMotion-AR przewiduje przyszłe współrzędne krok po kroku w trybie autoregresyjnym, reprezentując współrzędne 3D jako uporządkowany tekst i generując trajektorię w kolejności temporalnej. Druga wersja, MolmoMotion-FM, wykorzystuje metodę flow-matching do przewidywania trajektorii w ciągłej przestrzeni 3D poprzez transformację szumu w ruch, co sprawdza się lepiej w sytuacjach niepewności, gdy instrukcja dopuszcza wiele prawdopodobnych scenariuszy.
Aby wytrenować MolmoMotion, badacze musieli stworzyć dane, które wcześniej nie istniały — filmy wideo na dużą skalę z trajektoriami punktów 3D przypisanymi do konkretnych obiektów i sparowanymi z opisami akcji. Istniejące zbiory danych z trajektoriami 3D były małe i ograniczone domenowo, podczas gdy filmy internetowe, choć oferowały skalę i różnorodność potrzebną dla takiego prognostyka, nie zawierały adnotacji 3D.
Rozwiązaniem był automatyczny pipeline ekstraktujący trajektorie 3D przypisane do obiektów z nieskrępowanych filmów wideo. System produkuje trajektorie punktów 3D w metrycznych współrzędnych świata na podstawie filmu wejściowego i jego opisu akcji. Największym wyzwaniem okazała się hałaśliwość surowych trajektorii z nieskrępowanych filmów, wymagająca zaawansowanego przetwarzania głębi i innych parametrów.
Rezultatem tej pracy jest MolmoMotion-1M — największy dostępny zbiór trajektorii punktów 3D sparowanych z opisami akcji, oraz PointMotionBench — pierwszy benchmark zwalidowany przez ludzi do oceny dokładności prognozowania ruchu 3D skoncentrowanego na obiektach.
MolmoMotion otwiera nowe możliwości zastosowań w robotyce, gdzie systemy muszą antycypować ruch obiektów przed ich dotknięciem, oraz w generacji wideo, gdzie modele potrzebują przewidywać realistyczny ruch dla tworzenia fizycznie wiarygodnych klatek. Wszystkie komponenty projektu — wagi modelu, zbiór danych i benchmark — zostały udostępnione otwartej społeczności do dalszych badań i rozwoju.

OpenAI otrzymało nakaz od prokuratora Nowego Jorku w sprawie reklam, danych użytkowników i ochrony nieletnich. Firma deklaruje współpracę.

USA zmusiły Anthropic do zablokowania najnowszych modeli AI dla obywateli spoza USA. Europejscy eksperci są podzieleni co do odpowiedzi na takie działania.

Globalna firma konsultingowa została przyłapana na tworzeniu fałszywych studiów przypadków AI. Wszystkie wymienione organizacje zaprzeczyły.