17 czerwca 20264 min czytania

MolmoMotion: Model AI przewiduje ruch obiektów 3D na podstawie instrukcji tekstowych

Allen Institute for AI opublikował MolmoMotion — model prognozujący trajektorie ruchu 3D obiektów sterowany językiem naturalnym, wraz z największym zbiorem danych 1,16M filmów.

Źródło zdjęcia: huggingface.co

Zespół Allen Institute for AI opublikował MolmoMotion, nowy model prognozowania ruchu 3D sterowany językiem naturalnym. Model potrafi przewidywać przyszłe trajektorie obiektów na podstawie pojedynczej klatki wideo, punktów 3D zaznaczonych na obiekcie oraz instrukcji tekstowych opisujących zamierzoną akcję. Badacze udostępnili szczegóły swojej pracy na oficjalnej stronie Hugging Face.

Kluczowe wnioski

MolmoMotion przewiduje trajektorie ruchu 3D obiektów na podstawie instrukcji tekstowych typu „Przesuń i obróć drewnianą miskę z owocami na stole”, osiągając znacznie lepsze wyniki niż dotychczasowe metody prognozowania.
Model wykorzystuje punkty 3D przypisane do powierzchni obiektów jako reprezentację ruchu, co pozwala na uniwersalne zastosowanie niezależnie od typu obiektu (sztywne, przegubowe czy odkształcalne).
Wraz z modelem opublikowano MolmoMotion-1M — największy zbiór danych trajektorii punktów 3D sparowanych z opisami akcji, zawierający 1,16 miliona filmów wideo.
Zespół stworzył również PointMotionBench — benchmark zwalidowany przez ludzi do pomiaru dokładności prognozowania ruchu 3D, zawierający 2,7 tysiąca klipów wideo.
Model ma zastosowania w robotyce, planowaniu tras oraz kontrolowanej generacji wideo.

Technologia pod maską

MolmoMotion opiera się na modelu Molmo 2 jako podstawie architektonicznej, co umożliwia mu łączenie instrukcji językowych z obiektami i punktami na obrazie. Model reprezentuje ruch w formie punktów 3D przypisanych do obiektów w przestrzeni świata, co zapewnia kompaktowe i efektywne przetwarzanie bez konieczności renderowania pełnych klatek wideo.

Badacze zdecydowali się na tę reprezentację ze względu na trzy kluczowe właściwości: niezależność od kategorii obiektów, stabilność względem zmian punktu widzenia kamery oraz bezpośrednią użyteczność w systemach downstream wymagających rozumowania o ruchu fizycznym.

Zespół opracował dwie wersje modelu. MolmoMotion-AR przewiduje przyszłe współrzędne krok po kroku w trybie autoregresyjnym, reprezentując współrzędne 3D jako uporządkowany tekst i generując trajektorię w kolejności temporalnej. Druga wersja, MolmoMotion-FM, wykorzystuje metodę flow-matching do przewidywania trajektorii w ciągłej przestrzeni 3D poprzez transformację szumu w ruch, co sprawdza się lepiej w sytuacjach niepewności, gdy instrukcja dopuszcza wiele prawdopodobnych scenariuszy.

Przełomowy zbiór danych i benchmark

Aby wytrenować MolmoMotion, badacze musieli stworzyć dane, które wcześniej nie istniały — filmy wideo na dużą skalę z trajektoriami punktów 3D przypisanymi do konkretnych obiektów i sparowanymi z opisami akcji. Istniejące zbiory danych z trajektoriami 3D były małe i ograniczone domenowo, podczas gdy filmy internetowe, choć oferowały skalę i różnorodność potrzebną dla takiego prognostyka, nie zawierały adnotacji 3D.

Rozwiązaniem był automatyczny pipeline ekstraktujący trajektorie 3D przypisane do obiektów z nieskrępowanych filmów wideo. System produkuje trajektorie punktów 3D w metrycznych współrzędnych świata na podstawie filmu wejściowego i jego opisu akcji. Największym wyzwaniem okazała się hałaśliwość surowych trajektorii z nieskrępowanych filmów, wymagająca zaawansowanego przetwarzania głębi i innych parametrów.

Rezultatem tej pracy jest MolmoMotion-1M — największy dostępny zbiór trajektorii punktów 3D sparowanych z opisami akcji, oraz PointMotionBench — pierwszy benchmark zwalidowany przez ludzi do oceny dokładności prognozowania ruchu 3D skoncentrowanego na obiektach.

MolmoMotion otwiera nowe możliwości zastosowań w robotyce, gdzie systemy muszą antycypować ruch obiektów przed ich dotknięciem, oraz w generacji wideo, gdzie modele potrzebują przewidywać realistyczny ruch dla tworzenia fizycznie wiarygodnych klatek. Wszystkie komponenty projektu — wagi modelu, zbiór danych i benchmark — zostały udostępnione otwartej społeczności do dalszych badań i rozwoju.

#prognozowanie ruchu #robotyka #Allen Institute #MolmoMotion #trajektorie 3D

Udostępnij

Źródła

Hugging Face Blog

Poprzedni

Rząd USA zablokował najnowszy model Claude Mythos 5 od Anthropic

Następny

Meta wypuszcza Llama 4: open source rewolucja dorównująca GPT-4o

Podobne Publikacje

Etyka i Bezpieczeństwo

Prokuratorzy stanowi wszczynają dochodzenie przeciwko OpenAI

OpenAI otrzymało nakaz od prokuratora Nowego Jorku w sprawie reklam, danych użytkowników i ochrony nieletnich. Firma deklaruje współpracę.

3 min13 czerwca

Etyka i Bezpieczeństwo

Blokada Anthropic wywołuje debatę o suwerenności technologicznej w Europie

USA zmusiły Anthropic do zablokowania najnowszych modeli AI dla obywateli spoza USA. Europejscy eksperci są podzieleni co do odpowiedzi na takie działania.

4 min15 czerwca

Biznes i Rynek

KPMG sfabrykowała studia przypadków AI w raporcie dla klientów

Globalna firma konsultingowa została przyłapana na tworzeniu fałszywych studiów przypadków AI. Wszystkie wymienione organizacje zaprzeczyły.

3 min14 czerwca

Kluczowe wnioski

MolmoMotion przewiduje trajektorie ruchu 3D obiektów na podstawie instrukcji tekstowych typu „Przesuń i obróć drewnianą miskę z owocami na stole”, osiągając znacznie lepsze wyniki niż dotychczasowe metody prognozowania.

Model wykorzystuje punkty 3D przypisane do powierzchni obiektów jako reprezentację ruchu, co pozwala na uniwersalne zastosowanie niezależnie od typu obiektu (sztywne, przegubowe czy odkształcalne).

Wraz z modelem opublikowano MolmoMotion-1M — największy zbiór danych trajektorii punktów 3D sparowanych z opisami akcji, zawierający 1,16 miliona filmów wideo.

Zespół stworzył również PointMotionBench — benchmark zwalidowany przez ludzi do pomiaru dokładności prognozowania ruchu 3D, zawierający 2,7 tysiąca klipów wideo.

Model ma zastosowania w robotyce, planowaniu tras oraz kontrolowanej generacji wideo.

Technologia pod maską

Przełomowy zbiór danych i benchmark