NVIDIA udostępniło Cosmos 3 — pierwszy otwarty model łączący generację wideo, rozumowanie fizyczne i akcje w jednej architekturze MoT.

Źródło zdjęcia: huggingface.co
NVIDIA zaprezentowało Cosmos 3 — pierwszy otwarty omni-model łączący generację świata, rozumowanie fizyczne i generację akcji w jednej architekturze. Model dostępny jest już na Hugging Face w dwóch wersjach: Nano (8B parametrów) i Super (32B parametrów).
Cosmos 3 to przełom w dziedzinie modeli podstawowych dla fizycznej AI. W przeciwieństwie do poprzednich wersji Cosmos, które wymagały osobnych modeli dla różnych zadań, Cosmos 3 integruje wszystkie funkcjonalności w jednej architekturze Mixture-of-Transformers (MoT).
Największą nowością Cosmos 3 jest unifikacja wszystkich funkcjonalności w jednym modelu. Wcześniej deweloperzy musieli używać oddzielnych modeli: Cosmos Predict dla generacji świata, Cosmos Transfer dla kontrolowanej generacji, Cosmos Reason dla rozumienia scen i Cosmos Policy dla generacji polityk. Cosmos 3 wykonuje wszystkie te zadania w jednym przejściu forward.
Architektura MoT dzieli sekwencję wejściową na dwie podsekwencje: autoregresywną (AR) odpowiedzialną za rozumowanie poprzez przewidywanie następnego tokenu oraz dyfuzyjną (DM) obsługującą generację poprzez iteracyjne usuwanie szumu. Obie podsekwencje używają oddzielnych zestawów parametrów, ale współdziałają przez wspólną uwagę (joint attention).
Model przetwarza wszystkie modalności — tekst, obraz, wideo, audio i akcje — w jednej przestrzeni reprezentacji. Każda modalność jest najpierw kodowana przez dedykowany enkoder (ViT dla rozumienia wizualnego, VAE dla generacji wizualnej/audio, wektory domenowe dla akcji), a następnie projektowana do wspólnej przestrzeni.
Cosmos 3 obsługuje szerokie spektrum zadań poprzez różne kombinacje modalności wejściowych i wyjściowych. Model może funkcjonować jako generator wideo z tekstu, obrazu lub wideo, model językowy wizyjny (VLM), model dynamiki wprzód i wstecz oraz model polityk robotycznych.
W praktycznych zastosowaniach Cosmos 3 generuje realistyczne i fizycznie prawdopodobne światy wideo dla robotyki, długoogonowych scenariuszy jazdy autonomicznej czy danych bezpieczeństwa magazynowego. Model potrafi również przeprowadzać rozumowanie typu chain-of-thought w aplikacjach jazdy autonomicznej.
Dla generacji wideo NVIDIA recommanduje używanie szczegółowych promptów w formie akapitów narracyjnych, podczas gdy generacja akcji wymaga zwięzłych promptów z odnośnikami przestrzennymi. Wraz z modelem udostępniono również szablony i najlepsze praktyki promptowania.
Cosmos 3 reprezentuje znaczący krok naprzód w rozwoju fizycznej AI, oferując jednolitą podstawę dla systemów zdolnych do rozumienia rzeczywistego świata — nie tylko pikseli i tokenów, ale ruchu, przyczynowości, fizyki i działania.

Nvidia przedstawiła laptopy RTX Spark z 128 GB pamięci i procesorami N1. Czy to pierwsze prawdziwe komputery AI konkurujące z MacBook Pro?

Meta uruchamia nowego asystenta AI dla twórców, który oferuje spersonalizowane rekomendacje i pomoc w analizie wydajności treści na Facebooku.

Narzędzie Her automatycznie interpretuje pliki logów Claude Code, identyfikuje ryzykowne operacje i analizuje zużycie tokenów bez wysyłania danych na zewnątrz.