1 czerwca 20264 min czytania

NVIDIA Cosmos 3: pierwszy otwarty omni-model dla fizycznej AI już dostępny

NVIDIA udostępniło Cosmos 3 — pierwszy otwarty model łączący generację wideo, rozumowanie fizyczne i akcje w jednej architekturze MoT.

Źródło zdjęcia: huggingface.co

NVIDIA zaprezentowało Cosmos 3 — pierwszy otwarty omni-model łączący generację świata, rozumowanie fizyczne i generację akcji w jednej architekturze. Model dostępny jest już na Hugging Face w dwóch wersjach: Nano (8B parametrów) i Super (32B parametrów).

Cosmos 3 to przełom w dziedzinie modeli podstawowych dla fizycznej AI. W przeciwieństwie do poprzednich wersji Cosmos, które wymagały osobnych modeli dla różnych zadań, Cosmos 3 integruje wszystkie funkcjonalności w jednej architekturze Mixture-of-Transformers (MoT).

Kluczowe wnioski

Cosmos 3 to pierwszy otwarty omni-model łączący generację wideo, rozumowanie fizyczne i generację akcji w jednej architekturze MoT.
Dostępne są dwie wersje: Cosmos 3 Nano (8B parametrów) dla stacji roboczych oraz Cosmos 3 Super (32B parametrów) dla dużych wdrożeń.
Model obsługuje wszystkie modalności — tekst, obraz, wideo, audio i akcje — w jednym ujednoliconym przepływie inference'u.
Integracja z Diffusers na Hugging Face oraz otwarte skrypty post-treningu umożliwiają dostosowanie do własnych danych.
Zastosowania obejmują robotykę, pojazdy autonomiczne, symulacje i generację syntetycznych danych treningowych.

Rewolucja w architekturze fizycznej AI

Największą nowością Cosmos 3 jest unifikacja wszystkich funkcjonalności w jednym modelu. Wcześniej deweloperzy musieli używać oddzielnych modeli: Cosmos Predict dla generacji świata, Cosmos Transfer dla kontrolowanej generacji, Cosmos Reason dla rozumienia scen i Cosmos Policy dla generacji polityk. Cosmos 3 wykonuje wszystkie te zadania w jednym przejściu forward.

Architektura MoT dzieli sekwencję wejściową na dwie podsekwencje: autoregresywną (AR) odpowiedzialną za rozumowanie poprzez przewidywanie następnego tokenu oraz dyfuzyjną (DM) obsługującą generację poprzez iteracyjne usuwanie szumu. Obie podsekwencje używają oddzielnych zestawów parametrów, ale współdziałają przez wspólną uwagę (joint attention).

Model przetwarza wszystkie modalności — tekst, obraz, wideo, audio i akcje — w jednej przestrzeni reprezentacji. Każda modalność jest najpierw kodowana przez dedykowany enkoder (ViT dla rozumienia wizualnego, VAE dla generacji wizualnej/audio, wektory domenowe dla akcji), a następnie projektowana do wspólnej przestrzeni.

Możliwości i zastosowania praktyczne

Cosmos 3 obsługuje szerokie spektrum zadań poprzez różne kombinacje modalności wejściowych i wyjściowych. Model może funkcjonować jako generator wideo z tekstu, obrazu lub wideo, model językowy wizyjny (VLM), model dynamiki wprzód i wstecz oraz model polityk robotycznych.

W praktycznych zastosowaniach Cosmos 3 generuje realistyczne i fizycznie prawdopodobne światy wideo dla robotyki, długoogonowych scenariuszy jazdy autonomicznej czy danych bezpieczeństwa magazynowego. Model potrafi również przeprowadzać rozumowanie typu chain-of-thought w aplikacjach jazdy autonomicznej.

Dla generacji wideo NVIDIA recommanduje używanie szczegółowych promptów w formie akapitów narracyjnych, podczas gdy generacja akcji wymaga zwięzłych promptów z odnośnikami przestrzennymi. Wraz z modelem udostępniono również szablony i najlepsze praktyki promptowania.

Cosmos 3 reprezentuje znaczący krok naprzód w rozwoju fizycznej AI, oferując jednolitą podstawę dla systemów zdolnych do rozumienia rzeczywistego świata — nie tylko pikseli i tokenów, ale ruchu, przyczynowości, fizyki i działania.

#NVIDIA #Cosmos 3 #fizyczna AI #omni-model #Hugging Face

Udostępnij

Źródła

Hugging Face Blog

Poprzedni

OpenAI udostępnia bezpłatnie model AI do nauk biologicznych w ramach programu bioobronności

Następny

ChatGPT tworzy teraz narracyjne profile użytkowników podzielone na kategorie pracy, hobby i podróży

Podobne Publikacje

Narzędzia i Aplikacje

OpenAI wypuszcza pierwszy sprzęt — kontroler Codex Micro za 230 dolarów

OpenAI wprowadziła Codex Micro — kontroler za 230 dolarów do zarządzania agentami AI. Urządzenie powstało z Work Louder i działa z platformą Codex.

3 min15 lipca

Etyka i Bezpieczeństwo

Patreon blokuje boty AI zamiast prosić o niescrapowanie treści

Patreon współpracuje z Cloudflare, by aktywnie blokować boty AI. Liczba prób dostępu spadła z tysięcy do zera po wprowadzeniu nowych zabezpieczeń.

3 min17 lipca

Biznes i Rynek

Chiny utworzyły globalną organizację AI z 29 krajami — bez udziału Zachodu

Xi Jinping ogłosił powstanie WIKO z siedzibą w Szanghaju. Rosja, Brazylia i RPA wśród członków założycielskich nowej struktury zarządzania AI.

3 min18 lipca

Kluczowe wnioski

Cosmos 3 to pierwszy otwarty omni-model łączący generację wideo, rozumowanie fizyczne i generację akcji w jednej architekturze MoT.

Dostępne są dwie wersje: Cosmos 3 Nano (8B parametrów) dla stacji roboczych oraz Cosmos 3 Super (32B parametrów) dla dużych wdrożeń.

Model obsługuje wszystkie modalności — tekst, obraz, wideo, audio i akcje — w jednym ujednoliconym przepływie inference'u.

Integracja z Diffusers na Hugging Face oraz otwarte skrypty post-treningu umożliwiają dostosowanie do własnych danych.

Zastosowania obejmują robotykę, pojazdy autonomiczne, symulacje i generację syntetycznych danych treningowych.

Rewolucja w architekturze fizycznej AI

Możliwości i zastosowania praktyczne