Nvidia udostępniła Nemotron 3 Nano Omni wraz z pełnymi danymi o treningu, ujawniając wykorzystanie konkurencyjnych modeli jak Qwen i GPT-OSS.

Źródło zdjęcia: The Decoder

Storm Duncan oferuje wymianę 13-hektarowej posiadłości za akcje Anthropic w ramach strategii dywersyfikacji portfolio inwestycyjnego.

W pierwszym dniu procesu Musk przeciwko Altmanowi wybrano przysięgłych, z których część wyraziła negatywne opinie o Musku, ale sąd uznał ich za bezstronnych.
Nvidia udostępniła Nemotron 3 Nano Omni, otwartego źródła multimodalny model AI obsługujący tekst, obrazy, wideo i audio. Najciekawszy aspekt to nie sama wydajność, ale szczegółowe informacje o danych treningowych, które firma ujawniła w pełnym raporcie technicznym.
Model składa się z 30 miliardów parametrów i wykorzystuje hybrydową architekturę Mamba-Transformer z Mixture-of-Experts, aktywując około trzech miliardów parametrów na zapytanie. Do treningu wykorzystano łącznie 717 miliardów tokenów w siedmiu etapach, stopniowo zwiększając okno kontekstu do 256 000 tokenów.
Nemotron 3 Nano Omni wykorzystuje własny koder wizualny C-RADIOv4-H firmy Nvidia oraz koder audio Parakeet-TDT. Model został zaprojektowany głównie z myślą o aplikacjach agentowych: przetwarzaniu dokumentów, agentach do obsługi komputerów, analizie wideo i audio oraz interakcji głosowej. Oficjalnie wspieranym językiem jest wyłącznie angielski.
W testach porównawczych na OCRBenchV2, MMLongBench-Doc, WorldSense i VoiceBench model przewyższył swojego poprzednika Nemotron Nano V2 VL i konkuruje z modelem Qwen3-Omni firmy Alibaba. Nvidia twierdzi, że przepustowość przy tym samym poziomie interaktywności jest do dziewięciu razy wyższa niż w przypadku Qwen3-Omni.
Szczególnie interesujące są szczegóły dotyczące danych treningowych, które Nvidia ujawniła dzięki prawdziwie otwartemu wydaniu. Duża część syntetycznych danych treningowych została wygenerowana przy użyciu konkurencyjnych modeli: podpisy obrazów, pary pytanie-odpowiedź i ścieżki rozumowania pochodziły z modeli Qwen3-VL-30B-A3B-Instruct, Qwen3.5–122B-A10B, Qwen2.5-VL-72B-Instruct, OpenAI gpt-oss-120b, Kimi-K2.5, GLM-4.1V-9B-Thinking oraz DeepSeek-OCR. Do filtrowania wykorzystano również GPT-4o i Gemini 3 Flash Preview.
Wykorzystywanie innych modeli do treningu nowych to powszechna praktyka w branży, choć większość deweloperów nie jest tak otwarta w tej kwestii. Firmy takie jak OpenAI, Anthropic i Google wielokrotnie oskarżały chińskie laboratoria AI o prowadzenie działań destylacyjnych na dużą skalę.
Dane audio obejmują własne zbiory danych Nvidia: Granary i SIFT-50M, wraz z podpisami z Omni-Captioner firmy Qwen. Na etapie uczenia ze wzmocnieniem zespół zbudował pięcioetapowy pipeline obejmujący 25 środowisk, pokrywający zadania takie jak lokalizacja wizualna, rozumienie wykresów i dokumentów, klikanie w GUI oraz automatyczne rozpoznawanie mowy.
Wraz z wagami w formatach BF16, FP8 i NVFP4, Nvidia udostępnia części danych treningowych, pipeline'y treningowe w Megatron-Bridge oraz przepisy RL w NeMo-RL. Tryb rozumowania jest włączony domyślnie, więc użytkownicy muszą go ręcznie wyłączać dla zadań, które nie wymagają łańcucha rozumowania.
To wydanie wyróżnia się na tle projektów, które udostępniają jedynie wagi modeli, poprzez pełną transparentność procesu treningowego i dostęp do narzędzi wykorzystanych w jego tworzeniu.