29 kwietnia 20264 min czytania

Nvidia ujawnia tajniki treningu multimodalnych modeli AI wraz z wydaniem Nemotron 3 Nano Omni

Nvidia udostępniła Nemotron 3 Nano Omni wraz z pełnymi danymi o treningu, ujawniając wykorzystanie konkurencyjnych modeli jak Qwen i GPT-OSS.

Źródło zdjęcia: The Decoder

Poprzedni

OpenAI ma problem z goblinami w najnowszym modelu kodującym

Następny

Meta wypuszcza Llama 4: open source rewolucja dorównująca GPT-4o

Podobne Publikacje

Biznes i Rynek

Właściciel nieruchomości w Bay Area chce wymienić dom za akcje Anthropic

Storm Duncan oferuje wymianę 13-hektarowej posiadłości za akcje Anthropic w ramach strategii dywersyfikacji portfolio inwestycyjnego.

3 min26 kwietnia

Biznes i Rynek

Przysięgli w procesie Musk vs Altman mają negatywne opinie o Elonie Musku

W pierwszym dniu procesu Musk przeciwko Altmanowi wybrano przysięgłych, z których część wyraziła negatywne opinie o Musku, ale sąd uznał ich za bezstronnych.

4 min

Kluczowe wnioski

Nemotron 3 Nano Omni to 30-miliardowy multimodalny model obsługujący tekst, obrazy, wideo i audio, zaprojektowany głównie dla aplikacji agentowych.

Znacząca część syntetycznych danych treningowych pochodzi z konkurencyjnych modeli, w tym Qwen3-VL, GPT-OSS, Kimi i DeepSeek-OCR.

Na benchmarku OSWorld dla agentów GUI dokładność wzrosła z 11,1 do 47,4 punktów w porównaniu z poprzednią wersją.

Nvidia udostępnia nie tylko wagi modelu, ale także części danych treningowych i pipeline'y treningowe.

Model działa pod licencją NVIDIA Open Model Agreement, która zezwala na użytek komercyjny.

Architektura i zastosowania

Nemotron 3 Nano Omni wykorzystuje własny koder wizualny C-RADIOv4-H firmy Nvidia oraz koder audio Parakeet-TDT. Model został zaprojektowany głównie z myślą o aplikacjach agentowych: przetwarzaniu dokumentów, agentach do obsługi komputerów, analizie wideo i audio oraz interakcji głosowej. Oficjalnie wspieranym językiem jest wyłącznie angielski.

W testach porównawczych na OCRBenchV2, MMLongBench-Doc, WorldSense i VoiceBench model przewyższył swojego poprzednika Nemotron Nano V2 VL i konkuruje z modelem Qwen3-Omni firmy Alibaba. Nvidia twierdzi, że przepustowość przy tym samym poziomie interaktywności jest do dziewięciu razy wyższa niż w przypadku Qwen3-Omni.

Dane treningowe z konkurencyjnych modeli

Szczególnie interesujące są szczegóły dotyczące danych treningowych, które Nvidia ujawniła dzięki prawdziwie otwartemu wydaniu. Duża część syntetycznych danych treningowych została wygenerowana przy użyciu konkurencyjnych modeli: podpisy obrazów, pary pytanie-odpowiedź i ścieżki rozumowania pochodziły z modeli Qwen3-VL-30B-A3B-Instruct, Qwen3.5–122B-A10B, Qwen2.5-VL-72B-Instruct, OpenAI gpt-oss-120b, Kimi-K2.5, GLM-4.1V-9B-Thinking oraz DeepSeek-OCR. Do filtrowania wykorzystano również GPT-4o i Gemini 3 Flash Preview.

Wykorzystywanie innych modeli do treningu nowych to powszechna praktyka w branży, choć większość deweloperów nie jest tak otwarta w tej kwestii. Firmy takie jak OpenAI, Anthropic i Google wielokrotnie oskarżały chińskie laboratoria AI o prowadzenie działań destylacyjnych na dużą skalę.

Dane audio obejmują własne zbiory danych Nvidia: Granary i SIFT-50M, wraz z podpisami z Omni-Captioner firmy Qwen. Na etapie uczenia ze wzmocnieniem zespół zbudował pięcioetapowy pipeline obejmujący 25 środowisk, pokrywający zadania takie jak lokalizacja wizualna, rozumienie wykresów i dokumentów, klikanie w GUI oraz automatyczne rozpoznawanie mowy.

Wraz z wagami w formatach BF16, FP8 i NVFP4, Nvidia udostępnia części danych treningowych, pipeline'y treningowe w Megatron-Bridge oraz przepisy RL w NeMo-RL. Tryb rozumowania jest włączony domyślnie, więc użytkownicy muszą go ręcznie wyłączać dla zadań, które nie wymagają łańcucha rozumowania.

To wydanie wyróżnia się na tle projektów, które udostępniają jedynie wagi modeli, poprzez pełną transparentność procesu treningowego i dostęp do narzędzi wykorzystanych w jego tworzeniu.