NVIDIA prezentuje Nemotron 3 Nano Omni — pierwszy otwarty model multimodalny, który osiąga 9x wyższą przepustowość niż konkurencja w agentach AI.

Źródło zdjęcia: NVIDIA Blog
NVIDIA zaprezentowała dziś model Nemotron 3 Nano Omni — pierwszy otwarty model multimodalny, który łączy możliwości wizyjne, audio i językowe w jednym systemie. Nowe rozwiązanie ma znacząco przyspieszyć działanie agentów AI i obniżyć koszty ich działania w porównaniu z dotychczasowymi rozwiązaniami opartymi na oddzielnych modelach. Model został zaprezentowany na oficjalnym blogu NVIDIA wraz z informacjami o pierwszych wdrożeniach w firmach takich jak Palantir czy Dell Technologies.
Nemotron 3 Nano Omni wykorzystuje hybrydową architekturę mixture-of-experts o parametrze 30B-A3B, która eliminuje potrzebę używania oddzielnych modeli do percepcji. Dzięki temu agenci AI mogą osiągnąć do 9 razy wyższą przepustowość niż inne otwarte modele omni o podobnej interaktywności.
Dotychczasowe systemy agentów AI wymagały używania oddzielnych modeli do przetwarzania obrazu, dźwięku i tekstu. Takie podejście generowało opóźnienia przez wielokrotne procesy inferencji, fragmentowało kontekst między różnymi modalnościami i zwiększało koszty oraz błędy w czasie.
Gautier Cloix, CEO firmy H Company, która już wdraża nowy model, podkreśla praktyczne korzyści: „Aby zbudować użytecznych agentów, nie można czekać sekund na interpretację ekranu przez model. Dzięki Nemotron 3 Nano Omni nasi agenci mogą szybko interpretować nagrania ekranu w pełnej rozdzielczości HD — coś, co wcześniej nie było praktyczne”.
Model znajduje zastosowanie w trzech kluczowych obszarach. W przypadku agentów computer use, Nemotron 3 Nano Omni obsługuje pętlę percepcji dla agentów nawigujących po interfejsach graficznych z natywną rozdzielczością 1920×1080 pikseli. W analizie dokumentów interpretuje dokumenty, wykresy, tabele i zrzuty ekranu, umożliwiając spójne rozumowanie nad strukturą wizualną i treścią tekstową. Dla rozumienia audio i wideo model utrzymuje kontekst audio-wideo, łącząc to, co zostało powiedziane, pokazane i udokumentowane w jeden strumień rozumowania.
Nemotron 3 Nano Omni został wydany z otwartymi wagami, zbiorami danych i technikami treningu, co daje organizacjom pełną transparentność i kontrolę nad dostosowaniem i wdrożeniem modelu. Deweloperzy mogą używać narzędzi takich jak NVIDIA NeMo do personalizacji, ewaluacji i optymalizacji dla konkretnych przypadków użycia.
Rodzina modeli Nemotron 3 — obejmująca wersje Nano, Super i Ultra — odnotowała ponad 50 milionów pobrań w ciągu ostatniego roku. Model jest dostępny na platformach Hugging Face, OpenRouter i build.nvidia.com jako mikrousługa NVIDIA NIM, a także przez szerokie ekosystem partnerów chmurowych NVIDIA.
Nowy model NVIDIA Nemotron 3 Nano Omni reprezentuje znaczący krok naprzód w rozwoju efektywnych agentów AI, oferując przedsiębiorstwom i deweloperom możliwość budowy bardziej responsywnych i ekonomicznych systemów multimodalnych.

Nowy framework diagnostyczny pokazuje, że modele AI tracą 50–64% wydajności przy realistycznych zapytaniach, mimo dobrych wyników w standardowych testach.

Claude Fable 5, pierwsza publiczna wersja zaawansowanego Mythos, dostępna z surowymi limitami w obszarach wysokiego ryzyka i ceną 50 USD za milion tokenów.

Nowe badanie ujawnia słabość agentów AI w kodowaniu — pokrywają tylko 14–19% istotnych linijek kodu, choć dobrze radzą sobie z wyszukiwaniem plików.