Nowe podejście Nvidia do generowania syntetycznych danych Q&A poprawia wydajność modeli Nemotron o kilka punktów w kluczowych benchmarkach.
Źródło zdjęcia: huggingface.co
Nvidia opublikowała szczegóły metodologii generowania syntetycznych danych Q&A dla modeli rodziny Nemotron. Nowe podejście wykorzystuje publiczne zestawy danych jako „nasiona” do tworzenia strukturalnych przykładów uczenia, co znacząco poprawia wydajność modeli w różnych zadaniach. Opisane rozwiązanie zostało zastosowane w treningu modeli Nemotron Ultra i Super.
W eksperymencie kontynuacji treningu na 100 miliardach tokenów dla modelu Nemotron-3 Nano, metodologia task-seeded SDG (Synthetic Data Generation) przyniosła wymerne korzyści. Model poprawił wyniki w benchmarku MMLU-Pro o 1,8 punktu, w zadaniach kodowania średnio o 1,9 punktu, w rozumowaniu zdroworozsądkowym o 1,6 punktu, a w GPQA aż o 11,1 punktu, przy zachowaniu stabilności w zadaniach matematycznych.
Pipeline task-seeded SDG składa się z pięciu głównych etapów. Pierwszy krok obejmuje zbieranie zadań-nasion z dostępnych zestawów danych lm-eval-harness, grupowanie ich według typu wyjścia i zachowanie tylko tych z odpowiednimi zestawami treningowymi. Następnie następuje normalizacja rekordów, która konwertuje różnorodne formaty YAML do zunifikowanego schematu JSONL.
Trzeci etap to generowanie podobnych przykładów, gdzie dla każdego zadania-nasiona generator tworzy nowe pytanie zachowujące podstawową funkcjonalność przy zmianie treści. Czwarty krok polega na wzbogacaniu odpowiedzi przez rozwiązywanie wygenerowanych pytań i dodawanie ostatecznej odpowiedzi wraz z odpowiednim rozumowaniem, wiedzą lub kontekstem.
Ostatni etap obejmuje filtrowanie i pakowanie danych poprzez aplikację kontroli schematów, kontroli formatów, deduplikację i walidację odpowiedzi specyficzną dla zadań tam, gdzie to możliwe. Zadania wielokrotnego wyboru są łatwiejsze do bezpośredniej weryfikacji, podczas gdy dane generacyjne wymagają bardziej ostrożnego podejścia specyficznego dla zadania.
Nvidia podzieliła zadania-nasiona na dwie główne grupy. Zadania wymagające wiedzy obejmują 39 zadań z około 300 podzadaniami i 3 milionami próbek nasion, mając na celu poprawę zachowań w zakresie faktycznego, naukowego, wielojęzycznego i specjalistycznego QA. Zadania wymagające rozumowania składają się z 34 zadań z około 400 podzadaniami i 1,5 miliona próbek nasion, koncentrujących się na poprawie rozumowania analitycznego, logicznego, matematycznego, kodowania i zdroworozsądkowego.
Praktycznym wyborem formatowania jest przechowywanie semantycznego tekstu odpowiedzi zamiast tylko etykiet opcji, gdy to możliwe. Na przykład, zapisanie odpowiedzi jako „brud uwięziony pod paznokciami” daje modelowi wyraźniejszy sygnał treningowy niż zapisanie tylko „B”.
Zespół Nvidia zastosował licencyjnie kompatybilny podzbiór wygenerowanych danych odpowiedni dla komercyjnego treningu modeli w przypadku Nemotron Ultra i Super. Metodologia ta oferuje praktyczne rozwiązanie dla zwiększenia wydajności modeli językowych poprzez strukturalne syntetyczne dane, które uzupełniają tradycyjne korpusy treningowe o kompaktne, zorientowane na zadania przykłady z wyraźnymi potrzebami informacyjnymi.
Innowacyjna gra ekonomiczna, gdzie każdy agent działa na innym małym modelu językowym z czterech laboratoriów — od OpenAI po NVIDIA.

Nowy Surface RTX Spark Dev Box z 128 GB RAM może uruchamiać lokalne modele AI z 120 miliardami parametrów. Zastępuje anulowany projekt Qualcomm.

Chiński DeepSeek wyprzedził konkurencję w czerwcu 2026, gdy amerykańskie firmy szukają tańszych alternatyw dla AI. Dane z 50 000 firm pokazują nowy trend.