4 czerwca 20264 min czytania

Nvidia przedstawia metodologię task-seeded SDG dla modeli Nemotron

Nowe podejście Nvidia do generowania syntetycznych danych Q&A poprawia wydajność modeli Nemotron o kilka punktów w kluczowych benchmarkach.

Źródło zdjęcia: huggingface.co

Nvidia opublikowała szczegóły metodologii generowania syntetycznych danych Q&A dla modeli rodziny Nemotron. Nowe podejście wykorzystuje publiczne zestawy danych jako „nasiona” do tworzenia strukturalnych przykładów uczenia, co znacząco poprawia wydajność modeli w różnych zadaniach. Opisane rozwiązanie zostało zastosowane w treningu modeli Nemotron Ultra i Super.

W eksperymencie kontynuacji treningu na 100 miliardach tokenów dla modelu Nemotron-3 Nano, metodologia task-seeded SDG (Synthetic Data Generation) przyniosła wymerne korzyści. Model poprawił wyniki w benchmarku MMLU-Pro o 1,8 punktu, w zadaniach kodowania średnio o 1,9 punktu, w rozumowaniu zdroworozsądkowym o 1,6 punktu, a w GPQA aż o 11,1 punktu, przy zachowaniu stabilności w zadaniach matematycznych.

Kluczowe wnioski

Nvidia wykorzystała około 70 publicznych zestawów danych obejmujących 700 podzadań jako „nasiona” do generowania syntetycznych przykładów Q&A.
Metodologia poprawiła wyniki modelu Nemotron-3 Nano w kluczowych benchmarkach: MMLU-Pro (+1,8), kod (+1,9), rozumowanie (+1,6) i GPQA (+11,1).
Pipeline składa się z pięciu etapów: zbieranie zadań-nasion, normalizacja rekordów, generowanie podobnych przykładów, wzbogacanie odpowiedzi oraz filtrowanie danych.
Proces wykorzystuje wyłącznie zestawy treningowe z publicznych zadań, wykluczając dane testowe i walidacyjne z generowania.
Syntetyczne dane zostały podzielone na zadania wymagające wiedzy (39 zadań, 3M próbek) i zadania wymagające rozumowania (34 zadania, 1,5M próbek).

Architektura pipeline'u generowania danych

Pipeline task-seeded SDG składa się z pięciu głównych etapów. Pierwszy krok obejmuje zbieranie zadań-nasion z dostępnych zestawów danych lm-eval-harness, grupowanie ich według typu wyjścia i zachowanie tylko tych z odpowiednimi zestawami treningowymi. Następnie następuje normalizacja rekordów, która konwertuje różnorodne formaty YAML do zunifikowanego schematu JSONL.

Trzeci etap to generowanie podobnych przykładów, gdzie dla każdego zadania-nasiona generator tworzy nowe pytanie zachowujące podstawową funkcjonalność przy zmianie treści. Czwarty krok polega na wzbogacaniu odpowiedzi przez rozwiązywanie wygenerowanych pytań i dodawanie ostatecznej odpowiedzi wraz z odpowiednim rozumowaniem, wiedzą lub kontekstem.

Ostatni etap obejmuje filtrowanie i pakowanie danych poprzez aplikację kontroli schematów, kontroli formatów, deduplikację i walidację odpowiedzi specyficzną dla zadań tam, gdzie to możliwe. Zadania wielokrotnego wyboru są łatwiejsze do bezpośredniej weryfikacji, podczas gdy dane generacyjne wymagają bardziej ostrożnego podejścia specyficznego dla zadania.

Podział na kategorie zadań i wyniki

Nvidia podzieliła zadania-nasiona na dwie główne grupy. Zadania wymagające wiedzy obejmują 39 zadań z około 300 podzadaniami i 3 milionami próbek nasion, mając na celu poprawę zachowań w zakresie faktycznego, naukowego, wielojęzycznego i specjalistycznego QA. Zadania wymagające rozumowania składają się z 34 zadań z około 400 podzadaniami i 1,5 miliona próbek nasion, koncentrujących się na poprawie rozumowania analitycznego, logicznego, matematycznego, kodowania i zdroworozsądkowego.

Praktycznym wyborem formatowania jest przechowywanie semantycznego tekstu odpowiedzi zamiast tylko etykiet opcji, gdy to możliwe. Na przykład, zapisanie odpowiedzi jako „brud uwięziony pod paznokciami” daje modelowi wyraźniejszy sygnał treningowy niż zapisanie tylko „B”.

Zespół Nvidia zastosował licencyjnie kompatybilny podzbiór wygenerowanych danych odpowiedni dla komercyjnego treningu modeli w przypadku Nemotron Ultra i Super. Metodologia ta oferuje praktyczne rozwiązanie dla zwiększenia wydajności modeli językowych poprzez strukturalne syntetyczne dane, które uzupełniają tradycyjne korpusy treningowe o kompaktne, zorientowane na zadania przykłady z wyraźnymi potrzebami informacyjnymi.

#Q&A #generowanie danych #Nemotron #syntetyczne dane #NVIDIA

Udostępnij

Źródła

Hugging Face Blog

Poprzedni

Naukowcy opracowali system certyfikacji agentów AI dla przedsiębiorstw przed wdrożeniem

Następny

Ukryte boty AI manipulowały debatami politycznymi na Reddit — analiza kontrowersyjnego eksperymentu

Podobne Publikacje

Narzędzia i Aplikacje

NVIDIA i SEGA ogłaszają VIRTUA FIGHTER CROSSROADS na platformie RTX Spark

Firmy świętują 30 lat współpracy, wprowadzając kultową serię gier na nową platformę RTX Spark z technologiami AI i ray tracingu.

3 min15 lipca

Modele AI

OpenAI szyfruje komunikację między agentami AI w Codex — deweloperzy tracą wgląd w procesy

OpenAI wprowadził szyfrowanie wewnętrznej komunikacji w Codex. Programiści nie mogą już śledzić delegacji zadań między agentami AI.

4 min15 lipca

Narzędzia i Aplikacje

NVIDIA przedstawia nowe komputery Jetson Thor dla robotyki i AI na brzegu sieci

NVIDIA zaprezentowała moduły T3000 i T2000 oparte na architekturze Thor, oferujące kompaktowe rozwiązania AI dla robotów humanoidalnych.

4 min16 lipca

Kluczowe wnioski

Nvidia wykorzystała około 70 publicznych zestawów danych obejmujących 700 podzadań jako „nasiona” do generowania syntetycznych przykładów Q&A.

Metodologia poprawiła wyniki modelu Nemotron-3 Nano w kluczowych benchmarkach: MMLU-Pro (+1,8), kod (+1,9), rozumowanie (+1,6) i GPQA (+11,1).

Pipeline składa się z pięciu etapów: zbieranie zadań-nasion, normalizacja rekordów, generowanie podobnych przykładów, wzbogacanie odpowiedzi oraz filtrowanie danych.

Proces wykorzystuje wyłącznie zestawy treningowe z publicznych zadań, wykluczając dane testowe i walidacyjne z generowania.

Syntetyczne dane zostały podzielone na zadania wymagające wiedzy (39 zadań, 3M próbek) i zadania wymagające rozumowania (34 zadania, 1,5M próbek).

Architektura pipeline'u generowania danych

Podział na kategorie zadań i wyniki