7 maja 20264 min czytania

NVIDIA Spectrum-X wprowadza protokół MRC dla gigantycznych fabryk AI

OpenAI, Microsoft i Oracle wdrożyły nowy protokół MRC od NVIDIA, który automatycznie wykrywa awarie sieci w mikrosekundach i przekierowuje ruch między tysiącami GPU.

Źródło zdjęcia: NVIDIA Blog

NVIDIA wprowadza nowy standard sieciowy dla gigantycznych fabryk AI z protokołem MRC (Multipath Reliable Connection), który już wdrożyli OpenAI, Microsoft i Oracle. Technologia Spectrum-X Ethernet ma umożliwić wydajną komunikację między tysiącami GPU podczas treningu największych modeli sztucznej inteligencji.

Protokół MRC działa jak inteligentny system zarządzania ruchem — zamiast pojedynczej drogi łączy wiele ścieżek sieciowych, automatycznie omijając przeciążenia i awarie w czasie rzeczywistym. Rozwiązanie zostało już przetestowane w produkcji przez największych graczy rynku AI.

Kluczowe wnioski

OpenAI, Microsoft i Oracle wdrożyły protokół MRC w swoich centrach danych AI, co pozwoliło im uniknąć typowych spowolnień sieciowych podczas treningu modeli.
Technologia wykrywa awarie ścieżek sieciowych w mikrosekundach i automatycznie przekierowuje ruch sprzętowo, co kluczowe dla synchronizacji tysięcy GPU.
MRC został udostępniony jako otwarta specyfikacja przez Open Compute Project po udanych testach produkcyjnych.
Rozwiązanie wspiera wielopłaszczyznowe architektury sieciowe, umożliwiając skalowanie do setek tysięcy GPU przy zachowaniu niskich opóźnień.
NVIDIA współpracowała przy rozwoju MRC z AMD, Broadcom, Intel, Microsoft i OpenAI.

Wdrożenia w gigantycznych fabrykach AI

Sachin Katti, szef działu obliczeń przemysłowych w OpenAI, potwierdził sukces wdrożenia: „Zastosowanie MRC w generacji Blackwell było bardzo udane i było możliwe dzięki silnej współpracy z NVIDIA. Podejście end-to-end MRC pozwoliło nam uniknąć większości typowych spowolnień i przerwań związanych z siecią oraz utrzymać wydajność przełomowych przebiegów treningowych na dużą skalę.”

Microsoft Fairwater i centrum danych Oracle Cloud Infrastructure (OCI) Abilene — dwie z największych fabryk AI zbudowanych specjalnie do treningu i wdrażania zaawansowanych modeli językowych — opierają się na MRC w zakresie wydajności, skali i efektywności.

Techniczne innowacje protokołu MRC

MRC zapewnia wysokie wykorzystanie GPU poprzez równoważenie obciążenia ruchu we wszystkich dostępnych ścieżkach, umożliwiając każdemu GPU uzyskanie potrzebnej przepustowości podczas całego przebiegu treningowego. Protokół utrzymuje wysoką przepustowość nawet przy przeciążeniach, dynamicznie unikając przeciążonych ścieżek w czasie rzeczywistym.

Kluczową innowacją jest technologia obejścia awarii, która może wykryć usterkę ścieżki sieciowej i automatycznie przekierować ruch sprzętowo w ciągu zaledwie mikrosekund. Ma to kluczowe znaczenie dla klastrów treningowych AI, gdzie tysiące GPU muszą pozostać zsynchronizowane — nawet krótka przerwa w sieci może spowolnić lub przerwać całe zadanie treningowe.

Otwarte standardy i przyszłość

Po udanych testach produkcyjnych na sprzęcie NVIDIA Spectrum-X Ethernet, MRC został udostępniony jako otwarta specyfikacja przez Open Compute Project. Pokazuje to moc platformy Spectrum-X Ethernet: specjalnie zbudowany sprzęt, głęboka telemetria i inteligentne sterowanie strukturą współpracują ze sobą, aby wprowadzić nowy protokół od koncepcji do produkcji AI na gigantyczną skalę.

Spectrum-X Ethernet oferuje klientom wybór modeli transportu RDMA, a protokoły działają natywnie na kartach sieciowych NVIDIA ConnectX SuperNIC i przełącznikach Spectrum-X Ethernet, wspierając wielopłaszczyznowe projekty sieciowe na gigantyczną skalę.

#infrastruktura AI #Microsoft #NVIDIA #networking #OpenAI

Udostępnij

Źródła

NVIDIA AI Blog

Poprzedni

vLLM V1: jak ServiceNow rozwiązało problemy migracji w uczeniu ze wzmocnieniem

Następny

Parloa buduje agentów obsługi klienta opartych na GPT-5.4

Podobne Publikacje

Etyka i Bezpieczeństwo

OpenAI uruchamia projekt 'Patch the Planet' na rzecz bezpieczeństwa open source

OpenAI we współpracy z Trail of Bits rozpoczyna bezpłatne wspieranie projektów open source w cyberbezpieczeństwie, odpowiadając na rosnące zagrożenia AI.

4 min22 czerwca

Biznes i Rynek

NVIDIA i AWS rozszerzają współpracę w zakresie infrastruktury AI na skalę produkcyjną

NVIDIA i AWS wprowadzają nowe instancje EC2 G7 z GPU Blackwell oraz przyspieszenie wektorowe w OpenSearch dla łatwiejszego wdrażania AI.

4 min24 czerwca

Badania i Nauka

Jakie tokeny lepiej przewidują modele hybrydowe? Badanie AllenAI porównuje Olmo Hybrid z transformerem

Badanie AllenAI ujawnia, że modele hybrydowe przewyższają transformery przy słowach znaczących, ale przegrywają przy powtórzeniach i zamykających nawiasach.

4 min25 czerwca

Kluczowe wnioski

OpenAI, Microsoft i Oracle wdrożyły protokół MRC w swoich centrach danych AI, co pozwoliło im uniknąć typowych spowolnień sieciowych podczas treningu modeli.

Technologia wykrywa awarie ścieżek sieciowych w mikrosekundach i automatycznie przekierowuje ruch sprzętowo, co kluczowe dla synchronizacji tysięcy GPU.

MRC został udostępniony jako otwarta specyfikacja przez Open Compute Project po udanych testach produkcyjnych.

Rozwiązanie wspiera wielopłaszczyznowe architektury sieciowe, umożliwiając skalowanie do setek tysięcy GPU przy zachowaniu niskich opóźnień.

NVIDIA współpracowała przy rozwoju MRC z AMD, Broadcom, Intel, Microsoft i OpenAI.

Wdrożenia w gigantycznych fabrykach AI

Techniczne innowacje protokołu MRC

Otwarte standardy i przyszłość