OpenAI, Microsoft i Oracle wdrożyły nowy protokół MRC od NVIDIA, który automatycznie wykrywa awarie sieci w mikrosekundach i przekierowuje ruch między tysiącami GPU.

Źródło zdjęcia: NVIDIA Blog

Badanie rosyjskich naukowców pokazuje, że proste nakładanie siatki na wykresy redukuje błąd modeli AI z 25,5% do 19,5% — lepiej niż zaawansowane metody.

Nowy model OpenAI kosztuje znacznie więcej niż GPT-5.4. Największy wzrost dotyczy krótkich zapytań — nawet o 92 procent więcej.
NVIDIA wprowadza nowy standard sieciowy dla gigantycznych fabryk AI z protokołem MRC (Multipath Reliable Connection), który już wdrożyli OpenAI, Microsoft i Oracle. Technologia Spectrum-X Ethernet ma umożliwić wydajną komunikację między tysiącami GPU podczas treningu największych modeli sztucznej inteligencji.
Protokół MRC działa jak inteligentny system zarządzania ruchem — zamiast pojedynczej drogi łączy wiele ścieżek sieciowych, automatycznie omijając przeciążenia i awarie w czasie rzeczywistym. Rozwiązanie zostało już przetestowane w produkcji przez największych graczy rynku AI.
Sachin Katti, szef działu obliczeń przemysłowych w OpenAI, potwierdził sukces wdrożenia: „Zastosowanie MRC w generacji Blackwell było bardzo udane i było możliwe dzięki silnej współpracy z NVIDIA. Podejście end-to-end MRC pozwoliło nam uniknąć większości typowych spowolnień i przerwań związanych z siecią oraz utrzymać wydajność przełomowych przebiegów treningowych na dużą skalę.”
Microsoft Fairwater i centrum danych Oracle Cloud Infrastructure (OCI) Abilene — dwie z największych fabryk AI zbudowanych specjalnie do treningu i wdrażania zaawansowanych modeli językowych — opierają się na MRC w zakresie wydajności, skali i efektywności.
MRC zapewnia wysokie wykorzystanie GPU poprzez równoważenie obciążenia ruchu we wszystkich dostępnych ścieżkach, umożliwiając każdemu GPU uzyskanie potrzebnej przepustowości podczas całego przebiegu treningowego. Protokół utrzymuje wysoką przepustowość nawet przy przeciążeniach, dynamicznie unikając przeciążonych ścieżek w czasie rzeczywistym.
Kluczową innowacją jest technologia obejścia awarii, która może wykryć usterkę ścieżki sieciowej i automatycznie przekierować ruch sprzętowo w ciągu zaledwie mikrosekund. Ma to kluczowe znaczenie dla klastrów treningowych AI, gdzie tysiące GPU muszą pozostać zsynchronizowane — nawet krótka przerwa w sieci może spowolnić lub przerwać całe zadanie treningowe.
Po udanych testach produkcyjnych na sprzęcie NVIDIA Spectrum-X Ethernet, MRC został udostępniony jako otwarta specyfikacja przez Open Compute Project. Pokazuje to moc platformy Spectrum-X Ethernet: specjalnie zbudowany sprzęt, głęboka telemetria i inteligentne sterowanie strukturą współpracują ze sobą, aby wprowadzić nowy protokół od koncepcji do produkcji AI na gigantyczną skalę.
Spectrum-X Ethernet oferuje klientom wybór modeli transportu RDMA, a protokoły działają natywnie na kartach sieciowych NVIDIA ConnectX SuperNIC i przełącznikach Spectrum-X Ethernet, wspierając wielopłaszczyznowe projekty sieciowe na gigantyczną skalę.