7 maja 20263 min czytania

OpenAI z gigantami tech opracowało protokół MRC do usuwania wąskich gardeł w superkomputerach AI

Nowy protokół sieciowy MRC pozwala połączyć ponad 100 000 GPU w dwóch warstwach i wykrywa awarie w skali mikrosekund zamiast sekund.

Źródło zdjęcia: The Decoder

OpenAI we współpracy z AMD, Broadcom, Intel, Microsoft i NVIDIA opracowało nowy protokół sieciowy MRC (Multipath Reliable Connection), który ma rozwiązać problemy z wąskimi gardłami w superkomputerach AI. Protokół został już wdrożony w największych systemach OpenAI używanych do trenowania modeli frontowych, zgodnie z informacjami opublikowanymi przez firmę.

MRC ma na celu przyspieszenie, zwiększenie przewidywalności i odporności transferów danych między procesorami graficznymi w dużych superkomputerach AI — kluczowego elementu trenowania zaawansowanych modeli sztucznej inteligencji.

Kluczowe wnioski

MRC rozprowadza pakiety danych jednocześnie po setkach ścieżek sieciowych, zmniejszając przeciążenie w rdzeniu sieci.
Protokół wykrywa awarie ścieżek, połączeń lub przełączników i przekierowuje ruch w skali mikrosekund, podczas gdy konwencjonalne sieci potrzebują sekund lub dziesiątek sekund na stabilizację.
System może połączyć ponad 100 000 GPU używając tylko dwóch warstw przełączników Ethernet zamiast trzech lub czterech wymaganych przez tradycyjne sieci 800 Gb/s.
MRC jest już wdrożony we wszystkich największych superkomputerach NVIDIA GB200 OpenAI, używanych do trenowania modeli frontowych.
Podczas trenowania ostatniego modelu frontowego dla ChatGPT i Codex, OpenAI musiało zrestartować cztery przełączniki tier-1, ale dzięki MRC nie wymagało to koordynacji z zespołami prowadzącymi zadania treningowe.

Architektura wielościeżkowa jako rozwiązanie wąskich gardeł

Tradycyjne protokoły sieciowe wysyłają każdy transfer przez pojedynczą ścieżkę sieciową, co może prowadzić do przeciążeń i spowolnień krytycznych dla synchronicznego trenowania AI. MRC radykalnie zmienia to podejście, rozprowadzając pakiety równocześnie po setkach dostępnych ścieżek.

Ta wielościeżkowa architektura nie tylko redukuje przeciążenia, ale również znacząco zwiększa odporność systemu na awarie. Gdy konwencjonalne sieci potrzebują sekund lub nawet dziesiątek sekund na ustabilizowanie się po awariach, MRC może wykryć problemy i przekierować ruch na poziomie mikrosekund.

Wdrożenie w praktyce i korzyści ekonomiczne

MRC został już wdrożony w największych superkomputerach OpenAI, w tym w lokalizacji Oracle Cloud Infrastructure w Abilene w Teksasie oraz w superkomputerach Microsoft Fairwater. Specyfikacja MRC została opublikowana przez Open Compute Project (OCP) wraz z towarzyszącym artykułem naukowym.

Projekt wielopłaszczyznowej sieci MRC oferuje także znaczące korzyści ekonomiczne. System może obsłużyć ponad 100 000 GPU używając tylko dwóch warstw przełączników Ethernet, co zmniejsza zużycie energii, liczbę komponentów i całkowite koszty sieci w porównaniu do tradycyjnych rozwiązań wymagających trzech lub czterech warstw.

Rozwój MRC pokazuje, jak współpraca między kluczowymi graczami w branży technologicznej może prowadzić do przełomowych rozwiązań infrastrukturalnych, które bezpośrednio wspierają postęp w dziedzinie sztucznej inteligencji.

#infrastruktura AI #superkomputery #OpenAI #MRC #protokół sieciowy

Udostępnij

Źródła

The Decoder

Poprzedni

LCM: nowa architektura pamięci AI przewyższa Claude Code w długich kontekstach

Następny

Nowa metoda RETD rozwiązuje kluczowy problem w uczeniu ze wzmocnieniem off-policy

Podobne Publikacje

Etyka i Bezpieczeństwo

OpenAI uruchamia projekt 'Patch the Planet' na rzecz bezpieczeństwa open source

OpenAI we współpracy z Trail of Bits rozpoczyna bezpłatne wspieranie projektów open source w cyberbezpieczeństwie, odpowiadając na rosnące zagrożenia AI.

4 min22 czerwca

Badania i Nauka

RIFT-Bench: Nowy framework do testowania bezpieczeństwa systemów agentowych AI

Naukowcy stworzyli RIFT-Bench — pierwszy zunifikowany framework do oceny bezpieczeństwa różnorodnych systemów agentowych AI w dynamicznym red-teamingu.

3 min24 czerwca

Biznes i Rynek

SpaceX podpisał kontrakt z Reflection AI na 6,3 mld dolarów za dostęp do chipów AI

SpaceX wynajmie Reflection AI chipy Nvidia GB300 za 150 mln dolarów miesięcznie. Startup otwartych modeli AI konkuruje z Anthropic i OpenAI.

3 min22 czerwca