Nowy protokół sieciowy MRC pozwala połączyć ponad 100 000 GPU w dwóch warstwach i wykrywa awarie w skali mikrosekund zamiast sekund.

Źródło zdjęcia: The Decoder

Od AGI po głębokie uczenie — wyjaśniamy najważniejsze terminy AI, które każdy powinien znać. Przystępny przewodnik po żargonie sztucznej inteligencji.

Firmy technologiczne organizują spotkania z liderami religijnymi w ramach inicjatywy Faith-AI Covenant, szukając wskazówek etycznych dla rozwoju AI.
OpenAI we współpracy z AMD, Broadcom, Intel, Microsoft i NVIDIA opracowało nowy protokół sieciowy MRC (Multipath Reliable Connection), który ma rozwiązać problemy z wąskimi gardłami w superkomputerach AI. Protokół został już wdrożony w największych systemach OpenAI używanych do trenowania modeli frontowych, zgodnie z informacjami opublikowanymi przez firmę.
MRC ma na celu przyspieszenie, zwiększenie przewidywalności i odporności transferów danych między procesorami graficznymi w dużych superkomputerach AI — kluczowego elementu trenowania zaawansowanych modeli sztucznej inteligencji.
Tradycyjne protokoły sieciowe wysyłają każdy transfer przez pojedynczą ścieżkę sieciową, co może prowadzić do przeciążeń i spowolnień krytycznych dla synchronicznego trenowania AI. MRC radykalnie zmienia to podejście, rozprowadzając pakiety równocześnie po setkach dostępnych ścieżek.
Ta wielościeżkowa architektura nie tylko redukuje przeciążenia, ale również znacząco zwiększa odporność systemu na awarie. Gdy konwencjonalne sieci potrzebują sekund lub nawet dziesiątek sekund na ustabilizowanie się po awariach, MRC może wykryć problemy i przekierować ruch na poziomie mikrosekund.
MRC został już wdrożony w największych superkomputerach OpenAI, w tym w lokalizacji Oracle Cloud Infrastructure w Abilene w Teksasie oraz w superkomputerach Microsoft Fairwater. Specyfikacja MRC została opublikowana przez Open Compute Project (OCP) wraz z towarzyszącym artykułem naukowym.
Projekt wielopłaszczyznowej sieci MRC oferuje także znaczące korzyści ekonomiczne. System może obsłużyć ponad 100 000 GPU używając tylko dwóch warstw przełączników Ethernet, co zmniejsza zużycie energii, liczbę komponentów i całkowite koszty sieci w porównaniu do tradycyjnych rozwiązań wymagających trzech lub czterech warstw.
Rozwój MRC pokazuje, jak współpraca między kluczowymi graczami w branży technologicznej może prowadzić do przełomowych rozwiązań infrastrukturalnych, które bezpośrednio wspierają postęp w dziedzinie sztucznej inteligencji.