12 maja 20264 min czytania

AWS prezentuje architekturę infrastruktury dla treningu i wnioskowania modeli AI

Amazon Web Services opisuje ewolucję skalowania AI i przedstawia warstwową architekturę opartą na GPU Blackwell B200/B300 oraz narzędziach open source.

Źródło zdjęcia: huggingface.co

Poprzedni

Anthropic uruchamia platformę Claude na AWS z pełną integracją

Następny

NotebookLM od Google rewolucjonizuje pracę z dokumentami dzięki AI

Podobne Publikacje

Etyka i Bezpieczeństwo

Sztuczna inteligencja do rozpoznawania emocji wkracza do firm mimo wątpliwych podstaw naukowych

Firmy coraz częściej używają AI do monitorowania emocji pracowników, choć systemy wykazują bias rasowy i opierają się na kwestionowanej nauce.

4 min10 maja

Biznes i Rynek

Inwestycje Sama Altmana pod lupą polityków przed IPO OpenAI

Komisja Kongresu żąda zeznań od CEO OpenAI w związku z podejrzeniami konfliktu interesów. Sześciu prokuratorów wzywa SEC do zbadania sprawy.

3 min

Kluczowe wnioski

Skalowanie modeli AI ewoluowało od jednego wymiaru (pre-trening) do trzech: pre-trening, post-trening i obliczenia w czasie testowania (test-time compute).

Wszystkie etapy cyklu życia modeli wymagają podobnej infrastruktury: ściśle sprzężonych akceleratorów, sieci o wysokiej przepustowości i rozproszonego systemu przechowywania danych.

AWS oferuje instancje P5 z GPU NVIDIA H100/H200 oraz nową serię P6 z architekturą Blackwell B200/B300, zapewniając przepustowość od 0,98 do 4,5 PFLOPS dla operacji tensorowych.

Współczesne systemy AI opierają się na warstwowej architekturze open source: od zarządzania zasobami (Slurm, Kubernetes) przez frameworki ML (PyTorch, JAX) po narzędzia monitorowania (Prometheus, Grafana).

Kluczowe znaczenie zyskują orkiestracja zasobów oraz obserwowalnośćsystemów na poziomie aplikacji i sprzętu dla utrzymania zdrowia klastrów na dużą skalę.

Ewolucja praw skalowania w AI

Tradycyjne podejście do rozwoju modeli AI, oparte na pracy Kaplana et al. (2020), wykazywało przewidywalne trendy w postaci praw potęgowych — zwiększanie parametrów modelu, rozmiaru zbioru danych i mocy obliczeniowej przekładało się na lepszą wydajność. To uzasadniało inwestycje w wielkoskalowe akceleratory i infrastrukturę rozproszoną.

Jednak współczesne podejście NVIDIA do „trzech praw skalowania” rozszerza tę perspektywę. Poza pre-treningiem, wydajność można poprawiać poprzez:

Post-trening, obejmujący nadzorowane fine-tuning (SFT) i metody uczenia ze wzmocnieniem (RL)

Obliczenia w czasie testowania, takie jak „długie myślenie”, strategie wyszukiwania i weryfikacji oraz metody multi-sample

Infrastruktura AWS dla modeli AI

AWS dostarcza trzy kluczowe komponenty infrastruktury: obliczenia akcelerowane, sieć i przechowywanie danych. Firma oferuje instancje Amazon EC2 z różnymi generacjami GPU NVIDIA.

Rodzina P5 obejmuje instancje p5.48xlarge z ośmioma GPU H100, p5.4xlarge z pojedynczym H100 oraz warianty p5e.48xlarge/p5en.48xlarge z GPU H200. Nowa seria P6 wprowadza architekturę NVIDIA Blackwell — p6-b200.48xlarge z chipami B200 oraz p6-b300.48xlarge z układami Blackwell Ultra B300.

Kluczowe parametry kolejnych generacji GPU pokazują znaczący postęp:

H100: 0,98 PFLOPS (BF16/FP16), 80 GB HBM3, 3,35 TB/s przepustowości pamięci

H200: 0,98 PFLOPS (BF16/FP16), 141 GB HBM3e, 4,8 TB/s przepustowości pamięci

B200: 2,25 PFLOPS (BF16/FP16), 4,5 PFLOPS (FP8), 180 GB HBM3e, 8 TB/s

B300: 2,25 PFLOPS (BF16/FP16), 4,5 PFLOPS (FP8), 288 GB HBM3e, 8 TB/s

Architektura warstwowa systemów open source

Współczesne systemy AI opierają się na wielowarstwowej architekturze open source. Na poziomie zarządzania zasobami klastra działają systemy takie jak Slurm i Kubernetes. Rozwój modeli i trening rozproszony realizują frameworki PyTorch i JAX. Monitorowanie i wizualizacja — czyli obserwowalnośćsystemów — często wykorzystuje Prometheus do zbierania metryk oraz Grafana do wizualizacji i alertów.

Ta warstwowa struktura pokazuje, jak infrastruktura sprzętowa wspiera orkiestrację zasobów, która z kolei umożliwia działanie frameworków uczenia maszynowego, przy czym obserwowalnośćrozciąga się na wszystkie warstwy systemu.

Dokument AWS stanowi wprowadzenie do szerszej serii materiałów analizujących implementację tej architektury w chmurze, koncentrując się na punktach integracji między komponentami infrastruktury AWS a narzędziami open source używanymi w wielkoskalowym treningu i wnioskowaniu modeli AI.