Amazon Web Services opisuje ewolucję skalowania AI i przedstawia warstwową architekturę opartą na GPU Blackwell B200/B300 oraz narzędziach open source.

Źródło zdjęcia: huggingface.co

Firmy coraz częściej używają AI do monitorowania emocji pracowników, choć systemy wykazują bias rasowy i opierają się na kwestionowanej nauce.

Komisja Kongresu żąda zeznań od CEO OpenAI w związku z podejrzeniami konfliktu interesów. Sześciu prokuratorów wzywa SEC do zbadania sprawy.
Firma Amazon Web Services (AWS) opublikowała szczegółowy przewodnik dotyczący infrastruktury potrzebnej do trenowania i wnioskowania dużych modeli językowych. Dokument, dostępny na platformie Hugging Face, analizuje ewolucję podejścia do skalowania modeli AI i przedstawia architekturę systemów opartych na otwartym oprogramowaniu.
Autorzy podkreślają, że tradycyjne podejście do skalowania — polegające głównie na zwiększaniu mocy obliczeniowej podczas pre-treningu — zostało rozszerzone o nowe wymiary. Zgodnie z koncepcją NVIDIA dotyczącą „trzech praw skalowania”, wydajność modeli można teraz poprawiać także poprzez post-trening oraz obliczenia w czasie testowania.
Tradycyjne podejście do rozwoju modeli AI, oparte na pracy Kaplana et al. (2020), wykazywało przewidywalne trendy w postaci praw potęgowych — zwiększanie parametrów modelu, rozmiaru zbioru danych i mocy obliczeniowej przekładało się na lepszą wydajność. To uzasadniało inwestycje w wielkoskalowe akceleratory i infrastrukturę rozproszoną.
Jednak współczesne podejście NVIDIA do „trzech praw skalowania” rozszerza tę perspektywę. Poza pre-treningiem, wydajność można poprawiać poprzez:
AWS dostarcza trzy kluczowe komponenty infrastruktury: obliczenia akcelerowane, sieć i przechowywanie danych. Firma oferuje instancje Amazon EC2 z różnymi generacjami GPU NVIDIA.
Rodzina P5 obejmuje instancje p5.48xlarge z ośmioma GPU H100, p5.4xlarge z pojedynczym H100 oraz warianty p5e.48xlarge/p5en.48xlarge z GPU H200. Nowa seria P6 wprowadza architekturę NVIDIA Blackwell — p6-b200.48xlarge z chipami B200 oraz p6-b300.48xlarge z układami Blackwell Ultra B300.
Kluczowe parametry kolejnych generacji GPU pokazują znaczący postęp:
Współczesne systemy AI opierają się na wielowarstwowej architekturze open source. Na poziomie zarządzania zasobami klastra działają systemy takie jak Slurm i Kubernetes. Rozwój modeli i trening rozproszony realizują frameworki PyTorch i JAX. Monitorowanie i wizualizacja — czyli obserwowalnośćsystemów — często wykorzystuje Prometheus do zbierania metryk oraz Grafana do wizualizacji i alertów.
Ta warstwowa struktura pokazuje, jak infrastruktura sprzętowa wspiera orkiestrację zasobów, która z kolei umożliwia działanie frameworków uczenia maszynowego, przy czym obserwowalnośćrozciąga się na wszystkie warstwy systemu.
Dokument AWS stanowi wprowadzenie do szerszej serii materiałów analizujących implementację tej architektury w chmurze, koncentrując się na punktach integracji między komponentami infrastruktury AWS a narzędziami open source używanymi w wielkoskalowym treningu i wnioskowaniu modeli AI.