
Źródło zdjęcia: NVIDIA Blog
Tradycyjne centra danych służyły jedynie do przechowywania, pobierania i przetwarzania danych. W erze generatywnej i agentowej sztucznej inteligencji placówki te przekształciły się w fabryki tokenów AI. Zgodnie z analizą NVIDIA, wraz z tym, że wnioskowanie AI stało się ich głównym obciążeniem, ich podstawowym produktem jest inteligencja wytwarzana w formie tokenów.
Ta transformacja wymaga odpowiedniej zmiany w sposobie oceniania ekonomiki infrastruktury AI, w tym całkowitego kosztu posiadania (TCO). Przedsiębiorstwa oceniające infrastrukturę AI nadal zbyt często skupiają się na szczytowych specyfikacjach chipów, kosztach obliczeniowych lub operacjach zmiennoprzecinkowych na sekundę za każdego wydanego dolara (FLOPS na dolara).
Rozróżnienie, które ma znaczenie, przedstawia się następująco:
Koszt obliczeniowy to kwota, którą przedsiębiorstwa płacą za infrastrukturę AI, niezależnie od tego, czy wynajmują ją od dostawców chmury, czy posiadają na własnych serwerach.
FLOPS na dolara to ilość surowej mocy obliczeniowej, którą przedsiębiorstwo otrzymuje za każdego wydanego dolara, ale surowe obliczenia i rzeczywista produkcja tokenów w świecie rzeczywistym to nie to samo.
Koszt na token to całkowity koszt przedsiębiorstwa za wytworzenie każdego dostarczonego tokena, zwykle wyrażany jako koszt na milion tokenów.
Pierwsze dwie metryki to jedynie wskaźniki wejściowe. Optymalizacja pod kątem danych wejściowych, podczas gdy biznes działa na podstawie wyników, to fundamentalna niezgodność.
Koszt na token określa, czy przedsiębiorstwa mogą zyskownie skalować AI. To jedyna metryka TCO, która bezpośrednio uwzględnia wydajność sprzętu, optymalizację oprogramowania, wsparcie ekosystemu i rzeczywiste wykorzystanie.
Zrozumienie sposobu optymalizacji kosztu tokenów wymaga przyjrzenia się równaniu obliczania kosztu na milion tokenów. W tym równaniu wiele przedsiębiorstw oceniających infrastrukturę AI skupia się na liczniku: koszcie za GPU na godzinę. W przypadku wdrożeń w chmurze jest to stawka godzinowa płacona dostawcy chmury; w przypadku wdrożeń lokalnych to efektywny koszt godzinowy wynikający z amortyzacji posiadanej infrastruktury.
Prawdziwym kluczem do obniżenia kosztu tokenów jest jednak mianownik: maksymalizacja dostarczonej produkcji tokenów. Ten mianownik niesie ze sobą dwa implikacje biznesowe:
Minimalizacja kosztu tokenów: Gdy wzrost produkcji tokenów znajduje odzwierciedlenie w równaniu kosztów, obniża to koszt na token, co zwiększa marżę zysku na każdej obsłużonej interakcji.

Brytyjski rząd utworzył fundusz inwestujący w krajowe startupy AI. Celem jest zmniejszenie zależności od zagranicznej technologii i zdobycie przewagi w niszach.

79% kadry sektora publicznego obawia się bezpieczeństwa danych AI. SLM oferują lokalną kontrolę i większe bezpieczeństwo niż duże modele.
Maksymalizacja przychodów: Więcej tokenów dostarczanych na sekundę oznacza również więcej tokenów na megawat, co przekłada się na więcej inteligencji do wykorzystania w produktach i usługach napędzanych AI, generując większe przychody z tej samej inwestycji w infrastrukturę.
NVIDIA porównuje to do "góry lodowej wnioskowania": licznik znajduje się nad powierzchnią, jest widoczny i łatwy do porównania. Mianownik to wszystko pod powierzchnią, co reprezentuje kluczowe czynniki determinujące rzeczywistą produkcję tokenów.
Analiza powierzchowna obejmuje pytania o:
Dogłębna analiza kosztów pyta o:
Dane dla modelu AI DeepSeek-R1 pokazują różnicę między teoretycznymi a rzeczywistymi wynikami biznesowymi. Patrząc jedynie na koszt obliczeniowy, platforma NVIDIA Blackwell wydaje się kosztować około 2 razy więcej niż NVIDIA Hopper, ale koszt obliczeniowy nic nie mówi o produkcie, który kupuje ta inwestycja.
Analiza samych FLOPS na dolara sugeruje 2-krotną przewagę NVIDIA Blackwell w porównaniu z architekturą NVIDIA Hopper. Jednak rzeczywisty wynik różni się o rzędy wielkości:
| Metryka | NVIDIA Hopper (HGX H200) | NVIDIA Blackwell (GB300 NVL72) | Blackwell vs Hopper |
|---|---|---|---|
| Koszt za GPU na godzinę ($) | $1.41 | $2.65 | 2x |
| FLOP na dolara (PFLOPS) | 2.8 | 5.6 | 2x |
| Produkcja tokenów na GPU | 90 | 6K | 65x |
| Produkcja tokenów na MW | 54K | 2.8M | 50x |
| Koszt na milion tokenów ($) | $4.20 | $0.12 | 35x niższy |
Blackwell dostarcza ponad 50-krotnie większą produkcję tokenów na wat niż Hopper, co skutkuje niemal 35-krotnie niższym kosztem na milion tokenów. Ta ogromna rozbieżność dowodzi, że NVIDIA Blackwell zapewnia masywny skok wartości biznesowej w porównaniu z wcześniejszą generacją Hopper, znacznie przewyższający jakikolwiek wzrost kosztów systemu.
Każda z tych optymalizacji algorytmicznych, sprzętowych i programowych musi być aktywna i zintegrowana, inaczej mianownik się załamuje. "Tańszy" GPU, który dostarcza znacznie mniej tokenów na sekundę, skutkuje znacznie wyższym kosztem na token. Infrastruktura AI, która właściwie podchodzi do całego stosu, zapewnia, że każda optymalizacja wzmacnia pozostałe.