Nowy warsztat pozwala wytrenować funkcjonalny GPT na laptopie w mniej niż godzinę, budując każdy komponent od zera bez gotowych bibliotek.
Źródło zdjęcia: GitHub
Nowy projekt open source pozwala każdemu nauczyć się budowania własnego modelu językowego od podstaw. Warsztat „Train Your Own LLM from Scratch” to uproszczona wersja słynnego nanoGPT Andreja Karpathy'ego, zaprojektowana tak, by można było ją ukończyć w ciągu jednej sesji warsztatowej.

Google ogłosiło ponad 260 nowości AI, w tym platformę agentyczną Gemini Enterprise, model Gemma 4 i bezpłatne Google Vids dla wszystkich użytkowników.

OpenAI zebrało ponad 4 mld dolarów od 19 inwestorów na The Deployment Company — joint venture pomagające firmom wdrażać rozwiązania AI.
Projekt oferuje praktyczne podejście do nauki architektury transformerów, pozwalając uczestnikom napisać każdy element pipeline'u treningowego własnoręcznie. W przeciwieństwie do gotowych rozwiązań wykorzystujących biblioteki typu AutoModel.from_pretrained(), warsztat wymaga zbudowania wszystkich komponentów od zera.
Projekt podzielony jest na logiczne sekcje, z których każda wprowadza kluczowe koncepty uczenia maszynowego. Pierwsza część koncentruje się na tokenizacji na poziomie znaków, obejmując kodowanie znaków i rozmiar słownictwa. Druga część prowadzi przez budowę pełnej architektury GPT, włączając embeddingi, self-attention i bloki MLP.
Trzecia część zajmuje się implementacją kompletnego pipeline'u treningowego z funkcjami straty, optymalizatorem AdamW i planowaniem tempa uczenia. Czwarta sekcja wprowadza techniki generowania tekstu, w tym temperature, top-k i dekodowanie autoregresywne. Piąta część łączy wszystko razem, pozwalając na eksperymenty z rzeczywistymi danymi, a szósta organizuje konkurs na najlepszego AI-poetę.
Model implementuje klasyczną architekturę GPT z blokami transformera zawierającymi warstwy LayerNorm, self-attention z wieloma głowicami oraz sieci feed-forward. Projekt wykorzystuje tokenizację na poziomie znaków z vocabulary o rozmiarze 65 tokenów, co jest bardziej odpowiednie dla małych zbiorów danych niż standardowe BPE z 50k słownictwa używane w GPT-2.
Wszystkie konfiguracje używają block_size=256 i są zoptymalizowane pod kątem szybkiego trenowania na sprzęcie konsumenckim. Projekt automatycznie wykrywa dostępny sprzęt i wykorzystuje GPU Apple Silicon (MPS), NVIDIA GPU (CUDA) lub procesor, zapewniając maksymalną kompatybilność.
Warsztat stanowi doskonałe wprowadzenie do praktycznych aspektów budowania modeli językowych, oferując głębokie zrozumienie mechanizmów działania transformerów bez ukrywania złożoności za gotowymi bibliotekami.