Innowacyjna gra ekonomiczna, gdzie każdy agent działa na innym małym modelu językowym z czterech laboratoriów — od OpenAI po NVIDIA.
Źródło zdjęcia: huggingface.co
Zespół programistów stworzył innowacyjną symulację ekonomiczną, w której każdy z pięciu agentów AI działa na różnych małych modelach językowych pochodzących z czterech laboratoriów. Projekt Thousand Token Wood v2 przekształcił prostą zabawkę symulacyjną w interaktywną grę, gdzie użytkownik wciela się w rolę tajemniczego finansisty manipulującego rynkiem.
Kluczową innowacją v2 jest użycie czterech różnych małych modeli jednocześnie. Każde stworzenie w lesie — sowa, lis i inne — myśli przy użyciu modelu z innego laboratorium. Dzięki temu rada stworzeń prowadzi prawdziwą dyskusję, a nie odtwarza skrypt.
Model gpt-oss-20b działa w natywnej kwantyzacji MXFP4 i mieści się w 24GB GPU L4 z zapasem miejsca. Odpowiada w formacie kanałowym, który wymaga ekstrakcji końcowej odpowiedzi. MiniCPM3 wymagał flagi trust_remote_code, podczas gdy Nemotron ładował się bez problemów.
Tolerancyjna warstwa parsowania i naprawy JSON okazała się kluczowa — każdy model produkuje różne malformacje ze względu na inne tokenizery i zwyczaje formatowania, ale parser ratuje to, co może, a symulacja nigdy się nie zawiesza.
Gracz wciela się w Patrona Lasu — tajemniczego finansistę, który pożycza na procent, szepcze prawdziwe lub fałszywe porady, gra na spadkach i przekupuje. Magistrat prowadzi polowanie na nielegalny handel informacjami poufnymi.
Prawda lub fałsz porady musi być ukryta przed stworzeniami. To wymóg bezpieczeństwa, nie kosmetyki UI — wszystko co model może powtórzyć, to co umieścisz w jego prompcie. Ukryte flagi żyją całkowicie poza promptem, są usuwane z publicznego rejestru wydarzeń, a narrator podsumowuje tylko publiczne wydarzenia.
Automatyczny test skanuje co turę każdy pełny prompt każdego stworzenia w poszukiwaniu zakazanych tokenów — to najważniejszy test w całym zestawie.
Stworzenia noszą trwałe relacje — podpisane sentymenty wobec Patrona i siebie nawzajem, modyfikowane przez wydarzenia. Wrogie stworzenie odmawia pożyczek i oferuje gorsze warunki, sprzymierzone przestają się podcinać i zachowują jak kartel.
Pułapką jest inflacja promptów — surowa historia rośnie bez granic i mały model się w niej topi. Rozwiązanie: nigdy nie umieszczaj historii w prompcie. Model widzi jednoliniowe podsumowanie w kubełkach, ograniczone do kilku najsilniejszych uczuć, wywiedzione z liczbowego sentymentu.
Wpływ na zachowanie jest częściowo emergentny (podsumowanie wpływa na model) i częściowo mechaniczny (bardzo wrogie stworzenie deterministycznie odmawia), więc jest obserwowalny i testowalny.
Reprezentatywny przebieg rady z pełną mechaniką v2 wykazał: zero wycieków ukrytych flag, 100% prawidłowych ofert od dostrojonego modelu 0.5B, skuteczną przewagę z prawdziwych porad i właściwe uruchomienie wszystkich mechanizmów od finansowania po bankructwo.

Meta testowała funkcję tworzącą clickbaitowe artykuły AI z błędnymi informacjami i obrazami rzeczywistych osób, wycofując ją po interwencji The Verge.

Flourish zebrał 500 mln dolarów na budowę systemów AI zużywających tylko 50 watów energii — jak ludzki mózg. Bezos zainwestował prawie 100 mln dolarów.

Jensen Huang osobiście zaprezentował superchip RTX Spark w koreańskich PC bangach, współpracując z deweloperami KRAFTON i NC oraz mistrzami esportu.