7 czerwca 20264 min czytania

Pięć laboratoriów, pięć umysłów: budowa symulacji ekonomicznej na małych modelach AI

Innowacyjna gra ekonomiczna, gdzie każdy agent działa na innym małym modelu językowym z czterech laboratoriów — od OpenAI po NVIDIA.

Źródło zdjęcia: huggingface.co

Zespół programistów stworzył innowacyjną symulację ekonomiczną, w której każdy z pięciu agentów AI działa na różnych małych modelach językowych pochodzących z czterech laboratoriów. Projekt Thousand Token Wood v2 przekształcił prostą zabawkę symulacyjną w interaktywną grę, gdzie użytkownik wciela się w rolę tajemniczego finansisty manipulującego rynkiem.

Kluczowe wnioski

Heterogeniczność modeli jest produktem, nie ograniczeniem — każde stworzenie myśli inaczej dzięki różnym modelom: gpt-oss-20b (OpenAI), MiniCPM3–4B (OpenBMB), Nemotron-Mini-4B (NVIDIA) i dostrojony Qwen 0.5B.
Główne wyzwanie leży w warstwie serwowania, nie w modelowaniu — wszystkie cztery modele wymagały identycznej naprawy błędu „could not find nvcc” w vLLM.
Asymetria informacyjna wymaga ścisłego bezpieczeństwa — ukryte flagi prawdziwości porad muszą być całkowicie odizolowane od promptów, aby agenci nie mogli ich wyciec.
Pamięć można elegancko ograniczyć — zamiast całej historii, modele widzą tylko podsumowania sentymentów w stylu „czujesz się ciepło wobec Oony, ostrożnie wobec Patrona”.
Małe modele działają jako niezawodne generatory formatów przy odpowiedniej strukturze i fine-tuningu.

Architektura wielomodelowa w praktyce

Kluczową innowacją v2 jest użycie czterech różnych małych modeli jednocześnie. Każde stworzenie w lesie — sowa, lis i inne — myśli przy użyciu modelu z innego laboratorium. Dzięki temu rada stworzeń prowadzi prawdziwą dyskusję, a nie odtwarza skrypt.

Model gpt-oss-20b działa w natywnej kwantyzacji MXFP4 i mieści się w 24GB GPU L4 z zapasem miejsca. Odpowiada w formacie kanałowym, który wymaga ekstrakcji końcowej odpowiedzi. MiniCPM3 wymagał flagi trust_remote_code, podczas gdy Nemotron ładował się bez problemów.

Tolerancyjna warstwa parsowania i naprawy JSON okazała się kluczowa — każdy model produkuje różne malformacje ze względu na inne tokenizery i zwyczaje formatowania, ale parser ratuje to, co może, a symulacja nigdy się nie zawiesza.

Mechanika gry i bezpieczeństwo informacji

Gracz wciela się w Patrona Lasu — tajemniczego finansistę, który pożycza na procent, szepcze prawdziwe lub fałszywe porady, gra na spadkach i przekupuje. Magistrat prowadzi polowanie na nielegalny handel informacjami poufnymi.

Prawda lub fałsz porady musi być ukryta przed stworzeniami. To wymóg bezpieczeństwa, nie kosmetyki UI — wszystko co model może powtórzyć, to co umieścisz w jego prompcie. Ukryte flagi żyją całkowicie poza promptem, są usuwane z publicznego rejestru wydarzeń, a narrator podsumowuje tylko publiczne wydarzenia.

Automatyczny test skanuje co turę każdy pełny prompt każdego stworzenia w poszukiwaniu zakazanych tokenów — to najważniejszy test w całym zestawie.

Pamięć i relacje bez inflacji promptów

Stworzenia noszą trwałe relacje — podpisane sentymenty wobec Patrona i siebie nawzajem, modyfikowane przez wydarzenia. Wrogie stworzenie odmawia pożyczek i oferuje gorsze warunki, sprzymierzone przestają się podcinać i zachowują jak kartel.

Pułapką jest inflacja promptów — surowa historia rośnie bez granic i mały model się w niej topi. Rozwiązanie: nigdy nie umieszczaj historii w prompcie. Model widzi jednoliniowe podsumowanie w kubełkach, ograniczone do kilku najsilniejszych uczuć, wywiedzione z liczbowego sentymentu.

Wpływ na zachowanie jest częściowo emergentny (podsumowanie wpływa na model) i częściowo mechaniczny (bardzo wrogie stworzenie deterministycznie odmawia), więc jest obserwowalny i testowalny.

Reprezentatywny przebieg rady z pełną mechaniką v2 wykazał: zero wycieków ukrytych flag, 100% prawidłowych ofert od dostrojonego modelu 0.5B, skuteczną przewagę z prawdziwych porad i właściwe uruchomienie wszystkich mechanizmów od finansowania po bankructwo.

#małe modele #symulacja #NVIDIA #multi-agent #OpenAI

Udostępnij

Źródła

Hugging Face Blog

Poprzedni

Nowy system AI rozumie najnowsze memy dzięki dynamicznej wiedzy z internetu

Następny

Nowa metoda eliminuje stronniczość AI traktując sprawiedliwość jako operację symetrii

Podobne Publikacje

Narzędzia i Aplikacje

Adobe wprowadza generatywną AI do aplikacji fotograficznej Indigo

Eksperymentalna aplikacja Adobe Project Indigo otrzymała narzędzia AI do usuwania obiektów i generowania efektów, zmieniając kierunek z profesjonalnej fotografii na edycję AI.

4 min20 lipca

Biznes i Rynek

Współzałożyciel Index Ventures przewiduje redystrybucję bogactwa z AI

Neil Rimer ostrzega przed nieuchronną redystrybucją majątków AI w czasie, gdy filantropia w tech słabnie, a władze rozważają podatki od bogactwa.

4 min18 lipca

Biznes i Rynek

Pozew Apple przeciwko OpenAI może zatrzymać plany sprzętowe firmy

Apple oskarża OpenAI o kradzież tajemnic handlowych od 400 byłych pracowników. Pozew może opóźnić plany sprzętowe i wpłynąć na IPO firmy.

4 min20 lipca

Kluczowe wnioski

Heterogeniczność modeli jest produktem, nie ograniczeniem — każde stworzenie myśli inaczej dzięki różnym modelom: gpt-oss-20b (OpenAI), MiniCPM3–4B (OpenBMB), Nemotron-Mini-4B (NVIDIA) i dostrojony Qwen 0.5B.

Główne wyzwanie leży w warstwie serwowania, nie w modelowaniu — wszystkie cztery modele wymagały identycznej naprawy błędu „could not find nvcc” w vLLM.

Asymetria informacyjna wymaga ścisłego bezpieczeństwa — ukryte flagi prawdziwości porad muszą być całkowicie odizolowane od promptów, aby agenci nie mogli ich wyciec.

Pamięć można elegancko ograniczyć — zamiast całej historii, modele widzą tylko podsumowania sentymentów w stylu „czujesz się ciepło wobec Oony, ostrożnie wobec Patrona”.

Małe modele działają jako niezawodne generatory formatów przy odpowiedniej strukturze i fine-tuningu.

Architektura wielomodelowa w praktyce

Mechanika gry i bezpieczeństwo informacji

Automatyczny test skanuje co turę każdy pełny prompt każdego stworzenia w poszukiwaniu zakazanych tokenów — to najważniejszy test w całym zestawie.

Pamięć i relacje bez inflacji promptów

Wpływ na zachowanie jest częściowo emergentny (podsumowanie wpływa na model) i częściowo mechaniczny (bardzo wrogie stworzenie deterministycznie odmawia), więc jest obserwowalny i testowalny.