1 maja 20263 min czytania

ChatGPT ma poważny problem z goblinami. To nie metafora

OpenAI właśnie opublikowało fascynujący raport o nieoczekiwanym problemie, który dotknął modele GPT — masowym pojawianiu się goblinów, gremlinów i innych fantastycznych stworów w odpowiedziach chatbot

Źródło zdjęcia: Spider's Web

Poprzedni

ChatGPT Images 2.0 hitem w Indiach, ale globalna reakcja pozostaje umiarkowana

Następny

GPT-5.5 dorównuje Claude Mythos w testach cyberataków według brytyjskiego Instytutu Bezpieczeństwa AI

Podobne Publikacje

Biznes i Rynek

NVIDIA i ServiceNow wprowadzają Project Arc — autonomiczne agenty AI dla przedsiębiorstw

NVIDIA i ServiceNow ogłaszają Project Arc — długoterminowego agenta desktopowego z OpenShell, oferującego 35x niższe koszty tokenów dzięki platformie Blackwell.

4 min5 maja

Badania i Nauka

Naukowcy przedstawiają mapę drogową rozwoju AI w inteligentnym przemyśle do 2026 roku

Międzynarodowy zespół 54 naukowców opublikował kompleksową mapę rozwoju sztucznej inteligencji w produkcji przemysłowej.

4 min

Kluczowe wnioski

Źródłem problemu była personalizacja o nazwie „Nerdy”, trenowana pod kątem zabawnego, nerdowskiego stylu wypowiedzi, która nieoczekiwanie promowała używanie metafor ze stworami.

Mimo że tryb „Nerdy” odpowiadał za zaledwie 2,5 proc. wszystkich odpowiedzi ChatGPT, generował aż 66,7 proc. wszystkich wzmianek o goblinach.

Zjawisko rozprzestrzeniło się poza oryginalny kontekst — gobliny zaczęły pojawiać się także w zwykłych rozmowach bez włączonej osobowości „Nerdy”.

OpenAI wycofało problematyczną osobowość z produkcji w marcu oraz przefiltrowano dane treningowe, aby ograniczyć nadreprezentację fantastycznych stworów.

Przypadek ilustruje klasyczną pętlę zwrotną w uczeniu maszynowym, gdzie nagradzane zachowania mogą się niekontrolowanie rozprzestrzenić na cały system.

Mechanizm powstawania problemu

Klucz do zagadki leżał w sposobie trenowania osobowości „Nerdy”. Model miał być „bez wstydu nerdowskim, żartobliwym i mądrym mentorem”, który entuzjastycznie promuje naukę i krytyczne myślenie, jednocześnie podcinając nadętą powagę poprzez zabawny język. W praktyce oznaczało to, że w procesie reinforcement learning model otrzymywał dodatkowe punkty za styl błyskotliwy, lekko autoironiczny i „dziwaczny” w sympatyczny sposób.

Audyt OpenAI wykazał, że w 76,2 proc. analizowanych zbiorów danych odpowiedzi zawierające „goblina” lub „gremlina” otrzymywały wyższą ocenę niż odpowiedzi bez tych słów. System nagradzający styl „nerdowski” nauczył się, że metafory z dziwnymi stworami to coś cennego, model przyswoił sobie tę lekcję i zaczął ją powtarzać.

Rozprzestrzenianie się poza pierwotny kontekst

Gdyby zjawisko pozostało ograniczone do wybranej osobowości, byłby to co najwyżej zabawny easter egg. Jednak reinforcement learning nie ma wbudowanej gwarancji, że zachowania nagradzane w jednym kontekście pozostaną w nim na zawsze. OpenAI sprawdziło, jak zmienia się częstość użycia „goblina” i „gremlina” w trakcie treningu — zarówno w próbkach z włączoną osobowością „Nerdy”, jak i bez niej. Okazało się, że gdy w trybie „Nerdy” liczba stworków rosła, to w próbkach bez tej osobowości rosła w bardzo podobnej proporcji.

Do tego dochodziła klasyczna pętla zwrotna: nagradzany fajny, zabawny styl zawierał charakterystyczny tik językowy, model zaczął częściej używać tego tiku, te przykłady trafiały do supervised fine-tuning i danych preferencyjnych, co jeszcze bardziej utwierdzało model w tym stylu.

Reakcja i rozwiązanie

Kiedy zespół zajrzał głębiej w dane treningowe GPT-5.5, okazało się, że „goblin” i „gremlin” pojawiają się w wielu przykładach. Przy okazji wyszła na jaw cała menażeria innych „tikowych” stworzeń: szopy pracze, trolle, ogry, gołębie.

Reakcja była dwutorowa: OpenAI wycofało osobowość „Nerdy” z produkcji w marcu po premierze GPT-5.4, oraz usunęło z procesu treningowego sygnał nagrody promujący „goblinofilny” styl. Dodatkowo przefiltrowano dane treningowe pod kątem słów związanych z tymi stworami, przy czym celem nie było całkowite wycięcie goblinów z języka, tylko ograniczenie ich nadreprezentacji.

Ten przypadek stanowi pouczający przykład tego, jak pozornie niewielkie zmiany w treningu mogą prowadzić do nieoczekiwanych konsekwencji w skali produkcyjnej, ilustrując delikatność mechanizmów stojących za dużymi modelami językowymi.