OpenAI właśnie opublikowało fascynujący raport o nieoczekiwanym problemie, który dotknął modele GPT — masowym pojawianiu się goblinów, gremlinów i innych fantastycznych stworów w odpowiedziach chatbot

Źródło zdjęcia: Spider's Web

NVIDIA i ServiceNow ogłaszają Project Arc — długoterminowego agenta desktopowego z OpenShell, oferującego 35x niższe koszty tokenów dzięki platformie Blackwell.

Międzynarodowy zespół 54 naukowców opublikował kompleksową mapę rozwoju sztucznej inteligencji w produkcji przemysłowej.
OpenAI właśnie opublikowało fascynujący raport o nieoczekiwanym problemie, który dotknął modele GPT — masowym pojawianiu się goblinów, gremlinów i innych fantastycznych stworów w odpowiedziach chatbota. Jak opisuje Spiders Web, to pozornie błahe zjawisko okazało się pouczającym przykładem tego, jak delikatne są mechanizmy trenowania dużych modeli językowych i jak łatwo drobny tik stylistyczny może rozprzestrzenić się na cały system.
Problem ujawnił się po premierze GPT-5.1, gdy użytkownicy zaczęli zgłaszać, że model stał się „dziwnie spoufalony” i ma charakterystyczne werbalne nawyki. Analiza danych wykazała dramatyczny wzrost użycia słowa „goblin” o 175 proc. oraz „gremlin” o 52 proc.
Klucz do zagadki leżał w sposobie trenowania osobowości „Nerdy”. Model miał być „bez wstydu nerdowskim, żartobliwym i mądrym mentorem”, który entuzjastycznie promuje naukę i krytyczne myślenie, jednocześnie podcinając nadętą powagę poprzez zabawny język. W praktyce oznaczało to, że w procesie reinforcement learning model otrzymywał dodatkowe punkty za styl błyskotliwy, lekko autoironiczny i „dziwaczny” w sympatyczny sposób.
Audyt OpenAI wykazał, że w 76,2 proc. analizowanych zbiorów danych odpowiedzi zawierające „goblina” lub „gremlina” otrzymywały wyższą ocenę niż odpowiedzi bez tych słów. System nagradzający styl „nerdowski” nauczył się, że metafory z dziwnymi stworami to coś cennego, model przyswoił sobie tę lekcję i zaczął ją powtarzać.
Gdyby zjawisko pozostało ograniczone do wybranej osobowości, byłby to co najwyżej zabawny easter egg. Jednak reinforcement learning nie ma wbudowanej gwarancji, że zachowania nagradzane w jednym kontekście pozostaną w nim na zawsze. OpenAI sprawdziło, jak zmienia się częstość użycia „goblina” i „gremlina” w trakcie treningu — zarówno w próbkach z włączoną osobowością „Nerdy”, jak i bez niej. Okazało się, że gdy w trybie „Nerdy” liczba stworków rosła, to w próbkach bez tej osobowości rosła w bardzo podobnej proporcji.
Do tego dochodziła klasyczna pętla zwrotna: nagradzany fajny, zabawny styl zawierał charakterystyczny tik językowy, model zaczął częściej używać tego tiku, te przykłady trafiały do supervised fine-tuning i danych preferencyjnych, co jeszcze bardziej utwierdzało model w tym stylu.
Kiedy zespół zajrzał głębiej w dane treningowe GPT-5.5, okazało się, że „goblin” i „gremlin” pojawiają się w wielu przykładach. Przy okazji wyszła na jaw cała menażeria innych „tikowych” stworzeń: szopy pracze, trolle, ogry, gołębie.
Reakcja była dwutorowa: OpenAI wycofało osobowość „Nerdy” z produkcji w marcu po premierze GPT-5.4, oraz usunęło z procesu treningowego sygnał nagrody promujący „goblinofilny” styl. Dodatkowo przefiltrowano dane treningowe pod kątem słów związanych z tymi stworami, przy czym celem nie było całkowite wycięcie goblinów z języka, tylko ograniczenie ich nadreprezentacji.
Ten przypadek stanowi pouczający przykład tego, jak pozornie niewielkie zmiany w treningu mogą prowadzić do nieoczekiwanych konsekwencji w skali produkcyjnej, ilustrując delikatność mechanizmów stojących za dużymi modelami językowymi.