OpenAI odkryło źródło obsesji swoich modeli na punkcie goblinów. Problem zaczął się od nagrody za metafory ze stworzeniami w osobowości Nerdy.

Greg Brockman podczas zeznań w sprawie Muska vs OpenAI poprawiał każde słowo adwokata i unikał konkretnych odpowiedzi. Jego notatki z 2017 r. ujawniają szczegóły.

SpaceX rozważa budowę fabryki półprzewodników za 119 miliardów dolarów w Teksasie. Projekt Terafab ma produkować chipy dla AI, satelitów i pojazdów Tesli.
Zespół OpenAI odkrył tajemnicę dziwnego zachowania swoich modeli AI, które zaczęły obsesyjnie używać metafor z goblinami i innymi stworzeniami w swoich odpowiedziach. Jak wyjaśniono w oficjalnym poście na blogu, problem nasilał się z każdą kolejną wersją modelu, począwszy od GPT-5.1.
Problem po raz pierwszy wyraźnie ujawnił się w listopadzie po premierze GPT-5.1. Użytkownicy skarżyli się, że model stał się dziwnie familiarny w rozmowach, co skłoniło zespół do zbadania specyficznych nawyków językowych. Jeden z badaczy bezpieczeństwa zauważył pojawiające się „gobliny” i „gremliny” i poprosił o włączenie ich do analizy.
Początkowo wzrost popularności goblinów nie wydawał się szczególnie alarmujący. Sytuacja zmieniła się drastycznie kilka miesięcy później wraz z GPT-5.4, gdy zarówno zespół OpenAI, jak i użytkownicy zauważyli jeszcze większy wzrost odniesień do tych stworzeń.
Pierwszą wskazówkę dostarczyła analiza ruchu produkcyjnego, która ujawniła, że język ze stworzeniami był szczególnie powszechny wśród użytkowników, którzy wybrali osobowość „Nerdy”. System prompt tej osobowości zachęcał do bycia „bezapelacyjnie nerdowskim, zabawnym i mądrym mentorem AI” oraz „podcinania pretensjonalności poprzez zabawne użycie języka”.
Dalsze śledztwo przy użyciu narzędzia Codex pokazało, że sygnał nagrody zaprojektowany dla osobowości „Nerdy” konsekwentnie faworyzował odpowiedzi zawierające słowa związane ze stworzeniami. W 76,2% zbadanych zbiorów danych nagroda za osobowość „Nerdy” oceniała wyżej odpowiedzi zawierające „goblin” lub „gremlin”.
Zespół odkrył również całą rodzinę innych dziwnych stworzeń pojawiających się w danych: szopy, trolle, ogry i gołębie zostały zidentyfikowane jako inne słowa-tiki, podczas gdy większość użyć słowa „żaba” okazała się uzasadniona.
Problem nasilał się przez mechanizm pętli zwrotnej: zabawny styl był nagradzany, niektóre nagrodzone przykłady zawierały charakterystyczny tik leksykalny, który pojawiał się częściej w kolejnych generacjach modelu. Te wygenerowane przez model odpowiedzi były następnie używane do nadzorowanego dostrajania, przez co model stawał się jeszcze bardziej skłonny do produkowania tego tiku.
Mimo że nagrody były stosowane tylko w kontekście osobowości „Nerdy”, uczenie przez wzmocnienie nie gwarantuje, że nauczone zachowania pozostaną ograniczone do warunków, które je wytworzyły. Gdy wspomniany wzrost goblinów i gremlinów następował pod osobowością „Nerdy”, wzrastały one w prawie takiej samej proporcji w próbkach bez tej osobowości.
Zespół OpenAI wycofał osobowość „Nerdy” w marcu po uruchomieniu GPT-5.4, usunął sygnał nagrody sprzyjający goblinom i przefiltrował dane treningowe. Niestety, GPT-5.5 nadal wykazywał zwiększoną skłonność do używania tych metafor, co pokazuje, jak trudne może być całkowite wyeliminowanie takich wzorców z dużych modeli językowych.