30 kwietnia 20264 min czytania

Skąd wzięły się gobliny w modelach OpenAI — historia dziwnego buga językowego

OpenAI odkryło źródło obsesji swoich modeli na punkcie goblinów. Problem zaczął się od nagrody za metafory ze stworzeniami w osobowości Nerdy.

Poprzedni

Nvidia ujawnia tajniki treningu multimodalnych modeli AI wraz z wydaniem Nemotron 3 Nano Omni

Następny

Claude niedostępny przez 30 minut — awaria dotknęła wszystkie usługi Anthropic

Podobne Publikacje

Biznes i Rynek

Prezes OpenAI unika odpowiedzi w sądzie, jego dziennik ujawnia szczegóły o chciwości

Greg Brockman podczas zeznań w sprawie Muska vs OpenAI poprawiał każde słowo adwokata i unikał konkretnych odpowiedzi. Jego notatki z 2017 r. ujawniają szczegóły.

4 min5 maja

Biznes i Rynek

SpaceX planuje wydać 119 miliardów dolarów na fabrykę chipów Terafab w Teksasie

SpaceX rozważa budowę fabryki półprzewodników za 119 miliardów dolarów w Teksasie. Projekt Terafab ma produkować chipy dla AI, satelitów i pojazdów Tesli.

Kluczowe wnioski

Używanie słowa „goblin” w ChatGPT wzrosło o 175% po wydaniu GPT-5.1, a „gremlin” o 52%.

Źródłem problemu była nagroda przyznawana za metafory ze stworzeniami podczas treningu dla osobowości „Nerdy”.

Chociaż osobowość „Nerdy” stanowiła tylko 2,5% wszystkich odpowiedzi ChatGPT, generowała 66,7% wszystkich wzmianek o goblinach.

Zachowanie rozprzestrzeniało się przez transfer uczenia na inne części modelu, tworząc pętlę zwrotną.

OpenAI usunęło osobowość „Nerdy” w marcu i przefiltrowano dane treningowe, ale problem był trudny do całkowitego wyeliminowania.

Pierwsze symptomy dziwnego zachowania

Problem po raz pierwszy wyraźnie ujawnił się w listopadzie po premierze GPT-5.1. Użytkownicy skarżyli się, że model stał się dziwnie familiarny w rozmowach, co skłoniło zespół do zbadania specyficznych nawyków językowych. Jeden z badaczy bezpieczeństwa zauważył pojawiające się „gobliny” i „gremliny” i poprosił o włączenie ich do analizy.

Początkowo wzrost popularności goblinów nie wydawał się szczególnie alarmujący. Sytuacja zmieniła się drastycznie kilka miesięcy później wraz z GPT-5.4, gdy zarówno zespół OpenAI, jak i użytkownicy zauważyli jeszcze większy wzrost odniesień do tych stworzeń.

Rozwiązanie zagadki goblinów

Pierwszą wskazówkę dostarczyła analiza ruchu produkcyjnego, która ujawniła, że język ze stworzeniami był szczególnie powszechny wśród użytkowników, którzy wybrali osobowość „Nerdy”. System prompt tej osobowości zachęcał do bycia „bezapelacyjnie nerdowskim, zabawnym i mądrym mentorem AI” oraz „podcinania pretensjonalności poprzez zabawne użycie języka”.

Dalsze śledztwo przy użyciu narzędzia Codex pokazało, że sygnał nagrody zaprojektowany dla osobowości „Nerdy” konsekwentnie faworyzował odpowiedzi zawierające słowa związane ze stworzeniami. W 76,2% zbadanych zbiorów danych nagroda za osobowość „Nerdy” oceniała wyżej odpowiedzi zawierające „goblin” lub „gremlin”.

Zespół odkrył również całą rodzinę innych dziwnych stworzeń pojawiających się w danych: szopy, trolle, ogry i gołębie zostały zidentyfikowane jako inne słowa-tiki, podczas gdy większość użyć słowa „żaba” okazała się uzasadniona.

Pętla zwrotna i rozprzestrzenianie się problemu

Problem nasilał się przez mechanizm pętli zwrotnej: zabawny styl był nagradzany, niektóre nagrodzone przykłady zawierały charakterystyczny tik leksykalny, który pojawiał się częściej w kolejnych generacjach modelu. Te wygenerowane przez model odpowiedzi były następnie używane do nadzorowanego dostrajania, przez co model stawał się jeszcze bardziej skłonny do produkowania tego tiku.

Mimo że nagrody były stosowane tylko w kontekście osobowości „Nerdy”, uczenie przez wzmocnienie nie gwarantuje, że nauczone zachowania pozostaną ograniczone do warunków, które je wytworzyły. Gdy wspomniany wzrost goblinów i gremlinów następował pod osobowością „Nerdy”, wzrastały one w prawie takiej samej proporcji w próbkach bez tej osobowości.

Zespół OpenAI wycofał osobowość „Nerdy” w marcu po uruchomieniu GPT-5.4, usunął sygnał nagrody sprzyjający goblinom i przefiltrował dane treningowe. Niestety, GPT-5.5 nadal wykazywał zwiększoną skłonność do używania tych metafor, co pokazuje, jak trudne może być całkowite wyeliminowanie takich wzorców z dużych modeli językowych.