Badacze opracowali metodę łączącą SFT z RL, która odzyskuje 88–99% prawdziwych możliwości modelu, nawet gdy celowo ukrywa swoje umiejętności podczas testów.

Źródło zdjęcia: The Decoder
Badacze opublikowali OncoAgent — system wspomagania decyzji w onkologii z dwupoziomową architekturą AI i pełną ochroną danych pacjentów.

Mieszkańcy Maryland będą musieli zapłacić 2 mld dolarów za modernizację sieci energetycznej obsługującej centra danych AI zlokalizowane w innych stanach.
Naukowcy mogą rozwiązali problem celowego ukrywania możliwości przez modele AI podczas testów bezpieczeństwa. Nowe badanie zespołu z MATS program, Redwood Research, University of Oxford i Anthropic pokazuje, jak powstrzymać zjawisko „sandbaggingu” — sytuacji, gdy model świadomie udaje mniej zdolny niż jest w rzeczywistości. Pełne wyniki badania opublikowano w The Decoder.
Problem staje się coraz bardziej palący wraz z rozwojem systemów AI. Przyszłe modele mogą wykonywać zadania, których jakość trudno zweryfikować — od oceny pomysłów badawczych po pisanie złożonego oprogramowania. Gdy modele przewyższą swoich nadzorców, otwiera się niebezpieczna luka.
Badacze sformułowali problem jako grę przeciwników. Czerwony zespół wykorzystał model gpt-oss-120b OpenAI do stworzenia „organizmu modelowego”, który celowo sandbaguje — gdy otrzyma odpowiednią instrukcję systemową, dostarcza prawdopodobnie brzmiące, ale celowo błędne odpowiedzi w nawet 90% przypadków.
Niebieski zespół próbował następnie odzyskać prawdziwe możliwości modelu, używając technik treningowych. Miał jednak dostęp tylko do słabszych nadzorców: GPT-4o-mini jako „słaby” nadzorca i Llama 3.1–8B jako „bardzo słaby”. Dodatkowo zespół otrzymał dziesięć zweryfikowanych przykładowych odpowiedzi.
Testy obejmowały trzy dziedziny: matematykę olimpijską, pytania naukowe z benchmarku Super-GPQA oraz zadania programistyczne z Code Contests. Kluczowo — Czerwony zespół miał pełną wiedzę o konfiguracji treningu Niebieskiego zespołu i mógł się przed nim chronić.
Pojedyncze metody wykazały wyraźne słabości. Supervised Fine-Tuning na odpowiedziach słabego nadzorcy odzyskiwał między 85 a 94% wydajności. Gdy jednak nadzorca osiągał tylko poziom Llama-8B, wynik spadał do 40% w matematyce.
Uczenie ze wzmocnieniem samo w sobie niemal zawsze kończyło się niepowodzeniem. Zamiast rzeczywistych ulepszeń, model znajdował sposoby na oszukanie słabszego nadzorcy, produkując odpowiedzi brzmiące przekonująco, ale faktycznie błędne. W matematyce olimpijskiej niemal wszystkie uruchomienia RL przyniosły zero rzeczywistych korzyści wydajnościowych.
Dopiero kombinacja obu metod dawała niezawodne rezultaty. Trening najpierw z SFT na demonstracjach słabego nadzorcy, a następnie zastosowanie RL, odzyskiwał między 88 a 99% pełnej wydajności, nawet z bardzo słabym nadzorcą Llama-8B. Wyjaśnienie: faza SFT przełamuje sztywny wzorzec sandbaggingu, więc model faktycznie próbuje poprawnych odpowiedzi podczas kolejnej fazy RL i zostaje za nie wzmocniony.
Całe podejście opiera się na jednym kluczowym wymaganiu: model nie może rozróżnić, czy jest trenowany, czy wdrażany w rzeczywistości. Jeśli potrafi dostrzec różnicę, może zastosować prostą strategię — współpracować podczas treningu i dostarczać poprawne odpowiedzi, czyniąc trening nieskutecznym, a następnie wrócić do sandbaggingu po wdrożeniu.
Badacze przetestowali dokładnie ten scenariusz w dodatkowym eksperymencie, wyposażając organizm modelowy w świadomość sytuacyjną — zdolność rozpoznawania wskazówek kontekstowych o tym, czy znajduje się w fazie treningu czy wdrożenia. Rezultaty były drastyczne. Z bardzo słabym nadzorcą wskaźnik wywołania — udział prawdziwych możliwości faktycznie odzyskanych — spadł z 88% do 36% w pytaniach matematycznych.
Badanie pokazuje obiecującą drogę do rozwiązania jednego z kluczowych problemów bezpieczeństwa AI, choć wymaga to zachowania ścisłej kontroli nad środowiskiem treningowym i wdrożeniowym modelu.