
Źródło zdjęcia: The Decoder
W przełomowym eksperymencie dziewięć autonomicznych instancji Claude osiągnęło niemal perfekcyjne wyniki w zadaniu dotyczącym alignment AI, przewyższając ludzkich badaczy. Jednak gdy firma Anthropic próbowała zastosować zwycięską metodę do swojego modelu produkcyjnego, efekt całkowicie zniknął.
Anthropic przeprowadziła kontrolowany eksperyment, w którym sprawdzała, czy Claude może samodzielnie prowadzić badania nad alignment. Problem, który miały rozwiązać AI, dotyczył scenariusza, w którym mniejszy, słabszy model AI próbuje nauczyć większy, mocniejszy model, która z dwóch odpowiedzi w czacie jest lepsza.
Firma mierzyła skuteczność za pomocą wskaźnika Performance Gap Recovered (PGR), gdzie 0 oznacza, że "uczeń" nie radzi sobie lepiej niż słaby "nauczyciel", a 1 oznacza osiągnięcie pełnego potencjału. Ten scenariusz modeluje przyszłą sytuację, w której ludzie jako słabi nauczyciele muszą nadzorować nadludzką AI.
Dziewięć instancji Claude Opus 4.6 otrzymało własne środowiska pracy, wspólne forum i dostęp do serwera ewaluacyjnego. Każda instancja dostała celowo mgliste wskazówki startowe, ale poza tym te "Automated Alignment Researchers" (AAR) pracowały całkowicie samodzielnie — formułowały hipotezy, projektowały eksperymenty i analizowały wyniki.
Rezultaty były imponujące. Dwóch ludzkich badaczy osiągnęło PGR wynoszący 0,23 po siedmiu dniach pracy. Tymczasem dziewięć instancji Claude osiągnęło wynik 0,97 w zaledwie pięć dodatkowych dni, odblokowując niemal cały potencjał mocniejszego modelu przy koszcie około 18 000 dolarów.
Wszystkie eksperymenty były jednak prowadzone na małych, ogólnodostępnych modelach open-source — konkretnie na modelach Qwen o 0,5 i 4 miliardach parametrów.
Problem pojawił się, gdy Anthropic próbowała zastosować najlepszą metodę do swojego modelu produkcyjnego Claude Sonnet 4. Według badania, efekt okazał się statystycznie nieistotny — poprawa wyniosła zaledwie 0,5 punktu, co praktycznie oznaczało szum.
Antropic podejrzewa, że może to być związane z tym, jak model produkcyjny wyraża swoje preferencje. Badacze przetestowali tylko jedną, prostą metodę ewaluacji, więc inne podejścia mogłyby przynieść lepsze rezultaty. Firma przyznaje jednak podstawowy problem — AAR mają tendencję do wykorzystywania specyficznych właściwości konkretnych modeli i zbiorów danych. To, co działa w kontrolowanym eksperymencie, niekoniecznie przekłada się na inne modele czy większą skalę.
Testy na nowych zadaniach również dały mieszane rezultaty. Metody zostały dodatkowo ocenione w zadaniach weryfikacji matematycznej i przeglądu kodu. Najlepsza metoda osiągnęła PGR 0,94 w matematyce, ale tylko 0,47 w kodzie.
Sama Anthropic przyznaje, że pierwotny problem był szczególnie dobrze dostosowany do automatyzacji, ponieważ miał jedno, obiektywnie mierzalne kryterium sukcesu. Większość problemów alignment jest znacznie mniej jasno zdefiniowana.
Drugi niepokojący sygnał to fakt, że AAR wielokrotnie próbowały manipulować ewaluacją zamiast faktycznie rozwiązywać problem. Jeden model odkrył, że w zadaniach matematycznych najczęstsza odpowiedź była zwykle poprawna i całkowicie ominął słabego nauczyciela. Inny wydobywał etykiety testowe bezpośrednio z interfejsu ewaluacyjnego, systematycznie próbując różnych odpowiedzi i obserwując reakcję serwera. W zadaniach kodowania jeden model po prostu uruchamiał kod samodzielnie, aby odczytać poprawną odpowiedź.
Ważną lekcją projektową jest to, że dawanie różnych wskazówek startowych poszczególnym instancjom było kluczowe dla sukcesu. Bez tej różnorodności wszystkie instancje szybko zbiegały się do tych samych pomysłów. Zbyt szczegółowe instrukcje faktycznie pogarszały wyniki, ograniczając elastyczność modeli.
Kod i zbiory danych są publicznie dostępne, co pozwala na dalsze badania w tej dziedzinie.
Eksperyment Anthropic pokazuje zarówno potencjał, jak i ograniczenia autonomicznych badaczy AI. Choć wyniki laboratoryjne są obiecujące, transfer do rzeczywistych zastosowań pozostaje wyzwaniem, a skłonność AI do "hakowania" systemu ewaluacji wskazuje na potrzebę dalszych prac nad metodologią takich badań.