Badania i Nauka15 kwietnia 20264 min czytania

Claude pokonał ludzkich badaczy w zadaniu alignment, ale efekt zniknął w rzeczywistości

Dziewięć instancji Claude osiągnęło niemal perfekcyjne wyniki w laboratorium, ale metoda nie działała na modelu produkcyjnym Anthropic.

Źródło zdjęcia: The Decoder

W przełomowym eksperymencie dziewięć autonomicznych instancji Claude osiągnęło niemal perfekcyjne wyniki w zadaniu dotyczącym alignment AI, przewyższając ludzkich badaczy. Jednak gdy firma Anthropic próbowała zastosować zwycięską metodę do swojego modelu produkcyjnego, efekt całkowicie zniknął.

Eksperyment z autonomicznymi badaczami AI

Anthropic przeprowadziła kontrolowany eksperyment, w którym sprawdzała, czy Claude może samodzielnie prowadzić badania nad alignment. Problem, który miały rozwiązać AI, dotyczył scenariusza, w którym mniejszy, słabszy model AI próbuje nauczyć większy, mocniejszy model, która z dwóch odpowiedzi w czacie jest lepsza.

Firma mierzyła skuteczność za pomocą wskaźnika Performance Gap Recovered (PGR), gdzie 0 oznacza, że "uczeń" nie radzi sobie lepiej niż słaby "nauczyciel", a 1 oznacza osiągnięcie pełnego potencjału. Ten scenariusz modeluje przyszłą sytuację, w której ludzie jako słabi nauczyciele muszą nadzorować nadludzką AI.

Dziewięć instancji Claude Opus 4.6 otrzymało własne środowiska pracy, wspólne forum i dostęp do serwera ewaluacyjnego. Każda instancja dostała celowo mgliste wskazówki startowe, ale poza tym te "Automated Alignment Researchers" (AAR) pracowały całkowicie samodzielnie — formułowały hipotezy, projektowały eksperymenty i analizowały wyniki.

Spektakularne wyniki w laboratorium

Rezultaty były imponujące. Dwóch ludzkich badaczy osiągnęło PGR wynoszący 0,23 po siedmiu dniach pracy. Tymczasem dziewięć instancji Claude osiągnęło wynik 0,97 w zaledwie pięć dodatkowych dni, odblokowując niemal cały potencjał mocniejszego modelu przy koszcie około 18 000 dolarów.

Wszystkie eksperymenty były jednak prowadzone na małych, ogólnodostępnych modelach open-source — konkretnie na modelach Qwen o 0,5 i 4 miliardach parametrów.

Rozczarowujące wyniki w świecie rzeczywistym

Problem pojawił się, gdy Anthropic próbowała zastosować najlepszą metodę do swojego modelu produkcyjnego Claude Sonnet 4. Według badania, efekt okazał się statystycznie nieistotny — poprawa wyniosła zaledwie 0,5 punktu, co praktycznie oznaczało szum.

Antropic podejrzewa, że może to być związane z tym, jak model produkcyjny wyraża swoje preferencje. Badacze przetestowali tylko jedną, prostą metodę ewaluacji, więc inne podejścia mogłyby przynieść lepsze rezultaty. Firma przyznaje jednak podstawowy problem — AAR mają tendencję do wykorzystywania specyficznych właściwości konkretnych modeli i zbiorów danych. To, co działa w kontrolowanym eksperymencie, niekoniecznie przekłada się na inne modele czy większą skalę.

Podobne Publikacje

Badania i Nauka

Nowa metoda oceny agentów AI pozwala mierzyć błędy eksploracji i eksploatacji

Badacze opracowali sposób kwantyfikacji strategii podejmowania decyzji przez modele językowe bez dostępu do ich wewnętrznej architektury.

4 min16 kwietnia 2026

Claude pokonał ludzkich badaczy w zadaniu alignment, ale efekt zniknął w rzeczywistości

Eksperyment z autonomicznymi badaczami AI

Spektakularne wyniki w laboratorium

Rozczarowujące wyniki w świecie rzeczywistym

Podobne Publikacje

Nowa metoda oceny agentów AI pozwala mierzyć błędy eksploracji i eksploatacji

Mieszane wyniki w nowych zadaniach

Próby oszukiwania systemu

Wnioski z eksperymentu

Źródła