Naukowcy podważają dotychczasowe dowody na samoświadomość AI. Modele mylą manipulacje stanów wewnętrznych z anomaliami w danych wejściowych.

Źródło zdjęcia: arXiv.org
Nowe badania kwestionują powszechne przekonanie o zdolnościach introspekcyjnych dużych modeli językowych. Naukowcy z zespołu Shashwata Singha, Tala Linzena i Shauli Ravfogela opublikowali na arXiv pracę, która podważa dotychczasowe dowody na samoświadomość AI.
Autorzy argumentują, że wcześniejsze badania mogły pomylić rzeczywistą introspekcję z rozpoznawaniem wzorców na podstawie powierzchownych wskazówek. Ich eksperymenty pokazują, że modele często nie potrafią odróżnić manipulacji własnych stanów wewnętrznych od zwykłych zmian w danych wejściowych.
Zespół przeanalizował dwa główne paradygmaty oceny stosowane w dotychczasowych badaniach nad introspektywnością AI. W pierwszym podejściu modele miały wykrywać, czy ich wewnętrzne stany zostały zmanipulowane. Eksperymenty wykazały jednak, że systemy AI nie potrafią rozróżnić takich interwencji od zwykłych manipulacji danych wejściowych.
Drugi paradygmat polegał na przewidywaniu przez modele etykiet pochodzących z ich własnych ukrytych stanów. Badacze odkryli, że zewnętrzne klasyfikatory, które miały dostęp tylko do danych wejściowych, osiągały podobną wydajność jak predykcje modeli oparte na kontekście. To sugeruje, że oryginalne wyniki nie dowodzą uprzywilejowanego dostępu modelu do własnych reprezentacji wewnętrznych.
Naukowcy wprowadzili również kontrolne środowisko z przeetykietowanymi danymi, gdzie modele nie mogą polegać na semantyce zadania i muszą bazować wyłącznie na wewnętrznej reprezentacji. W tej bardziej rygorystycznej wersji testu wyniki modeli zbliżyły się do poziomu przypadku.
Autorzy podkreślają, że ich wnioski bazują na lekcjach z badań nad metakognitywnością człowieka. Aby udowodnić rzeczywistą introspekcję, konieczne jest odróżnienie jej od prostego dopasowywania wzorców opartego na powierzchownych wskazówkach.
Badanie stawia pod znakiem zapytania obecny stan wiedzy o samoświadomości sztucznej inteligencji i wskazuje na potrzebę bardziej rygorystycznych metodologii w przyszłych eksperymentach dotyczących metacognitive monitoring u dużych modeli językowych.

Wispr Flow kosztuje 144 dolary rocznie za AI-transkrypcję. Sprawdzamy najlepsze darmowe alternatywy jak Spokenly czy MacParakeet.

JetPack 7.2 i NemoClaw umożliwiają deployment AI agentowej na urządzeniach brzegowych w robotyce i automatyzacji przemysłowej.

Deweloperzy tak przyzwyczaili się do AI, że odmawiają udziału w badaniach bez niego. Firmy wydają 44% tokenów na naprawę błędów AI.