27 maja 20263 min czytania

Nowe badania kwestionują zdolności introspekcyjne dużych modeli językowych

Naukowcy podważają dotychczasowe dowody na samoświadomość AI. Modele mylą manipulacje stanów wewnętrznych z anomaliami w danych wejściowych.

Źródło zdjęcia: arXiv.org

Nowe badania kwestionują powszechne przekonanie o zdolnościach introspekcyjnych dużych modeli językowych. Naukowcy z zespołu Shashwata Singha, Tala Linzena i Shauli Ravfogela opublikowali na arXiv pracę, która podważa dotychczasowe dowody na samoświadomość AI.

Autorzy argumentują, że wcześniejsze badania mogły pomylić rzeczywistą introspekcję z rozpoznawaniem wzorców na podstawie powierzchownych wskazówek. Ich eksperymenty pokazują, że modele często nie potrafią odróżnić manipulacji własnych stanów wewnętrznych od zwykłych zmian w danych wejściowych.

Kluczowe wnioski

Modele językowe nie potrafią niezawodnie wykryć ingerencji w swoje stany wewnętrzne, mylą je z anomaliami w danych wejściowych.
Klasyfikatory oparte wyłącznie na inputach osiągają podobną wydajność do predykcji modeli opartych na własnych reprezentacjach wewnętrznych.
W kontrolowanych eksperymentach, gdzie modele nie mogą polegać na semantyce zadania, ich wyniki spadają do poziomu przypadku.
Dowody behawioralne same w sobie są niewystarczające do udowodnienia zdolności introspekcyjnych AI.
Obecne badania nie dostarczają przekonujących dowodów na metacognitive monitoring u LLM-ów.

Metodologia badań

Zespół przeanalizował dwa główne paradygmaty oceny stosowane w dotychczasowych badaniach nad introspektywnością AI. W pierwszym podejściu modele miały wykrywać, czy ich wewnętrzne stany zostały zmanipulowane. Eksperymenty wykazały jednak, że systemy AI nie potrafią rozróżnić takich interwencji od zwykłych manipulacji danych wejściowych.

Drugi paradygmat polegał na przewidywaniu przez modele etykiet pochodzących z ich własnych ukrytych stanów. Badacze odkryli, że zewnętrzne klasyfikatory, które miały dostęp tylko do danych wejściowych, osiągały podobną wydajność jak predykcje modeli oparte na kontekście. To sugeruje, że oryginalne wyniki nie dowodzą uprzywilejowanego dostępu modelu do własnych reprezentacji wewnętrznych.

Implikacje dla przyszłych badań

Naukowcy wprowadzili również kontrolne środowisko z przeetykietowanymi danymi, gdzie modele nie mogą polegać na semantyce zadania i muszą bazować wyłącznie na wewnętrznej reprezentacji. W tej bardziej rygorystycznej wersji testu wyniki modeli zbliżyły się do poziomu przypadku.

Autorzy podkreślają, że ich wnioski bazują na lekcjach z badań nad metakognitywnością człowieka. Aby udowodnić rzeczywistą introspekcję, konieczne jest odróżnienie jej od prostego dopasowywania wzorców opartego na powierzchownych wskazówkach.

Badanie stawia pod znakiem zapytania obecny stan wiedzy o samoświadomości sztucznej inteligencji i wskazuje na potrzebę bardziej rygorystycznych metodologii w przyszłych eksperymentach dotyczących metacognitive monitoring u dużych modeli językowych.

#introspekcja AI #LLM #samoświadomość AI #badania naukowe #metacognitive monitoring

Udostępnij

Źródła

arXiv AI

Poprzedni

BrickAnything: AI przekształca obiekty 3D w fizycznie wykonalne konstrukcje z klocków

Następny

Najlepsze modele AI osiągają poniżej 50% w pierwszym benchmarku zadań IT przedsiębiorstw

Podobne Publikacje

Badania i Nauka

Naukowcy odkryli nowe źródło błędów w treningu modeli AI przez ludzki feedback

Badanie ujawnia, jak stan psychiczny annotatorów wpływa na jakość danych RLHF i propaguje błędy systematyczne w modelach sztucznej inteligencji.

4 min21 lipca

Modele AI

Google rozwija chip Frozen v2 z wbudowaną architekturą Gemini dla wyższej wydajności

Nowy procesor Google'a ma być 6–10 razy bardziej wydajny od TPU dzięki wbudowanej architekturze Gemini bezpośrednio w krzem. Wdrożenie planowane od 2028 roku.

3 min21 lipca

Etyka i Bezpieczeństwo

Sony pozywa Udio za naruszenie praw autorskich do 30 tysięcy utworów

Sony Music Entertainment złożył pozew przeciwko generatorowi muzyki AI Udio za naruszenie praw autorskich do ponad 30 tys. utworów, w tym hitów Beyoncé i Harry'ego Stylesa.

4 min21 lipca

27 maja 20263 min czytania

Nowe badania kwestionują zdolności introspekcyjne dużych modeli językowych

Naukowcy podważają dotychczasowe dowody na samoświadomość AI. Modele mylą manipulacje stanów wewnętrznych z anomaliami w danych wejściowych.

Źródło zdjęcia: arXiv.org

Kluczowe wnioski

Modele językowe nie potrafią niezawodnie wykryć ingerencji w swoje stany wewnętrzne, mylą je z anomaliami w danych wejściowych.
Klasyfikatory oparte wyłącznie na inputach osiągają podobną wydajność do predykcji modeli opartych na własnych reprezentacjach wewnętrznych.
W kontrolowanych eksperymentach, gdzie modele nie mogą polegać na semantyce zadania, ich wyniki spadają do poziomu przypadku.
Dowody behawioralne same w sobie są niewystarczające do udowodnienia zdolności introspekcyjnych AI.
Obecne badania nie dostarczają przekonujących dowodów na metacognitive monitoring u LLM-ów.

Metodologia badań

Implikacje dla przyszłych badań

#introspekcja AI #LLM #samoświadomość AI #badania naukowe #metacognitive monitoring

Udostępnij

Źródła

arXiv AI

Poprzedni

BrickAnything: AI przekształca obiekty 3D w fizycznie wykonalne konstrukcje z klocków

Następny

Najlepsze modele AI osiągają poniżej 50% w pierwszym benchmarku zadań IT przedsiębiorstw

Podobne Publikacje

Badania i Nauka

Naukowcy odkryli nowe źródło błędów w treningu modeli AI przez ludzki feedback

Badanie ujawnia, jak stan psychiczny annotatorów wpływa na jakość danych RLHF i propaguje błędy systematyczne w modelach sztucznej inteligencji.

4 min21 lipca

Modele AI

Google rozwija chip Frozen v2 z wbudowaną architekturą Gemini dla wyższej wydajności

Nowy procesor Google'a ma być 6–10 razy bardziej wydajny od TPU dzięki wbudowanej architekturze Gemini bezpośrednio w krzem. Wdrożenie planowane od 2028 roku.

3 min21 lipca

Etyka i Bezpieczeństwo

Sony pozywa Udio za naruszenie praw autorskich do 30 tysięcy utworów

Sony Music Entertainment złożył pozew przeciwko generatorowi muzyki AI Udio za naruszenie praw autorskich do ponad 30 tys. utworów, w tym hitów Beyoncé i Harry'ego Stylesa.

4 min21 lipca