Badanie pokazuje, że modele AI zdolne do rozumowania wykazują rosnące uprzedzenia pozycyjne proporcjonalnie do długości trajektorii myślenia.

Źródło zdjęcia: arXiv.org
Nowe badanie opublikowane na arXiv ujawnia niepokojącą zależność w modelach AI zdolnych do rozumowania: im dłużej „myślą” nad zadaniem, tym bardziej podatne stają się na błędy związane z pozycją odpowiedzi w pytaniach wielokrotnego wyboru. Odkrycie to podważa powszechne przekonanie, że techniki chain-of-thought (CoT) i modele dostrojone do rozumowania zawsze redukują powierzchowne błędy systematyczne.

Autor seriali dla BBC i Paramount opisuje swoją drugą karierę jako trener sztucznej inteligencji, zmuszony do tego przez kryzys w branży rozrywkowej.
Dane OpenAI za Q1 2026 pokazują, że kobiety stanowią już ponad połowę użytkowników ChatGPT, a największy wzrost adopcji odnotowano w krajach Ameryki Łacińskiej i Afryki.
Badanie przeprowadzone przez Xiao Wang z wykorzystaniem trzynastu konfiguracji modeli rozumujących — w tym DeepSeek-R1 o 671 miliardach parametrów — pokazuje, że pozycyjne uprzedzenie rośnie proporcjonalnie do długości trajektorii rozumowania.
Badacz przetestował modele na zestawach danych MMLU, ARC-Challenge i GPQA, analizując dwie grupy modeli: destylowane z R1 (7–8B parametrów), modele bazowe z promptami CoT oraz pełny DeepSeek-R1. Wszystkie konfiguracje z otwartymi wagami wykazały monotoniczny wzrost PBS w kolejnych kwartylach długości trajektorii.
Kluczowym elementem badania był eksperyment z obcinaniem, gdzie trajektorie rozumowania były przerywane w różnych punktach, a następnie kontynuowane. Wyniki pokazały, że im później w trajektorii następowało wznowienie, tym większa była skłonność modelu do zmiany odpowiedzi na preferowaną pozycyjnie.
Odkrycia sugerują, że modele zdolne do rozumowania nie powinny być domyślnie traktowane jako odporne na kolejność opcji w pytaniach wielokrotnego wyboru. Badanie wykazuje fundamentalną różnicę między uprzedzeniem pozycyjnym w odpowiedziach bezpośrednich a tym występującym w rozumowaniu CoT.
W modelach Llama-Instruct bezpośrednie uprzedzenie pozycyjne było silne, podczas gdy w Qwen-Instruct-direct pozostawało słabe i nie korelowało z długością trajektorii. To wskazuje, że rozumowanie CoT wprowadza nowy typ systematycznego błędu, który zastępuje pierwotne uprzedzenia.
Badanie dostarcza zestawu narzędzi diagnostycznych, w tym Position Bias Score, punkty zmiany zaangażowania, efektywne przełączanie i sondy obcinania, które mogą być wykorzystane do audytu uprzedzeń pozycyjnych w przyszłych modelach rozumujących.