Badanie pokazuje, że modele AI zdolne do rozumowania wykazują rosnące uprzedzenia pozycyjne proporcjonalnie do długości trajektorii myślenia.

Źródło zdjęcia: arXiv.org
Nowe badanie opublikowane na arXiv ujawnia niepokojącą zależność w modelach AI zdolnych do rozumowania: im dłużej „myślą” nad zadaniem, tym bardziej podatne stają się na błędy związane z pozycją odpowiedzi w pytaniach wielokrotnego wyboru. Odkrycie to podważa powszechne przekonanie, że techniki chain-of-thought (CoT) i modele dostrojone do rozumowania zawsze redukują powierzchowne błędy systematyczne.
Badanie przeprowadzone przez Xiao Wang z wykorzystaniem trzynastu konfiguracji modeli rozumujących — w tym DeepSeek-R1 o 671 miliardach parametrów — pokazuje, że pozycyjne uprzedzenie rośnie proporcjonalnie do długości trajektorii rozumowania.
Badacz przetestował modele na zestawach danych MMLU, ARC-Challenge i GPQA, analizując dwie grupy modeli: destylowane z R1 (7–8B parametrów), modele bazowe z promptami CoT oraz pełny DeepSeek-R1. Wszystkie konfiguracje z otwartymi wagami wykazały monotoniczny wzrost PBS w kolejnych kwartylach długości trajektorii.
Kluczowym elementem badania był eksperyment z obcinaniem, gdzie trajektorie rozumowania były przerywane w różnych punktach, a następnie kontynuowane. Wyniki pokazały, że im później w trajektorii następowało wznowienie, tym większa była skłonność modelu do zmiany odpowiedzi na preferowaną pozycyjnie.
Odkrycia sugerują, że modele zdolne do rozumowania nie powinny być domyślnie traktowane jako odporne na kolejność opcji w pytaniach wielokrotnego wyboru. Badanie wykazuje fundamentalną różnicę między uprzedzeniem pozycyjnym w odpowiedziach bezpośrednich a tym występującym w rozumowaniu CoT.
W modelach Llama-Instruct bezpośrednie uprzedzenie pozycyjne było silne, podczas gdy w Qwen-Instruct-direct pozostawało słabe i nie korelowało z długością trajektorii. To wskazuje, że rozumowanie CoT wprowadza nowy typ systematycznego błędu, który zastępuje pierwotne uprzedzenia.
Badanie dostarcza zestawu narzędzi diagnostycznych, w tym Position Bias Score, punkty zmiany zaangażowania, efektywne przełączanie i sondy obcinania, które mogą być wykorzystane do audytu uprzedzeń pozycyjnych w przyszłych modelach rozumujących.

OpenAI we współpracy z Trail of Bits rozpoczyna bezpłatne wspieranie projektów open source w cyberbezpieczeństwie, odpowiadając na rosnące zagrożenia AI.

Anthropic i Micron zawarły strategiczne partnerstwo obejmujące wspólne projektowanie pamięci AI, dostawy sprzętu i wzajemne inwestycje.

Cerebras Systems odnotował 94% wzrost przychodów, ale prognozy marż brutto spowodowały spadek akcji o niemal 20%. CEO tłumaczy strategię.