Naukowcy opracowali TUR-DPO — metodę dostrajania modeli językowych, która analizuje nie tylko odpowiedzi, ale także sposób rozumowania AI.

Źródło zdjęcia: arXiv.org

Fińska firma AI QuTwo byłego CEO Silo AI pozyskała 29 mln dolarów przy wycenie 380 mln, budując europejską alternatywę dla amerykańskich gigantów technologicznych.

Amazon dodał do SageMaker AI agenta, który automatyzuje fine-tuning modeli językowych na podstawie opisów w naturalnym języku.
Naukowcy z międzynarodowego zespołu badawczego opublikowali na platformie arXiv pracę prezentującą TUR-DPO — nową metodę optymalizacji preferencji dla dużych modeli językowych. Autorzy z uniwersytetów zaproponowali podejście, które uwzględnia topologię rozumowania i niepewność przy dostrajaniu modeli AI do ludzkich preferencji.
Tradycyjne metody optymalizacji preferencji, takie jak Direct Preference Optimization (DPO), traktują preferencje jako proste sygnały „zwycięzca kontra przegrany” i są wrażliwe na szum w danych. TUR-DPO ma rozwiązać te problemy poprzez analizę nie tylko tego, co model odpowiada, ale także jak dochodzi do swoich wniosków.
Autorzy badania — Abdulhady Abas Abdullah, Fatemeh Daneshfar, Seyedali Mirjalili i Mourad Oussalah — zwracają uwagę na fundamentalną słabość obecnych metod. Podczas gdy DPO jest stabilne i nie wymaga skomplikowanego uczenia ze wzmocnieniem, traktuje preferencje płasko i jest podatne na błędne sygnały pochodzące z niestabilnych łańcuchów rozumowania.
TUR-DPO wprowadza mechanizm analizy lekkich topologii rozumowania, który pozwala modelowi zrozumieć nie tylko końcową odpowiedź, ale całą ścieżkę myślową prowadzącą do niej. Metoda wykorzystuje mały, uczący się system nagród podzielony na różne sygnały, które następnie są włączone do funkcji celu DPO ważonej niepewnością.
Empiryczne testy przeprowadzone na otwartych modelach o rozmiarze 7–8 miliardów parametrów pokazały konsekwentne poprawy w kluczowych metrykach. Badacze testowali metodę na benchmarkach obejmujących rozumowanie matematyczne, odpowiadanie na pytania faktograficzne, podsumowywanie tekstów oraz prowadzenie dialogów zorientowanych na pomocność i bezpieczeństwo.
Szczególnie obiecujące są wyniki w kontekstach multimodalnych i długoterminowych, gdzie TUR-DPO wykazuje stabilne korzyści. Metoda zachowuje prostotę treningu charakterystyczną dla DPO, unikając jednocześnie konieczności przeprowadzania skomplikowanych rolloutów online typowych dla metod opartych na uczeniu ze wzmocnieniem.
Praca zostanie zaprezentowana na 43. Międzynarodowej Konferencji Machine Learning (ICML 2026), co potwierdza jej znaczenie dla społeczności badawczej zajmującej się dostrajaniem modeli AI do ludzkich preferencji.