4 maja 20264 min czytania

TUR-DPO: Nowa metoda optymalizacji modeli AI uwzględnia topologię rozumowania

Naukowcy opracowali TUR-DPO — metodę dostrajania modeli językowych, która analizuje nie tylko odpowiedzi, ale także sposób rozumowania AI.

Źródło zdjęcia: arXiv.org

Poprzedni

Nowa metoda LOCA wyjaśnia, jak działają ataki jailbreak na modele AI

Następny

ARMOR 2025: pierwszy benchmark testujący bezpieczeństwo AI w zastosowaniach wojskowych

Podobne Publikacje

Biznes i Rynek

QuTwo Petera Sarlina osiągnęła wycenę 380 mln dolarów w rundzie angel

Fińska firma AI QuTwo byłego CEO Silo AI pozyskała 29 mln dolarów przy wycenie 380 mln, budując europejską alternatywę dla amerykańskich gigantów technologicznych.

4 min6 maja

Narzędzia i Aplikacje

Amazon wprowadza agenta AI do SageMaker z wsparciem dla Llama, Qwen i Deepseek

Amazon dodał do SageMaker AI agenta, który automatyzuje fine-tuning modeli językowych na podstawie opisów w naturalnym języku.

3 min

Kluczowe wnioski

TUR-DPO wprowadza analizę topologii rozumowania, łącząc wierność semantyczną, użyteczność i jakość struktury myślenia w skalibrowany sygnał niepewności.

Metoda pozostaje wolna od uczenia ze wzmocnieniem (RL-free), zachowując prostotę treningu przy wykorzystaniu tylko stałej lub ruchomej polityki referencyjnej.

Testy na modelach 7–8B parametrów wykazały poprawę wskaźników wygranych, wierności i kalibracji w porównaniu do standardowego DPO.

Badania objęły różnorodne zadania: rozumowanie matematyczne, odpowiadanie na pytania faktograficzne, podsumowywanie i dialog pomocny/nieszkodliwy.

TUR-DPO dorównuje lub przewyższa Proximal Policy Optimization (PPO) w zadaniach wymagających rozumowania, zachowując przy tym prostotę operacyjną.

Innowacja w podejściu do preferencji

Autorzy badania — Abdulhady Abas Abdullah, Fatemeh Daneshfar, Seyedali Mirjalili i Mourad Oussalah — zwracają uwagę na fundamentalną słabość obecnych metod. Podczas gdy DPO jest stabilne i nie wymaga skomplikowanego uczenia ze wzmocnieniem, traktuje preferencje płasko i jest podatne na błędne sygnały pochodzące z niestabilnych łańcuchów rozumowania.

TUR-DPO wprowadza mechanizm analizy lekkich topologii rozumowania, który pozwala modelowi zrozumieć nie tylko końcową odpowiedź, ale całą ścieżkę myślową prowadzącą do niej. Metoda wykorzystuje mały, uczący się system nagród podzielony na różne sygnały, które następnie są włączone do funkcji celu DPO ważonej niepewnością.

Wyniki badań i zastosowania

Empiryczne testy przeprowadzone na otwartych modelach o rozmiarze 7–8 miliardów parametrów pokazały konsekwentne poprawy w kluczowych metrykach. Badacze testowali metodę na benchmarkach obejmujących rozumowanie matematyczne, odpowiadanie na pytania faktograficzne, podsumowywanie tekstów oraz prowadzenie dialogów zorientowanych na pomocność i bezpieczeństwo.

Szczególnie obiecujące są wyniki w kontekstach multimodalnych i długoterminowych, gdzie TUR-DPO wykazuje stabilne korzyści. Metoda zachowuje prostotę treningu charakterystyczną dla DPO, unikając jednocześnie konieczności przeprowadzania skomplikowanych rolloutów online typowych dla metod opartych na uczeniu ze wzmocnieniem.

Praca zostanie zaprezentowana na 43. Międzynarodowej Konferencji Machine Learning (ICML 2026), co potwierdza jej znaczenie dla społeczności badawczej zajmującej się dostrajaniem modeli AI do ludzkich preferencji.