Badacze opracowali RETD — algorytm eliminujący niestabilność w uczeniu temporalnych różnic przy zachowaniu korzystnej geometrii emfatycznej.

Źródło zdjęcia: arXiv.org
Międzynarodowy zespół badaczy z Xingguo Chen na czele opublikował nową metodę uczenia maszynowego o nazwie RETD (Regularized Emphatic Temporal-Difference Learning), która rozwiązuje kluczowy problem w algorytmach off-policy uczenia ze wzmocnieniem. Badanie zostało opublikowane na w maju 2026 roku.

Anthropic przejmuje centrum danych Colossus 1 od xAI, co budzi wątpliwości co do strategii Muska i przygotowań do IPO SpaceX.

Chiński model Ernie 5.1 osiąga wyniki konkurencyjne z najlepszymi AI przy 94% niższych kosztach trenowania. Wykorzystuje innowacyjny pipeline.
Nowa metoda adresuje strukturalny kompromis między stabilnością, geometrią projekcji i kontrolą wariancji w uczeniu temporalnych różnic (TD) z aproksymacją funkcji. Problem ten dotyka fundamentów nowoczesnych systemów sztucznej inteligencji wykorzystujących uczenie ze wzmocnieniem.
Emphatic TD (ETD) poprawia geometrię projekcji off-policy poprzez nacisk typu follow-on, jednak ślad follow-on może charakteryzować się wysoką wariancją. Zespół badawczy ponownie przeanalizował ten kompromis przez pryzmat centrowania błędu Bellmana.
Chociaż centrowanie naturalnie usuwa wspólny składnik dryfu z błędów TD, naukowcy wykazali, że naiwne centrowane rozszerzenie emfatyczne wprowadza pomocnicze sprzężenie, które może zniszczyć pozytywną określoność kluczowej macierzy ETD. To odkrycie stanowi podstawę dla opracowania metody RETD.
Autorzy wyprowadzili macierz rdzeniową RETD i udowodnili zbieżność przy konserwatywnym warunku wystarczającej regularyzacji. Metoda została oceniona na diagnostycznych liniowych zadaniach predykcji off-policy, które stanowią standardowy benchmark w tej dziedzinie.
Eksperymenty pokazały, że RETD skutecznie unika niestabilności charakterystycznej dla naiwnego centrowanego uczenia emfatycznego. Jednocześnie zachowuje korzystną geometrię emfatyczną i wykazuje robustny pośredni reżim dla parametru regularyzacji c we wszystkich przeprowadzonych diagnostykach.
Badanie reprezentuje znaczący postęp w rozumieniu i implementacji algorytmów uczenia ze wzmocnieniem off-policy, oferując praktyczne rozwiązanie długotrwałego problemu w tej dziedzinie sztucznej inteligencji.