Badacze opracowali RETD — algorytm eliminujący niestabilność w uczeniu temporalnych różnic przy zachowaniu korzystnej geometrii emfatycznej.

Źródło zdjęcia: arXiv.org
Międzynarodowy zespół badaczy z Xingguo Chen na czele opublikował nową metodę uczenia maszynowego o nazwie RETD (Regularized Emphatic Temporal-Difference Learning), która rozwiązuje kluczowy problem w algorytmach off-policy uczenia ze wzmocnieniem. Badanie zostało opublikowane na platformie arXiv w maju 2026 roku.
Nowa metoda adresuje strukturalny kompromis między stabilnością, geometrią projekcji i kontrolą wariancji w uczeniu temporalnych różnic (TD) z aproksymacją funkcji. Problem ten dotyka fundamentów nowoczesnych systemów sztucznej inteligencji wykorzystujących uczenie ze wzmocnieniem.
Emphatic TD (ETD) poprawia geometrię projekcji off-policy poprzez nacisk typu follow-on, jednak ślad follow-on może charakteryzować się wysoką wariancją. Zespół badawczy ponownie przeanalizował ten kompromis przez pryzmat centrowania błędu Bellmana.
Chociaż centrowanie naturalnie usuwa wspólny składnik dryfu z błędów TD, naukowcy wykazali, że naiwne centrowane rozszerzenie emfatyczne wprowadza pomocnicze sprzężenie, które może zniszczyć pozytywną określoność kluczowej macierzy ETD. To odkrycie stanowi podstawę dla opracowania metody RETD.
Autorzy wyprowadzili macierz rdzeniową RETD i udowodnili zbieżność przy konserwatywnym warunku wystarczającej regularyzacji. Metoda została oceniona na diagnostycznych liniowych zadaniach predykcji off-policy, które stanowią standardowy benchmark w tej dziedzinie.
Eksperymenty pokazały, że RETD skutecznie unika niestabilności charakterystycznej dla naiwnego centrowanego uczenia emfatycznego. Jednocześnie zachowuje korzystną geometrię emfatyczną i wykazuje robustny pośredni reżim dla parametru regularyzacji c we wszystkich przeprowadzonych diagnostykach.
Badanie reprezentuje znaczący postęp w rozumieniu i implementacji algorytmów uczenia ze wzmocnieniem off-policy, oferując praktyczne rozwiązanie długotrwałego problemu w tej dziedzinie sztucznej inteligencji.

Google automatycznie włącza funkcję wykorzystującą zdjęcia i nagrania użytkowników do treningu AI. Wyjaśniamy, jak się z tego wypisać.

Inicjatywa Akrites ma łatać luki bezpieczeństwa w oprogramowaniu open-source, zanim AI będzie mogło je wykorzystać do ataków. Mniej niż 5% luk zostało załatanych.

Indyjska firma MoEngage kupiła startup Aampe, rozwijający agentów AI do personalizacji marketingu. Transakcja ma pomóc konkurować z Salesforce i Adobe.