2 artykuły z tym tagiem
Badacze opracowali metodę STHTD-MP, która znacząco poprawia wydajność algorytmów temporal-difference learning poprzez innowacyjną geometrię aktualizacji.
Badacze opracowali RETD — algorytm eliminujący niestabilność w uczeniu temporalnych różnic przy zachowaniu korzystnej geometrii emfatycznej.