Badacze opracowali metodę STHTD-MP, która znacząco poprawia wydajność algorytmów temporal-difference learning poprzez innowacyjną geometrię aktualizacji.

Źródło zdjęcia: arXiv.org
Zespół badaczy opracował nową metodę uczenia maszynowego o nazwie STHTD-MP, która znacząco przyspiesza przewidywania w systemach sztucznej inteligencji działających poza polityką (off-policy). Publikacja dostępna w arXiv przedstawia przełomowe podejście do temporal-difference learning, które może poprawić wydajność algorytmów uczenia ze wzmocnieniem.
Autorzy badania — Xingguo Chen, Yuchen Shen, Shangdong Yang, Chao Li, Guang Yang i Wenhao Wang — zaproponowali metodę, która rozwiązuje kluczowy problem gradientowych metod temporal-difference. Podczas gdy te metody zapewniają stabilne przewidywania poza polityką z liniowym przybliżeniem funkcji, ich praktyczna wydajność jest silnie uzależniona od geometrii indukowanej przez metrykę zmiennej pomocniczej.
Tradycyjne metody Mirror-Prox TD zazwyczaj wykorzystują metrykę kowariancji cech, ale hybrydowe metody TD sugerują, że informacje o przejściach polityki zachowania mogą zapewnić bardziej informatywną geometrię aktualizacji. STHTD-MP wprowadza behavior-induced metrykę, która zastępuje kowariancję w formułowaniu primal-dual saddle-point.
Badacze przeprowadzili kompleksową analizę konwergencji dla przewidywania liniowego w ramach stałej polityki, korzystając ze standardowych założeń aproksymacji stochastycznej. Wykazali, że metryka indukowana przez zachowanie jest dodatnio określona, wspólny system średni jest Hurwitz, ograniczoność wynika z argumentu Lyapunova, a rekursja stochastyczna zbiega się metodą ODE.
Dodatkowo autorzy wyprowadzili projected-oracle ergodic gap bounds oraz dokładne porównanie operatora średniego z GTD2-MP w oparciu o promień spektralny deterministycznej macierzy błędów Mirror-Prox. Analiza pokazuje, że STHTD-MP może mieć mniejszy współczynnik kontrakcji średniej niż GTD2-MP, gdy metryka indukowana przez zachowanie poprawia geometrię saddle-point.
Dokładna numeryczna analiza operatora średniego na benchmarkach dwustanowych, Random Walk i Boyan Chain wspiera te teoretyczne przewidywania. Testy potwierdziły, że nowa metoda rzeczywiście osiąga lepszą wydajność w przewidywanych warunkach. Jednak przykład Bairda został zidentyfikowany jako osobliwy przypadek graniczny, w którym ścisłe założenia zawodzą, co wskazuje na ograniczenia metody w specyficznych scenariuszach.
Badanie wnosi istotny wkład w rozwój algorytmów uczenia ze wzmocnieniem, oferując teoretycznie uzasadnioną i praktycznie skuteczną metodę poprawy przewidywań off-policy w systemach sztucznej inteligencji.

Podczas gdy AI bije rekordy funduszy, startupowcy tworzą produkty łączące ludzi offline. Board i cyberdecki to przykłady trendu 'together tech'.

Flourish zebrał 500 mln dolarów na budowę systemów AI zużywających tylko 50 watów energii — jak ludzki mózg. Bezos zainwestował prawie 100 mln dolarów.

Nowy Surface RTX Spark Dev Box z 128 GB RAM może uruchamiać lokalne modele AI z 120 miliardami parametrów. Zastępuje anulowany projekt Qualcomm.