Изменения

Методы policy gradient и алгоритм асинхронного актора-критика

69 байт убрано, 20:53, 25 января 2019

Нет описания правки

~~== Policy gradient и алгоритм Actor-Critic ==~~

В алгоритме Q-learning агент обучает функцию полезности действия <tex>Q_{\theta}(s, a)</tex>. Стратегия агента <tex>\pi_{\theta}(a|s)</tex> определяется согласно текущим значениям <tex>Q(s, a)</tex>, с использованием жадного, <tex>\varepsilon</tex>-жадного или softmax подхода. Однако, существуют методы, которые позволяют оптимизировать стратегию <tex>\pi_{\theta}(s|a)</tex> напрямую. Такие алгоритмы относятся к классу алгоритмов ''policy gradient''.

=== Простой policy gradient алгоритм (REINFORCE) ===

Рассмотрим МППР, имеющий терминальное состояние: задача - максимизировать сумму всех выигрышей <tex>R=r_0 + r_1+\cdots+r_T</tex>, где T - шаг, на котором произошел переход в терминальное состояние.

Двигаясь вверх по этому градиенту, мы повышаем логарифм функции правдоподобия для сценариев, имеющих большой положительный <tex>R_{\tau}</tex>.

=== Преимущества и недостатки policy gradient по сравнению с Q-learning ===

Преимущества:

Далее мы рассмотрим способы улучшения скорости работы алгоритма.

=== Усовершенствования алгоритма ===

==== Опорные значения ====

Заметим, что если <tex>b</tex> - константа относительно <tex>\tau</tex>, то

, поэтому, регулируя <tex>b</tex>, можно достичь более низкой дисперсии, а значит, более быстрой сходимости Монте-Карло к истинному значению <tex>\nabla_{\theta} J(\theta)</tex>. Значение <tex>b</tex> называется ''опорным значением''. Способы определения опорных значений будут рассмотрены далее.

==== Использование будущего выигрыша вместо полного выигрыша ====

Рассмотрим еще раз выражение для градиента полного выигрыша:

Величина <tex>Q_{\tau, t}</tex> -- ''будущий выигрыш'' (reward-to-go) на шаге <tex>t</tex> в сценарии <tex>\tau</tex>

=== Алгоритм Actor-Critic ===

Из предыдущего абзаца:

Flyingleafe

116

правок

Изменения

Методы policy gradient и алгоритм асинхронного актора-критика

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты