Изменения

Методы policy gradient и алгоритм асинхронного актора-критика

5 байт добавлено, 13:47, 28 января 2019

→‎Использование будущего выигрыша вместо полного выигрыша

: <tex> \nabla_{\theta} J(\theta) \approx E_{\tau \sim p_{\theta}(\tau)} \left[ \sum_{t=1}^{T} {\nabla_{\theta} \log \pi_{\theta}(a_t|s_t)} \underbrace{\left( \sum_{t'=t}^{T} {r(s_{t'}, a_{t'})} \right)}_{= Q_{\tau, t}} \right]</tex>

Величина <tex>Q_{\tau, t}</tex> {{-- -}} ''будущий выигрыш'' (reward-to-go) на шаге <tex>t</tex> в сценарии <tex>\tau</tex>

== Алгоритм актора-критика с преимуществом ==

Flyingleafe

116

правок

Изменения

Методы policy gradient и алгоритм асинхронного актора-критика

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты