Изменения

Перейти к: навигация, поиск

Обучение с подкреплением

4 байта добавлено, 14:44, 24 января 2019
Использование будущего выигрыша вместо полного выигрыша
Так как в момент времени <tex>t</tex> от действия <tex>a_t</tex> зависят только <tex>r(s_{t'}, a_{t'})</tex> для <tex> t' \leq t</tex>, это выражение можно переписать как
: <tex> \nabla_{\theta} J(\theta) \approx E_{\tau \sim p_{\theta}(\tau)} \left[ \sum_{t=1}^{T} {\nabla_{\theta} \log \pi_{\theta}(a_t|s_t)} \underbrace{\left( \sum_{t'=t}^{T} {r(s_ts_{t'}, a_ta_{t'})} \right)}_{= Q_{\tau, t}} \right]</tex>
Величина <tex>Q_{\tau, t}</tex> -- ''будущий выигрыш'' (reward-to-go) на шаге <tex>t</tex> в сценарии <tex>\tau</tex>
116
правок

Навигация