116
правок
Изменения
→Алгоритм Actor-Critic
Величина <tex>Q_{\tau, t}</tex> -- ''будущий выигрыш'' (reward-to-go) на шаге <tex>t</tex> в сценарии <tex>\tau</tex>
== Алгоритм Actorактора-Critic критика с преимуществом ==
Из предыдущего абзаца: