116
правок
Изменения
→Алгоритм актора-критика с преимуществом
Величина <tex>Q_{\tau, t}</tex> {{---}} ''будущий выигрыш'' (reward-to-go) на шаге <tex>t</tex> в сценарии <tex>\tau</tex>
== Алгоритм актора-критика с преимуществом (англ. Advantage Actor Critic, A2C) ==
Из предыдущего абзаца:
Алгоритм актора-критика считается гибридным, так как актор работает в соответствии с принципом policy gradient, а критик работает аналогично алгоритму Q-routing.
=== Асинхронный актор-критик (англ. Asynchronous Advantage Actor-Critic, A3C) ===
[[File:Async-actor-critic.png|thumb|313px|link=http://rll.berkeley.edu/deeprlcourse/f17docs/lecture_5_actor_critic_pdf.pdf|Иллюстрация работы алгоритма асинхронного актора-критика]]