Изменения

Методы policy gradient и алгоритм асинхронного актора-критика

93 байта добавлено, 13:49, 28 января 2019

→‎Алгоритм актора-критика с преимуществом

Величина <tex>Q_{\tau, t}</tex> {{---}} ''будущий выигрыш'' (reward-to-go) на шаге <tex>t</tex> в сценарии <tex>\tau</tex>

== Алгоритм актора-критика с преимуществом (англ. Advantage Actor Critic, A2C) ==

Из предыдущего абзаца:

Алгоритм актора-критика считается гибридным, так как актор работает в соответствии с принципом policy gradient, а критик работает аналогично алгоритму Q-routing.

=== Асинхронный актор-критик (англ. Asynchronous Advantage Actor-Critic, A3C) ===

[[File:Async-actor-critic.png|thumb|313px|link=http://rll.berkeley.edu/deeprlcourse/f17docs/lecture_5_actor_critic_pdf.pdf|Иллюстрация работы алгоритма асинхронного актора-критика]]

Flyingleafe

116

правок

Изменения

Методы policy gradient и алгоритм асинхронного актора-критика

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты