Изменения

Перейти к: навигация, поиск

Обучение с подкреплением

110 байт добавлено, 19:14, 13 января 2019
м
Нет описания правки
Баланс изучения-применения при обучении с подкреплением исследуется в задаче [http://en.wikipedia.org/wiki/Multi-armed_bandit многорукого бандита].
Формально простейшая модель обучения с подкреплением состоит из:# множества состояний окружения <i>S</i>;# множества действий <i>A</i>;# множества вещественнозначных скалярных „выигрышей“."выигрышей"
В произвольный момент времени <i>t</i> агент характеризуется состоянием <tex>s_t \in S</tex> и множеством возможных действий <tex>A(s_t)</tex>.
<i>S</i>~--- множество состояний среды <br />
Игра агента со средой:
# инициализация стратегии <mathtex>\pi_1(a|s)</mathtex> и состояния среды <mathtex>s_1<math/tex># : для всех <tex>t = 1, . . . T, . . .</tex># агент выбирает действие at <tex>a_t πt\pi_t(a|sts_t)</tex># среда генерирует премию rt<tex>r_{t +1 } ∼ p(r|ata_t,sts_t) </tex> и новое состояние st<tex>s_{t +1 } ∼ p(s|ata_t,sts_t)</tex># агент корректирует стратегию πt<tex>\pi_{t +1}(a|s)</tex>
Это марковский процесс принятия решений (МППР), если
Pst<tex>P(s_{t+1 } = s′,rtr_{t+1 } = r�� str | s_t, ata_t,rtr_t, st−1s_{t−1}, at−1a_{t−1},rt−1r_{t−1}, . . . ,s1s_1, a1�a_1) == PstP(s_{t+1 } = s′,rtr_{t+1 } = r�� str | s_t, at�a_t)<tex>
МППР называется финитным, если <tex>|A| < \inf</tex>, <tex>|S| < \inf</tex>
== Алгоритмы ==
77
правок

Навигация