Изменения

Перейти к: навигация, поиск

Обучение с подкреплением

209 байт добавлено, 19:06, 13 января 2019
Нет описания правки
Основываясь на таком взаимодействии с окружающей средой, агент, обучающийся с подкреплением, должен выработать стратегию <tex>\pi: S \to A</tex>, которая максимизирует величину <tex>R=r_0 + r_1+\cdots+r_n</tex> в случае МППР, имеющего терминальное состояние, или величину <br />
::<tex>R=\sum_t \gamma^t r_t</tex> <br />
для МППР без терминальных состояний (где <tex>0 \leq \gamma \leq 1</tex> --- дисконтирующий множитель для „предстоящего выигрыша“).
Таким образом, обучение с подкреплением особенно хорошо подходит для решения задач, связанных с выбором между долгосрочной и краткосрочной выгодой.
=== Постановка задачи обучения с подкреплением ===
<i>S </i>~--- множество состояний среды<br />
Игра агента со средой:
1: # инициализация стратегии π1<math>\pi_1(a|s) </math> и состояния среды s1<math>s_1<math>2: # для всех t = 1, . . . T, . . .3: # агент выбирает действие at ∼ πt(a|st);4: # среда генерирует премию rt+1 ∼ p(r|at,st)и новое состояние st+1 ∼ p(s|at,st);5: # агент корректирует стратегию πt+1(a|s); Это марковский процесс принятия решений (МППР), еслиPPst+1 = s′,rt+1 = r�� st, at,rt, st−1, at−1,rt−1, . . . ,s1, a1�== Pst+1 = s′,rt+1 = r�� st, at�
st+1 = s
,rt+1 = r
� st
, at
,rt
, st−1, at−1,rt−1, . . . ,s1, a1
=
= P
st+1 = s
,rt+1 = r
� st
, at
МППР называется финитным, если |A| < ∞, |S| < ∞
* [https://en.wikipedia.org/wiki/Multi-armed_bandit Многорукий бандит]
* [https://vbystricky.github.io/2017/01/rl_multi_arms_bandits.html Задача о многоруком бандите]
* [http://www.machinelearning.ru/wiki/images/archive/3/35/20121120213057%21Voron-ML-RL-slides.pdf Обучение с подкреплением
(Reinforcement Learning) К.В.Воронцов]
77
правок

Навигация