77
правок
Изменения
м
Нет описания правки
Основываясь на таком взаимодействии с окружающей средой, агент, обучающийся с подкреплением, должен выработать стратегию <tex>\pi: S \to A</tex>, которая максимизирует величину <tex>R=r_0 + r_1+\cdots+r_n</tex> в случае МППР, имеющего терминальное состояние, или величину <br />
::<tex>R=\sum_t \gamma^t r_t</tex> <br />
для МППР без терминальных состояний (где <tex>0 \leq \gamma \leq 1</tex> --- дисконтирующий множитель для „предстоящего выигрыша“).
Таким образом, обучение с подкреплением особенно хорошо подходит для решения задач, связанных с выбором между долгосрочной и краткосрочной выгодой.
=== Постановка задачи обучения с подкреплением ===
<i>S</i>~--- множество состояний среды <br />
Игра агента со средой:
# инициализация стратегии <tex>\pi_1(a|s)</tex> и состояния среды <tex>s_1</tex>
Это марковский процесс принятия решений (МППР), если
<tex>P(s_{t+1} = s′, r_{t+1} = r | s_t, a_t, r_t, s_{t−1}, a_{t−1}, r_{t−1}, .. ,s_1, a_1) == P(s_{t+1} = s′,r_{t+1} = r | s_t, a_t)</tex>
МППР называется финитным, если <tex>|A| < \infinfty</tex>, <tex>|S| < \infinfty</tex>
== Алгоритмы ==