77
правок
Изменения
Нет описания правки
Основываясь на таком взаимодействии с окружающей средой, агент, обучающийся с подкреплением, должен выработать стратегию <tex>\pi: S \to A</tex>, которая максимизирует величину <tex>R=r_0 + r_1+\cdots+r_n</tex> в случае МППР, имеющего терминальное состояние, или величину <br />
::<tex>R=\sum_t \gamma^t r_t</tex> <br />
для МППР без терминальных состояний (где <tex>0 \leq \gamma \leq 1</tex> —--- дисконтирующий множитель для „предстоящего выигрыша“).
Таким образом, обучение с подкреплением особенно хорошо подходит для решения задач, связанных с выбором между долгосрочной и краткосрочной выгодой.
=== Постановка задачи обучения с подкреплением ===
<i>S — </i>~--- множество состояний среды<br />
Игра агента со средой:
МППР называется финитным, если |A| < ∞, |S| < ∞
* [https://en.wikipedia.org/wiki/Multi-armed_bandit Многорукий бандит]
* [https://vbystricky.github.io/2017/01/rl_multi_arms_bandits.html Задача о многоруком бандите]
* [http://www.machinelearning.ru/wiki/images/archive/3/35/20121120213057%21Voron-ML-RL-slides.pdf Обучение с подкреплением
(Reinforcement Learning) К.В.Воронцов]