Изменения

Обучение с подкреплением

1 байт добавлено, 19:19, 13 января 2019

м

Нет описания правки

Основываясь на таком взаимодействии с окружающей средой, агент, обучающийся с подкреплением, должен выработать стратегию <tex>\pi: S \to A</tex>, которая максимизирует величину <tex>R=r_0 + r_1+\cdots+r_n</tex> в случае МППР, имеющего терминальное состояние, или величину

::<tex>R=\sum_t \gamma^t r_t</tex>

для МППР без терминальных состояний (где <tex>0 \leq \gamma \leq 1</tex> --- дисконтирующий множитель для „предстоящего выигрыша“).

Таким образом, обучение с подкреплением особенно хорошо подходит для решения задач, связанных с выбором между долгосрочной и краткосрочной выгодой.

=== Постановка задачи обучения с подкреплением ===

S~~~--~~- множество состояний среды

Игра агента со средой:

# инициализация стратегии <tex>\pi_1(a|s)</tex> и состояния среды <tex>s_1</tex>

Это марковский процесс принятия решений (МППР), если

МППР называется финитным, если <tex>|A| < \~~inf~~infty</tex>, <tex>|S| < \~~inf~~infty</tex>

== Алгоритмы ==

Dariyakovleva

77

правок

Изменения

Обучение с подкреплением

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты