Изменения

Обучение с подкреплением

37 байт добавлено, 19:37, 13 января 2019

м

Нет описания правки

=== Формулировка ===

A — множество возможных ''действий'' <tex>pap_a(r)</tex> — неизвестное распределение ''награды'' <tex>r \in R</tex> за <tex>\forall a \in A</tex> <tex>\pi_t(a)</tex> — ''стратегия'' агента в момент t, распределение на A

Игра агента со средой:

# инициализация стратегии <tex>/pi_1(a)</tex>

# агент корректирует стратегию <tex>\pi_{t+1}(a)</tex>

<tex>Q_t(a) = \frac{\sum^{t}_{i=1}{r_i[a_i = a]}}{\sum^{t}_{i=1}{[a_i = a]}} \rightarrow max </tex> — средняя награда в t играх <tex>Q^∗(a) = \~~lim_~~lim \limits_{y \rightarrow \infty} Q_t(a) \rightarrow max </tex> — ценность действия a

Dariyakovleva

77

правок

Изменения

Обучение с подкреплением

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты