Изменения

Перейти к: навигация, поиск

Обучение с подкреплением

37 байт добавлено, 19:37, 13 января 2019
м
Нет описания правки
=== Формулировка ===
<i>A</i> — множество возможных ''действий''<br /><tex>pap_a(r)</tex> — неизвестное распределение ''награды'' <tex>r \in R</tex> за <tex>\forall a \in A</tex> <br /><tex>\pi_t(a)</tex> — ''стратегия'' агента в момент <i>t</i>, распределение на <i>A</i> <br />
Игра агента со средой:
# инициализация стратегии <tex>/pi_1(a)</tex>
# агент корректирует стратегию <tex>\pi_{t+1}(a)</tex>
<tex>Q_t(a) = \frac{\sum^{t}_{i=1}{r_i[a_i = a]}}{\sum^{t}_{i=1}{[a_i = a]}} \rightarrow max </tex> — средняя награда в <i>t</i> играх<br /><tex>Q^∗(a) = \lim_lim \limits_{y \rightarrow \infty} Q_t(a) \rightarrow max </tex> — ценность действия <i>a</i>
77
правок

Навигация