Изменения

Перейти к: навигация, поиск

Обучение с подкреплением

249 байт добавлено, 19:33, 13 января 2019
м
Нет описания правки
Игра агента со средой:
# инициализация стратегии <tex>\pi_1(a|s)</tex> и состояния среды <tex>s_1</tex>
:: для всех <tex>t = 1..T</tex>
# агент выбирает действие <tex>a_t ∼ \pi_t(a|s_t)</tex>
# среда генерирует премию <tex>r_{t + 1} ∼ p(r|a_t, s_t)</tex> и новое состояние <tex>s_{t + 1} ∼ p(s|a_t, s_t)</tex>
=== Формулировка ===
<i>A </i> — множество возможных ''действий''<tex>pa(r) </tex> — неизвестное распределение премии ''награды'' <tex>r \in R </tex> за ∀a ∈ <tex>\forall a \in A</tex>πt<tex>\pi_t(a) </tex> ''стратегия '' агента в момент <i>t</i>, распределение на <i>A</i>
Игра агента со средой:
1: # инициализация стратегии π1<tex>/pi_1(a)</tex>2:: для всех <tex>t = 1, . . . T, . . .</tex>3: # агент выбирает действие at <tex>a_t πt\pi_t(a);</tex>4: # среда генерирует премию rt награду <tex>r_t patp_{a_t}(r);</tex>5: # агент корректирует стратегию πt<tex>\pi_{t+1}(a);Qt(a) =Pti=1 ri[ai = a]Pti=1[ai = a]→ max — средняя премия в t играхQ∗(a) = limt→∞Qt(a) → max — ценность действия a</tex>
<tex>Q_t(a) = \frac{\sum^{t}_{i=1}{r_i[a_i = a]}}{\sum^{t}_{i=1}{[a_i = a]}} \rightarrow max </tex> — средняя награда в <i>t</i> играх
<tex>Q^∗(a) = \lim_{y \rightarrow \infty} Q_t(a) \rightarrow max </tex> — ценность действия <i>a</i>
Задача является модельной для понимания конфликта между ''exploitation '' (применение, эксплуатация) и ''exploration '' (изучение, исследование).
Задача выглядит следующим образом. У нас есть автомат - “N-рукий бандит”, на каждом шаге мы выбираем за какую из N рук автомата дернуть, т.е. множество действий будет A={1,2,…,N}. Выбор действия at, на шаге t, влечет награду R(at) при этом R(a),a∈A есть случайная величина, распределение которой мы не знаем. Состояние среды у нас от шага к шагу не меняется, а значит множество S={s} тривиально, ни на что не влияет, так что мы его игнорируем.
77
правок

Навигация