Изменения

Перейти к: навигация, поиск

Обучение с подкреплением

30 байт убрано, 00:59, 14 января 2019
м
Нет описания правки
т.е. множество действий <tex>A = {1,2 \ldots ,N}</tex>.
Выбор действия <tex>a_t</tex> на шаге <tex>t</tex> влечет награду <tex>R(a_t)</tex> при этом <tex>R(a) </tex> <tex>\forall a \in A</tex> есть случайная величина, распределение которой неизвестно.
Состояние среды у нас от шага к шагу не меняется, а значит множество состояний <tex>S</tex> тривиально, ни на что не влияет, поэтому его можно проигнорировать.
<tex>E(\xi) = \frac{1}{K} \sum_{k=1}^{K}{\xi_k} </tex>
 
TODO пока очень тупо
Задача является модельной для понимания конфликта между ''exploitation'' (применение, эксплуатация) и ''exploration'' (изучение, исследование).
== Жадные и <tex>\epsilon</tex>-жадные стратегии ==
 
TODO
=== Жадная (greedy) стратегия ===
77
правок

Навигация