Изменения

Обучение с подкреплением

30 байт убрано, 00:59, 14 января 2019

м

Нет описания правки

т.е. множество действий <tex>A = {1,2 \ldots ,N}</tex>.

Выбор действия <tex>a_t</tex> на шаге <tex>t</tex> влечет награду <tex>R(a_t)</tex> при этом <tex>R(a) </tex> <tex>\forall a \in A</tex> есть случайная величина, распределение которой неизвестно.

Состояние среды у нас от шага к шагу не меняется, а значит множество состояний <tex>S</tex> тривиально, ни на что не влияет, поэтому его можно проигнорировать.

~~TODO пока очень тупо~~

Задача является модельной для понимания конфликта между ''exploitation'' (применение, эксплуатация) и ''exploration'' (изучение, исследование).

== Жадные и <tex>\epsilon</tex>-жадные стратегии ==

~~TODO~~

=== Жадная (greedy) стратегия ===

Dariyakovleva

77

правок

Изменения

Обучение с подкреплением

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты