Изменения

Обучение с подкреплением

638 байт добавлено, 00:10, 22 января 2019

Нет описания правки

== Обучение с подкреплением ==

В обучении с подкреплением существует агент (''agent'') взаимодействует с окружающей средой(''environment'')), предпринимая действия(''actions''). Окружающая среда ~~его поощряет~~ дает награду (''reward'') за эти действия, а агент продолжает их предпринимать.

Алгоритмы с частичным обучением пытаются найти ''стратегию'', приписывающую ''состояниям'' (''states'')) окружающей среды действия, которые должен предпринять агент в этих состояниях.

Среда обычно формулируется как [http://en.wikipedia.org/wiki/Markov_decision_process марковский процесс принятия решений] (МППР) с конечным множеством состояний, и в этом смысле алгоритмы обучения с подкреплением тесно связаны с динамическим программированием.

Формально простейшая модель обучения с подкреплением состоит из:

* множества состояний окружения (''states'') <tex>S</tex>* множества действий (''actions'') <tex>A</tex>* множества вещественнозначных скалярных "выигрышей"(''rewards'')

В произвольный момент времени <tex>t</tex> агент характеризуется состоянием <tex>s_t \in S</tex> и множеством возможных действий <tex>A(s_t)</tex>.

::<tex>E[R|s_t]=r_t + \gamma E[R|s_{t+1}]</tex>.

Подставляя имеющиеся оценки, <tex>V</tex>, и применяя метод градиентного спуска с квадратичной функцией ошибок, мы приходим к алгоритму [http://en.wikipedia.org/wiki/Temporal_difference_learning обучения с временными воздействиями](''temporal difference (TD) learning'').

В простейшем случае и состояния, и действия дискретны и можно придерживаться табличных оценок для каждого состояния.

Другие похожие методы: Адаптивный эвристический критик (Adaptive Heuristic Critic, AHC), [http://en.wikipedia.org/wiki/SARSA SARSA] и Q-обучение ([http://en.wikipedia.org/wiki/Q-Learning Q-learning]).

== Задача о многоруком бандите (''The multi-armed bandit problem'') ==

[[File:bandit.jpg|thumb|link=http://toppromotion.ru/blog/seo-category/novyij-algoritm-pod-nazvaniem-%C2%ABmnogorukij-bandit%C2%BB.html|Многорукий бандит]]

Задача является модельной для понимания конфликта между ''exploitation''-''exploration''.

=== Жадные и <tex>\epsilon</tex>-жадные стратегии (''''greedy & <tex>\epsilon</tex>-greedy) ===

==== Жадная (''greedy'') стратегия ====

* <tex>P_a = 0</tex> <tex>\forall a \in \{1 \ldots N\} </tex> {{---}} сколько раз было выбрано действие <tex>a</tex>

Но если награда случайная величина, то единичной попытки будет не достаточно. Поэтому модифицируем жадную стратегию следующим образом:

==== <tex>\epsilon</tex>-жадная (<tex>\epsilon</tex>-''greedy'') стратегия ====

[[File:Eps-greedy.png|thumb|313px|link=https://vbystricky.github.io/2017/01/rl_multi_arms_bandits.html|Пример. Награда для стратегии с различными <tex>\epsilon</tex>]]

Эвристика: параметр <tex>\tau</tex> имеет смысл уменьшать со временем.

=== Метод UCB (''upper confidence bound'') ===

Предыдущие алгоритмы при принятии решения используют данные о среднем выигрыше. Проблема в том, что если действие даёт награду с какой-то вероятностью, то данные от наблюдений получаются шумные и мы можем неправильно определять самое выгодное действие.

*[http://en.wikipedia.org/wiki/Reinforcement_learning Wikipedia: Reinforcement learning]

*[https://login.cs.utexas.edu/sites/default/files/legacy_files/research/documents/1%20intro%20up%20to%20RL%3ATD.pdf Sutton, Richard S., and Andrew G. Barto. Introduction to reinforcement learning. Vol. 135. Cambridge: MIT press, 1998.]

*[https://web.stanford.edu/class/psych209/Readings/SuttonBartoIPRLBook2ndEd.pdf Sutton R. S., Barto A. G. Reinforcement learning: An introduction. – 2011.]

*[http://www.machinelearning.ru/wiki/index.php?title=%D0%9E%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5_%D1%81_%D0%BF%D0%BE%D0%B4%D0%BA%D1%80%D0%B5%D0%BF%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5%D0%BC Обучение с подкреплением]

* [https://en.wikipedia.org/wiki/Multi-armed_bandit Многорукий бандит]

Dariyakovleva

77

правок

Изменения

Обучение с подкреплением

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты