Изменения

Перейти к: навигация, поиск

Обучение с подкреплением

224 байта добавлено, 21 январь
Нет описания правки
=== Постановка задачи обучения с подкреплением ===
[[File:RL.png|thumb|link=https://skymind.ai/wiki/deep-reinforcement-learning|RL-схема]]
<tex>S</tex> {{---}} множество состояний среды
== Задача о многоруком бандите ==
[[File:bandit.jpg|thumb|link=http://toppromotion.ru/blog/seo-category/novyij-algoritm-pod-nazvaniem-%C2%ABmnogorukij-bandit%C2%BB.html|Многорукий бандит]]
=== Формулировка ===
Задача является модельной для понимания конфликта между ''exploitation''-''exploration''.
=== Жадные и <tex>\epsilon</tex>-жадные стратегии ===
==== Жадная (greedy) стратегия ====
* <tex>P_a = 0</tex> <tex>\forall a \in \{1 \ldots N\} </tex> {{---}} сколько раз было выбрано действие <tex>a</tex>
Но если награда случайная величина, то единичной попытки будет не достаточно. Поэтому модифицируем жадную стратегию следующим образом:
==== <tex>\epsilon</tex>-жадная (<tex>\epsilon</tex>-greedy) стратегия ====
[[File:Eps-greedy.png|thumb|313px|link=https://vbystricky.github.io/2017/01/rl_multi_arms_bandits.html|Пример. Награда для стратегии с различными <tex>\epsilon</tex>]]
Если <tex>\epsilon = 0</tex>, то это обычная жадная стратегия. Однако если <tex>\epsilon > 0</tex>, то в отличии от жадной стратегии на каждом шаге с вероятностью <tex>\epsilon</tex> присходит "исследование" случайных действий.
=== Стратегия Softmax ===
Основная идея алгоритма ''softmax'' {{---}} уменьшение потерь при исследовании за счёт более редкого выбора действий, которые небольшую награду в прошлом. Чтобы этого добиться для каждого действия вычисляется весовой коэффициент на базе которого происходит выбор действия. Чем больше <tex>Q_t(a)</tex>, тем больше вероятность выбора <tex>a</tex>:
Эвристика: параметр <tex>\tau</tex> имеет смысл уменьшать со временем.
=== Метод UCB (upper confidence bound) ===
Предыдущие алгоритмы при принятии решения используют данные о среднем выигрыше. Проблема в том, что если действие даёт награду с какой-то вероятностью, то данные от наблюдений получаются шумные и мы можем неправильно определять самое выгодное действие.
=== Aлгоритм Q-learning ===
[[File:Q-Learning.png|thumb|313px|link=https://en.wikipedia.org/wiki/Q-learning|Процесс Q-обучения]]
* <tex>S</tex> — множество состояний
77
правок

Навигация