Изменения

Обучение с подкреплением

125 байт добавлено, 20:52, 13 января 2019

м

Нет описания правки

Ясно, что если выбрать <tex>\epsilon = 0</tex> мы вернемся к просто жадной стратегии. Однако, если <tex>\epsilon > 0</tex>, в отличии от просто "жадной", у нас на каждом шаге с вероятностью <tex>\epsilon</tex> присходит "исследование".

Пример. Награда для стратегии с различными <tex>\epsilon</tex>:

[[File:eps-greedy.jpg]]

== Метод UCB (upper confidence bound) ==

* [https://en.wikipedia.org/wiki/Multi-armed_bandit Многорукий бандит]

* [https://vbystricky.github.io/2017/01/rl_multi_arms_bandits.html Задача о многоруком бандите]

* [http://www.machinelearning.ru/wiki/images/archive/3/35/20121120213057%21Voron-ML-RL-slides.pdf Обучение с подкреплением(Reinforcement Learning) К.В.Воронцов]

Dariyakovleva

77

правок

Изменения

Обучение с подкреплением

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты