77
правок
Изменения
м
Нет описания правки
Ясно, что если выбрать <tex>\epsilon = 0</tex> мы вернемся к просто жадной стратегии. Однако, если <tex>\epsilon > 0</tex>, в отличии от просто "жадной", у нас на каждом шаге с вероятностью <tex>\epsilon</tex> присходит "исследование".
Пример. Награда для стратегии с различными <tex>\epsilon</tex>:
[[File:eps-greedy.jpg]]
== Метод UCB (upper confidence bound) ==
* [https://en.wikipedia.org/wiki/Multi-armed_bandit Многорукий бандит]
* [https://vbystricky.github.io/2017/01/rl_multi_arms_bandits.html Задача о многоруком бандите]
* [http://www.machinelearning.ru/wiki/images/archive/3/35/20121120213057%21Voron-ML-RL-slides.pdf Обучение с подкреплением(Reinforcement Learning) К.В.Воронцов]