Обучение с подкреплением — различия между версиями
(Новая страница: «Задача о многоруком бандите. Жадные и эпсилон-жадные стратегии. Метод UCB (upper confidence bound).…») |
(нет различий)
|
Версия 15:16, 12 января 2019
Задача о многоруком бандите.
Жадные и эпсилон-жадные стратегии.
Метод UCB (upper confidence bound).
Стратегия Softmax.
Q-learning