Обучение с подкреплением
Версия от 15:16, 12 января 2019; Dariyakovleva (обсуждение | вклад) (Новая страница: «Задача о многоруком бандите. Жадные и эпсилон-жадные стратегии. Метод UCB (upper confidence bound).…»)
Задача о многоруком бандите.
Жадные и эпсилон-жадные стратегии.
Метод UCB (upper confidence bound).
Стратегия Softmax.
Q-learning