77
правок
Изменения
Новая страница: «Задача о многоруком бандите. Жадные и эпсилон-жадные стратегии. Метод UCB (upper confidence bound).…»
Задача о многоруком бандите.
Жадные и эпсилон-жадные стратегии.
Метод UCB (upper confidence bound).
Стратегия Softmax.
Q-learning
Жадные и эпсилон-жадные стратегии.
Метод UCB (upper confidence bound).
Стратегия Softmax.
Q-learning