Обучение с подкреплением

Материал из Викиконспекты
Версия от 15:16, 12 января 2019; Dariyakovleva (обсуждение | вклад) (Новая страница: «Задача о многоруком бандите. Жадные и эпсилон-жадные стратегии. Метод UCB (upper confidence bound).…»)
(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)
Перейти к: навигация, поиск

Задача о многоруком бандите.

Жадные и эпсилон-жадные стратегии.

Метод UCB (upper confidence bound).

Стратегия Softmax.

Q-learning