Обучение с подкреплением — различия между версиями

Материал из Викиконспекты
Перейти к: навигация, поиск
(Новая страница: «Задача о многоруком бандите. Жадные и эпсилон-жадные стратегии. Метод UCB (upper confidence bound).…»)
(нет различий)

Версия 15:16, 12 января 2019

Задача о многоруком бандите.

Жадные и эпсилон-жадные стратегии.

Метод UCB (upper confidence bound).

Стратегия Softmax.

Q-learning