Изменения
Перейти к:
навигация
,
поиск
← Предыдущая правка
Следующая правка →
Обучение с подкреплением
1 байт убрано
,
00:53, 14 января 2019
м
Нет описания правки
* Выбираем действие с максимальной оценкой математического ожидания:
:<tex>a_t = argmax \limits_{a \in A} Q_a </tex>
* Выполняем действие <tex>a_t</tex> и получаем награду <tex>R(a_t)</tex>
Dariyakovleva
77
правок
Навигация
Персональные инструменты
Создать учётную запись
Войти
Пространства имён
Статья
Обсуждение
Варианты
Просмотры
Читать
Просмотр вики-текста
История
Ещё
Поиск
Навигация
Заглавная страница
Свежие правки
Случайная статья
Справка
Инструменты
Спецстраницы
Версия для печати