Изменения

Перейти к: навигация, поиск

Обучение с подкреплением

1 байт убрано, 00:53, 14 января 2019
м
Нет описания правки
* Выбираем действие с максимальной оценкой математического ожидания:
:<tex>a_t = argmax \limits_{a \in A} Q_a </tex>
* Выполняем действие <tex>a_t</tex> и получаем награду <tex>R(a_t)</tex>
77
правок

Навигация