Изменения

Перейти к: навигация, поиск

Обучение с подкреплением

1 байт убрано, 14 январь
м
Нет описания правки
* Выбираем действие с максимальной оценкой математического ожидания:
:<tex>a_t = argmax \limits_{a \in A} Q_a </tex>
* Выполняем действие <tex>a_t</tex> и получаем награду <tex>R(a_t)</tex>
77
правок

Навигация