Изменения

Обучение с подкреплением

7 байт убрано, 00:54, 14 января 2019

м

Нет описания правки

* Выбираем действие с максимальной оценкой математического ожидания:

:<tex>a_t = ~~argmax\limits_~~argmax_{a \in A} Q_a </tex>

* Выполняем действие <tex>a_t</tex> и получаем награду <tex>R(a_t)</tex>

77

правок