77
правок
Изменения
м
Нет описания правки
* Выбираем действие с максимальной оценкой математического ожидания:
:<tex>a_t = argmax\limits_argmax_{a \in A} Q_a </tex>
* Выполняем действие <tex>a_t</tex> и получаем награду <tex>R(a_t)</tex>