77
правок
Изменения
м
Нет описания правки
* <tex>P_a = 0</tex> <tex>\forall a \in \{1 \ldots N\} </tex> {{---}} сколько раз было выбрано действие <tex>a</tex>
* <tex>Q_a = 0</tex< > <tex>\forall a \in \{1 \ldots N\}</tex> {{---}} текущая оценка математического ожидания награды для действия <tex>a</tex>
На каждом шаге <tex>t</tex>
r = R(s, a)
s' = T(s, a)
<tex>Q(s', a) = (1 - \alpha) Q(s', a) + \alpha (r + \gamma * \max\limits_{a'}{Q(s', a')})</tex>
s = s'
return Q