Изменения

Перейти к: навигация, поиск

Обучение с подкреплением

3 байта убрано, 01:09, 22 января 2019
м
Aлгоритм Q-learning
'''while''' Q is not converged:
s = <tex> \forall s \in S</tex>
'''while''' s is not terminatedterminal:
<tex>\pi(s) = argmax_{a}{Q(s, a)}</tex>
a = <tex>\pi(s)</tex>
s = s'
return Q
 
== Ссылки ==
174
правки

Навигация