77
правок
Изменения
м
Нет описания правки
* <tex>S</tex> -- множество состояний
* <tex>A</tex> -- множество действий
* <tex>R = S * A \rightarraw rightarrow R</tex> -- функция награды
* <tex>T = S * A -> S</tex> -- функция перехода
* <tex>\alpha \in [0, 1]</tex> -- learning rate (обычно 0.1) // чем он выше, тем сильнее агент доверяет новой информации
Q[s][a] = rand()
'''while''' Q не сошелся:
s = <tex> \any forall s \in S</tex>
'''while''' s не конечное состояние:
<tex>\pi(s) = \argmax_{a}{Q(s, a)}</tex>
a = <tex>\pi(s)</tex>
r = R(s, a)