Изменения

Обучение с подкреплением

8 байт добавлено, 22:51, 13 января 2019

м

Нет описания правки

* <tex>S</tex> -- множество состояний

* <tex>A</tex> -- множество действий

* <tex>R = S * A \~~rightarraw~~ rightarrow R</tex> -- функция награды

* <tex>T = S * A -> S</tex> -- функция перехода

* <tex>\alpha \in [0, 1]</tex> -- learning rate (обычно 0.1) // чем он выше, тем сильнее агент доверяет новой информации

Q[s][a] = rand()

'''while''' Q не сошелся:

s = <tex> \~~any~~ forall s \in S</tex>

'''while''' s не конечное состояние:

<tex>\pi(s) = \argmax_{a}{Q(s, a)}</tex>

a = <tex>\pi(s)</tex>

r = R(s, a)

77

правок