Изменения

Перейти к: навигация, поиск

Обучение с подкреплением

10 байт убрано, 22 январь
Нет описания правки
* <tex>S</tex> — множество состояний
* <tex>A</tex> — множество действий
* <tex>R = S \times A \rightarrow \mathbb{R}</tex> {{---}} функция награды* <tex>T = S \times A \rightarrow S</tex> {{---}} функция перехода* <tex>\alpha \in [0, 1]</tex> {{---}} learning rate (обычно 0.1), чем он выше, тем сильнее агент доверяет новой информации* <tex>\gamma \in [0, 1]</tex> {{---}} discounting factor, чем он меньше, тем меньше агент задумывается о выгоде от будущих своих действий
'''fun''' Q-learning(<tex>S, A, R, T, \alpha, \gamma</tex>):
'''for''' <tex> a \in A</tex>:
Q(s, a) = rand()
'''while''' Q не сошелсяis not converged:
s = <tex> \forall s \in S</tex>
'''while''' s не конечное состояниеis not terminated:
<tex>\pi(s) = argmax_{a}{Q(s, a)}</tex>
a = <tex>\pi(s)</tex>
77
правок

Навигация