Изменения

Обучение с подкреплением

10 байт убрано, 01:06, 22 января 2019

Нет описания правки

* <tex>S</tex> — множество состояний

* <tex>A</tex> — множество действий

* <tex>R = S \times A \rightarrow \mathbb{R}</tex> — {{---}} функция награды* <tex>T = S \times A \rightarrow S</tex> — {{---}} функция перехода* <tex>\alpha \in [0, 1]</tex> — {{---}} learning rate (обычно 0.1), чем он выше, тем сильнее агент доверяет новой информации* <tex>\gamma \in [0, 1]</tex> — {{---}} discounting factor, чем он меньше, тем меньше агент задумывается о выгоде от будущих своих действий

'''fun''' Q-learning(<tex>S, A, R, T, \alpha, \gamma</tex>):

'''for''' <tex> a \in A</tex>:

Q(s, a) = rand()

'''while''' Q ~~не сошелся~~is not converged:

s = <tex> \forall s \in S</tex>

'''while''' s ~~не конечное состояние~~is not terminated:

<tex>\pi(s) = argmax_{a}{Q(s, a)}</tex>

a = <tex>\pi(s)</tex>

Dariyakovleva

77

правок

Изменения

Обучение с подкреплением

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты