Изменения

Обучение с подкреплением

23 байта добавлено, 23:09, 13 января 2019

м

Нет описания правки

Ясно, что если выбрать <tex>\epsilon = 0</tex> мы вернемся к просто жадной стратегии. Однако, если <tex>\epsilon > 0</tex>, в отличии от просто "жадной", у нас на каждом шаге с вероятностью <tex>\epsilon</tex> присходит "исследование".

[[File:Eps-greedy.pngg|thumb|313px|Пример. Награда для стратегии с различными <tex>\epsilon</tex>:~~[[File:Eps-greedy.png~~]]

== Метод UCB (upper confidence bound) ==

:<tex>Q: S \times A \to \mathbb{R}</tex>

Перед обучением ~~{{tmath|~~<tex>Q}} </tex> инициализируется случайными значениями. После этого в каждый момент времени <math>t</math> агент выбирает действие <tex>a_t</tex>, получает награду <tex>r_t</tex>, переходит в новое состояние <math>s_{t+1}</math> (, которое может зависеть от предыдущего состояния <tex>s_t</tex> и выбранного действия), и обновляет функцию <tex>Q</tex>. Обновление функции использует взвешенное среднее между старым и новым значениями:

:<tex>Q^{new}(s_{t},a_{t}) \leftarrow (1-\alpha) \cdot \underbrace{Q(s_{t},a_{t})}_{\text{old value}} + \underbrace{\alpha}_{\text{learning rate}} \cdot \overbrace{\bigg( \underbrace{r_{t}}_{\text{reward}} + \underbrace{\gamma}_{\text{discount factor}} \cdot \underbrace{\max_{a}Q(s_{t+1}, a)}_{\text{estimate of optimal future value}} \bigg) }^{\text{learned value}} </tex>,

r = R(s, a)

s' = T(s, a)

<tex>Q[s'][a] = (1 - \alpha) Q[s'][a] + \alpha * (r + \gamma * \max_{a'}{Q[s'][a']})</tex>

s = s'

return Q

Dariyakovleva

77

правок

Изменения

Обучение с подкреплением

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты