77
правок
Изменения
м
Нет описания правки
Ясно, что если выбрать <tex>\epsilon = 0</tex> мы вернемся к просто жадной стратегии. Однако, если <tex>\epsilon > 0</tex>, в отличии от просто "жадной", у нас на каждом шаге с вероятностью <tex>\epsilon</tex> присходит "исследование".
[[File:Eps-greedy.pngg|thumb|313px|Пример. Награда для стратегии с различными <tex>\epsilon</tex>:[[File:Eps-greedy.png]]
== Метод UCB (upper confidence bound) ==
:<tex>Q: S \times A \to \mathbb{R}</tex>
Перед обучением {{tmath|<tex>Q}} </tex> инициализируется случайными значениями. После этого в каждый момент времени <math>t</math> агент выбирает действие <tex>a_t</tex>, получает награду <tex>r_t</tex>, переходит в новое состояние <math>s_{t+1}</math> (, которое может зависеть от предыдущего состояния <tex>s_t</tex> и выбранного действия), и обновляет функцию <tex>Q</tex>. Обновление функции использует взвешенное среднее между старым и новым значениями:
:<tex>Q^{new}(s_{t},a_{t}) \leftarrow (1-\alpha) \cdot \underbrace{Q(s_{t},a_{t})}_{\text{old value}} + \underbrace{\alpha}_{\text{learning rate}} \cdot \overbrace{\bigg( \underbrace{r_{t}}_{\text{reward}} + \underbrace{\gamma}_{\text{discount factor}} \cdot \underbrace{\max_{a}Q(s_{t+1}, a)}_{\text{estimate of optimal future value}} \bigg) }^{\text{learned value}} </tex>,
r = R(s, a)
s' = T(s, a)
<tex>Q[s'][a] = (1 - \alpha) Q[s'][a] + \alpha * (r + \gamma * \max_{a'}{Q[s'][a']})</tex>
s = s'
return Q