Изменения

Перейти к: навигация, поиск

Обучение с подкреплением

20 байт добавлено, 23:11, 13 января 2019
м
Нет описания правки
это и будет оценка математического ожидания. Очевидно, что чем больше <tex>P</tex> тем оценка точнее.
== Жадные и эпсилон<tex>\epsilon</tex>-жадные стратегии ==
Объединяя всё вышеизложенное, получаем простую "жадную" стратегию.
=== Жадная (greedy) стратегия===
Заведем массивы <br />
Но если награда все-таки случайная величина, то единичной попытки будет явно не достаточно. В связи с этим предлагается следующая модификация жадной стратегии:
=== <tex>\epsilon</tex>-жадная (<tex>\epsilon</tex>-greedy) стратегия=== [[File:Eps-greedy.png|thumb|313px|Пример. Награда для стратегии с различными <tex>\epsilon</tex>]]
Зададимся некоторым параметром <tex>\epsilon \in (0,1)</tex>
Ясно, что если выбрать <tex>\epsilon = 0</tex> мы вернемся к просто жадной стратегии. Однако, если <tex>\epsilon > 0</tex>, в отличии от просто "жадной", у нас на каждом шаге с вероятностью <tex>\epsilon</tex> присходит "исследование".
 
[[File:Eps-greedy.pngg|thumb|313px|Пример. Награда для стратегии с различными <tex>\epsilon</tex>]]
== Метод UCB (upper confidence bound) ==
77
правок

Навигация