Изменения

Обучение с подкреплением

2916 байт убрано, 17:54, 12 января 2019

Нет описания правки

::<tex>Q(s,a)=E[R|s,\pi,a]</tex>.

Если для выбора оптимальной стратегии используется функция полезности Q, то оптимальные действия всегда можно выбрать как действия, максимизирующие полезность.

Если же мы пользуемся функцией V, необходимо либо иметь модель окружения в виде вероятностей <itex>P(s'|s,a)</itex>, что позволяет построить функцию полезности вида

::<tex>Q(s,a)=\sum_{s'}V(s')P(s'|s,a)</tex>,

либо применить т.н. метод исполнитель-критик, в котором модель делится на две части: критик, оценивающий полезность состояния V, и исполнитель, выбирающий подходящее действие в каждом состоянии.

Все вышеупомянутые используют различные методы приближения, но в некоторых случаях сходимость не гарантируется.

Для уточнения оценок используется метод градиентного спуска или [[метод наименьших квадратов]] в случае линейных приближений.

Указанные методы не только сходятся к корректной оценке для фиксированной стратегии, но и могут быть использованы для нахождения оптимальной стратегии

Для этого в большинстве случаев принимают стратегию с максимальной оценкой, принимая иногда случайные шаги для исследования пространства.

При выполнении некоторых дополнительных условий существуют доказательства сходимости упомянутых методов к оптимальной стратегии.

Однако, эти доказательства гарантируют только асимптотическую сходимость, в то время как поведение алгоритмов обучения с подкреплением в задачах с малыми выборками мало изучено, не считая некоторых очень ограниченных случаев.

~~Альтернативный метод поиска оптимальной стратегии — искать непосредственно в пространстве стратегий.~~

~~Таки методы определяют стратегию как параметрическую функцию <tex>\pi (s,\theta )</tex> с параметром <tex>\theta</tex>.~~

~~Для настройки параметров применяются градиентные методы.~~

~~Однако, применение градиентных методов осложняется тем, что отсутствует информация о градиенте.~~

~~Более того, градиент тоже приходится оценивать через зашумлённые результаты выигрышей.~~

Так как это существенно увеличивает вычислительные затраты, может быть выгоднее использовать более мощные градиентные методы, такие как метод скорейшего спуска.

Алгоритмы, работающие напрямую с пространством стратегий привлекли значительное внимание в последние 5 лет и в данный момент достигли достаточно зрелой стадии, но до сих пор остаются активным полем для исследований.

~~Существуют и другие подходы, такие как метод отжига, применяемые для исследования пространства стратегий.~~

== Задача о многоруком бандите ==

Анонимный участник

93.185.17.142

Изменения

Обучение с подкреплением

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты