::<tex>Q(s,a)=E[R|s,\pi,a]</tex>. <br />
Если для выбора оптимальной стратегии используется функция полезности <i>Q</i>, то оптимальные действия всегда можно выбрать как действия, максимизирующие полезность.
Если же мы пользуемся функцией <i>V</i>, необходимо либо иметь модель окружения в виде вероятностей <itex>P(s'|s,a)</itex>, что позволяет построить функцию полезности вида <br />
::<tex>Q(s,a)=\sum_{s'}V(s')P(s'|s,a)</tex>, <br />
либо применить т.н. метод исполнитель-критик, в котором модель делится на две части: критик, оценивающий полезность состояния <i>V</i>, и исполнитель, выбирающий подходящее действие в каждом состоянии.
Все вышеупомянутые используют различные методы приближения, но в некоторых случаях сходимость не гарантируется.
Для уточнения оценок используется метод градиентного спуска или [[метод наименьших квадратов]] в случае линейных приближений.
Указанные методы не только сходятся к корректной оценке для фиксированной стратегии, но и могут быть использованы для нахождения оптимальной стратегии
Для этого в большинстве случаев принимают стратегию с максимальной оценкой, принимая иногда случайные шаги для исследования пространства.
При выполнении некоторых дополнительных условий существуют доказательства сходимости упомянутых методов к оптимальной стратегии.
Однако, эти доказательства гарантируют только асимптотическую сходимость, в то время как поведение алгоритмов обучения с подкреплением в задачах с малыми выборками мало изучено, не считая некоторых очень ограниченных случаев.
Альтернативный метод поиска оптимальной стратегии — искать непосредственно в пространстве стратегий.
Таки методы определяют стратегию как параметрическую функцию <tex>\pi (s,\theta )</tex> с параметром <tex>\theta</tex>.
Для настройки параметров применяются градиентные методы.
Однако, применение градиентных методов осложняется тем, что отсутствует информация о градиенте.
Более того, градиент тоже приходится оценивать через зашумлённые результаты выигрышей.
Так как это существенно увеличивает вычислительные затраты, может быть выгоднее использовать более мощные градиентные методы, такие как метод скорейшего спуска.
Алгоритмы, работающие напрямую с пространством стратегий привлекли значительное внимание в последние 5 лет и в данный момент достигли достаточно зрелой стадии, но до сих пор остаются активным полем для исследований.
Существуют и другие подходы, такие как метод отжига, применяемые для исследования пространства стратегий.
== Задача о многоруком бандите ==