Изменения

Обучение с подкреплением

43 байта добавлено, 01:03, 22 января 2019

Нет описания правки

=== Постановка задачи обучения с подкреплением ===

[[File:RL.png|thumb|link=https://~~skymind~~econophysica.airu/~~wiki~~services/~~deep-reinforcement~~machine-learning/|~~RL-схема~~Взаимодействие агента со средой]]

<tex>S</tex> {{---}} множество состояний среды

Однако для этого требуется, чтобы МППР достиг терминального состояния (завершился).

Поэтому построение искомой оценки при <tex>\gamma > \in (0, 1)</tex> неочевидно. Однако, можно заметить, что <tex>R</tex> образуют рекурсивное уравнение Беллмана:

::<tex>E[R|s_t]=r_t + \gamma E[R|s_{t+1}]</tex>.

Dariyakovleva

77

правок

Изменения

Обучение с подкреплением

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты