Изменения

Перейти к: навигация, поиск

Обучение с подкреплением

43 байта добавлено, 22 январь
Нет описания правки
=== Постановка задачи обучения с подкреплением ===
[[File:RL.png|thumb|link=https://skymindeconophysica.airu/wikiservices/deep-reinforcementmachine-learning/|RL-схемаВзаимодействие агента со средой]]
<tex>S</tex> {{---}} множество состояний среды
Однако для этого требуется, чтобы МППР достиг терминального состояния (завершился).
Поэтому построение искомой оценки при <tex>\gamma > \in (0, 1)</tex> неочевидно. Однако, можно заметить, что <tex>R</tex> образуют рекурсивное уравнение Беллмана:
::<tex>E[R|s_t]=r_t + \gamma E[R|s_{t+1}]</tex>.
77
правок

Навигация