Изменения

Перейти к: навигация, поиск

Обучение с подкреплением

20 байт убрано, 22 январь
м
Нет описания правки
== Обучение с подкреплением ==
В обучении с подкреплением существует агент (''agent'') взаимодействует с окружающей средой (''environment'')), предпринимая действия (''actions''). Окружающая среда дает награду (''reward'') за эти действия, а агент продолжает их предпринимать.
Алгоритмы с частичным обучением пытаются найти ''стратегию'', приписывающую ''состояниям'' (''states'')) окружающей среды действия, которые должен предпринять агент в этих состояниях.
Среда обычно формулируется как [http://en.wikipedia.org/wiki/Markov_decision_process марковский процесс принятия решений] (МППР) с конечным множеством состояний, и в этом смысле алгоритмы обучения с подкреплением тесно связаны с динамическим программированием.
При обучении с подкреплением, в отличии от обучения с учителем, не предоставляются верные пары "входные данные-ответ", а принятие субоптимальнх решений (дающих локальный экстремум) не ограничивается явно.
Обучение с подкреплением пытается найти компромисс между исследованием неизученных областей и применением имеющихся знаний (англ. ''exploration vs exploitation'').
Баланс изучения-применения при обучении с подкреплением исследуется в задаче [http://en.wikipedia.org/wiki/Multi-armed_bandit многорукого бандита].
77
правок

Навигация