Изменения

Перейти к: навигация, поиск

Общие понятия

1232 байта добавлено, 14:27, 24 января 2019
Обучение с подкреплением (англ. Reinforcement learning)
==== Обучение с подкреплением (англ. ''Reinforcement learning'') ====
Частный случай обучения с учителем, сигналы подкрепления (правильности ответа) выдаются не учителем, а некоторой средой, с которой взаимодействует программа. Размеченность данных зависит от среды.
 
Окружение обычно формулируется как марковский процесс принятия решений (МППР) с конечным множеством состояний, и в этом смысле алгоритмы обучения с подкреплением тесно связаны с динамическим программированием. Вероятности выигрышей и перехода состояний в МППР обычно являются величинами случайными, но стационарными в рамках задачи.
 
При обучении с подкреплением, в отличии от обучения с учителем,не предоставляются верные пары „входные данные-ответ“, а принятие субоптимальнх решений (дающих локальный экстремум) не ограничивается явно. Обучение с подкреплением пытается найти компромисс между исследованием неизученных областей и применением имеющихся знаний.
 
==== Активное обучение (англ. ''Active learning'') ====
Отличается тем, что обучаемый имеет возможность самостоятельно назначать следующий прецедент, который станет известен.
115
правок

Навигация