Изменения

Перейти к: навигация, поиск

Общие понятия

Нет изменений в размере, 18:24, 7 февраля 2019
Обучение с подкреплением (англ. Reinforcement learning)
Окружение обычно формулируется как марковский процесс принятия решений (МППР) с конечным множеством состояний, и в этом смысле алгоритмы обучения с подкреплением тесно связаны с динамическим программированием. Вероятности выигрышей и перехода состояний в МППР обычно являются величинами случайными, но стационарными в рамках задачи.
При обучении с подкреплением, в отличии отличие от обучения с учителем, не предоставляются верные пары "входные данные-ответ", а принятие суб оптимальных решений (дающих локальный экстремум) не ограничивается явно. Обучение с подкреплением пытается найти компромисс между исследованием неизученных областей и применением имеющихся знаний.
==== Активное обучение (англ. ''Active learning'') ====
Анонимный участник

Навигация