Изменения

Общие понятия

1 байт убрано, 21:18, 24 января 2019

→‎Обучение с подкреплением (англ. Reinforcement learning)

Окружение обычно формулируется как марковский процесс принятия решений (МППР) с конечным множеством состояний, и в этом смысле алгоритмы обучения с подкреплением тесно связаны с динамическим программированием. Вероятности выигрышей и перехода состояний в МППР обычно являются величинами случайными, но стационарными в рамках задачи.

При обучении с подкреплением, в отличии от обучения с учителем,не предоставляются верные пары ~~„входные~~ "входные данные-~~ответ“~~ответ", а принятие ~~субоптимальнх~~ суб оптимальных решений (дающих локальный экстремум) не ограничивается явно. Обучение с подкреплением пытается найти компромисс между исследованием неизученных областей и применением имеющихся знаний.

==== Активное обучение (англ. ''Active learning'') ====

MrFisketon

115

правок

Изменения

Общие понятия

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты