<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="ru">
		<id>http://neerc.ifmo.ru/wiki/api.php?action=feedcontributions&amp;feedformat=atom&amp;user=93.185.17.142&amp;*</id>
		<title>Викиконспекты - Вклад участника [ru]</title>
		<link rel="self" type="application/atom+xml" href="http://neerc.ifmo.ru/wiki/api.php?action=feedcontributions&amp;feedformat=atom&amp;user=93.185.17.142&amp;*"/>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%A1%D0%BB%D1%83%D0%B6%D0%B5%D0%B1%D0%BD%D0%B0%D1%8F:%D0%92%D0%BA%D0%BB%D0%B0%D0%B4/93.185.17.142"/>
		<updated>2026-05-05T19:37:58Z</updated>
		<subtitle>Вклад участника</subtitle>
		<generator>MediaWiki 1.30.0</generator>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%9E%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5_%D1%81_%D0%BF%D0%BE%D0%B4%D0%BA%D1%80%D0%B5%D0%BF%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5%D0%BC&amp;diff=68308</id>
		<title>Обучение с подкреплением</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%9E%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5_%D1%81_%D0%BF%D0%BE%D0%B4%D0%BA%D1%80%D0%B5%D0%BF%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5%D0%BC&amp;diff=68308"/>
				<updated>2019-01-12T14:54:24Z</updated>
		
		<summary type="html">&lt;p&gt;93.185.17.142: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;== Обучение с подкреплением == &lt;br /&gt;
'''Обучение с подкреплением''', идея которого была почерпнута в смежной области психологии, является подразделом [[машинное обучение|машинного обучения]], изучающим, как ''агент'' должен ''действовать'' в ''окружении'', чтобы максимизировать некоторый долговременный ''выигрыш''.&lt;br /&gt;
Алгоритмы с частичным обучением пытаются найти ''стратегию'', приписывающую ''состояниям'' окружающей среды действия, которые должен предпринять агент в этих состояниях.&lt;br /&gt;
В экономике и теории игр обучение с подкреплением рассматривается в качестве интерпретации того, как может установиться равновесие.&lt;br /&gt;
&lt;br /&gt;
Окружение обычно формулируется как [http://en.wikipedia.org/wiki/Markov_decision_process марковский процесс принятия решений] (МППР) с конечным множеством состояний, и в этом смысле алгоритмы обучения с подкреплением тесно связаны с динамическим программированием.&lt;br /&gt;
Вероятности выигрышей и перехода состояний в МППР обычно являются величинами случайными, но стационарными в рамках задачи.&lt;br /&gt;
&lt;br /&gt;
При обучении с подкреплением, в отличии от [[обучение с учителем|обучения с учителем]], не предоставляются верные пары „входные данные-ответ“, а принятие субоптимальнх решений (дающих локальный экстремум) не ограничивается явно.&lt;br /&gt;
Обучение с подкреплением пытается найти компромисс между исследованием неизученных областей и применением имеющихся знаний.&lt;br /&gt;
Баланс изучения-применения при обучении с подкреплением исследуется в задаче [http://en.wikipedia.org/wiki/Multi-armed_bandit многорукого бандита].&lt;br /&gt;
&lt;br /&gt;
Формально простейшая модель обучения с подкреплением состоит из:&lt;br /&gt;
# множества состояний окружения  &amp;lt;i&amp;gt;S&amp;lt;/i&amp;gt;;&lt;br /&gt;
# множества действий &amp;lt;i&amp;gt;A&amp;lt;/i&amp;gt;;&lt;br /&gt;
# множества вещественнозначных скалярных „выигрышей“.&lt;br /&gt;
&lt;br /&gt;
В произвольный момент времени &amp;lt;i&amp;gt;t&amp;lt;/i&amp;gt; агент характеризуется состоянием &amp;lt;tex&amp;gt;s_t \in S&amp;lt;/tex&amp;gt; и множеством возможных действий &amp;lt;tex&amp;gt;A(s_t)&amp;lt;/tex&amp;gt;.&lt;br /&gt;
Выбирая действие &amp;lt;tex&amp;gt;a \in A(s_t)&amp;lt;/tex&amp;gt;, он переходит в состояние &amp;lt;tex&amp;gt;s_{t+1}&amp;lt;/tex&amp;gt; и получает выигрыш &amp;lt;tex&amp;gt;r_t&amp;lt;/tex&amp;gt;.&lt;br /&gt;
Основываясь на таком взаимодействии с окружающей средой, агент, обучающийся с подкреплением, должен выработать стратегию &amp;lt;tex&amp;gt;\pi: S \to A&amp;lt;/tex&amp;gt;, которая максимизирует величину &amp;lt;tex&amp;gt;R=r_0 + r_1+\cdots+r_n&amp;lt;/tex&amp;gt; в случае МППР, имеющего терминальное состояние, или величину &amp;lt;br /&amp;gt;&lt;br /&gt;
::&amp;lt;tex&amp;gt;R=\sum_t \gamma^t r_t&amp;lt;/tex&amp;gt; &amp;lt;br /&amp;gt; &lt;br /&gt;
для МППР без терминальных состояний (где &amp;lt;tex&amp;gt;0 \leq \gamma \leq 1&amp;lt;/tex&amp;gt; —- дисконтирующий множитель для „предстоящего выигрыша“).&lt;br /&gt;
&lt;br /&gt;
Таким образом, обучение с подкреплением особенно хорошо подходит для решения задач, связанных с выбором между долгосрочной и краткосрочной выгодой.&lt;br /&gt;
&lt;br /&gt;
== Алгоритмы ==&lt;br /&gt;
&lt;br /&gt;
Теперь, когда была определена функция выигрыша, нужно определить алгоритм, который будет использоваться для нахождения стратегии, обеспечивающей наилучший результат.&lt;br /&gt;
&lt;br /&gt;
Наивный подход к решению этой задачи подразумевает следующие шаги:&lt;br /&gt;
# опробовать все возможные стратегии;&lt;br /&gt;
# выбрать стратегию с наибольшим ожидаемым выигрышем.&lt;br /&gt;
&lt;br /&gt;
Первая проблема такого подхода заключается в том, что количество доступных стратегий может быть очень велико или же бесконечно.&lt;br /&gt;
Вторая проблема возникает, если выигрыши стохастические — чтобы точно оценить выигрыш от каждой стратегии потребуется многократно применить каждую из них.&lt;br /&gt;
Этих проблем можно избежать, если допустить некоторую структуризацию и, возможно, позволить результатам, полученным от пробы одной стратегии, влиять на оценку для другой.&lt;br /&gt;
Двумя основными подходами для реализации этих идей являются оценка функций полезности и прямая оптимизация стратегий.&lt;br /&gt;
&lt;br /&gt;
Подход с использованием функции полезности использует множество оценок ожидаемого выигрыша только для одной стратегии &amp;lt;tex&amp;gt;\pi&amp;lt;/tex&amp;gt; (либо текущей, либо оптимальной).&lt;br /&gt;
При этом пытаются оценить либо ожидаемый выигрыш, начиная с состояния &amp;lt;i&amp;gt;s&amp;lt;/i&amp;gt;, при дальнейшем следовании стратегии &amp;lt;tex&amp;gt;\pi&amp;lt;/tex&amp;gt;, &amp;lt;br /&amp;gt;&lt;br /&gt;
::&amp;lt;tex&amp;gt;V(s)=E[R|s,\pi]&amp;lt;/tex&amp;gt;, &amp;lt;br /&amp;gt;&lt;br /&gt;
либо ожидаемый выигрыш, при принятии решения &amp;lt;i&amp;gt;a&amp;lt;/i&amp;gt; в состоянии &amp;lt;i&amp;gt;s&amp;lt;/i&amp;gt; и дальнейшем соблюдении &amp;lt;tex&amp;gt;\pi&amp;lt;/tex&amp;gt;, &amp;lt;br /&amp;gt;&lt;br /&gt;
::&amp;lt;tex&amp;gt;Q(s,a)=E[R|s,\pi,a]&amp;lt;/tex&amp;gt;. &amp;lt;br /&amp;gt;&lt;br /&gt;
Если для выбора оптимальной стратегии используется функция полезности &amp;lt;i&amp;gt;Q&amp;lt;/i&amp;gt;, то оптимальные действия всегда можно выбрать как действия, максимизирующие полезность.&lt;br /&gt;
Если же мы пользуемся функцией &amp;lt;i&amp;gt;V&amp;lt;/i&amp;gt;, необходимо либо иметь модель окружения в виде вероятностей &amp;lt;tex&amp;gt;P(s'|s,a)&amp;lt;/tex&amp;gt;, что позволяет построить функцию полезности вида &amp;lt;br /&amp;gt;&lt;br /&gt;
::&amp;lt;tex&amp;gt;Q(s,a)=\sum_{s'}V(s')P(s'|s,a)&amp;lt;/tex&amp;gt;, &amp;lt;br /&amp;gt;&lt;br /&gt;
либо применить т.н. метод исполнитель-критик, в котором модель делится на две части: критик, оценивающий полезность состояния &amp;lt;i&amp;gt;V&amp;lt;/i&amp;gt;, и исполнитель, выбирающий подходящее действие в каждом состоянии.&lt;br /&gt;
&lt;br /&gt;
Имея фиксированную стратегию &amp;lt;tex&amp;gt;\pi&amp;lt;/tex&amp;gt;, оценить &amp;lt;tex&amp;gt;E[R|\cdot]&amp;lt;/tex&amp;gt; при &amp;lt;tex&amp;gt;\gamma=0&amp;lt;/tex&amp;gt; можно просто усреднив непосредственные выигрыши.&lt;br /&gt;
Наиболее очевидный способ оценки при &amp;lt;tex&amp;gt;\gamma&amp;gt;0&amp;lt;/tex&amp;gt; — усреднить суммарный выигрыш после каждого состояния.&lt;br /&gt;
Однако для этого требуется, чтобы МППР достиг терминального состояния (завершился).&lt;br /&gt;
&lt;br /&gt;
Поэтому построение искомой оценки при &amp;lt;tex&amp;gt;\gamma&amp;gt;0&amp;lt;/tex&amp;gt; неочевидно. Однако, можно заметить, что &amp;lt;i&amp;gt;R&amp;lt;/i&amp;gt; образуют рекурсивное уравнение Беллмана: &amp;lt;br /&amp;gt;&lt;br /&gt;
::&amp;lt;tex&amp;gt;E[R|s_t]=r_t+\gamma E[R|s_{t+1}]&amp;lt;/tex&amp;gt;. &amp;lt;br /&amp;gt;&lt;br /&gt;
Подставляя имеющиеся оценки, &amp;lt;i&amp;gt;V&amp;lt;/i&amp;gt;, и применяя метод градиентного спуска с квадратичной функцией ошибок, мы приходим к алгоритму [http://en.wikipedia.org/wiki/Temporal_difference_learning обучения с временными воздействиями].&lt;br /&gt;
В простейшем случае и состояния, и действия дискретны и можно придерживаться табличных оценок для каждого состояния.&lt;br /&gt;
Другие похожие методы: Адаптивный эвристический критик (Adaptive Heuristic Critic, AHC), [http://en.wikipedia.org/wiki/SARSA SARSA] и Q-обучение ([http://en.wikipedia.org/wiki/Q-Learning Q-learning]).&lt;br /&gt;
Все вышеупомянутые используют различные методы приближения, но в некоторых случаях сходимость не гарантируется.&lt;br /&gt;
Для уточнения оценок используется метод градиентного спуска или [[метод наименьших квадратов]] в случае линейных приближений.&lt;br /&gt;
&lt;br /&gt;
== Задача о многоруком бандите == &lt;br /&gt;
&lt;br /&gt;
== Жадные и эпсилон-жадные стратегии == &lt;br /&gt;
&lt;br /&gt;
== Метод UCB (upper confidence bound) == &lt;br /&gt;
&lt;br /&gt;
== Стратегия Softmax == &lt;br /&gt;
&lt;br /&gt;
== Q-learning == &lt;br /&gt;
&lt;br /&gt;
== Ссылки ==&lt;br /&gt;
&lt;br /&gt;
*[http://en.wikipedia.org/wiki/Reinforcement_learning Wikipedia: Reinforcement learning]&lt;br /&gt;
*[http://www.machinelearning.ru/wiki/index.php?title=%D0%9E%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5_%D1%81_%D0%BF%D0%BE%D0%B4%D0%BA%D1%80%D0%B5%D0%BF%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5%D0%BC Обучение с подкреплением]&lt;/div&gt;</summary>
		<author><name>93.185.17.142</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%9E%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5_%D1%81_%D0%BF%D0%BE%D0%B4%D0%BA%D1%80%D0%B5%D0%BF%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5%D0%BC&amp;diff=68307</id>
		<title>Обучение с подкреплением</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%9E%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5_%D1%81_%D0%BF%D0%BE%D0%B4%D0%BA%D1%80%D0%B5%D0%BF%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5%D0%BC&amp;diff=68307"/>
				<updated>2019-01-12T14:24:37Z</updated>
		
		<summary type="html">&lt;p&gt;93.185.17.142: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;== Обучение с подкреплением == &lt;br /&gt;
'''Обучение с подкреплением''', идея которого была почерпнута в смежной области психологии, является подразделом [[машинное обучение|машинного обучения]], изучающим, как ''агент'' должен ''действовать'' в ''окружении'', чтобы максимизировать некоторый долговременный ''выигрыш''.&lt;br /&gt;
Алгоритмы с частичным обучением пытаются найти ''стратегию'', приписывающую ''состояниям'' окружающей среды действия, которые должен предпринять агент в этих состояниях.&lt;br /&gt;
В экономике и теории игр обучение с подкреплением рассматривается в качестве интерпретации того, как может установиться равновесие.&lt;br /&gt;
&lt;br /&gt;
Окружение обычно формулируется как [http://en.wikipedia.org/wiki/Markov_decision_process марковский процесс принятия решений] (МППР) с конечным множеством состояний, и в этом смысле алгоритмы обучения с подкреплением тесно связаны с динамическим программированием.&lt;br /&gt;
Вероятности выигрышей и перехода состояний в МППР обычно являются величинами случайными, но стационарными в рамках задачи.&lt;br /&gt;
&lt;br /&gt;
При обучении с подкреплением, в отличии от [[обучение с учителем|обучения с учителем]], не предоставляются верные пары „входные данные-ответ“, а принятие субоптимальнх решений (дающих локальный экстремум) не ограничивается явно.&lt;br /&gt;
Обучение с подкреплением пытается найти компромисс между исследованием неизученных областей и применением имеющихся знаний.&lt;br /&gt;
Баланс изучения-применения при обучении с подкреплением исследуется в задаче [http://en.wikipedia.org/wiki/Multi-armed_bandit многорукого бандита].&lt;br /&gt;
&lt;br /&gt;
Формально простейшая модель обучения с подкреплением состоит из:&lt;br /&gt;
# множества состояний окружения  &amp;lt;i&amp;gt;S&amp;lt;/i&amp;gt;;&lt;br /&gt;
# множества действий &amp;lt;i&amp;gt;A&amp;lt;/i&amp;gt;;&lt;br /&gt;
# множества вещественнозначных скалярных „выигрышей“.&lt;br /&gt;
&lt;br /&gt;
В произвольный момент времени &amp;lt;i&amp;gt;t&amp;lt;/i&amp;gt; агент характеризуется состоянием &amp;lt;tex&amp;gt;s_t \in S&amp;lt;/tex&amp;gt; и множеством возможных действий &amp;lt;tex&amp;gt;A(s_t)&amp;lt;/tex&amp;gt;.&lt;br /&gt;
Выбирая действие &amp;lt;tex&amp;gt;a \in A(s_t)&amp;lt;/tex&amp;gt;, он переходит в состояние &amp;lt;tex&amp;gt;s_{t+1}&amp;lt;/tex&amp;gt; и получает выигрыш &amp;lt;tex&amp;gt;r_t&amp;lt;/tex&amp;gt;.&lt;br /&gt;
Основываясь на таком взаимодействии с окружающей средой, агент, обучающийся с подкреплением, должен выработать стратегию &amp;lt;tex&amp;gt;\pi: S \to A&amp;lt;/tex&amp;gt;, которая максимизирует величину &amp;lt;tex&amp;gt;R=r_0 + r_1+\cdots+r_n&amp;lt;/tex&amp;gt; в случае МППР, имеющего терминальное состояние, или величину &amp;lt;br /&amp;gt;&lt;br /&gt;
::&amp;lt;tex&amp;gt;R=\sum_t \gamma^t r_t&amp;lt;/tex&amp;gt; &amp;lt;br /&amp;gt; &lt;br /&gt;
для МППР без терминальных состояний (где &amp;lt;tex&amp;gt;0 \leq \gamma \leq 1&amp;lt;/tex&amp;gt; —- дисконтирующий множитель для „предстоящего выигрыша“).&lt;br /&gt;
&lt;br /&gt;
Таким образом, обучение с подкреплением особенно хорошо подходит для решения задач, связанных с выбором между долгосрочной и краткосрочной выгодой.&lt;br /&gt;
&lt;br /&gt;
== Алгоритмы ==&lt;br /&gt;
&lt;br /&gt;
Теперь, когда была определена функция выигрыша, нужно определить алгоритм, который будет использоваться для нахождения стратегии, обеспечивающей наилучший результат.&lt;br /&gt;
&lt;br /&gt;
Наивный подход к решению этой задачи подразумевает следующие шаги:&lt;br /&gt;
# опробовать все возможные стратегии;&lt;br /&gt;
# выбрать стратегию с наибольшим ожидаемым выигрышем.&lt;br /&gt;
&lt;br /&gt;
Первая проблема такого подхода заключается в том, что количество доступных стратегий может быть очень велико или же бесконечно.&lt;br /&gt;
Вторая проблема возникает, если выигрыши стохастические — чтобы точно оценить выигрыш от каждой стратегии потребуется многократно применить каждую из них.&lt;br /&gt;
Этих проблем можно избежать, если допустить некоторую структуризацию и, возможно, позволить результатам, полученным от пробы одной стратегии, влиять на оценку для другой.&lt;br /&gt;
Двумя основными подходами для реализации этих идей являются оценка функций полезности и прямая оптимизация стратегий.&lt;br /&gt;
&lt;br /&gt;
Подход с использованием функции полезности использует множество оценок ожидаемого выигрыша только для одной стратегии &amp;lt;tex&amp;gt;\pi&amp;lt;/tex&amp;gt; (либо текущей, либо оптимальной).&lt;br /&gt;
При этом пытаются оценить либо ожидаемый выигрыш, начиная с состояния &amp;lt;i&amp;gt;s&amp;lt;/i&amp;gt;, при дальнейшем следовании стратегии &amp;lt;tex&amp;gt;\pi&amp;lt;/tex&amp;gt;, &amp;lt;br /&amp;gt;&lt;br /&gt;
::&amp;lt;tex&amp;gt;V(s)=E[R|s,\pi]&amp;lt;/tex&amp;gt;, &amp;lt;br /&amp;gt;&lt;br /&gt;
либо ожидаемый выигрыш, при принятии решения &amp;lt;i&amp;gt;a&amp;lt;/i&amp;gt; в состоянии &amp;lt;i&amp;gt;s&amp;lt;/i&amp;gt; и дальнейшем соблюдении &amp;lt;tex&amp;gt;\pi&amp;lt;/tex&amp;gt;, &amp;lt;br /&amp;gt;&lt;br /&gt;
::&amp;lt;tex&amp;gt;Q(s,a)=E[R|s,\pi,a]&amp;lt;/tex&amp;gt;. &amp;lt;br /&amp;gt;&lt;br /&gt;
Если для выбора оптимальной стратегии используется функция полезности &amp;lt;i&amp;gt;Q&amp;lt;/i&amp;gt;, то оптимальные действия всегда можно выбрать как действия, максимизирующие полезность.&lt;br /&gt;
Если же мы пользуемся функцией &amp;lt;i&amp;gt;V&amp;lt;/i&amp;gt;, необходимо либо иметь модель окружения в виде вероятностей &amp;lt;i&amp;gt;P(s'|s,a)&amp;lt;/i&amp;gt;, что позволяет построить функцию полезности вида &amp;lt;br /&amp;gt;&lt;br /&gt;
::&amp;lt;tex&amp;gt;Q(s,a)=\sum_{s'}V(s')P(s'|s,a)&amp;lt;/tex&amp;gt;, &amp;lt;br /&amp;gt;&lt;br /&gt;
либо применить т.н. метод исполнитель-критик, в котором модель делится на две части: критик, оценивающий полезность состояния &amp;lt;i&amp;gt;V&amp;lt;/i&amp;gt;, и исполнитель, выбирающий подходящее действие в каждом состоянии.&lt;br /&gt;
&lt;br /&gt;
Имея фиксированную стратегию &amp;lt;tex&amp;gt;\pi&amp;lt;/tex&amp;gt;, оценить &amp;lt;tex&amp;gt;E[R|\cdot]&amp;lt;/tex&amp;gt; при &amp;lt;tex&amp;gt;\gamma=0&amp;lt;/tex&amp;gt; можно просто усреднив непосредственные выигрыши.&lt;br /&gt;
Наиболее очевидный способ оценки при &amp;lt;tex&amp;gt;\gamma&amp;gt;0&amp;lt;/tex&amp;gt; — усреднить суммарный выигрыш после каждого состояния.&lt;br /&gt;
Однако для этого требуется, чтобы МППР достиг терминального состояния (завершился).&lt;br /&gt;
&lt;br /&gt;
Поэтому построение искомой оценки при &amp;lt;tex&amp;gt;\gamma&amp;gt;0&amp;lt;/tex&amp;gt; неочевидно. Однако, можно заметить, что &amp;lt;i&amp;gt;R&amp;lt;/i&amp;gt; образуют рекурсивное уравнение Беллмана: &amp;lt;br /&amp;gt;&lt;br /&gt;
::&amp;lt;tex&amp;gt;E[R|s_t]=r_t+\gamma E[R|s_{t+1}]&amp;lt;/tex&amp;gt;. &amp;lt;br /&amp;gt;&lt;br /&gt;
Подставляя имеющиеся оценки, &amp;lt;i&amp;gt;V&amp;lt;/i&amp;gt;, и применяя метод градиентного спуска с квадратичной функцией ошибок, мы приходим к алгоритму [http://en.wikipedia.org/wiki/Temporal_difference_learning обучения с временными воздействиями].&lt;br /&gt;
В простейшем случае и состояния, и действия дискретны и можно придерживаться табличных оценок для каждого состояния.&lt;br /&gt;
Другие похожие методы: Адаптивный эвристический критик (Adaptive Heuristic Critic, AHC), [http://en.wikipedia.org/wiki/SARSA SARSA] и Q-обучение ([http://en.wikipedia.org/wiki/Q-Learning Q-learning]).&lt;br /&gt;
Все вышеупомянутые используют различные методы приближения, но в некоторых случаях сходимость не гарантируется.&lt;br /&gt;
Для уточнения оценок используется метод градиентного спуска или [[метод наименьших квадратов]] в случае линейных приближений.&lt;br /&gt;
&lt;br /&gt;
Указанные методы не только сходятся к корректной оценке для фиксированной стратегии, но и могут быть использованы для нахождения оптимальной стратегии&lt;br /&gt;
Для этого в большинстве случаев принимают стратегию с максимальной оценкой, принимая иногда случайные шаги для исследования пространства.&lt;br /&gt;
При выполнении некоторых дополнительных условий существуют доказательства сходимости упомянутых методов к оптимальной стратегии.&lt;br /&gt;
Однако, эти доказательства гарантируют только асимптотическую сходимость, в то время как поведение алгоритмов обучения с подкреплением в задачах с малыми выборками мало изучено, не считая некоторых очень ограниченных случаев.&lt;br /&gt;
&lt;br /&gt;
Альтернативный метод поиска оптимальной стратегии — искать непосредственно в пространстве стратегий.&lt;br /&gt;
Таки методы определяют стратегию как параметрическую функцию &amp;lt;tex&amp;gt;\pi (s,\theta )&amp;lt;/tex&amp;gt; с параметром &amp;lt;tex&amp;gt;\theta&amp;lt;/tex&amp;gt;.&lt;br /&gt;
Для настройки параметров применяются градиентные методы.&lt;br /&gt;
Однако, применение градиентных методов осложняется тем, что отсутствует информация о градиенте.&lt;br /&gt;
Более того, градиент тоже приходится оценивать через зашумлённые результаты выигрышей.&lt;br /&gt;
Так как это существенно увеличивает вычислительные затраты, может быть выгоднее  использовать более мощные градиентные методы, такие как метод скорейшего спуска.&lt;br /&gt;
Алгоритмы, работающие напрямую с пространством стратегий привлекли значительное внимание в последние 5 лет и в данный момент достигли достаточно зрелой стадии, но до сих пор остаются активным полем для исследований.&lt;br /&gt;
Существуют и другие подходы, такие как метод отжига, применяемые для исследования пространства стратегий.&lt;br /&gt;
&lt;br /&gt;
== Задача о многоруком бандите == &lt;br /&gt;
&lt;br /&gt;
== Жадные и эпсилон-жадные стратегии == &lt;br /&gt;
&lt;br /&gt;
== Метод UCB (upper confidence bound) == &lt;br /&gt;
&lt;br /&gt;
== Стратегия Softmax == &lt;br /&gt;
&lt;br /&gt;
== Q-learning == &lt;br /&gt;
&lt;br /&gt;
== Ссылки ==&lt;br /&gt;
&lt;br /&gt;
*[http://en.wikipedia.org/wiki/Reinforcement_learning Wikipedia: Reinforcement learning]&lt;br /&gt;
*[http://www.machinelearning.ru/wiki/index.php?title=%D0%9E%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5_%D1%81_%D0%BF%D0%BE%D0%B4%D0%BA%D1%80%D0%B5%D0%BF%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5%D0%BC Обучение с подкреплением]&lt;/div&gt;</summary>
		<author><name>93.185.17.142</name></author>	</entry>

	</feed>