Изменения

Перейти к: навигация, поиск

Обучение в реальном времени

2822 байта добавлено, 22:29, 20 апреля 2020
Градиентный спуск в реальном времени (Online Gradient Descent)
[[Файл:OnlineGradientDescent.PNG|420px|thumb|right|Градиентный спуск в реальном времени]]
Алгоритм градиентного спуска в реальном времени получается при удалении операции усреднения в алгоритме пакетного градиентного спуска. Вместо усреднения градиента потерь по всей обучающей выборке каждая итерация градиентного спуска в реальном времени состоит из случайного выбора примера <tex>z_t</tex> и обновления параметра <tex>w_t</tex> в соответствии со следующей формулой:
<tex> w_{t+1} = w_t - \gamma_t \bigtriangledown_w Q(z_t, w_t) \ </tex>
Усреднение этого обновления по всем возможным вариантам обучающего примера <tex>z_t</tex> позволяет восстановить алгоритм пакетного градиентного спуска. Упрощение градиентного спуска в реальном времени основано на предположении, что случайный шум, вносимый этой процедурой, не будет мешать усредненному поведению алгоритма. Эмпирические данные подтверждают это предположение.
Градиентный спуск в реальном времени также может быть описан без использования обучающей выборки, используя события из реального мира напрямую. Такая формулировка подходит для описания адаптивных алгоритмов, обрабатывающих поступающее наблюдение и одновременно обучающихся работать лучше. Такие адаптивные алгоритмы наиболее полезны для отслеживания явлений, развивающихся во времени.
 
Общий алгоритм градиентного спуска в реальном времени используется для минимизации следующей функции стоимости <tex>C(w)</tex>.
<tex> C(w) \stackrel{\triangle}{=} E_z Q(z,w) \stackrel{\triangle}{=} \int Q(z, w)\,\mathrm{d}P(z)\ </tex>
Каждая итерация этого алгоритма состоит из извлечения события <tex>z_t</tex> из распределения <tex>\mathrm{d}P(z)</tex> и применения следующей формулы обновления, где <tex>\gamma_t</tex> - либо положительные числа, либо определенные положительные матрицы:
<tex> w_{t+1} = w_t - \gamma_t H(z_t, w_t) \ </tex>
<tex>H(z, w)</tex> удовлетворяет следующему условию:
<tex> E_z H(z, w) = \bigtriangledown_w C(w) \ </tex>
34
правки

Навигация