Изменения

Обучение в реальном времени

2092 байта добавлено, 21:46, 20 апреля 2020

→‎Математическая основа

=== Функция ожидаемого риска (Expected Risk Function) ===

Цель системы обучения состоит в поиске минимум функции <tex>J(w)</tex>, называемой функцией ожидаемого риска.

Эта функция раскладывается следующим образом:

<tex>J(w) \stackrel{\triangle}{=} E_z\ Q(z,w) \stackrel{\triangle}{=} \int Q(z,w)\,\mathrm{d}P(z) </tex>

Переменная минимизации w предназначена для представления части системы обучения, которая должна быть адаптирована в качестве реакции на наблюдение событий <tex>~~J (w) \stackrel{\triangle}{=} E_z\ Q(~~z</tex>,~~w) \stackrel{\triangle}{=} \int~~ происходящих в реальном мире. Функция потерь <tex>Q(z,w)\</tex> измеряет производительность системы обучения с параметром <tex>w</tex> при обстоятельствах,~~\mathrm{d}P(~~описанных событием <tex>z) </tex>.

События <tex>z</tex> моделируются как случайные независимые наблюдения, взятые из неизвестного распределения вероятности <tex>\mathrm{d}P(z)</tex>. Функция риска <tex>J(w)</tex> - это ожидание функции потерь <tex>Q(z, w)</tex> для фиксированного значения параметра <tex>w</tex>.

Функция ожидаемого риска <tex>J(w)</tex> не может быть минимизирована напрямую, потому что распределение <tex>\mathrm{d}P(z)</tex> неизвестно. Однако возможно вычислить приближение <tex>J(w)</tex>, используя конечный обучающий набор независимых наблюдений <tex>z_1, z_L</tex>.

<tex> J (w) \thickapprox \hat{J_L}(w) \stackrel{\triangle}{=} \frac{1}{L} \sum_{n=1}^L Q(z_n,w) </tex>

=== Пакетный градиентный спуск (Batch Gradient Descent) ===

[[Файл:BatchGradientDescent.PNG|420px|thumb|right|Пакетный градиентный спуск]]

~~<tex> J (w) \thickapprox \hat{J_L}(w) \stackrel{\triangle}{=} \frac{1}{L} \sum_{n=1}^L Q(z_n,w) </tex>~~

<tex> w_{t+1} = w_t - \gamma_t \bigtriangledown_w \hat{J_L}(w_t) = w_t - \gamma_t\ \frac{1}{L} \sum_{i=1}^L \bigtriangledown_w\ Q(z_i,w_t)\ </tex>

~~[[Файл:BatchGradientDescent.PNG|420px|thumb|right|Пакетный градиентный спуск]]~~

=== Градиентный спуск в реальном времени (Online Gradient Descent) ===

[[Файл:OnlineGradientDescent.PNG|420px|thumb|right|Градиентный спуск в реальном времени]]

<tex> w_{t+1} = w_t - \gamma_t \bigtriangledown_w Q(z_t, w_t) \ </tex>

<tex> C(w) \stackrel{\triangle}{=} E_z Q(z,w) \stackrel{\triangle}{=} \int Q(z, w)\,\mathrm{d}P(z)\ </tex>

<tex> w_{t+1} = w_t - \gamma_t H(z_t, w_t) \ </tex>

<tex> E_z H(z, w) = \bigtriangledown_w C(w) \ </tex>

== Примеры ==

Mettus.katerina

34

правки

Изменения

Обучение в реальном времени

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты