Изменения

Обучение в реальном времени

2 байта убрано, 23:30, 20 апреля 2020

→‎Пакетный градиентный спуск (Batch Gradient Descent)

<tex> w_{t+1} = w_t - \gamma_t \bigtriangledown_w \hat{J_L}(w_t) = w_t - \gamma_t\ \frac{1}{L} \sum_{i=1}^L \bigtriangledown_w\ Q(z_i,w_t)\ </tex>

Когда скорость обучения <tex>\gamma_t</tex> достаточно мала, алгоритм сходится к локальному минимуму эмпирического риска <tex>\hat{J_L}(w)</tex>. Значительное ускорение сходимости может быть достигнуто путем замены скорости обучения <tex>\gamma_t</tex> подходящей положительно определенной ~~положительной~~ матрицей.

Однако каждая итерация алгоритма пакетного градиентного спуска включает в себя вычисление среднего значения градиентов функции потерь <tex>\bigtriangledown_w Q(z_n,w)</tex> по всей обучающей выборке. Для хранения достаточно большой обучающей выборки и вычисления этого среднего должны быть выделены значительные вычислительные ресурсы и память.

Анонимный участник

213.21.7.194

Изменения

Обучение в реальном времени

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты