101
правка
Изменения
LReLU добавлено
Функцию активации ReLU следует использовать, если нет особых требований для выходного значения нейрона, вроде неограниченной области определения. Но если после обучения модели результаты получились не оптимальные, то стоит перейти к другим функциям, которые могут дать лучший результат.
===Функция Leaky ReLU===
Одной из проблем стандартного ReLU является затухающий, а именно нулевой, градиент при отрицательных значениях. При использовании обычного ReLU некоторые нейроны умирают, а отследить умирание нейронов не просто. Чтобы решить эту проблему иногда используется подход ReLU с «утечкой» (leak) - график функции активации на отрицательных значениях образует не горизонтальную прямую, а наклонную, с маленьким угловым коэффициентом (порядка 0,01). Такое небольшое отрицательное значение помогает добиться ненулевого градиента при отрицательных значениях.
Однако, функция Leaky ReLU имеет некоторые недостатки:
# Сложнее считать производную, по сравнению со стандартным подходом (так как значения уже не равны нулю), что замедляет работу каждой эпохи.
# Угловой коэффициент прямой также является гиперпараметром, который надо настраивать
# На практике, результат не всегда сильно улучшается
Довольно часто используется PReLU (Parametric ReLU), который позволяет добиться более значительных улучшений по сравнению с ReLU и LReLU.
==См. также==