Изменения

Перейти к: навигация, поиск

Практики реализации нейронных сетей

539 байт добавлено, 23:47, 5 марта 2020
м
Нет описания правки
Несмотря на множество сильных сторон сигмоидной функции, у нее есть значительный недостаток. Производная такой функции крайне мала во всех точках, кроме сравнительно небольшого промежутка. Это сильно усложняет процесс улучшения весов с помощью градиентного спуска. Более того, эта проблема усугубляется в случае, если модель содержит много слоев. Данная проблема называется проблемой исчезающего градиента.<ref>[https://en.wikipedia.org/wiki/Vanishing_gradient_problem Vanishing gradient problem, Wikipedia]</ref>
Что касается использования сигмоидной функции, то ее преимущество над другими {{---}} в нормализации выходное значениевыходного значения. Иногда, это бывает крайне необходимо. К примеру, когда итоговое значение слоя должно представлять вероятность случайной величины. Кроме того, эту функцию удобно применять при решении задачи классификации, благодаря свойству "прижимания" к асимптотам.
[[Файл:TanhFunction.jpg|200px|thumb|right|Рис 6. Функция гиперболического тангенса]]
# Очень быстро и просто считается производная. Для отрицательных значений {{---}} 0, для положительных {{---}} 1.
# Разреженность активации. В сетях с очень большим количеством нейронов использование сигмоидной функции или гиперболического тангенса в качестве активационный функции влечет активацию почти всех нейронов, что может сказаться на производительности обучения модели. Если же использовать ReLU, то количество включаемых нейронов станет меньше, в силу характеристик функции, и сама сеть станет легче.
 
У данной функции есть один недостаток, называющийся проблемой умирающего ReLU<ref>[https://en.wikipedia.org/wiki/Rectifier_(neural_networks)#Potential_problems Dying ReLU problem, Wikipedia]</ref>. Так как часть производной функции равна нулю, то и градиент для нее будет нулевым, а то это значит, что веса не будут изменяться во время спуска и нейронная сеть перестанет обучаться.
 
Функцию активации ReLU следует использовать, если нет особых требований для выходного значения нейрона, вроде неограниченной области определения. Но если после обучения модели результаты получились не оптимальные, то стоит перейти к другим функциям, которые могут дать лучший результат.
==См. также==
113
правок

Навигация