Изменения

Перейти к: навигация, поиск

Практики реализации нейронных сетей

2294 байта добавлено, 19:22, 4 сентября 2022
м
rollbackEdits.php mass rollback
# Рассмотрим нейронную сеть с несколькими слоями с данной функцией активации. Так как для каждого слоя выходное значение линейно, то они образуют линейную комбинацию, результатом которой является линейная функция. То есть финальная функция активации на последнем слое зависит только от входных значений на первом слое. А это значит, что любое количество слоев может быть заменено всего одним слоем, и, следовательно, нет смысла создавать многослойную сеть.
Главное отличие линейной функции от остальных в том, что ее область определения значений не ограничена: <tex>(-\infty; +\infty)</tex>. Следовательно, ее нужно использовать, когда выходное значение нейрона должно <tex>\in \mathbb R</tex>, а не ограниченному интервалу.
[[Файл:SigmoidFunction.jpg|200px|thumb|right|Рис 5. Сигмоидная функция]]
 
===Сигмоидная функция===
Сигмоидная функция (англ. ''sigmoid function''), которую также называет логистической (англ. ''logistic function''), является гладкой монотонно возрастающей нелинейной функцией: <tex>\sigma(z) = \dfrac1{1+e^{-z}}</tex>. И так как эта функция нелинейна, то ее можно использовать в нейронных сетях с множеством слоев, а также обучать эти сети методом обратного распространения ошибки. Сигмоида ограничена двумя горизонтальными асимптотами <tex>y = 1</tex> и <tex>y = 0</tex>, что дает нормализацию выходного значения каждого нейрона. Кроме того, для сигмоидной функции характерен гладкий градиент, который предотвращает "прыжки" при подсчете выходного значения. Помимо всего этого, у этой функции есть еще одно преимущество, для значений <tex>x > 2</tex> и <tex>x < -2</tex>, <tex>y</tex> "прижимается" к одной из асимптот, что позволяет делать четкие предсказания классов.
Функцию активации ReLU следует использовать, если нет особых требований для выходного значения нейрона, вроде неограниченной области определения. Но если после обучения модели результаты получились не оптимальные, то стоит перейти к другим функциям, которые могут дать лучший результат.
[[Файл:LReLuFunction.jpg|200px|thumb|right|Рис 8. Функция Leaky ReLU]]
===Функция Leaky ReLU===
Одной из проблем стандартного ReLU является затухающий, а именно нулевой, градиент при отрицательных значениях. При использовании обычного ReLU некоторые нейроны умирают, а отследить умирание нейронов не просто. Чтобы решить эту проблему иногда используется подход ReLU с «утечкой» (leak) {{- --}} график функции активации на отрицательных значениях образует не горизонтальную прямую, а наклонную, с маленьким угловым коэффициентом (порядка 0,01). То есть она может быть записана как <tex>\begin{equation}f(x) =\begin{cases}0.01x, & \text{if}\ x < 0 \\x, & \text{otherwise} \\\end{cases}\end{equation}</tex>. Такое небольшое отрицательное значение помогает добиться ненулевого градиента при отрицательных значениях.
Однако, функция Leaky ReLU имеет некоторые недостатки:
# Сложнее считать производную, по сравнению со стандартным подходом (так как значения уже не равны нулю), что замедляет работу каждой эпохи.
# Угловой коэффициент прямой также является гиперпараметром, который надо настраивать.# На практике, результат не всегда сильно улучшаетсяотносительно ReLU.Стоит отметить, что помимо проблемы умирающих нейронов, у ReLU есть и другая {{---}} проблема [[Затухающий градиент | затухающего градиента]]<sup>[на 03.01.20 не создан]</sup>. При слишком большом количестве слоев градиент будет принимать очень маленькое значение, постепенно уменьшаясь до нуля. Из-за этого нейронная сеть работает нестабильно и неправильно. Leaky ReLU (LReLU) решает первую проблему, но в по-настоящему глубоких сетях проблема затухания градиента все еще встречается и при использовании этого подхода. На практике LReLU используется не так часто. Практический результат использования LReLU вместо ReLU отличается не слишком сильно. Однако в случае использования Leaky требуется дополнительно настраивать гиперпараметр (уровень наклона при отрицательных значениях), что требует определенных усилий. Еще одной проблемой является то, что результат LReLU не всегда лучше чем при использовании обычного ReLU, поэтому чаще всего такой подход используют как альтернатива. Довольно часто на практике используется PReLU (Parametric ReLU), который позволяет добиться более значительных улучшений по сравнению с ReLU и LReLU. Также, в случае параметрической модификации ReLU, угол наклона не является гиперпараметром и настраивается нейросетью.
==См. также==
1632
правки

Навигация