Изменения

Перейти к: навигация, поиск

Практики реализации нейронных сетей

694 байта убрано, 23:47, 27 февраля 2020
Sigmoid function
# Рассмотрим нейронную сеть с несколькими слоями с данной функцией активации. Так как для каждого слоя выходное значение линейно, то они образуют линейную комбинацию, результат которой является линейной функцией. То есть финальная функция активации на последнем слое зависит только от входных значений на первом слое. Это значит, что любое количество слоев может быть заменено всего одним слоем.
[[Файл:SigmoidFunction.jpg|300px|thumb|right|Рис 3. Sigmoid function]]===СигмоидаСигмоидная функция===У ступенчатых функций есть определенное количество ограниченийСигмоидная функция (англ. ''sigmoid function''), которую также называет логистической функцией (англ. ''logistic function''), связанных с ее линейностьюявляется гладкой монотонно возрастающей нелинейной функцией {{---}} <tex>\sigma(z) = \frac1{1+e^{-z}}</tex>. Если И так как эта функция активации является линейнойнелинейна, то независимо от количества складываемых скрытых ее можно использовать в нейронных сетях с множеством слоев в нейронной , а также обучать эти сети, конечный результат по-прежнему будет являться линейной комбинацией исходных входных данныхметодом обратного распространения ошибки. Эта линейность означаетСигмоида ограничена двумя горизонтальными асимптотами <tex>y = 1</tex> и <tex>y = 0</tex>, что она не может реально охватить сложность нелинейных задачдает нормализацию выходного значения каждого нейрона. Кроме того, таких как оператор XOR или различные паттерныдля сигмоидной функции характерен гладкий градиент, разделенные кривыми или кругамикоторый предотвращает "прыжки" при подсчете выходного значения. Другой проблемой является тоУ этой функции есть еще одно преимущество, что перцептрон со ступенчатой ​​функцией не очень «стабилен»для значений <tex>x > 2</tex> и <tex>x < -2</tex>, то есть может перейти <tex>y</tex> "прижимается" к одной из состояния 0 в 1 и из 0 в 1 при небольших изменениях в любом из весов входного слояасимптот, что позволяет делать четкие предсказания классов.
Для тогоНесмотря на множество сильных сторон сигмоидной функции, чтобы избежать данных проблему нее есть значительные недостатки. Производная такой функции крайне мала во всех точках, в нейронных сетях используется сигмоидная функция в качестве активационнойкроме сравнительно небольшого промежутка. Также ее еще называют логистическойЭто сильно усложняет процесс улучшения весов с помощью градиентного спуска[[Файл:sigmoid_function.png|border|500px|thumb|center|Рис 3. Sigmoid function]] Sigmoid функцияБолее того, эта проблема усугубляется в отличие от ступенчатой ​​функциислучае, вводит нелинейность в выбранную если модель нейронной сетисодержит много слоев. Данная проблема называется проблемой исчезающего градиента. Нелинейность означает, что выход, получаемый из нейрона произведением некоторых входов <mathref>x (x_1, x_2, [https://en.wikipedia.., x_m)<org/wiki/math> и весов <math>w (w_1Vanishing_gradient_problem Vanishing gradient problem, w_2, ..., w_m)Wikipedia]</mathref> плюс смещение, преобразованный сигмоидной функцией, не может быть представлен ​​линейной комбинацией его входных сигналов.
===ReLU===
Несмотря на множество сильных сторон sigmoid функции, у нее есть значительные недостатки. Производная такой функции крайне мала во всех точках, кроме сравнительно небольшого промежутка. Это сильно усложняет процесс улучшения весов с помощью градиентного спуска. Эта проблема усугубляется в случае, если модель содержит больше слоев. Данная проблема называется проблемой исчезающего градиента.<ref>[https://en.wikipedia.org/wiki/Vanishing_gradient_problem Vanishing gradient problem, Wikipedia]</ref>
 
Функция ReLU имеет производную равную 0 для всех отрицательных значениях и 1 для положительных. Таким образом, когда обучение происходит на датасетах разумного размера, обычно находятся точки данных, дающие положительные значения для любого выбранного узла. Таким образом, средняя производная редко бывает близка к 0, что позволяет продолжать градиентный спуск.
113
правок

Навигация