113
правок
Изменения
Sigmoid function
# Рассмотрим нейронную сеть с несколькими слоями с данной функцией активации. Так как для каждого слоя выходное значение линейно, то они образуют линейную комбинацию, результат которой является линейной функцией. То есть финальная функция активации на последнем слое зависит только от входных значений на первом слое. Это значит, что любое количество слоев может быть заменено всего одним слоем.
[[Файл:SigmoidFunction.jpg|300px|thumb|right|Рис 3. Sigmoid function]]===СигмоидаСигмоидная функция===У ступенчатых функций есть определенное количество ограниченийСигмоидная функция (англ. ''sigmoid function''), которую также называет логистической функцией (англ. ''logistic function''), связанных с ее линейностьюявляется гладкой монотонно возрастающей нелинейной функцией {{---}} <tex>\sigma(z) = \frac1{1+e^{-z}}</tex>. Если И так как эта функция активации является линейнойнелинейна, то независимо от количества складываемых скрытых ее можно использовать в нейронных сетях с множеством слоев в нейронной , а также обучать эти сети, конечный результат по-прежнему будет являться линейной комбинацией исходных входных данныхметодом обратного распространения ошибки. Эта линейность означаетСигмоида ограничена двумя горизонтальными асимптотами <tex>y = 1</tex> и <tex>y = 0</tex>, что она не может реально охватить сложность нелинейных задачдает нормализацию выходного значения каждого нейрона. Кроме того, таких как оператор XOR или различные паттерныдля сигмоидной функции характерен гладкий градиент, разделенные кривыми или кругамикоторый предотвращает "прыжки" при подсчете выходного значения. Другой проблемой является тоУ этой функции есть еще одно преимущество, что перцептрон со ступенчатой функцией не очень «стабилен»для значений <tex>x > 2</tex> и <tex>x < -2</tex>, то есть может перейти <tex>y</tex> "прижимается" к одной из состояния 0 в 1 и из 0 в 1 при небольших изменениях в любом из весов входного слояасимптот, что позволяет делать четкие предсказания классов.
===ReLU===
Функция ReLU имеет производную равную 0 для всех отрицательных значениях и 1 для положительных. Таким образом, когда обучение происходит на датасетах разумного размера, обычно находятся точки данных, дающие положительные значения для любого выбранного узла. Таким образом, средняя производная редко бывает близка к 0, что позволяет продолжать градиентный спуск.