57
правок
Изменения
→Rectified Linear Units (ReLU): Добавить содержание раздела
== Rectified Linear Units (ReLU) ==
Несмотря на множество сильных сторон sigmoid function, у нее есть значительные недостатки.Производная такой функции крайне мала во всех точках, кроме сравнительно небольшого промежутка.Это сильно усложняет процесс улучшения весов с помощью градиентного спуска. Эта проблема усугубляется в случае, если модель содержит больше слоев. Данная проблема называется проблемой исчезающего градиента.<ref>[https://en.wikipedia.org/wiki/Vanishing_gradient_problem Vanishing gradient problem, Wikipedia]</ref> Функция ReLU имеет производную равную 0 для всех отрицательных значениях и 1 для положительных. Таким образом, когда обучение происходит на датасетах разумного размера, обычно находятся точки данных, дающие положительные значения для любого выбранного узла. Таким образом, средняя производная редко бывает близка к 0, что позволяет продолжать градиентный спуск. '''Rectified Linear Unit''' {{---}} это наиболее часто используемая активационная функция при глубоком обучении. Данная функция возвращает 0, если принимает отрицательный вход, в случае же положительного входа, функция возвращает само число. Таким образом функция может быть записана как <math>f(x)=max(0,x)</math>. [[Файл:Relu.png|500px|thumb|center|Рис 2. Rectified Linear Units]] Функция ReLU отлично работает в большинстве приложений, в результате чего она широко используется. Это может позволить модели правильно учитывать нелинейности и взаимодействия.
== См. также ==