Изменения

Перейти к: навигация, поиск

Практики реализации нейронных сетей

848 байт добавлено, 00:59, 28 февраля 2020
Relu
[[Файл:TanhFunction.jpg|300px|thumb|right|Рис 4. Tanh function]]
===Функция гиперболического тангенса===
Функция гиперболического тангенса (англ. ''hyperbolic tangent'') имеет вид {{---}} <tex>tanh(z) = \frac2{1+e^{-2z}} - 1</tex>. Эта функция является скорректированной сигмоидной функцей <tex>tanh(z) = 2 \cdot sigma(2x2z) - 1</tex>, то есть она сохраняет те же преимущества и недостатки, но уже для диапазона значений <tex>(-1; 1)</tex>. 
[[Файл:ReLuFunction.jpg|300px|thumb|right|Рис 5. ReLU]]
===ReLU===
Функция ReLU имеет производную равную 0 для всех отрицательных значениях и 1 для положительных. Таким образом, когда обучение происходит на датасетах разумного размера, обычно находятся точки данных, дающие положительные значения для любого выбранного узла. Таким образом, средняя производная редко бывает близка к 0, что позволяет продолжать градиентный спуск. ''Rectified Linear Unit'' {{---}} это наиболее часто используемая активационная функция при глубоком обучении. Данная функция возвращает 0, если принимает отрицательный вход, в случае же положительного входа, функция возвращает само число. Таким образом То есть функция может быть записана как <mathtex>f(xz)=max(0,xz)</mathtex>. На первый взгляд может показаться, что она линейна и имеет те же проблемы что и линейная функция, но это не так и ее можно использовать в нейронных сетях с множеством слоев.Функция ReLU обладает несколькими преимущества перед сигмоидой и гиперболическим тангенсом:[[Файл:Relu# Очень быстро считается производная.png|500px|thumb|center|Рис 2Для отрицательных значений {{---}} 0, для положительных {{---}} 1. Rectified Linear Units]] Функция # Разреженность активации. В сетях с очень большим количеством нейронов использование сигмоидной функции или гиперболического тангенса в качестве активационный функции влечет активацию почти всех нейронов, что может сказаться на производительности обучения модели. Если же использовать ReLU отлично работает , то количество включаемых нейронов станет меньше, в большинстве приложенийсилу характеристик функции, в результате чего она получила широкое распространениеи сама сеть станет легче.У данной функции есть один недостаток, называющийся "Проблемой умирающего ReLU" (Dying ReLu problem). Данная функция позволяет правильно учитывать нелинейности Так как часть производной функции равна нулю, то и градиент для нее будет нулевым, а то это значит, что веса не будут изменяться во время спуска и взаимодействиянейронная сеть перестанет обучаться.
==См. также==
113
правок

Навигация