Изменения

Перейти к: навигация, поиск

Практики реализации нейронных сетей

1459 байт добавлено, 14:52, 1 марта 2020
dropuot intro
==Дропаут==
Одной из проблем глубокого обучения нейронных сетей является [[Переобучение | переобучение]]. И дропаут значится как один из самых популярных способов устранения этой проблемы, благодаря своей простоте и хорошим практическим результатам.
{{Определение
|definition= '''Дропаут''' (англ. ''dropout'') {{---}} метод регуляризации нейронной сети для предотвращения переобучения.}}
В обычной нейронной сети явление переобучения появляется из-за так называемой совместной адаптации (англ. ''co-adaptation''), то есть при обновлении весов нейрона, во время обучения [[Обратное распространение ошибки | методом обратного распространения ошибки]], учитывается деятельность остальных нейронов с целью минимизировать функцию потерь. Поэтому веса нейронов могут меняться, исправляя при этом ошибки других нейронов. Метод дропаута как раз предотвращает эту адаптацию.
 
==Функции активации==
Одним из важнейших аспектов глубокой нейронной сети являются функции активации.
===Линейная функция===
Линейная функция (англ. ''linear function'') представляет собой прямую линию, то есть <tex>Z = \sum\limits_{i} w_{i}x_{i}</tex>, а это значит, что выходное значение этой функции активации пропорционально входному. В отличии от предыдущей функции, она позволяет получить диапазон значений на выходе, а не только бинарные 0 и 1, что решает проблему классификации с большим количеством классов. Но у линейной функции есть две основных проблемы:
# Невозможность использования [[Обратное распространение ошибки | метода обратного распространения ошибки]]. Так как в основе этого метода обучения лежит [[Стохастический градиентный спуск | градиентный спуск]], а для того чтобы его найти, нужно взять производную, которая для данной функции активации {{---}} константа и не зависит от входных значений. То есть при обновлении весов нельзя сказать улучшается ли эмпирический риск на текущем шаге или нет.
# Рассмотрим нейронную сеть с несколькими слоями с данной функцией активации. Так как для каждого слоя выходное значение линейно, то они образуют линейную комбинацию, результат которой является линейной функцией. То есть финальная функция активации на последнем слое зависит только от входных значений на первом слое. Это значит, что любое количество слоев может быть заменено всего одним слоем.
113
правок

Навигация