Изменения

Перейти к: навигация, поиск

Поиск архитектуры нейронной сети

799 байт добавлено, 13:47, 14 апреля 2020
Нет описания правки
[[Файл:Chain-like-NAS.png|thumb|right|A chain-like and multi-branch network; каждый узел соответствует уровню в нейронной сети. Различные типы слоев визуализируются разными цветами. Ребро от слоя Li до слоя Lj обозначает, что Lj получает выходные данные Li в качестве входных данных.]]
Пространство поиска определяет, какую нейронную архитектуру в принципе может обнаружить подход NAS. Это может быть цепочечная архитектура, в которой выход уровня (n-1) подается как вход уровня (n). [[Файл:Cell-like-NAS.png|left|thumb|слева: сell architecture, две разные ячейки, например normal cell (вверху) и reduction cell (внизу); справа: ячейки помещены во внешнюю структуру ручной работы]] Или это может быть современная сложная архитектура с пропущенным соединением (multi-branch network). Предварительные знания о типичных свойствах архитектур способны уменьшить размер пространства поиска и упростить поиск. Тем не менее, они также могут помешать человеку найти новые архитектурные строительные блоки, которые выходят за рамки современных человеческих знаний.
Наиболее часто используемые типы архитектур для NAS - это ''''entire structures''', '''cell-based structures''','''progressive structures ''' and '''morphism-based structures'''.  
Иногда используют внешнюю архитектуру ручной работы (макроархитектуру) с повторяющимися мотивами или ячейками. В таких случаях внешняя структура является фиксированной, NAS ищет только cell-архитектуры. Этот тип поиска известен как микро-поиск или cell search.
===Стратегия оценки эффективности (Performance Estimation Strategy)===
Целью NAS обычно является поиск
архитектуры, обеспечивающей высокую точность прогнозов по невидимым данным. Performance Estimation относится к процессу оценки этой производительности. Самый простой вариант - выполнить стандартное обучение и проверку архитектуры данных, но это, к сожалению, вычислительно дорого и ограничивает количество архитектур, которые можно изучить. Поэтому многие недавние исследования направлены на разработку методов,
способных снизить стоимость этих оценок производительности.
*Сокращение качества оценки - более высокая скорость достигается сокращением датасета
*Экстраполяция прямой обучения - функция оценки может быть экстраполирована после всего нескольких обучающих итераций
*Наследование / Сетевые морфизмы - параметры модели не ищутся каждый раз, они наследуются по каким-либо правилам
*Модели One-Shot / Распределение веса - обучается только одна модель, далее ее веса/параметры используются остальными моделями
30
правок

Навигация