30
правок
Изменения
Нет описания правки
NAS можно рассматривать как часть AutoML ([[Автоматическое машинное обучение]]), он имеет значительное совпадение с оптимизацией гиперпараметров ([[Настройка гиперпараметров]]). NAS находит архитектуру из всех возможных архитектур, следуя стратегии поиска, которая максимизирует производительность.
== Принцип работы ==
Методы для NAS классифицируются по трем измерениям: пространство поиска (англ. ''Search Space''), стратегия поиска (англ. ''Search Strategy'') и стратегия оценки эффективности (англ. ''Performance Estimation Strategy''). Схематичный принцип работы NAS отображен на рисунке 1.[[Файл:NAS 1.PNG|900px800px|thumb|center|Абстрактная Рисунок 1 — Обобщающая иллюстрация методов NAS. Стратегия поискавыбирает архитектуру <tex>A </tex> из предопределенного пространства поиска <math>A</math>. Архитектурапередается в стратегию оценки производительности, которая возвращает оценку эффективности <tex>A </tex> в стратегию поиска. ([https://arxiv.org/pdf/1808.05377.pdf Источник])]]
=== Пространство поиска (англ. ''Search Space'') ===Пространство поиска определяет, какую нейронную архитектуру в принципе может обнаружить подход NAS. Это может быть цепочечная архитектура (см. рисунок 2), в которой выход уровня <tex>(n-1)</tex> подается как вход уровня <tex>(n)</tex>. Или это может быть современная сложная архитектура с пропущенным соединением (англ. ''[https://ieeexplore.ieee.org/document/1323611 multi-branch network]'').<div style="text-align: center"><ul> <li style="display: inline-block;"> [[Файл:Chain-like-NAS.png|thumb|right330px|A chainРисунок 2 — ''Chain-like and '' и ''multi-branch network'' сеть; каждый узел соответствует уровню в нейронной сети. Различные типы слоев визуализируются разными цветами. Ребро от слоя Li <tex>L_i</tex> до слоя Lj <tex>L_j</tex> обозначает, что Lj <tex>L_j</tex> получает выходные данные Li <tex>L_i</tex> в качестве входных данных.]]</li>Пространство поиска определяет, какую нейронную архитектуру в принципе может обнаружить подход NAS. Это может быть цепочечная архитектура, в которой выход уровня (n<li style="display: inline-1) подается как вход уровня (n). block;"> [[Файл:Cell-like-NAS.png|leftthumb|thumb410px|слеваРисунок 3 — Слева: ''сell architecture'', две разные ячейки, например ''normal cell '' (вверху) и ''reduction cell '' (внизу); справаCправа: ячейки помещены во внешнюю структуру ручной работы]] Или это может быть современная сложная архитектура с пропущенным соединением (multi-branch network). </li></ul></div>Предварительные знания о типичных свойствах архитектур способны уменьшить размер пространства поиска и упростить поиск. Тем не менее, они также могут помешать человеку найти новые архитектурные строительные блоки, которые выходят за рамки современных человеческих знаний.Наиболее часто используемые типы архитектур для NAS - это ''''entire structures''', '''cell-based structures''','''progressive structures''' and '''morphism-based structures'''.
Иногда используют внешнюю архитектуру ручной работы (макроархитектуру) с повторяющимися мотивами или ячейками. В таких случаях внешняя структура является фиксированной, NAS ищет только ''cell''-архитектуры''. Этот тип поиска известен как микро-поиск или ''cell search'' (см. рисунок 3).
=== Стратегия поиска (англ. ''Search Strategy'')===
Стратегия поиска подробно описывает, как исследовать пространство поиска, которое часто экспоненциально велико или даже неограниченно. Она включает в себя классический компромисс между разведкой и эксплуатацией, поскольку, с одной стороны, желательно найти
быстро работающие архитектуры, с другой стороны, следует избегать преждевременного схождения.
Для изучения пространства нейронных архитектур можно использовать множество различных стратегий поиска, включая '''случайный поиск''', '''байесовскую оптимизацию''', '''эволюционные методы''', '''[[обучение с подкреплением]] (reinforcement learning)''' и '''методы на основе градиента'''.
==== Сравнение методов стратегий поиска ====
==== BANANAS (англ. ''Bayesian optimization with neural architectures for NAS'') ====
[[Файл:BANANAS alg.PNG|400px|thumb|right| Рисунок 5 — Иллюстрация мета-нейронной сети в алгоритме BANANAS]]
Сложностью применения байесовской оптимизации в NAS является обязательное наличие функции расстояния между слоями нейросети. Чтобы обойти этот момент, был разработан алгоритм [https://github.com/naszilla/bananas BANANAS (Bayesian optimization with neural architectures for NAS)] — алгоритм, использующий специальную кодировку ''path encoding'' для кодирования входных архитектур и получающий на выходе вероятностные распределения (см. рисунок 5).
Алгоритм ''BANANAS'':#Выбираются t0 <tex>t_0</tex> случайных архитектур из пространства поиска (''Search Space'')#Итерационно проводится обучение ансамбля мета-нейронный сетей на выбранных архитектурах. Каждая сеть ансамбля является сетью прямой связи с полностью связанными слоями, каждому слою дается случайная инициализация весов и случайный порядок обучающего набора. Используемая функция ошибки - вариация MAPE (mean absolute percentage errorангл. ''Mean Absolute Percentage Error'').##Далее формируется набор архитектур-"кандидатов" посредством случайных изменений лучших архитектур после обучения##Для каждой архитектуры-кандидата определяется значение переданной на вход ''ITS acquisition function '' (''[[https://en.wikipedia.org/wiki/Thompson_sampling independent Thompson sampling]]'')##Для архитектуры-кандидата с минимальным значением ''acquisition function '' определяется значение целевой вероятностной функции
===Стратегия оценки эффективности (англ. ''Performance Estimation Strategy'')===
Целью NAS обычно является поиск архитектуры, обеспечивающей высокую точность прогнозов. ''Performance Estimation'' относится к процессу оценки этой производительности. Самый простой вариант — выполнить стандартное обучение и проверку архитектуры данных, но это, к сожалению, вычислительно дорого и ограничивает количество архитектур, которые можно изучить. Поэтому многие недавние исследования направлены на разработку методов, способных снизить стоимость этих оценок производительности.