Изменения

Перейти к: навигация, поиск

Neural Style Transfer

79 байт добавлено, 22:05, 17 апреля 2019
Принцип работы алгоритма
== Принцип работы алгоритма ==
[[Файл:Image2.png|500px|thumb|right|Рис. 3. Архитектура сверточной сети VGG16]][[Файл:Image3.jpeg|500px|thumb|right|Рис. 4. Карты признаков сети VGG16]]
Рассмотрим 1-й сверточный слой (англ. ''convolution layer'') VGG16, который использует ядро 3x3 и обучает 64 карты признаков (англ. ''feature map'') для генерации представления изображения размерности 224x224x64, принимая 3-канальное изображение размером 224x224 в качестве входных данных (''Рисунок 3''). Во время обучения эти карты признаков научились обнаруживать простые шаблоны, например, такие как прямые линии, окружности или даже не имеющие никакого смысла для человеческого глаза шаблоны, которые тем не менее имеют огромное значение для этой модели. Такое "обнаружение" шаблонов называется обучением представлению функциипредставления признаков. Теперь давайте рассмотрим 10-й сверточный слой VGG16, который использует ядро 3x3 с 512 картами признаков для обучения и в итоге генерирует вывод представления изображения размерности 28x28x512. Нейроны 10-го слоя уже могут обнаруживать более сложные шаблоны такие как, например, колесо автомобиля, окно или дерево и т.д.
Теперь давайте рассмотрим 10-й сверточный слой VGG16Собственно вышеперечисленные свойства характерны для любой [http://neerc.ifmo.ru/wiki/index.php?title=%D0%A1%D0%B2%D0%B5%D1%80%D1%82%D0%BE%D1%87%D0%BD%D1%8B%D0%B5_%D0%BD%D0%B5%D0%B9%D1%80%D0%BE%D0%BD%D0%BD%D1%8B%D0%B5_%D1%81%D0%B5%D1%82%D0%B8 сверточной нейронной сети], который использует ядро 3x3 с 512 картами признаков для обучения и в итоге генерирует вывод представления работа которой обычно интерпретируется как переход от конкретных особенностей изображения размерности 28x28x512. Нейроны 10-го слоя уже могут обнаруживать к более сложные шаблоны такие какабстрактным деталям, например, колесо автомобиляи далее к ещё более абстрактным деталям вплоть до выделения понятий высокого уровня. При этом сеть самонастраивается и вырабатывает необходимую иерархию абстрактных признаков (последовательности карт признаков), окно или дерево фильтруя маловажные детали и т.двыделяя существенное.
Можно с уверенностью предположитьТакая природа представления кодирования сама по себе является ключом к передаче стиля, что CNN не учится кодировать, что такое изображение, но который используется для вычисления функции потерь между сгенерированным изображением относительно изображения контента и изображения стиля. При обучении модели более десяти тысяч изображений на самом деле учится кодировать то, что представляет изображениекласс модель может генерировать аналогичное представление признаков для множества различных изображений, если они принадлежат к одному классу или имеют схожий контент или какое содержимое видно в изображении, и из-за нелинейной природы нейронных сетей мы перешли от простых шаблонов на начальных слоях к более сложным на последующих слоях. скрытые юниты становятся способными обнаруживать все более и более сложные особенности по заданному изображениюстиль.
Эта природа представления кодирования сама по себе является ключом к передаче стиля, который используется для вычисления потерь между сгенерированным изображением относительно контента и изображения стиля. При обучении модели более десяти тысяч изображений на класс модель может генерировать аналогичное представление признаков для множества различных изображений, если они принадлежат к одному классу или имеют схожий контент или стиль. Следовательно, имеет смысл использовать разницу в значении представления признаков сгенерированного изображения по содержанию и по стилю изображения, чтобы направлять итерации, через которые мы производим само сгенерированное изображение, но как мы можем убедиться, что изображение с содержанием ('''C) ''' и сгенерированное изображение ('''G ) ''' похожи по своему содержанию, а не по стилю, в то время как с другой стороны, как мы можем быть уверены, что сгенерированное изображение наследует только похожее представление стиля из образа изображения стиля (S), а не само изображение стиля в целом. Это решается разделением функции потерь на две части: одна - потеря контента, а другая - потеря стиля, и вскоре мы поймем, чем они отличаются друг от друга и как они преодолевают поставленные нами проблемы.
== Loss function ==
Анонимный участник

Навигация