Изменения

Перейти к: навигация, поиск

Neural Style Transfer

9200 байт добавлено, 19 апрель
Model-Optimisation-Based Offline Neural Methods
===Model-Optimisation-Based Offline Neural Methods===
 
MOB-NST решает проблему скорости и вычислительных затрат IOB-NST путем использования [[Neural_Style_Transfer#Model-Optimisation-Based Offline Image Reconstruction | MOB-IR]] для восстановления стилизованного результата, то есть сеть <math>g</math> с прямой связью оптимизируется для большого набора изображений <math>I_{C}</math> для одного или нескольких изображений стиля <math>I_{S}</math>:
 
<math>/theta ^* = /arg /min /mathcal{L}_{total} (I_{C}, I_{S}, g_{/theta *}(I_{C})), I* = g_{/theta *}(I_{C}) </math>
 
MOB-NST делится на методы:
 
====Per-Style-Per-Model Neural Methods====
 
=====Parametric PSPM with Summary Statistics=====
 
Первые два алгоритма MOB-NST предложены Джонсоном и Ульяновым соответственно. Они имеют схожую идею, заключающуюся в том, чтобы предварительно обучить сеть, ориентированную на стиль прямой связи, и получить стилизованный результат с одним прямым проходом на этапе тестирования. Они отличаются только сетевой архитектурой, для которой дизайн Джонсона примерно соответствует сети, предложенной Рэдвордом, но с остаточными блоками и с извилистыми частями, а Ульянов использовал многомасштабную архитектуру в качестве сети генератора.
[[Neural_Style_Transfer#Алгоритм Гатиса | Целевая функция аналогична алгоритму Гатиса]], который указывает, что они также являются ''параметрическими методами со сводной статистикой''.
 
Алгоритмы Джонсона и Ульянова добились передачи стиля в реальном времени. Тем не менее, конструкция алгоритма в основном следует алгоритму Гатиса, что приводит к аналогичным проблем, что и у Гатиса (например, отсутствие рассмотрения в согласованность деталей и глубины информации).
 
После Ульянов также обнаружил, что простое применение нормализации к каждому отдельному изображению, а не к '''пакетной нормализации''' (англ. ''batch normalization, BN'') приводит к значительному улучшению качества стилизации. Нормализация одиночного изображения называется '''нормализацией экземпляра''' (англ. ''instance normalisation, IN''), что эквивалентно нормализации пакета, когда размер пакета = 1. Показано, что сеть передачи стиля с IN сходится быстрее, чем BN, а также обеспечивает визуально лучшие результаты. Одно из объяснений состоит в том, что IN является формой нормализации стиля и может напрямую нормализовать стиль каждого изображения контента до желаемого стиля. Следовательно, цель легче минимизировать, так как остальная часть сети должна заботиться только о потере контента.
 
=====Non-parametric PSPM with MRFs=====
 
''Алгоритм Ли и Ванда'' решает проблему эффективности, обучая марковскую прямую сеть, используя состязательное обучение. Он представляет собой непараметрический метод на основе патчей с MRF. Показано, что их метод превосходит алгоритмы Джонсона и Ульянова в сохранении связных текстур в сложных изображениях, благодаря патч-дизайну. Однако их алгоритм имеет менее удовлетворительную производительность с неструктурными стилями (например, изображениями лица), поскольку их алгоритм не учитывает семантику. Другие недостатки их алгоритма включают в себя отсутствие учета глубины информации и вариаций мазков кисти, которые являются важными визуальными факторами.
 
====Multiple-Style-Per-Model Neural Methods====
 
Хотя вышеупомянутые подходы PSPM могут создавать стилизованные изображения на два порядка быстрее, чем предыдущие методы IOB-NST, отдельные генеративные сети должны быть обучены для каждого конкретного изображения стиля. Но многие картины (например, картины импрессионистов) имеют одинаковые мазки и отличаются только своей цветовой палитрой и для каждой из них необходимо обучать отдельную сеть. Поэтому предлагается MSPM, который повышает гибкость PSPM путем дальнейшего объединения нескольких стилей в одну модель. Это можно сделать двумя способами:
 
=====Привязка только небольшого количества параметров к каждому стилю=====
 
'''Алгоритм Дюмулена'''. Дюмулен обнаружил, что для моделирования различных стилей достаточно использовать одни и те же сверточные параметры масштабирования и сдвига в слоях [[Neural_Network_Transfer#Parametric PSPM with Summary Statistics | IN]]. Поэтому он предлагает алгоритм обучения условной мульти-стильной сети передачи на основе '''нормализации условного экземпляра''' (CIN):
 
<math>CIN(/mathcal{F}(I_{C}), s) = \gamma ^s \left ( \frac{/mathcal{F}(I_{C}) - \mu (/mathcal{F}(I_{C}))}{\sigma (/mathcal{F}(I_{C}))} \right ) + \beta ^s</math>
 
где <math>/mathcal{F}</math> {{---}} активация функции ввода, а <math>s</math> {{---}} индекс желаемого стиля из набора изображений стилей.
Каждый стиль <math>I_{S}</math> может быть достигнут путем настройки параметров аффинного преобразования. Нормализация статистики объектов с различными аффинными параметрами может нормализовать входное изображение контента для разных стилей. Кроме того, алгоритм Дюмулена также может быть расширен для объединения нескольких стилей в одном стилизованном результате путем объединения аффинных параметров различных стилей.
 
Другой алгоритм, который следует первому пути MSPM, предложен Чен. '''Алгоритм Чена''' явно отделяет стиль и контент, то есть использует отдельные сетевые компоненты для изучения соответствующего контента и информации о стиле.
 
Недостатком этим алгоритмов является то, что они не учитывают общие ограничения алгоритмов NST, например, отсутствие деталей, семантики, глубины и вариаций мазков кисти.
 
=====Объединение стиля и контента в качестве входных данных=====
 
 
====Arbitrary-Style-Per-Model Neural Methods====
== Функция потерь ==
74
правки

Навигация