74
правки
Изменения
Нет описания правки
===Image-Optimisation-Based Online Neural Methods===
Основная идея алгоритмов IOB-NST состоит в том, чтобы сначала смоделировать и извлечь информацию о стиле и содержимом из соответствующих изображений стиля и содержимого, объединить их в качестве целевого представления, а затем итеративно восстановить стилизованный результат, который соответствует целевому представлению. В целом, разные алгоритмы IOB-NST используют одну и ту же технику IOB-IR, но отличаются тем, как они [[Neural_Style_Transfer#Visual Style Modelling | моделируют визуальный стиль (см. Visual Style Modelling)]], который основан на вышеупомянутых двух категориях в [[Neural_Style_Transfer#Visual Texture Modelling| методов визуального моделирования текстур]]. Общим ограничением алгоритмов IOB-NST является то, что они являются дорогостоящими в вычислительном отношении, из-за итеративной процедуры оптимизации изображения.
====Parametric Neural Methods with Summary Statistics====
Первый поднабор методов IOB-NST основан на параметрическом моделировании текстуры со сводной статистикой. Стиль характеризуется как набор пространственной сводной статистики.
Согласно тому, что глубокая CNN способна извлекать содержимое изображения из произвольной фотографии и некоторую информацию о внешнем виде из картины, создается компонент контента вновь стилизованного изображения, штрафуя разницу в представлениях высокого уровня, полученных из контента и стилизованных изображений, и дополнительно формируется компонент стиля путем сопоставления сводной статистики стилей и стилизованных изображений на основе Грам из [[Neural_Style_Transfer#Visual Texture Modelling | метода моделирования текстур]]
Для заданного изображения контента <math>I_{C}</math> и стиля изображения <math>I_{S}</math> алгоритм пытается найти стилизованное изображение <math>I</math>, которое минимизирует '''цель''':
<math>I^* = \arg \min_{I} \mathcal{L}_{total}(I_{C}, I_{S}, I) = \arg \min_{I} \alpha \mathcal{L}_{C}(I_{C}, I) + \beta \mathcal{L}_{S}(I_{S}, I)</math>,
где <math>\mathcal{L}_{C}</math> {---} потеря контента, сравнивает представление контента данного изображения контента с изображением стилизованного изображения, а <math>\mathcal{L}_{S}</math> {---} потеря стиля, сравнивает представление стиля на основе Грамы, полученной из изображения стиля, с изображением стилизованного изображения. <math>\alpha</math> и <math>\beta</math> используются для баланса компонента контента и компонента стиля в стилизованном результате.
<math>\mathcal{L}_{C}</math> и <math>\mathcal{L}_{S}</math> дифференцируемы. Таким образом, при случайном шуме в качестве начального <math>I</math>, это уравнение можно минимизировать, используя градиентный спуск в пространстве изображения с обратным распространением.
''Алгоритм Гатиса'' не имеет явных ограничений на тип стилевых изображений, в отличие от предыдущих алгоритмов [[Neural_Style_Transfer#Обзор предыдущих методов | IB-AR без CNN]]. Однако алгоритм неэффективно сохраняет согласованность тонких структур и деталей во время стилизации, так как функции CNN неизбежно теряют некоторую информацию низкого уровня. Кроме того, он обычно не подходит для фотореалистичного синтеза из-за ограничений представления стилей на основе Грам. Также он не учитывает изменения мазков кисти, информацию о семантике и глубине, содержащуюся в изображении контента, которые являются важными факторами при оценке качества изображения.
Одним из ограничений алгоритма на основе Грама является его нестабильность во время оптимизаций и ручная настройка параметров. Райзером было обнаружено, что активация функций с совершенно разными средствами и дисперсиями может иметь одну и ту же матрицу Грама, что является основной причиной нестабильности. Поэтому была введена дополнительная потеря гистограммы, которая направляет оптимизацию для соответствия всей гистограмме активаций функции. Также было представлено предварительное решение для автоматической настройки параметров, которое заключается в явном предотвращении градиентов с экстремальными значениями посредством экстремальной нормализации градиента.
Путем дополнительного сопоставления гистограммы активаций признаков ''алгоритм Райзера'' обеспечивает более стабильную передачу стилей с меньшим количеством итераций и усилий по настройке параметров. Однако его преимущество достигается за счет высокой вычислительной сложности. Кроме того, вышеупомянутые недостатки алгоритма Гатиса все еще существуют, например, недостаток рассмотрения в глубину и согласованность деталей.
Так как функции CNN неизбежно теряют некоторую информацию низкого уровня, содержащуюся в изображении, в стилизованных результатах обычно присутствуют некоторые непривлекательные искаженные структуры и нерегулярные артефакты. Чтобы сохранить согласованность тонких структур во время стилизации, Ли предлагает включить дополнительные ограничения на низкоуровневые элементы в пиксельном пространстве. Он вводит дополнительную потерю Лапласа, которая определяется как квадрат евклидова расстояния между ответами фильтра Лапласа на контентное изображение и стилизованным результатом. "Алгоритм Ли" имеет хорошую производительность при сохранении тонких структур и деталей во время стилизации. Но ему все еще не хватает соображений в семантике, глубине, вариациях мазков и т. д.
====Nonparametric Texture Modelling with MRFs====