Изменения

Перейти к: навигация, поиск

Neural Style Transfer

1 байт добавлено, 05:38, 17 апреля 2019
Нет описания правки
[[Файл:Image2.png|500px|thumb|right|Архитектура сверточной сети VGG16]]
[[Файл:Image3.jpeg|500px|thumb|right|Карты признаков сети VGG16]]
 
В этом разделе я хочу поделиться некоторой интуицией о том, как более глубокий слой CNN представляет изображение и как мы можем использовать это вычисленное представление, которое имеет смысл только для модели в наших интересах при разработке передачи нейронного стиля. Давайте возьмем архитектуру VGG16 для понимания этого представления в скрытых слоях.
Используя вышеупомянутую архитектуру в качестве эталона, давайте рассмотрим 1-й слой свертки vgg16, который использует ядро 3x3 и обучает 64 карты признаков (feature map) для генерации представления изображения 224x224x64, принимая 3-канальное изображение размером 224x224 в качестве входных данных. если вы немного запутались, посмотрите ниже
 
[[Файл:Image3.jpeg|500px|thumb|left|Карты признаков сети VGG16]]
Давайте предположим, что во время обучения этим 64 картам функций они, возможно, научились обнаруживать простые шаблоны, такие, что некоторые нейронные единицы активируются, когда они видят прямую линию, или даже для какого-либо другого типа шаблона, который может не иметь никакого смысла для человеческого глаза, но имеет огромный значение для этой модели. Это «Обнаружение» прямых линий или некоторого паттерна называется обучением представлению функции.
Теперь давайте рассмотрим 10-й слой свертки vgg16, который использует ядро 3x3 с 512 картами объектов для обучения и, наконец, генерирует вывод представления изображения 28X28x512, просто для простоты, давайте предположим, что в этом 10-м слое есть определенные единицы, которые активируются изображение, содержащее круги, подобные колесу автомобиля, или некоторые из них, которые активируются изображением, имеющим некоторый рисунок, похожий на три пересекающиеся линии и т. д.
147
правок

Навигация