147
правок
Изменения
Нет описания правки
Сверточные нейронные сети были изначально созданы для классификации изображений и в последнее время использовались в ряде других задач, таких как сегментация изображений, нейронный стиль и другие задачи компьютерного зрения и обработки естественного языка. CNN являются одной из наиболее интерпретируемых моделей в глубоком обучении благодаря нашей способности визуализировать их представления и понимать, что они могут изучать.
== What insights can convolutional neural network provide? ==
[[Файл:Image2.png|500px|thumb|right|Архитектура сверточной сети VGG16]]
В этом разделе я хочу поделиться некоторой интуицией о том, как более глубокий слой CNN представляет изображение и как мы можем использовать это вычисленное представление, которое имеет смысл только для модели в наших интересах при разработке передачи нейронного стиля. Давайте возьмем архитектуру VGG16 для понимания этого представления в скрытых слоях.
Используя вышеупомянутую архитектуру в качестве эталона, давайте рассмотрим 1-й слой свертки vgg16, который использует ядро 3x3 и обучает 64 карты признаков (feature map) для генерации представления изображения 224x224x64, принимая 3-канальное изображение размером 224x224 в качестве входных данных. если вы немного запутались, посмотрите ниже
[[Файл:Image3.jpeg|500px|thumb|left|Карты признаков сети VGG16]]
Давайте предположим, что во время обучения этим 64 картам функций они, возможно, научились обнаруживать простые шаблоны, такие, что некоторые нейронные единицы активируются, когда они видят прямую линию, или даже для какого-либо другого типа шаблона, который может не иметь никакого смысла для человеческого глаза, но имеет огромный значение для этой модели. Это «Обнаружение» прямых линий или некоторого паттерна называется обучением представлению функции.
Теперь давайте рассмотрим 10-й слой свертки vgg16, который использует ядро 3x3 с 512 картами объектов для обучения и, наконец, генерирует вывод представления изображения 28X28x512, просто для простоты, давайте предположим, что в этом 10-м слое есть определенные единицы, которые активируются изображение, содержащее круги, подобные колесу автомобиля, или некоторые из них, которые активируются изображением, имеющим некоторый рисунок, похожий на три пересекающиеся линии и т. д.