Изменения

Перейти к: навигация, поиск

Механизм внимания

1847 байт добавлено, 18:36, 2 декабря 2020
Convolutional Block Attention Module (CBAM): добавлен подмодуль Spatial Attention Module
==== Channel Attention Module ====
Канальный механизм внимания реализуется за счет исследования внутриканальных взяивосвязей во входных данных, фокусируясь на том "какая" информация находится в данных. Для более эффективной реализации используется сжатие входных данных по измерениям <math>H</math> и <math>W</math> с помощью <math>MaxPool</math> и <math>AvgPool</math>, в результате которого получаются два вектора <math>F^c_{max}</math> и <math>F^c_{avg}</math> из <math>\mathbb{R}^{C}</math>. После чего к этим двум векторам независимо применяется одна и та же полносвязная нейронная сеть с одним скрытым слоем малой размерности (при этом ее входные и выходные вектора принадлежат <math>\mathbb{R}^{C}</math>). После этого полученные из нейросети вектора поэлементно складываются, к результату поэлементно применяется сигмойдная функция активации и добавляются недостающие единичные размерности. Полученный тензор из <math>\mathbb{R}^{C \times 1 \times 1}</math> как раз и является результатом применения <math>A_1(F)</math>, поэлементное произведение которого со входом <math>F</math> дает тензор <math>F_1</math>==== Spatial Attention Module ====Пространственный механизм внимания реализуется за счет исследования пространственных взяимосвязей, и в отличие от канального фокусируется на том, "где" находится информация во входных данных. В данном случае для сжатия размерности используются те же пулинги, но относительно измерения <math>C</math>. Таким образом на выходе мы получаем две матрицы <math>F^s_{max}</math> и <math>F^s_{avg}</math> из <math>\mathbb{R}^{H \times W}</math>. После чего они конкатенируются и к полученному тензору размерности <math>\mathbb{R}^{2 \times H \times W}</math> применяется сверточный слой, уменьшающий число каналов до одного и не меняющий остальные размерности, а к результату поэлементно применяется сигмойдная функция активации. Полученный тензор из <math>\mathbb{R}^{1 \times H \times W}</math> как раз является результатом применения <math>A_2(F_1)</math>, поэлементное произведение которого с <math>F_1</math> дает выходной тензор <math>F_2</math>, который называется выходным множеством признаков c размерностью <math>\mathbb{R}^{C \times H \times W}</math>.
==Self-Attention==
85
правок

Навигация