Изменения

Перейти к: навигация, поиск
Конформер
===Конформер===
[[Файл:Conformer.png|600px|thumb|right|'''aРисунок 1.''' Схема архитектуры Конформер.<br> '''(a) и схема блоков конформера (b.''' Блок конформера.)]]
Архитектура Трансформер, основанная на [[Механизм внимания#Self-Attention|самовнимании]] позволяет фиксировать глобальные зависимости, однако не очень хорошо извлекает точные паттерны локальных признаков. [[Сверточные нейронные сети]], наоборот, эффективно используют локальные признаки, но требуют большого числа слоев для захвата глобального контекста. Архитектура Конформер (англ. ''Conformer'') берет лучшее от двух подходов, комбинируя свертки и механизм самовнимания, достигая $WER$ $1.9\%/3.9\%$ на LibriSpeech test/test-other.
Кодировщик сначала обрабатывает входные данные с помощью сверточной нейронной сети, состоящей из слоя [[Сверточные нейронные сети#Пулинговый слой|пулинга]], [[Нейронные сети, перцептрон|полносвязного слоя]] и [[Практики реализации нейронных сетей#Дропаут|дропаута]], а затем с помощью последовательности блоков Конформера.
Блок Блоки Конформера состоит это последовательность из двух модулей прямой связи (англ. ''feed forward''), между которыми расположены модуль многоголового самовнимания (англ. ''Multi-Head Self Attention'') и сверточный модуль, с последующей нормализацией слоя (англ. ''layer normalization'').
[[Файл:Multi_Head_Self_Attention_module.png|400px|thumb|right|'''Рисунок 2.''' Модуль многоголового самовнимания]]
'''Модуль многоголового самовнимания'''
'''Сверточный модуль'''
[[Файл:Convolution_module.png|600px|thumb|right|'''Рисунок 3.''' Сверточный модуль]]
Последовательность слоев в сверточном модуле начинается с управляемого модуля[https://arxiv.org/pdf/1612.08083.pdf]: сверточного слоя с ядром $1 \times 1$ и управляемого линейного блока (англ. ''gated linear unit''). Использование управляемого линейного блока уменьшает проблему исчезающего градиента. После сверточного слоя используется [[Batch-normalization|пакетная нормализация]].
'''Модули прямой связи'''
[[Файл:FFN.png|600px|thumb|right|'''Рисунок 4.''' Схема модуля прямой связи]]
В отличие от архитектуры Трансформер, в которой единственный модуль прямой связи следует за модулем внимания и состоит из двух линейных преобразований и нелинейной активации между ними, в Конформере два модуля прямой связи, состоящие из слоя нормализации и двух линейных слоев. Кроме того для регуляризации используется функция активации ''swish'' и [[Практики реализации нейронных сетей#Дропаут|дропаут]].
89
правок

Навигация