89
правок
Изменения
→Конформер
Трансформер, использующий [[Механизм внимания#Self-Attention|механизм самовнимания]], хорошо захватывает глобальный контекст, однако не очень хорошо извлекает локальные признаки. [[Сверточные нейронные сети]], наоборот, эффективно используют локальные признаки, но требуют большого числа слоев для захвата глобального контекста. Конформер (англ. ''Conformer'') комбинирует сверточные слои с механизмом самовнимания. $WER$ на LibriSpeech test/test-other составляет $1.9\%/3.9\%$.
Блоки Конформера это последовательность из двух модулей прямой связи (англ. ''feed forward''), между которыми расположены модуль многоголового самовнимания (англ. ''Multi-Head Self Attention'') и сверточный модуль, с последующей нормализацией слоя (англ. ''layer normalization'').
Относительное позиционное кодирование основано на относительном расстоянии между токенами. Для подсчета оценки на основании которой на некоторое скрытое состояние будет "обращено внимание" используется относительное расстояние между токенами вместо абсолютного положения текущего токена, а так же два вектора параметров: первый регулирует важность содержания другого токена, а второй важность расстояния между токенами.
Использование модуля многоголового самовнимания с относительным позиционным кодированием позволяет сети лучше обучаться при различной длине ввода, а результирующий энкодер результирующая архитектура более устойчив устойчива к неоднородности длины высказывания.
'''Сверточный модуль'''