Изменения

Перейти к: навигация, поиск
Конформер
Однако, с использованием механизма повторения возникает новая проблема: при использовании исходного позиционного кодирования каждый сегмент кодируется отдельно, и в результате токены из разных сегментов закодированы одинаково.
Относительное позиционное кодирование основано на относительном расстоянии между токенами. Для подсчета оценки , на основании которой на некоторое скрытое состояние будет "обращено внимание" , используется относительное расстояние между токенами вместо абсолютного положения текущего токена, а так же два вектора параметров: первый регулирует важность содержания другого токена, а второй важность расстояния между токенами.
Использование модуля многоголового самовнимания с относительным позиционным кодированием позволяет сети лучше обучаться при различной длине ввода, а результирующая архитектура более устойчива к неоднородности длины высказывания.
24
правки

Навигация