Изменения

Перейти к: навигация, поиск

Трансформер

616 байт добавлено, 17:03, 15 июня 2022
Нет описания правки
==Архитектура трансформера==
[[Файл:TransformerSimpleArchitecture.png|350px400px|thumb|right|Архитектура трансформера<ref>https://jalammar.github.io/illustrated-transformer/</ref>]]
Устройство трансформера состоит из кодирующего и декодирующего компонентов. На вход принимается некая последовательность, создается ее [[:Векторное_представление_слов|векторное представление]] (англ. ''embedding''), прибавляется вектор позиционного кодирования, после чего набор элементов без учета порядка в последовательности поступает в кодирующий компонент (параллельная обработка), а затем декодирующий компонент получает на вход часть этой последовательности и выход кодирующего. В результате получается новая выходная последовательность.
В основе лежит архитектура похожая на базовую архитектуру [[Механизм внимания#Базовая архитектура Seq2seq|Seq2seq]]: кодирующий Внутри кодирующего и декодирующего компонента нет рекуррентности. Кодирующий компонент {{---}} это последовательные блоки состоит из кодировщиков (англ. ''encoders''), а которые повторяются несколько раз, аналогично устроен декодирующий компонент . Трансформер {{---}} это последовательные блоки декодировщиков (англпоставленные друг за другом модели внимания, которые позволяют исходную последовательность векторов перевести в новую последовательность векторов, которые кодируют информацию о контексте каждого элемента. ''decoders'')Трансформер-кодировщик переводит исходные векторы в скрытые, которые правильно сохраняют в себе информацию о контексте каждого элемента. Кодировщики последовательно передает Далее трансформер-декодировщик декодирует результат своей работы следующему кодировщику на входкодировщика в новую последовательность, которая состоит из эмбедингов элементов выходного языка. Декодировщики передают друг другу на вход результат работы вместе После по эмбедингам генерируются сами итоговые элементы с результатом кодирующего компонентапомощью вероятностной языковой модели.
Ниже рассмотрим архитектуру кодировщика и декодировщика подробнее.
23
правки

Навигация