Изменения

← Предыдущая правка

Трансформер

2250 байт добавлено, 19:11, 4 сентября 2022

м

rollbackEdits.php mass rollback

==Архитектура трансформера==

[[Файл:TransformerSimpleArchitecture.png|~~350px~~400px|thumb|right|Архитектура трансформера<ref>https://jalammar.github.io/illustrated-transformer/</ref>]]Устройство трансформера состоит из кодирующего и декодирующего компонентов. На вход принимается некая последовательность, создается ее [[:Векторное_представление_слов|векторное представление]] (англ. ''embedding''), ~~векторизованная последовательность~~ прибавляется вектор позиционного кодирования, после чего набор элементов без учета порядка в последовательности поступает в кодирующий компонент(параллельная обработка), а затем декодирующий компонент получает на вход часть этой последовательности и выход кодирующего. В результате получается новая выходная последовательность. Кодирующий компонент – это стек кодировщиков (англ. ''encoders''), а декодирующий компонент – это стек декодировщиков (англ. ''decoders''). Каждый кодировщики последовательно передает результат своей работы следующему кодировщику на вход. Декодировщики последовательно передают друг другу на вход результат работы вместе с результатом кодирующего компонента.

Внутри кодирующего и декодирующего компонента нет рекуррентности. Кодирующий компонент состоит из кодировщиков, которые повторяются несколько раз, аналогично устроен декодирующий компонент. Трансформер {{---}} это поставленные друг за другом модели внимания, которые позволяют исходную последовательность векторов перевести в новую последовательность векторов, которые кодируют информацию о контексте каждого элемента. Трансформер-кодировщик переводит исходные векторы в скрытые, которые правильно сохраняют в себе информацию о контексте каждого элемента. Далее трансформер-декодировщик декодирует результат кодировщика в новую последовательность, которая состоит из эмбедингов элементов выходного языка. После по эмбедингам генерируются сами итоговые элементы с помощью вероятностной языковой модели.

Ниже рассмотрим архитектуру кодировщика и декодировщика подробнее.

==Архитектура трансформера-кодировщика==

[[Файл:TransformerEncoderArchitecture.png|150px|thumb|left|Архитектура трансформера-кодировщика<ref>https://arxiv.org/abs/1706.03762</ref>]]

Рассмотрим последовательно шаг за шагом этапы работы кодировщика:

1. На вход поступает последовательность элементов <math>w_i</math>, по ней создается последовательность эмбедингов, где каждый <math>x_i</math> это векторное представление элемента <math>w_i</math>.

3. Полученный вектор <math>h_i</math> подается на вход в блок многомерного самовнимания (англ. ''multi-headed self-attention'').

<math>h^j_i = \mathrm{Attn}(WQ^~~j_q~~ j h_i, WK^~~j_k~~ j H, WV^~~j_v~~ j H)</math>, где ~~<math>W</math> {{---}}~~ обучаемые матрицы, : <math>~~W_q~~Q</math> для запроса, <math>~~W_k~~K</math> для ключа, <math>~~W_v~~V</math> для значения. Подробное объяснения работы механизма self-attention будет разобрано ниже.

4. Затем необходима конкатенация, чтобы вернуться в исходную размерность: <math> h'_i = M H_j (h^j_i) = [h^1_i...h^J_i] </math>

5. Добавим сквозные связи (англ. ''skip connection'') {{---}} по факту просто добавление из входного вектора к выходному (<math>h'_i + h_i</math>). После делаем ~~нормировку уровня~~ нормализацию слоя (англ. ''layer normalization''): <math>h''_i = \mathrm{LN}(h'_i + h_i; \mu_1, \sigma_1)</math>. У нее два обучаемых параметра, для каждой размерности вектора вычисляется среднее и дисперсия.

6. Теперь добавим преобразование, которое будет обучаемым {{---}} полносвязную двухслойную нейронную сеть:

<math> h'''_i = W_2 \mathrm{ReLU} (W_1 h''_i + b_1) + b_2 </math>

7. Повторим пункт 5 еще раз: добавим сквозную связь и ~~нормировку уровня~~нормализацию слоя: <math>z_i = \mathrm{LN}(h'''_i + h''_i; \mu_2, \sigma_2)</math>

После, в кодирующем компоненте пункты кодировщика 3--7 повторяются еще несколько раз, преобразовывая друг за другом из контекста контекст. Тем самым мы обогащаем модель и увеличиваем в ней количество параметров.

===Позиционное кодирование===

[[Файл:~~PositionalEncoding~~PositionalEncodingNew.png|400px|thumb|right|Визуализация работы позиционного кодирования<ref>~~http~~https://~~www~~kazemnejad.~~machinelearning.ru~~com/blog/~~wiki~~transformer_architecture_positional_encoding/~~index.php~~</ref>]]Так как в архитектуре трансформер обработка последовательности заменяется на обработку множества мы теряем информацию о порядке элементов последовательности. Чтобы отобразить информацию о позиции элемента в исходной последовательности мы используем позиционное кодирование. Позиционное кодирование (англ. ''positional encoding'') {{---}} позволяет модели получить информацию о порядке элементов в последовательности путем прибавления специальных меток к вектору входных элементов. Позиции элементов <math>i</math> кодируются векторами <math>p_i</math>, <math>i = 1, 2, ..., n</math>, так, что чем больше <math>|i - j|</math>, тем больше <math>||p_i - p_j||</math>, и <math>n</math> не ограничено. Пример такого кодирования: <math> p_{(i, s)} = \begin{cases} \sin \left(i \cdot 10000^{\frac{-2s2k}{d_{model}}}\right)~~</math>,<math>p_{(i, s +~~ & \quad \~~frac~~text{~~d}{2})~~если } s= 2k\\ \cos \left(i \cdot 10000^{\frac{-2s2k}{d_{model}}}\right) & \quad \text{если } s=2k+1 \end{cases}</math>

===Self-attention===

'''Self-Attention''' {{---}} разновидность [[:Механизм_внимания|механизма внимания]], задачей которой является выявление закономерности между входными данными.

Будем для каждого элемента <math>x_i</math> ~~обучать~~ получать обучаемым преобразованием три вектора:

* Запрос (''query'') <math>q_i = ~~W_Q~~ Q x_i</math>* Ключ (''key'') <math>k_i = ~~W_K~~ K x_i</math>* Значение (''value'') <math>v_i = ~~W_V~~ V x_i</math>

Векторы <math>q_i</math> и <math>k_i</math> будем использовать, ~~что~~ чтобы посчитать важность элемента <math>x_j</math> для элемента <math>x_i</math>. Чтобы понять, насколько для пересчета вектора элемента <math>x_i</math> важен элемент <math>x_j</math> мы берем <math>k_j</math> (вектор ключа элемента <math>x_j</math>) и умножаем на <math>q_i</math> (вектор запроса элемента <math>x_i</math>). Так мы скалярно перемножаем вектор запроса на все векторы ключей, тем самым понимаем, насколько каждый входной элемент нам нужен, чтобы пересчитать вектор элемента <math>x_i</math>.

Далее считаем важность ~~влияния~~ элемента <math>x_j</math> для кодирования элемента <math>x_i</math>:

<math>w_{ji}=\frac{

\exp \left(\frac{\langle q_i, k_j \rangle}{\sqrt{d}} \right)

где <math>d</math> {{---}} размерность векторов <math>q_i</math> и <math>k_j</math>, а <math>n</math> {{---}} число элементов во входной последовательности.

Таким образом, новое представление элемента <math>x_i</math> считаем как взвешенную сумму векторов значения: <math>z_i = \mathrm{Attn}(~~W_q~~ Q x_i, ~~W_k~~ K X, ~~W_v~~ V X) = \sum_{p=1}^n w_{p i} v_p</math>, где <math>X = (x_1, x_2, ..., x_n)</math> {{---}} входные векторы. По ~~итогу мы~~ факту ''self-attention'' {{---}} это ''soft-arg-max'' с температурой <math>\sqrt{d}</math>. Мы перемешиваем все входные векторы, чтобы получить новые векторы всех элементов, где каждый элемент зависит от всех входных элементов.

===Multi-headed self-attention===

То есть параллельно независимо несколько раз делаем attention. Потом результат каждого attention по элементам конкатенируем, затем сжимаем получившуюся матрицу и получаем для каждого элемента свой вектор той же размерности.

<math>с^j = \mathrm{Attn}(WQ^~~j_q~~ j q, WK^~~j_k~~ j X, WV^~~j_v~~ j X)</math>, где <math>j = 1...J</math>, <math>J</math> {{---}} число разных моделей внимания, <math>X = (x_1, x_2, ..., x_n)</math> {{---}} входные векторы, а <math>W</math> {{---}} обучаемые матрицы.

2. Далее идет этап многомерного самовнимания: линейная нормализация и multi-headed self-attention. Особенность в том, что в attention ключи и значения применяются не ко всем векторам, а только к тем, значения которых уже синтезировали (<math>H_t</math>):

<math> h'_t = \mathrm{LN} \circ M H_j \circ \mathrm{Attn}(WQ^~~j_q~~ j h_t, WK^~~j_k~~ j H_t, WV^~~j_v~~ j H_t) </math>, где <math>\circ</math> {{---}} композиция.

3. На следующем этапе мы делаем многомерное внимание на кодировку <math>Z</math>, результат работы компонента кодировщика:

<math> h''_t = \mathrm{LN} \circ M H_j \circ \mathrm{Attn}(WQ^~~j_q~~ j h_t, WK^~~j_k~~ j Z, WV^~~j_v~~ j Z) </math>

4. Линейная полносвязная сеть (по аналогии~~, как и в кодировщике~~с кодировщиком):

<math> y_t = \mathrm{LN} \circ FNN(h''_t) </math>

5. ~~Линейный предсказывающий слой~~В самом конце мы хотим получить вероятностную порождающую модель для элементов. Результат (индекс слова с наибольшей вероятностью):<math> ~~p(\tilde w|t) =~~ \mathrm{~~SoftMax}_{\tilde w~~SoftArgMax}(W_y y_t + b_y) </math>, где <math> W_y </math>, <math> b_y </math> {{---}} ~~обучаемая матрица весовых коэффицентов~~обучаемые параметры линейного преобразования. Для каждой позиции <math>t</math> выходной последовательности мы строим вероятностную модель языка, то есть все элементы из выходного словаря получают значение вероятности. Эти значения как раз получаются из векторов <math> ~~b_y~~ y_t</math> ~~{{--~~из предыдущего пункта, которые мы берем с последнего блока трансформера-~~}} обучаемый вектор смещения~~декодировщика.

Последний этап выполняется только после того, когда повторились пункты 1--4 для всех декодировщиков. На выходе получаем вероятности классов, по факту для каждой позиции решаем ~~для каждого класса~~ задачу многоклассовой классификации, для того, чтобы понять какие элементы лучше поставить на каждые позиции. В самом конце происходит генерация самих элементов: <math> {\tilde w}_t = \mathrm{arg max}_{\tilde w} p(\tilde w|t) </math>, пока не сгенерируется слово обозначающее конец последовательности.

==Источники информации==

Maintenance script

1632

правки

Изменения

Трансформер

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты