Изменения

Трансформер

467 байт убрано, 15:18, 14 июня 2022

м

→‎Архитектура трансформера-декодировщика

<math> y_t = \mathrm{LN} \circ FNN(h''_t) </math>

5. ~~Линейный предсказывающий слой~~В самом конце мы хотим получить вероятностную порождающую модель для элементов. Результат (индекс слова с наибольшей вероятностью):<math> ~~p(\tilde w|t) =~~ \mathrm{~~SoftMax}_{\tilde w~~SoftArgMax}(W_y y_t + b_y) </math>, где <math> W_y </math>, <math> b_y </math> {{---}} обучаемые параметры линейного преобразования. Для каждой позиции <math>t</math> выходной последовательности мы строим вероятностную модель языка, то есть все элементы из выходного словаря получают значение вероятности. Эти значения как раз получаются из векторов <math>y_t</math> из предыдущего пункта, которые мы берем с последнего блока трансформера-декодировщика.

Последний этап выполняется только после того, когда повторились пункты 1-4 для всех декодировщиков. На выходе получаем вероятности классов, по факту решаем для каждого класса задачу многоклассовой классификации, для того, чтобы понять какие элементы лучше поставить на каждые позиции. В самом конце мы имеем вероятностную порождающую модель для элементов и остается только породить эти элементы. Для простоты мы будем считать, что для каждой позиции просто выбирается самый вероятный элемент. Генерация самих элементов: <math> {\tilde w}_t = \mathrm{arg max}_{\tilde w} p(\tilde w|t) </math>, пока не сгенерируется слово обозначающее конец последовательности.

==Источники информации==

Nilaev

23

правки

Изменения

Трансформер

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты