Изменения

Перейти к: навигация, поиск

Трансформер

4 байта убрано, 14:29, 14 июня 2022
м
Архитектура трансформера-декодировщика
5. Линейный предсказывающий слой:
<math> p(\tilde w|t) = \mathrm{Soft-argmaxSoftMax}_{\tilde w}(W_y y_t + b_y) </math>, <math> W_y </math>, <math> b_y </math> {{---}} обучаемые параметры линейного преобразования. Для каждой позиции <math>t</math> выходной последовательности мы строим вероятностную модель языка, то есть все элементы из выходного словаря получают значение вероятности. Эти значения как раз получаются из векторов <math>y_t</math> из предыдущего пункта, которые мы берем с последнего блока трансформера-декодировщика.
Последний этап выполняется только после того, когда повторились пункты 1-4 для всех декодировщиков. На выходе получаем вероятности классов, по факту решаем для каждого класса задачу многоклассовой классификации, для того, чтобы понять какие элементы лучше поставить на каждые позиции.
23
правки

Навигация