Изменения

Векторное представление слов

49 байт добавлено, 20:06, 14 декабря 2020

Нет описания правки

При использовании word2vec или fastText не учитывается семантическая неоднозначность слов.

Так, word2vec назначает слову один вектор независимо от контекста.

ELMO решает эту проблему. В основе стоит идея использовать скрытые состояния языковой модели многослойной [[:Долгая_краткосрочная_память|LSTM]].

Было замечено, что нижние слои отвечают за синтаксис и грамматику, а верхние - за смысл слов.

Пусть даны токены <math>t_{1}, ..., t_{N}</math>, на которые поделено предложение. Будем предсказывать логарифм правдоподобия метки слова в обоих направлениях, учитывая контекст слева и контекст справа:

Коэффициенты <math>s</math> - это обучаемые параметры, нормализованные функцией <math>softMax</math>.

Модель применяют дообучая ее: изначально берут предобученную ELMO, а затем корректируют <math>\gamma</math> и <math>s_{i}</math> под конкретную задачу. Тогда вектор, который подается в используемую модель для обучения, будет представлять собой взвешенную сумму значений этого векторах на всех скрытых слоях ELMO.

[[File:Bert.png|500px|thumb|Архитектура BERT]]

BERT - это модель предварительного обучения NLP, представляющая собой многослойный двунаправленный [[:Автокодировщик|кодировщик]] Transformer. В данной архитектуре используется двунаправленное [[:Механизм внимания|самовнимание]]. Модель используется в совокупности с некоторым классификатором, на вход которого подается результат работы BERT - векторное представление входных данных.

В основе обучения модели лежат две идеи для обучения.

Первая заключается в том, чтобы заменить <math>15\%</math> слов масками и обучить сеть предсказывать эти слова.

Второй трюк состоит в том, чтобы дополнительно научить BERT определять, может ли одно предложение идти после другого.

Точно так же, как и в обычном ~~Трансформере~~трансформере, BERT принимает на вход последовательность слов, которая затем продвигается вверх по стеку энкодеров.

Каждый слой энкодера применяет внутреннее внимание (self-attention) и передает результаты в сеть прямого распространения, после чего направляет его следующему энкодеру.

Avpotapov

38

правок

Изменения

Векторное представление слов

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты