38
правок
Изменения
Нет описания правки
При использовании word2vec или fastText не учитывается семантическая неоднозначность слов.
Так, word2vec назначает слову один вектор независимо от контекста.
<i>ELMO </i> решает эту проблему. В основе стоит идея использовать скрытые состояния языковой модели многослойной [[:Долгая_краткосрочная_память|LSTM]].
Было замечено, что нижние слои отвечают за синтаксис и грамматику, а верхние - за смысл слов.
Пусть даны токены <math>t_{1}, ..., t_{N}</math>, на которые поделено предложение. Будем предсказывать логарифм правдоподобия метки слова в обоих направлениях, учитывая контекст слева и контекст справа:
Коэффициенты <math>s</math> - это обучаемые параметры, нормализованные функцией <math>softMax</math>.
Модель применяют дообучая ее: изначально берут предобученную <i>ELMO</i>, а затем корректируют <math>\gamma</math> и <math>s_{i}</math> под конкретную задачу. Тогда вектор, который подается в используемую модель для обучения, будет представлять собой взвешенную сумму значений этого векторах на всех скрытых слоях <i>ELMO</i>.
{{main|Bert}}
[[File:Bert.png|500px|thumb|Архитектура BERT]]
<i>BERT </i> - это модель предварительного обучения NLP, представляющая собой многослойный двунаправленный [[:Автокодировщик|кодировщик]] Transformer. В данной архитектуре используется двунаправленное [[:Механизм внимания|самовнимание]]. Модель используется в совокупности с некоторым классификатором, на вход которого подается результат работы <i>BERT </i> - векторное представление входных данных.
В основе обучения модели лежат две идеи для обучения.
Первая заключается в том, чтобы заменить <math>15\%</math> слов масками и обучить сеть предсказывать эти слова.
Второй трюк состоит в том, чтобы дополнительно научить <i>BERT </i> определять, может ли одно предложение идти после другого.
Точно так же, как и в обычном Трансформеретрансформере, <i>BERT </i> принимает на вход последовательность слов, которая затем продвигается вверх по стеку энкодеров.
Каждый слой энкодера применяет внутреннее внимание (self-attention) и передает результаты в сеть прямого распространения, после чего направляет его следующему энкодеру.