38
правок
Изменения
→ELMO
Было замечено, что нижние слои сети отвечают за синтаксис и грамматику, а верхние - за смысл слов.
Пусть даны токены <math>t_{1}, ..., t_{N}</math>, на которые поделено предложение. Будем предсказывать считать логарифм правдоподобия метки слова в обоих направлениях, учитывая контекст слева и контекст справа, то есть на основании данных от начала строки до текущего символа и данных от текущего символа и до конца строки.Таким образом, модель предсказывает вероятность следующего токена с учетом истории.
Пусть есть <math>L</math> слоев сети. Входные и выходные данные будем представлять в виде векторов, кодируя слова. Тогда каждый результирующий вектор будем считать на основании множества: