Изменения

← Предыдущая правка

Векторное представление слов

12 984 байта добавлено, 19:15, 4 сентября 2022

м

rollbackEdits.php mass rollback

'''Векторное представление слов''' (англ. ''word embedding'') {{- --}} общее название для различных подходов к моделированию языка и обучению представлений в обработке естественного языка, направленных на сопоставление словам из некоторого словаря векторов небольшой размерности.

== One-hot encoding ==

[[Файл:One-hot-encoding.png|thumb|right|~~250px~~220px| Рисунок 1. Пример one-hot encoding для словаря из 9 слов. [https://www.shanelynn.ie/get-busy-with-word-embeddings-introduction/ Источник]]] ~~Наиболее простой способ представления слов в виде векторов.~~ Пусть число различных слов равно <math>K</math>. Сопоставим слову с номером <math>i</math> вектор длины <math>K</math>, в котором <math>i</math>-тая координата равна единице, а все остальные {{- --}} нулям(рис. 1). Недостатком one-hot encoding является то, что по векторным представлениям нельзя судить о схожести смысла слов. Также вектора имеют очень большой размер, из-за чего их неэффективно хранить в памяти.

== word2vec ==

[[Файл:Words-space.png|thumb|right|400px|Рисунок 2. Полученные векторы-слова отражают различные грамматические и семантические [https://towardsdatascience.com/word-embedding-with-word2vec-and-fasttext-a209c1d3e12c концепции].

<math>W_{king} + (W_{woman} - W_{man}) = W_{queen}</math>

<math>W_{walked} - W_{walking} = W_{swam} - W_{swimming}</math>]]

word2vec {{---}} способ построения сжатого пространства векторов слов, использующий нейронные сети. Принимает на вход большой текстовый корпус и сопоставляет каждому слову вектор. Сначала он создает словарь, а затем вычисляет векторное представление слов. Векторное представление основывается на контекстной близости: слова, встречающиеся в тексте рядом с одинаковыми словами (а следовательно, имеющие схожий смысл) (рис. 2), в векторном представлении имеют высокое ''косинусное сходство'' (англ. [https://en.wikipedia.org/wiki/Cosine_similarity cosine similarity]):

:<math>\text{similarity}(\mathbf{A}, \mathbf{B}) = \cos(\theta) = {\mathbf{A} \cdot \mathbf{B} \over \|\mathbf{A}\| \|\mathbf{B}\|} = \frac{ \sum\limits_{i=1}^{n}{A_i B_i} }{ \sqrt{\sum\limits_{i=1}^{n}{A_i^2}} \sqrt{\sum\limits_{i=1}^{n}{B_i^2}} },</math>

В word2vec существуют две основных модели обучения: ''Skip-gram'' (рис. 3) и ''CBOW'' (англ. ''Continuous Bag of Words'') (рис. 4). В модели ''Skip-gram'' по слову предсказываются слова из его контекста, а в модели ''CBOW'' по контексту подбирается наиболее вероятное слово. На выходном слое используется функция <math>softmax</math> или его вариация, чтобы получить на выходе распределение вероятности каждого слова. В обеих моделях входные и выходные слова подаются в one-hot encoding, благодаря чему при умножении на матрицу <math>W</math>, соединяющую входной и скрытый слои, происходит выбор одной строки <math>W</math>. Размерность <math>N</math> является гиперпараметром алгоритма, а обученная матрица <math>W</math> {{---}} выходом, так как ее строки содержат векторные представления слов.

Для ускорения обучения моделей ''Skip-gram'' и CBOW используются модификации <math>softmax</math>, такие как иерархический <math>softmax</math> и ''negative sampling'', позволяющие вычислять распределение вероятностей быстрее, чем за линейное время от размера словаря.

{|align="center"

|-valign="top"

|[[Файл:skip-gram.png|270px|thumb|Рисунок 3. [http://www.claudiobellei.com/2018/01/06/backprop-word2vec/ Схема сети для модели Skip-gram]]]

|[[Файл:cbow.png|260px|thumb|Рисунок 4. [http://www.claudiobellei.com/2018/01/06/backprop-word2vec/ Схема сети для модели CBOW]]]

|}

== fastText ==

Недостатком word2vec является то, что с его помощью не могут быть представлены слова, не встречающиеся в обучающей выборке. fastText решает эту проблему с помощью <math>N</math>-грамм символов. Например, <math>3</math>-граммами для слова ''яблоко'' являются ''ябл'', ''бло'', ''лок'', ''око''. Модель fastText строит векторные представления <math>N</math>-грамм, а векторным представлением слова является сумма векторных представлений всех его <math>N</math>-грамм. Части слов с большой вероятностью встречаются и в других словах, что позволяет выдавать векторные представления и для редких слов.

== Примеры кода с использованием библиотеки Gensim ==

=== Загрузка предобученной модели русского корпуса ===

'''import''' gensim

'''import''' gensim.downloader '''as''' download_api

russian_model = download_api.load('word2vec-ruscorpora-300')

# ''Выведем первые 10 слов корпуса. # ''В модели "word2vec-ruscorpora-300" после слова указывается часть речи: NOUN (существительное), ADJ (прилагательное) и так далее.'' # ''Но существуют также предоубученные модели без разделения слов по частям речи, смотри [https://github.com/RaRe-Technologies/gensim-data репозиторий]''

list(russian_model.vocab.keys())[:10]

''# ['весь_DET', 'человек_NOUN', 'мочь_VERB', 'год_NOUN', 'сказать_VERB', 'время_NOUN', 'говорить_VERB', 'становиться_VERB', 'знать_VERB', 'самый_DET']''

# ''Поиск наиболее близких по смыслу слов.''

russian_model.most_similar('кошка_NOUN')

''# [('кот_NOUN', 0.7570087909698486), ('котенок_NOUN', 0.7261239290237427), ('собака_NOUN', 0.6963180303573608),''

# ''('мяукать_VERB', 0.6411399841308594), ('крыса_NOUN', 0.6355636119842529), ('собачка_NOUN', 0.6092042922973633),''

# ''('щенок_NOUN', 0.6028496026992798), ('мышь_NOUN', 0.5975362062454224), ('пес_NOUN', 0.5956044793128967),''

# ''('кошечка_NOUN', 0.5920293927192688)]''

# ''Вычисление сходства слов''

russian_model.similarity('мужчина_NOUN', 'женщина_NOUN')

''# 0.85228276''

# ''Поиск лишнего слова''

russian_model.doesnt_match('завтрак_NOUN хлопья_NOUN обед_NOUN ужин_NOUN'.split())

# ''хлопья_NOUN''

# ''Аналогия: Женщина + (Король - Мужчина) = Королева''

russian_model.most_similar(positive=['король_NOUN','женщина_NOUN'], negative=['мужчина_NOUN'], topn=1)

# ''[('королева_NOUN', 0.7313904762268066)]''

# ''Аналогия: Франция = Париж + (Германия - Берлин)''

russian_model.most_similar(positive=['париж_NOUN','германия_NOUN'], negative=['берлин_NOUN'], topn=1)

# ''[('франция_NOUN', 0.8673800230026245)]''

=== Обучение модели word2vec и fastText на текстовом корпусе ===

'''from''' gensim.models.word2vec '''import''' Word2Vec

'''from''' gensim.models.fasttext '''import''' FastText

'''import''' gensim.downloader '''as''' download_api

# ''Скачаем небольшой текстовый корпус (32 Мб) и откроем его как итерируемый набор предложений: iterable(list(string))''

# ''В этом текстовом корпусе часть речи для слов не указывается''

corpus = download_api.load('text8')

# ''Обучим модели word2vec и fastText''

word2vec_model = Word2Vec(corpus, size=100, workers=4)

fastText_model = FastText(corpus, size=100, workers=4)

word2vec_model.most_similar('car')[:3]

''# [('driver', 0.8033335208892822), ('motorcycle', 0.7368553876876831), ('cars', 0.7001584768295288)]''

fastText_model.most_similar('car')[:3]

''# [('lcar', 0.8733218908309937), ('boxcar', 0.8559106588363647), ('ccar', 0.8268736004829407)]

== ELMO ==

[[File:ElmoExplain.jpg|600px|thumb| Рисунок 5. [https://www.topbots.com/generalized-language-models-cove-elmo/ Архитектура и принцип работы ELMO]]]

ELMO {{---}} это многослойная двунаправленная [[:Рекуррентные_нейронные_сети|рекуррентная нейронная сеть]] c [[:Долгая_краткосрочная_память|LSTM]] (рис. 5).

При использовании word2vec или fastText не учитывается семантическая неоднозначность слов.

Так, word2vec назначает слову один вектор независимо от контекста.

ELMO решает эту проблему. В основе стоит идея использовать скрытые состояния языковой модели многослойной [[:Долгая_краткосрочная_память|LSTM]].

Было замечено, что нижние слои сети отвечают за синтаксис и грамматику, а верхние {{---}} за смысл слов.

Пусть даны токены <math>t_{1}, ..., t_{N}</math>, на которые поделено предложение. Будем считать логарифм правдоподобия метки слова в обоих направлениях, учитывая контекст слева и контекст справа, то есть на основании данных от начала строки до текущего символа и данных от текущего символа и до конца строки.

Таким образом, модель предсказывает вероятность следующего токена с учетом истории.

Пусть есть <math>L</math> слоев сети. Входные и выходные данные будем представлять в виде векторов, кодируя слова. Тогда каждый результирующий вектор будем считать на основании множества: <math>\left \{ {x_{k}^{LM}}, \overrightarrow{h_{k, j}^{LM}}, \overleftarrow{h_{k, j}^{LM}} | j =1, ..., L \right \} = ~~word2vec =~~\left \{ h_{k, j}^{LM} | j =1, ..., L \right \}</math>. ~~word2vec~~ Здесь <math>x_{k}^{LM}</math> {{--- ~~способ построения сжатого пространства векторов слов~~}} входящий токен, а <math>\overrightarrow{h_{k, j}^{LM}}</math> и <math>\overleftarrow{h_{k, ~~использующий нейронные сети~~j}^{LM}}</math> {{---}} скрытые слои в одном и в другом направлении. ~~Принимает на вход большой текстовый корпус и сопоставляет каждому слову вектор~~ Тогда результат работы ELMO будет представлять из себя выражение:<math>ELMO_{k}^{task} = \gamma^{taks}\sum_{j=0}^{L} s_{i}^{task}h_{k,j}^{LM}</math>. ~~Сначала он создает словарь~~ Обучаемый общий масштабирующий коэффициент <math>\gamma^{task}</math> регулирует то, ~~а затем вычисляет векторное представление~~ как могут отличаться друг от друга по норме векторные представления слов. ~~Векторное представление основывается на контекстной близости~~ Коэффициенты <math>s_{i}^{task}</math> {{---}} это обучаемые параметры, нормализованные функцией <math>Softmax</math>. Модель применяют дообучая ее: ~~слова~~изначально берут предобученную ELMO, ~~встречающиеся в тексте рядом с одинаковыми словами (~~а ~~следовательно~~затем корректируют <math>\gamma</math> и <math>s_{i}</math> под конкретную задачу. Тогда вектор, ~~имеющие схожий смысл)~~который подается в используемую модель для обучения, будет представлять собой взвешенную сумму значений этого векторах на всех скрытых слоях ELMO. На данный момент предобученную модель ELMO можно [https://tfhub.dev/google/elmo/3 загрузить] и использовать в ~~векторном представлении будут иметь близкие координаты векторов-слов~~языке программирования Python.

~~В word2vec существуют две основных модели обучения: Skip-gram и CBOW~~ == BERT =={{main|BERT (~~Continuous Bag of Words~~языковая модель)}}[[File:Bert.png|500px|thumb|Рисунок 6. [https://towardsdatascience. ~~В модели Skip~~com/bert-why-its-been-revolutionizing-nlp-gram по слову предсказываются слова из его контекста, а в модели CBOW по контексту подбирается наиболее вероятное слово. На выходном слое используется функция 5d1bcae76a13 Архитектура BERT]]]<~~math~~i>~~softmax~~BERT</~~math~~i> ~~или его вариация, чтобы получить на выходе распределение вероятности каждого слова~~{{---}} это многослойный двунаправленный [[:Автокодировщик|кодировщик]] Transformer. В ~~обеих моделях входные и выходные слова подаются~~ данной архитектуре (рис. 6) используется двунаправленное [[:Механизм внимания|самовнимание]] (англ. self-attention). Модель используется в ~~one-hot encoding~~совокупности с некоторым классификатором, ~~благодаря чему при умножении~~ на ~~матрицу~~ вход которого подается результат работы <~~math~~i>WBERT</~~math>, соединяющую входной и скрытый слои, происходит выбор одной строки <math>W</math~~i>{{---}} векторное представление входных данных. Размерность <math>N</math> является гиперпараметром алгоритма, а обученная матрица <math>W</math> - выходом, так как ее строки содержат векторные представления словВ основе обучения модели лежат две идеи.

~~Для ускорения обучения моделей Skip-gram и CBOW используются модификации <math>softmax</math>~~Первая заключается в том, ~~такие как иерархический~~ чтобы заменить <math>~~softmax~~15\%</math> слов масками и negative subsampling, позволяющие вычислять распределение вероятностей быстрее, чем за линейное время от размера словаряобучить сеть предсказывать эти слова.

~~{|align="center"~~ ~~|-valign="top"~~ ~~|[[Файл:skip-gram.png|270px|thumb|Схема сети для модели Skip-gram]]~~ ~~|[[Файл:cbow.png|260px|thumb|Схема сети для модели CBOW]]~~ |[[Файл:Words-space.png|thumb|right|500px|Полученные векторы-слова могут быть использованы для вычисления семантического расстояния между словами. После обучения векторы отражают различные грамматические и семантические концепции. Второй трюк состоит в том, чтобы дополнительно научить <~~math~~i>~~W_{king} + (W_{woman} - W_{man}) = W_{queen}~~BERT</~~math~~i>~~ <math>W_{walked} - W_{walking} = W_{swam} - W_{swimming}</math>]]~~ |}определять, может ли одно предложение идти после другого.

~~== fastText ==Алгоритм word2vec был разработан в Google под руководством Томаса Миколова~~ Точно так же, как и ~~опубликован~~ в ~~2013 году~~обычном трансформере, BERT принимает на вход последовательность слов, которая затем продвигается вверх по стеку энкодеров. ~~fastText - улучшение word2vec также под руководством Томаса Миколова, но уже~~ Каждый слой энкодера применяет самовнимание и передает результаты в ~~Facebook~~сеть прямого распространения, ~~опукованное в 2015 году~~после чего направляет его следующему энкодеру.

~~Недостатком word2vec является то, что с его помощью не могут быть представлены слова, не встречающиеся~~ Для каждой позиции на выход подается вектор размерностью <math>hiddenSize</math> (<math>768</math> в ~~обучающей выборке~~базовой модели). fastText решает эту проблему с помощью N-грамм символов. Например, 3-граммами для слова ''яблоко'' являются ''ябл'', ''бло'', ''лок'', ''око''. Модель теперь строит векторные представления N-грамм, а векторным представлением слова будет сумма векторных представлений для всех его N-грамм. Части слов с большой вероятностью встречаются и в других словах, что позволяет выдавать векторные представления и Этот вектор может быть использован как входной вектор для ~~редких слов тоже~~классификатора.

Bert поддерживается в качестве модели в языке Python, которую можно [https://github.com/google-research/bert загрузить].

== См. также ==

== Источники информации ==

* [https://en.wikipedia.org/wiki/Word_embeddingWord embedding] {{---}} статья о векторных представлениях в английской Википедии* [https://youtu.be/Wq414SDmOCM (YouTube) Обработка естественного языка] {{---}} лекция на русском Даниила Полыковского в курсе Техносферы* [https://youtu.be/ERibwqs9p38 (YouTube) Word Vector Representations: word2vec] {{---}} лекция на английском в Стэнфордском Университете* [https://arxiv.org/abs/1301.3781word2vec article] {{---}} оригинальная статья по word2vecот Томаса Миколова* [https://code.google.com/archive/p/word2vec/word2vec code] {{---}} исходный код word2vec на Google Code* [https://rare-technologies.com/word2vec-tutorial Gensim tutorial on word2vec] {{---}} небольшое руководство по работе с word2vec в библиотеке Gensim* [https://radimrehurek.com/gensim/models/fasttext.html Gensim documentation on fastText] {{---}} документация по fastText в библиотеке Gensim* [https://github.com/RaRe-Technologies/gensim-data Gensim Datasets] {{---}} репозиторий предобученных моделей для библиотеки Gensim* [https://fasttext.cc/fastText] {{---}} NLP библиотека от Facebook * [https://arxiv.org/pdf/1607.04606.pdf fastText article] {{---}} оригинальная статья по fastText ~~by Facebook~~от Piotr Bojanowski* [https://rusvectores.org/ru/ RusVectōrēs] {{---}} онлайн сервис для работы с семантическими отношениями русского языка* [https://arxiv.org/abs/1810.04805/ Cornell univerity arxiv] {{---}} оригинальная статья про Bert* [https://arxiv.org/abs/1802.05365/ Cornell univerity arxiv] {{---}} оригинальная статья с описанием ELMO

[[Категория: Машинное обучение]] [[Категория: Обработка естественного языка]]

Maintenance script

1632

правки

Изменения

Векторное представление слов

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты