Изменения

Векторное представление слов

10 742 байта добавлено, 23:35, 5 марта 2019

→‎Обучение модели word2vec и fastText на текстовом корпусе

'''~~Статья находится в разработке~~Векторное представление слов''' (англ. ''word embedding'') {{---}} общее название для различных подходов к моделированию языка и обучению представлений в обработке естественного языка, направленных на сопоставление словам из некоторого словаря векторов небольшой размерности.

~~'''~~== One-hot encoding ==[[Файл:One-hot-encoding.png|thumb|right|250px|[https://www.shanelynn.ie/get-busy-with-word-embeddings-introduction/ Источник]]] Пусть число различных слов равно <math>K</math>. Сопоставим слову с номером <math>i</math> вектор длины <math>K</math>, в котором <math>i</math>-тая координата равна единице, а все остальные {{---}} нулям. Недостатком one-hot encoding является то, что по векторным представлениям нельзя судить о схожести смысла слов. Также вектора имеют очень большой размер, из-за чего их неэффективно хранить в памяти. == word2vec ==word2vec {{---}} способ построения сжатого пространства векторов слов, использующий нейронные сети. Принимает на вход большой текстовый корпус и сопоставляет каждому слову вектор. Сначала он создает словарь, а затем вычисляет векторное представление слов. Векторное представление ~~слов~~основывается на контекстной близости: слова, встречающиеся в тексте рядом с одинаковыми словами (а следовательно, имеющие схожий смысл), в векторном представлении имеют высокое ''косинусное сходство'' ~~- набор методов обработки естественного языка~~ (~~NLP~~англ. [https://en.wikipedia.org/wiki/Cosine_similarity cosine similarity]) ~~для представления слов из словаря размера |V|~~ : :<math>\text{similarity}(~~300k~~\mathbf{A}, 1M\mathbf{B}) ~~в линейное пространство меньшей размерности d~~ = \cos(~~100~~\theta) = {\mathbf{A} \cdot \mathbf{B} \over \|\mathbf{A}\| \|\mathbf{B}\|} = \frac{ \sum\limits_{i=1}^{n}{A_i B_i} }{ \sqrt{\sum\limits_{i=1}^{n}{A_i^2}} \sqrt{\sum\limits_{i=1}^{n}{B_i^2}} }, ~~1000).~~ </math>

~~TODO:~~

~~tf-idf~~

~~cosinus measure~~

~~bag-of-words (BOW)~~

~~continuous BOW~~

~~N-gram~~

~~skip-gram~~

~~word2vec with skip-grams learning~~

~~== One~~В word2vec существуют две основных модели обучения: ''Skip-~~hot encoding ==Наиболее простой способ представления слов в виде векторов~~gram'' и ''CBOW'' (англ. ~~Пусть число различных слов равно |V|~~''Continuous Bag of Words''). ~~Сопоставим~~ В модели ''Skip-gram'' по слову ~~номер i вектор длины |V|~~предсказываются слова из его контекста, а в модели ''CBOW'' по контексту подбирается наиболее вероятное слово. На выходном слое используется функция <math>softmax</math> или его вариация, чтобы получить на выходе распределение вероятности каждого слова. В обеих моделях входные и выходные слова подаются в ~~котором i~~one-~~тая координата равна 1~~hot encoding, благодаря чему при умножении на матрицу <math>W</math>, соединяющую входной и скрытый слои, ~~а все остальные - нули~~происходит выбор одной строки <math>W</math>. ~~Недостатком подходя~~ Размерность <math>N</math> является тогиперпараметром алгоритма, ~~что близкие по смыслу слова обладают совершенно разными векторами~~а обученная матрица <math>W</math> {{---}} выходом, ~~из-за чего не получится искать синонимы~~ так как ее строки содержат векторные представления слов.

~~[[Файл:One~~Для ускорения обучения моделей ''Skip-~~hot-encoding~~gram'' и CBOW используются модификации <math>softmax</math>, такие как иерархический <math>softmax</math> и ''negative sampling'', позволяющие вычислять распределение вероятностей быстрее, чем за линейное время от размера словаря.~~png|300px]]~~

{|align="center" |-valign= ~~Методы построения пространства слов~~ "top" |[[Файл:skip-gram.png|270px|thumb|[http://www.claudiobellei.com/2018/01/06/backprop-word2vec/ Схема сети для модели Skip-gram]]] |[[Файл:cbow.png|260px|thumb|[http://www.claudiobellei.com/2018/01/06/backprop-word2vec/ Схема сети для модели CBOW]]] |[[Файл:Words-space.png|thumb|right|500px|Полученные векторы-слова отражают различные грамматические и семантические [https://towardsdatascience.com/word-embedding-with-word2vec-and-fasttext-a209c1d3e12c концепции]. <math>W_{king} + (W_{woman} - W_{man}) =W_{queen}</math> <math>W_{walked} - W_{walking} =W_{swam} - W_{swimming}</math>]] |}

~~Существует несколько способов построения пространства векторов~~ == fastText ==Недостатком word2vec является то, что с его помощью не могут быть представлены слова, не встречающиеся в обучающей выборке. fastText решает эту проблему с помощью <math>N</math>-грамм символов. Например, <math>3</math>-граммами для слова ''яблоко'' являются ''ябл'', ''бло'', ''лок'', ''око''. Модель fastText строит векторные представления <math>N</math>-грамм, а векторным представлением слова является сумма векторных представлений всех его <math>N</math>-грамм. Части слов с большой вероятностью встречаются и в других словах, что позволяет выдавать векторные представления и для редких слов.

== Примеры кода с использованием библиотеки Gensim ===== Загрузка предобученной модели русского корпуса === '''import''' gensim '''import''' gensim.downloader '''as''' download_api russian_model = download_api.load('word2vec-ruscorpora-300') # ''Выведем первые 10 слов корпуса. # ''В модели "word2vec -ruscorpora-300" после слова указывается часть речи: NOUN (~~Google~~существительное), ~~2013~~ADJ (прилагательное) ~~использует нейронные сети~~и так далее.'' # ''Но существуют также предоубученные модели без разделения слов по частям речи, смотри [https://github. com/RaRe-Technologies/gensim-data репозиторий]''~~GloVe~~ list(~~Standford~~russian_model.vocab.keys())[:10] ''# ['весь_DET', 'человек_NOUN', 'мочь_VERB', 'год_NOUN', 'сказать_VERB', 'время_NOUN', 'говорить_VERB', 'становиться_VERB', 'знать_VERB', ~~обучается на матрице совместной встречаемости~~'самый_DET']'' # ''Поиск наиболее близких по смыслу слов.'' russian_model.most_similar('кошка_NOUN')~~fastText~~ <~~ref~~font color="grey">''# [~~https~~('кот_NOUN', 0.7570087909698486), ('котенок_NOUN', 0.7261239290237427), ('собака_NOUN', 0.6963180303573608),'' # ''('мяукать_VERB', 0.6411399841308594), ('крыса_NOUN', 0.6355636119842529), ('собачка_NOUN', 0.6092042922973633),'' # ''('щенок_NOUN', 0.6028496026992798), ('мышь_NOUN', 0.5975362062454224), ('пес_NOUN', 0.5956044793128967),'' # ''('кошечка_NOUN', 0.5920293927192688)]'' # ''Вычисление сходства слов'' russian_model.similarity('мужчина_NOUN', 'женщина_NOUN') ''# 0.85228276'' # ''Поиск лишнего слова'' russian_model.doesnt_match('завтрак_NOUN хлопья_NOUN обед_NOUN ужин_NOUN'.split()) # ''хлопья_NOUN'' # ''Аналогия:Женщина + (Король - Мужчина) = Королева'' russian_model.most_similar(positive=['король_NOUN','женщина_NOUN'], negative=['мужчина_NOUN'</~~fasttext~~font>], topn=1) # ''[('королева_NOUN', 0.cc7313904762268066)]''</ ~~fastText~~font> # ''Аналогия: Франция = Париж + (Германия - Берлин)'' russian_model.most_similar(positive=['париж_NOUN','германия_NOUN'], negative=['берлин_NOUN'</~~ref~~font>], topn=1) # ''[(~~Facebook~~'франция_NOUN', ~~2015~~0.8673800230026245) ~~усовершенствование word2vec~~]''

=== Обучение модели word2vec и fastText на текстовом корпусе ===

'''from''' gensim.models.word2vec '''import''' Word2Vec

'''from''' gensim.models.fasttext '''import''' FastText

'''import''' gensim.downloader '''as''' download_api

# ''Скачаем небольшой текстовый корпус (32 Мб) и откроем его как итерируемый набор предложений: iterable(list(string))''

# ''В этом текстовом корпусе часть речи для слов не указывается''

corpus = download_api.load('text8')

# ''Обучим модели word2vec и fastText''

word2vec_model = Word2Vec(corpus, size=100, workers=4)

fastText_model = FastText(corpus, size=100, workers=4)

word2vec_model.most_similar('car')[:3]

''# [('driver', 0.8033335208892822), ('motorcycle', 0.7368553876876831), ('cars', 0.7001584768295288)]''

fastText_model.most_similar('car')[:3]

''# [('lcar', 0.8733218908309937), ('boxcar', 0.8559106588363647), ('ccar', 0.8268736004829407)]

== См. также ==

* [[Обработка естественного языка]]

== ~~Примечания~~ Источники информации ==~~<references~~* [https:/>/en.wikipedia.org/wiki/Word_embedding Word embedding] {{---}} статья о векторных представлениях в английской Википедии* [https://youtu.be/Wq414SDmOCM (YouTube) Обработка естественного языка] {{---}} лекция на русском Даниила Полыковского в курсе Техносферы* [https://youtu.be/ERibwqs9p38 (YouTube) Word Vector Representations: word2vec] {{---}} лекция на английском в Стэнфордском Университете* [https://arxiv.org/abs/1301.3781 word2vec article] {{---}} оригинальная статья по word2vec от Томаса Миколова* [https://code.google.com/archive/p/word2vec/ word2vec code] {{---}} исходный код word2vec на Google Code* [https://rare-technologies.com/word2vec-tutorial Gensim tutorial on word2vec] {{---}} небольшое руководство по работе с word2vec в библиотеке Gensim* [https://radimrehurek.com/gensim/models/fasttext.html Gensim documentation on fastText] {{---}} документация по fastText в библиотеке Gensim* [https://github.com/RaRe-Technologies/gensim-data Gensim Datasets] {{---}} репозиторий предобученных моделей для библиотеки Gensim* [https://fasttext.cc/ fastText] {{---}} NLP библиотека от Facebook * [https://arxiv.org/pdf/1607.04606.pdf fastText article] {{---}} оригинальная статья по fastText от Piotr Bojanowski* [https://rusvectores.org/ru/ RusVectōrēs] {{---}} онлайн сервис для работы с семантическими отношениями русского языка

~~== Источники информации ==~~# [~~https~~[Категория:~~//fasttext.cc/~~Машинное обучение]] [[Категория: Обработка естественного языка]] ~~{{---}} fastText by Facebook~~

Анонимный участник

81.3.129.2

Изменения

Векторное представление слов

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты