Изменения

Векторное представление слов

1196 байт добавлено, 20:36, 1 марта 2019

Нет описания правки

'''Статья находится в разработке'''

'''Векторное представление слов''' - ~~набор методов обработки~~ общее название для различных подходов к моделированию языка и обучению представлений в обработке естественного языка , направленных на сопоставление словам (~~NLP~~и, возможно, фразам) ~~для представления слов~~ из некоторого словаря ~~размера |V| (300k~~векторов из значительно меньшего количества слов в словаре. Для этого используют нейронные сети , ~~1M)~~ методы понижения размерности в ~~линейное пространство меньшей размерности d~~ применении к матрицам совместных упоминаний слов (~~100~~word co-occurrence matrices) и явные представления, ~~1000~~обучающиеся на контекстах упоминаний слов (explicit representations).

TODO:

word2vec with skip-grams learning

=== One-hot encoding ===

Наиболее простой способ представления слов в виде векторов. Пусть число различных слов равно |V|. Сопоставим слову номер i вектор длины |V|, в котором i-тая координата равна 1, а все остальные - нули. Недостатком подходя является то, что близкие по смыслу слова обладают совершенно разными векторами, из-за чего не получится искать синонимы слов.

[[Файл:One-hot-encoding.png|300px]]

~~=== Skip-grams ===~~

В модели skip-grams фиксируется окно небольшого размера. Слово, находящееся в середине окна, называется центральным, а остальные - контекстом. В модели skip-grams по центральному слову предсказываются слова контекста.

~~[[Файл:Skip-grams.png|450px]]~~

~~=== Continuous Bag Of Words ===~~

Модель CBOW является противоположностью модели skip-grams. В ней по контексту необходимо найти центральное слово с максимальной вероятностью.

== word2vec ==

word2vec - способ построения сжатого пространства векторов для слов, использующий двухслойную нейронную сеть.Принимает на вход большой текстовый корпус и сопоставляет каждому слову вектор. Сначала он создает словарь, «обучаясь» на входных текстовых данных, а затем вычисляет векторное представление слов. Векторное представление основывается на контекстной близости: слова, встречающиеся в тексте рядом с одинаковыми словами (а следовательно, имеющие схожий смысл), в векторном представлении будут иметь близкие координаты векторов-слов. В word2vec существуют две основных модели обучения: skip-grams и CBOW (Continuous Bag of Words). В модели skip-grams по слову предсказываются слова из его контекста, а в модели CBOW по контексту подбирается наиболее вероятное слово.

~~word2vec (Google, 2013) использует нейронные сети~~Полученные векторы-слова могут быть использованы для вычисления «семантического расстояния» между словами. ~~GloVe (Standford), обучается на матрице совместной встречаемости~~После обучения векторы отражают различные грамматические и семантические концепции.~~fastText<ref>[https://fasttext.cc/ fastText]</ref>(Facebook, 2015) усовершенствование word2vec~~

W_{king} - W_{man} + W_{woman} = W_{queen}

W_{shirt} - W_{clothing} + W_{furniture} = W_{chair}

== См. также ==

Serejke

61

правка

Изменения

Векторное представление слов

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты