61
правка
Изменения
Нет описания правки
'''Статья находится в разработке'''
'''Векторное представление слов''' - набор методов обработки общее название для различных подходов к моделированию языка и обучению представлений в обработке естественного языка , направленных на сопоставление словам (NLPи, возможно, фразам) для представления слов из некоторого словаря размера |V| (300kвекторов из значительно меньшего количества слов в словаре. Для этого используют нейронные сети , 1M) методы понижения размерности в линейное пространство меньшей размерности d применении к матрицам совместных упоминаний слов (100word co-occurrence matrices) и явные представления, 1000обучающиеся на контекстах упоминаний слов (explicit representations).
TODO:
word2vec with skip-grams learning
Наиболее простой способ представления слов в виде векторов. Пусть число различных слов равно |V|. Сопоставим слову номер i вектор длины |V|, в котором i-тая координата равна 1, а все остальные - нули. Недостатком подходя является то, что близкие по смыслу слова обладают совершенно разными векторами, из-за чего не получится искать синонимы слов.
[[Файл:One-hot-encoding.png|300px]]
== word2vec ==
word2vec - способ построения сжатого пространства векторов для слов, использующий двухслойную нейронную сеть.Принимает на вход большой текстовый корпус и сопоставляет каждому слову вектор. Сначала он создает словарь, «обучаясь» на входных текстовых данных, а затем вычисляет векторное представление слов. Векторное представление основывается на контекстной близости: слова, встречающиеся в тексте рядом с одинаковыми словами (а следовательно, имеющие схожий смысл), в векторном представлении будут иметь близкие координаты векторов-слов. В word2vec существуют две основных модели обучения: skip-grams и CBOW (Continuous Bag of Words). В модели skip-grams по слову предсказываются слова из его контекста, а в модели CBOW по контексту подбирается наиболее вероятное слово.
W_{king} - W_{man} + W_{woman} = W_{queen}
W_{shirt} - W_{clothing} + W_{furniture} = W_{chair}
== См. также ==