Изменения

Перейти к: навигация, поиск

Векторное представление слов

192 байта убрано, 11:52, 2 марта 2019
Нет описания правки
== One-hot encoding ==
Наиболее простой способ представления слов в виде векторов. Пусть число различных слов равно |V|<math>K</math>. Сопоставим слову номер с номером <math>i </math> вектор длины |V|<math>K</math>, в котором <math>i</math>-тая координата равна 1единице, а все остальные - нули. Недостатком подходя является то, что близкие по смыслу слова обладают совершенно разными векторами, из-за чего не получится искать синонимы словнулям.
[[Файл:One-hot-encoding.png|300px]]
== word2vec ==
word2vec - способ построения сжатого пространства векторов слов, использующий нейронную сеть. Принимает на вход большой текстовый корпус и сопоставляет каждому слову вектор. Сначала он создает словарь, «обучаясь» на входных текстовых данных, а затем вычисляет векторное представление слов. Векторное представление основывается на контекстной близости: слова, встречающиеся в тексте рядом с одинаковыми словами (а следовательно, имеющие схожий смысл), в векторном представлении будут иметь близкие координаты векторов-слов. В word2vec существуют две основных модели обучения: skip-grams и CBOW (Continuous Bag of Words). В модели skip-grams по слову предсказываются слова из его контекста, а в модели CBOW по контексту подбирается наиболее вероятное слово.
Полученные векторы-слова могут быть использованы для вычисления «семантического расстояния» семантического расстояния между словами. После обучения векторы отражают различные грамматические и семантические концепции.
<math>W_{king} - W_{man} + W_{woman} = W_{queen}</math><br><math>W_{shirt} - W_{clothing} + W_{furniture} = W_{chair}</math>
== См. также ==
61
правка

Навигация