Векторное представление слов

Материал из Викиконспекты
Перейти к: навигация, поиск

Векторное представление слов - набор методов обработки естественного языка (NLP) для представления слов из словаря размера |V| (300k, 1M) в линейное пространство небольшой размерности d (100, 1000).

В новом пространстве вектора, соответствующие близким по смыслу словам, имеют косинусное расстояние, близкое к единице. Это позволяет проводить синтаксический анализ и анализ тональности текстов.


Методы построения пространства слов

Существует несколько способов построения пространства векторов для слов.

word2vec (Google, 2013) использует нейронные сети. GloVe (Standford), обучается на матрице совместной встречаемости. fastText (Facebook, 2015) усовершенствование word2vec