Векторное представление слов — различия между версиями

Материал из Викиконспекты
Перейти к: навигация, поиск
Строка 1: Строка 1:
'''Векторное представление слов''' - набор методов обработки естественного языка (NLP) для представления слов из словаря размера |V| (300k, 1M) в линейное пространство небольшой размерности d (100, 1000).
+
'''Статья находится в разработке'''
  
В новом пространстве вектора, соответствующие близким по смыслу словам, имеют косинусное расстояние, близкое к единице. Это позволяет проводить синтаксический анализ и анализ тональности текстов.
+
'''Векторное представление слов''' - набор методов обработки естественного языка (NLP) для представления слов из словаря размера |V| (300k, 1M) в линейное пространство меньшей размерности d (100, 1000).
 +
 
 +
TODO:
 +
tf-idf
 +
cosinus measure
 +
bag-of-words (BOW)
 +
continuous BOW
 +
N-gram
 +
skip-gram
 +
word2vec with skip-grams learning
 +
 
 +
== One-hot encoding ==
 +
Наиболее простой способ представления слов в виде векторов. Пусть число различных слов равно |V|. Сопоставим слову номер i вектор длины |V|, в котором i-тая координата равна 1, а все остальные - нули.
 +
 
 +
[[Файл:One-hot-encoding.png|300px]]
  
  
Строка 10: Строка 24:
 
word2vec (Google, 2013) использует нейронные сети.  
 
word2vec (Google, 2013) использует нейронные сети.  
 
GloVe (Standford), обучается на матрице совместной встречаемости.
 
GloVe (Standford), обучается на матрице совместной встречаемости.
fastText (Facebook, 2015) усовершенствование word2vec
+
fastText<ref>[https://fasttext.cc/ fastText]</ref>(Facebook, 2015) усовершенствование word2vec
 +
 
 +
 
 +
== См. также ==
 +
* [[Обработка естественного языка]]
 +
 
 +
== Примечания ==
 +
<references/>
 +
 
 +
== Источники информации ==
 +
# [https://fasttext.cc/] {{---}} fastText by Facebook

Версия 23:06, 28 февраля 2019

Статья находится в разработке

Векторное представление слов - набор методов обработки естественного языка (NLP) для представления слов из словаря размера |V| (300k, 1M) в линейное пространство меньшей размерности d (100, 1000).

TODO: tf-idf cosinus measure bag-of-words (BOW) continuous BOW N-gram skip-gram word2vec with skip-grams learning

One-hot encoding

Наиболее простой способ представления слов в виде векторов. Пусть число различных слов равно |V|. Сопоставим слову номер i вектор длины |V|, в котором i-тая координата равна 1, а все остальные - нули.

One-hot-encoding.png


Методы построения пространства слов

Существует несколько способов построения пространства векторов для слов.

word2vec (Google, 2013) использует нейронные сети. GloVe (Standford), обучается на матрице совместной встречаемости. fastText[1](Facebook, 2015) усовершенствование word2vec


См. также

Примечания

Источники информации

  1. [1] — fastText by Facebook