Изменения

Перейти к: навигация, поиск

Векторное представление слов

501 байт добавлено, 23:06, 28 февраля 2019
Нет описания правки
'''Векторное представление словСтатья находится в разработке''' - набор методов обработки естественного языка (NLP) для представления слов из словаря размера |V| (300k, 1M) в линейное пространство небольшой размерности d (100, 1000).
В новом пространстве вектора'''Векторное представление слов''' - набор методов обработки естественного языка (NLP) для представления слов из словаря размера |V| (300k, соответствующие близким по смыслу словам1M) в линейное пространство меньшей размерности d (100, имеют косинусное расстояние1000).  TODO:tf-idfcosinus measurebag-of-words (BOW)continuous BOWN-gramskip-gramword2vec with skip-grams learning == One-hot encoding ==Наиболее простой способ представления слов в виде векторов. Пусть число различных слов равно |V|. Сопоставим слову номер i вектор длины |V|, в котором i-тая координата равна 1, близкое к единицеа все остальные - нули. Это позволяет проводить синтаксический анализ и анализ тональности текстов [[Файл:One-hot-encoding.png|300px]]
word2vec (Google, 2013) использует нейронные сети.
GloVe (Standford), обучается на матрице совместной встречаемости.
fastText <ref>[https://fasttext.cc/ fastText]</ref>(Facebook, 2015) усовершенствование word2vec  == См. также ==* [[Обработка естественного языка]] == Примечания ==<references/> == Источники информации ==# [https://fasttext.cc/] {{---}} fastText by Facebook
61
правка

Навигация