Векторное представление слов — различия между версиями
Serejke (обсуждение | вклад) |
|||
Строка 1: | Строка 1: | ||
− | ''' | + | '''Статья находится в разработке''' |
− | + | '''Векторное представление слов''' - набор методов обработки естественного языка (NLP) для представления слов из словаря размера |V| (300k, 1M) в линейное пространство меньшей размерности d (100, 1000). | |
+ | |||
+ | TODO: | ||
+ | tf-idf | ||
+ | cosinus measure | ||
+ | bag-of-words (BOW) | ||
+ | continuous BOW | ||
+ | N-gram | ||
+ | skip-gram | ||
+ | word2vec with skip-grams learning | ||
+ | |||
+ | == One-hot encoding == | ||
+ | Наиболее простой способ представления слов в виде векторов. Пусть число различных слов равно |V|. Сопоставим слову номер i вектор длины |V|, в котором i-тая координата равна 1, а все остальные - нули. | ||
+ | |||
+ | [[Файл:One-hot-encoding.png|300px]] | ||
Строка 10: | Строка 24: | ||
word2vec (Google, 2013) использует нейронные сети. | word2vec (Google, 2013) использует нейронные сети. | ||
GloVe (Standford), обучается на матрице совместной встречаемости. | GloVe (Standford), обучается на матрице совместной встречаемости. | ||
− | fastText (Facebook, 2015) усовершенствование word2vec | + | fastText<ref>[https://fasttext.cc/ fastText]</ref>(Facebook, 2015) усовершенствование word2vec |
+ | |||
+ | |||
+ | == См. также == | ||
+ | * [[Обработка естественного языка]] | ||
+ | |||
+ | == Примечания == | ||
+ | <references/> | ||
+ | |||
+ | == Источники информации == | ||
+ | # [https://fasttext.cc/] {{---}} fastText by Facebook |
Версия 23:06, 28 февраля 2019
Статья находится в разработке
Векторное представление слов - набор методов обработки естественного языка (NLP) для представления слов из словаря размера |V| (300k, 1M) в линейное пространство меньшей размерности d (100, 1000).
TODO: tf-idf cosinus measure bag-of-words (BOW) continuous BOW N-gram skip-gram word2vec with skip-grams learning
Содержание
One-hot encoding
Наиболее простой способ представления слов в виде векторов. Пусть число различных слов равно |V|. Сопоставим слову номер i вектор длины |V|, в котором i-тая координата равна 1, а все остальные - нули.
Методы построения пространства слов
Существует несколько способов построения пространства векторов для слов.
word2vec (Google, 2013) использует нейронные сети. GloVe (Standford), обучается на матрице совместной встречаемости. fastText[1](Facebook, 2015) усовершенствование word2vec
См. также
Примечания
Источники информации
- [1] — fastText by Facebook