Изменения

Перейти к: навигация, поиск

Векторное представление слов

45 байт добавлено, 17:40, 2 марта 2019
fastText
== fastText ==
Недостатком word2vec является то, что с его помощью не могут быть представлены слова, не встречающиеся в обучающей выборке. fastText решает эту проблему с помощью <math>N</math>-грамм символов. Например, <math>3</math>-граммами для слова ''яблоко'' являются ''ябл'', ''бло'', ''лок'', ''око''. Модель теперь fastText строит векторные представления <math>N</math>-грамм, а векторным представлением слова будет является сумма векторных представлений для всех его <math>N</math>-грамм. Части слов с большой вероятностью встречаются и в других словах, что позволяет выдавать векторные представления и для редких слов тоже.
== Примеры кода с использованием библиотеки Gensim ==
61
правка

Навигация