Изменения

Перейти к: навигация, поиск

Векторное представление слов

934 байта добавлено, 17:06, 2 марта 2019
Примеры кода с использованием библиотеки Gensim
import gensim
import gensim.downloader as download_api
russian_model = apidownload_api.load("word2vec-ruscorpora-300")<br>
# ''Первые 10 слов корпуса''
list(russian_model.vocab.keys())[:10]
russian_model.doesnt_match("завтрак_NOUN хлопья_NOUN обед_NOUN ужин_NOUN".split())
хлопья_NOUN
 
=== Обучение модели word2vec и fastText на текстовом корпусе ===
from gensim.models.word2vec import Word2Vec
from gensim.models.fasttext import FastText
import gensim.downloader as download_api<br>
# ''Скачаем небольшой текстовый корпус (32 Мб) и откроем его как итерируемый набор предложений: iterable(list(string))''
corpus = download_api.load('text8')<br>
# ''Обучим модели word2vec и fastText''
word2vec_model = Word2Vec(corpus, size=100, workers=4)
fastText_model = FastText(corpus, size=100, workers=4)<br>
word2vec_model.most_similar("car")[:3]
[('driver', 0.8033335208892822), ('motorcycle', 0.7368553876876831), ('cars', 0.7001584768295288)]<br>
fastText_model.most_similar("car")[:3]
[('lcar', 0.8733218908309937), ('boxcar', 0.8559106588363647), ('ccar', 0.8268736004829407)]
== См. также ==
61
правка

Навигация