Изменения

Векторное представление слов

934 байта добавлено, 17:06, 2 марта 2019

→‎Примеры кода с использованием библиотеки Gensim

import gensim

import gensim.downloader as download_api

russian_model = ~~api~~download_api.load("word2vec-ruscorpora-300")

# ''Первые 10 слов корпуса''

list(russian_model.vocab.keys())[:10]

russian_model.doesnt_match("завтрак_NOUN хлопья_NOUN обед_NOUN ужин_NOUN".split())

хлопья_NOUN

=== Обучение модели word2vec и fastText на текстовом корпусе ===

from gensim.models.word2vec import Word2Vec

from gensim.models.fasttext import FastText

import gensim.downloader as download_api

# ''Скачаем небольшой текстовый корпус (32 Мб) и откроем его как итерируемый набор предложений: iterable(list(string))''

corpus = download_api.load('text8')

# ''Обучим модели word2vec и fastText''

word2vec_model = Word2Vec(corpus, size=100, workers=4)

fastText_model = FastText(corpus, size=100, workers=4)

word2vec_model.most_similar("car")[:3]

[('driver', 0.8033335208892822), ('motorcycle', 0.7368553876876831), ('cars', 0.7001584768295288)]

fastText_model.most_similar("car")[:3]

[('lcar', 0.8733218908309937), ('boxcar', 0.8559106588363647), ('ccar', 0.8268736004829407)]

== См. также ==

61

правка