Изменения

Векторное представление слов

1758 байт добавлено, 17:36, 2 марта 2019

→‎Примеры кода с использованием библиотеки Gensim

== Примеры кода с использованием библиотеки Gensim ==

=== Загрузка предобученной модели русского корпуса ===

'''import ''' gensim '''import ''' gensim.downloader '''as ''' download_api russian_model = download_api.load('word2vec-ruscorpora-300"') # ''Первые 10 слов корпуса'' list(russian_model.vocab.keys())[:10] ['весь_DET', 'человек_NOUN', 'мочь_VERB', 'год_NOUN', 'сказать_VERB', 'время_NOUN', 'говорить_VERB', 'становиться_VERB', 'знать_VERB', 'самый_DET'] # ''Поиск наиболее близких по смыслу слов. После слова указывается часть речи: NOUN, ADJ, VERB, DET'' russian_model.most_similar('кошка_NOUN') [('кот_NOUN', 0.7570087909698486), ('котенок_NOUN', 0.7261239290237427), ('собака_NOUN', 0.6963180303573608), ('мяукать_VERB', 0.6411399841308594), ('крыса_NOUN', 0.6355636119842529), ('собачка_NOUN', 0.6092042922973633), ('щенок_NOUN', 0.6028496026992798), ('мышь_NOUN', 0.5975362062454224), ('пес_NOUN', 0.5956044793128967), ('кошечка_NOUN', 0.5920293927192688)] # ''Вычисление сходства слов'' russian_model.similarity('мужчина_NOUN', 'женщина_NOUN') 0.85228276 # ''Поиск лишнего слова'' russian_model.doesnt_match('завтрак_NOUN хлопья_NOUN обед_NOUN ужин_NOUN"'.split())

хлопья_NOUN

=== Обучение модели word2vec и fastText на текстовом корпусе ===

'''from ''' gensim.models.word2vec '''import ''' Word2Vec '''from ''' gensim.models.fasttext '''import ''' FastText '''import ''' gensim.downloader '''as ''' download_api # ''Скачаем небольшой текстовый корпус (32 Мб) и откроем его как итерируемый набор предложений: iterable(list(string))'' corpus = download_api.load('text8') # ''Обучим модели word2vec и fastText'' word2vec_model = Word2Vec(corpus, size=100, workers=4) fastText_model = FastText(corpus, size=100, workers=4) word2vec_model.most_similar('car"')[:3] [('driver', 0.8033335208892822), ('motorcycle', 0.7368553876876831), ('cars', 0.7001584768295288)] fastText_model.most_similar('car"')[:3] [('lcar', 0.8733218908309937), ('boxcar', 0.8559106588363647), ('ccar', 0.8268736004829407)]

== См. также ==

Serejke

61

правка

Изменения

Векторное представление слов

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты