Изменения

Перейти к: навигация, поиск

Векторное представление слов

523 байта добавлено, 23:35, 5 марта 2019
Обучение модели word2vec и fastText на текстовом корпусе
'''import''' gensim.downloader '''as''' download_api
russian_model = download_api.load(<font color="green">'word2vec-ruscorpora-300'</font>)<br>
<font color="grey"># ''Первые Выведем первые 10 слов корпуса.<br># ''В модели "word2vec-ruscorpora-300" после слова указывается часть речи: NOUN (существительное), ADJ (прилагательное) и так далее.''<br># ''Но существуют также предоубученные модели без разделения слов по частям речи, смотри [https://github.com/RaRe-Technologies/gensim-data репозиторий]''</font>
list(russian_model.vocab.keys())[:<font color="blue">10</font>]
''<font color="grey"># ['весь_DET', 'человек_NOUN', 'мочь_VERB', 'год_NOUN', 'сказать_VERB', 'время_NOUN', 'говорить_VERB', 'становиться_VERB', 'знать_VERB', 'самый_DET']</font>''<br>
<font color="grey"># ''Поиск наиболее близких по смыслу слов. После слова указывается часть речи: NOUN, ADJ, VERB, DET''</font>
russian_model.most_similar(<font color="green">'кошка_NOUN'</font>)
<font color="grey">''# [('кот_NOUN', 0.7570087909698486), ('котенок_NOUN', 0.7261239290237427), ('собака_NOUN', 0.6963180303573608),''
'''import''' gensim.downloader '''as''' download_api<br>
<font color="grey"># ''Скачаем небольшой текстовый корпус (32 Мб) и откроем его как итерируемый набор предложений: iterable(list(string))''</font>
<font color="grey"># ''В этом текстовом корпусе часть речи для слов не указывается''</font>
corpus = download_api.load(<font color="green">'text8'</font>)<br>
<font color="grey"># ''Обучим модели word2vec и fastText''</font>
Анонимный участник

Навигация