Изменения

Векторное представление слов

123 байта добавлено, 23:35, 5 марта 2019

→‎Обучение модели word2vec и fastText на текстовом корпусе

'''import''' gensim.downloader '''as''' download_api

russian_model = download_api.load('word2vec-ruscorpora-300')

# ''Выведем первые 10 слов корпуса. # ~~Заметим, что~~ ''В модели "word2vec-ruscorpora-300" после слова и указывается часть речи: NOUN (существительное), ADJ (прилагательное) и так далее.'' # ''~~Существуют~~ Но существуют также предоубученные модели без разделения слов по частям речи~~'' # ''например~~, ~~"glove-wiki-gigaword-50" из~~ смотри [https://github.com/RaRe-Technologies/gensim-data ~~репозитория~~репозиторий]''

list(russian_model.vocab.keys())[:10]

''# ['весь_DET', 'человек_NOUN', 'мочь_VERB', 'год_NOUN', 'сказать_VERB', 'время_NOUN', 'говорить_VERB', 'становиться_VERB', 'знать_VERB', 'самый_DET']''

'''import''' gensim.downloader '''as''' download_api

# ''Скачаем небольшой текстовый корпус (32 Мб) и откроем его как итерируемый набор предложений: iterable(list(string))''

# ''В этом текстовом корпусе часть речи для слов не указывается''

corpus = download_api.load('text8')

# ''Обучим модели word2vec и fastText''

Анонимный участник

81.3.129.2

Изменения

Векторное представление слов

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты