Изменения

Обработка естественного языка

1073 байта добавлено, 22:14, 22 января 2019

→‎Примеры использования NLTK

== Примеры использования NLTK ==

* Sentence Segmentation

text = "Предложение. Предложение, которое содержит запятую. Восклицательный знак! Вопрос?"

sents = nltk.sent_tokenize(text)

print(sents)

'''output:''' ['Предложение.', 'Предложение, которое содержит запятую.', 'Восклицательный знак!', 'Вопрос?']

* Tokenization

from nltk.tokenize import RegexpTokenizer

sent = "В этом предложении есть много слов, мы их разделим."

tokenizer = RegexpTokenizer(r'\w+')

print(tokenizer.tokenize(~~sents~~sent)) '''output:''' [0'В', 'этом', 'предложении', 'есть', 'много', 'слов', 'мы', 'их', 'разделим'])

from nltk import word_tokenize

~~tokens~~ sent = "В этом предложении есть много слов, мы их разделим." print(word_tokenize(~~sents~~sent)) '''output:''' [0'В', 'этом', 'предложении', 'есть', 'много', 'слов', ',', 'мы', 'их', 'разделим', '.'])

* StopWords

from nltk.corpus import stopwords

stop_words=set(stopwords.words('english'))

print(stop_words)

'''output:''' {'should', 'wouldn', 'do', 'over', 'her', 'what', 'aren', 'once', 'same', 'this', 'needn', 'other', 'been', 'with', 'all' ...

* Stemming And Lemmatization

from nltk.stem.porter import PorterStemmer

porter_stemmer = PorterStemmer()

print(porter_stemmer.stem("crying") // ) '''output:''' cri

from nltk.stem.lancaster import LancasterStemmer

lancaster_stemmer = LancasterStemmer()

print(lancaster_stemmer.stem("crying") // ) '''output:''' cry

from nltk.stem import SnowballStemmer

snowball_stemmer = SnowballStemmer("english")

print(snowball_stemmer.stem("crying") // ) '''output:''' cri

from nltk.stem import WordNetLemmatizer

wordnet_lemmatizer = WordNetLemmatizer()

print(wordnet_lemmatizer.lemmatize("came", pos="v") // ) '''output:''' come

== Пример кода на языке Scala ==

Анонимный участник

95.55.50.50

Изменения

Обработка естественного языка

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты