Изменения

Обработка естественного языка

63 байта добавлено, 13:44, 23 января 2019

→‎Примеры использования NLTK

== Примеры использования NLTK ==

* ~~Sentence Segmentation~~Разбиение на предложения

text = "Предложение. Предложение, которое содержит запятую. Восклицательный знак! Вопрос?"

sents = nltk.sent_tokenize(text)

print(sents)

'''output:''' ['Предложение.', 'Предложение, которое содержит запятую.', 'Восклицательный знак!', 'Вопрос?']

* ~~Tokenization~~Токенизация

from nltk.tokenize import RegexpTokenizer

sent = "В этом предложении есть много слов, мы их разделим."

print(word_tokenize(sent))

'''output:''' ['В', 'этом', 'предложении', 'есть', 'много', 'слов', ',', 'мы', 'их', 'разделим', '.']

* ~~StopWords~~Стоп слова

from nltk.corpus import stopwords

stop_words=set(stopwords.words('english'))

'''output:''' {'should', 'wouldn', 'do', 'over', 'her', 'what', 'aren', 'once', 'same', 'this', 'needn', 'other', 'been', 'with', 'all' ...

* ~~Stemming And Lemmatization~~Стемминг и лемматизация

from nltk.stem.porter import PorterStemmer

porter_stemmer = PorterStemmer()

Анонимный участник