Изменения
→Примеры использования NLTK
== Примеры использования NLTK ==
* Разбиение на предложения.
text = "Предложение. Предложение, которое содержит запятую. Восклицательный знак! Вопрос?"
sents = nltk.sent_tokenize(text)
print(sents)
'''output:''' ['Предложение.', 'Предложение, которое содержит запятую.', 'Восклицательный знак!', 'Вопрос?']
* Токенизация.
from nltk.tokenize import RegexpTokenizer
sent = "В этом предложении есть много слов, мы их разделим."
print(word_tokenize(sent))
'''output:''' ['В', 'этом', 'предложении', 'есть', 'много', 'слов', ',', 'мы', 'их', 'разделим', '.']
* Стоп слова.
from nltk.corpus import stopwords
stop_words=set(stopwords.words('english'))
'''output:''' {'should', 'wouldn', 'do', 'over', 'her', 'what', 'aren', 'once', 'same', 'this', 'needn', 'other', 'been', 'with', 'all' ...
* Стемминг и лемматизация.
from nltk.stem.porter import PorterStemmer
porter_stemmer = PorterStemmer()