Изменения

Перейти к: навигация, поиск

Обработка естественного языка

1073 байта добавлено, 22:14, 22 января 2019
Примеры использования NLTK
== Примеры использования NLTK ==
* Sentence Segmentation
text = "Предложение. Предложение, которое содержит запятую. Восклицательный знак! Вопрос?"
sents = nltk.sent_tokenize(text)
print(sents)
'''output:''' ['Предложение.', 'Предложение, которое содержит запятую.', 'Восклицательный знак!', 'Вопрос?']
* Tokenization
from nltk.tokenize import RegexpTokenizer
sent = "В этом предложении есть много слов, мы их разделим."
tokenizer = RegexpTokenizer(r'\w+')
print(tokenizer.tokenize(sentssent)) '''output:''' [0'В', 'этом', 'предложении', 'есть', 'много', 'слов', 'мы', 'их', 'разделим'])
from nltk import word_tokenize
tokens sent = "В этом предложении есть много слов, мы их разделим." print(word_tokenize(sentssent)) '''output:''' [0'В', 'этом', 'предложении', 'есть', 'много', 'слов', ',', 'мы', 'их', 'разделим', '.'])
* StopWords
from nltk.corpus import stopwords
stop_words=set(stopwords.words('english'))
print(stop_words)
'''output:''' {'should', 'wouldn', 'do', 'over', 'her', 'what', 'aren', 'once', 'same', 'this', 'needn', 'other', 'been', 'with', 'all' ...
* Stemming And Lemmatization
from nltk.stem.porter import PorterStemmer
porter_stemmer = PorterStemmer()
print(porter_stemmer.stem("crying") // ) '''output:''' cri
from nltk.stem.lancaster import LancasterStemmer
lancaster_stemmer = LancasterStemmer()
print(lancaster_stemmer.stem("crying") // ) '''output:''' cry
from nltk.stem import SnowballStemmer
snowball_stemmer = SnowballStemmer("english")
print(snowball_stemmer.stem("crying") // ) '''output:''' cri
from nltk.stem import WordNetLemmatizer
wordnet_lemmatizer = WordNetLemmatizer()
print(wordnet_lemmatizer.lemmatize("came", pos="v") // ) '''output:''' come
== Пример кода на языке Scala ==
Анонимный участник

Навигация