Изменения

Перейти к: навигация, поиск

Обработка естественного языка

9 байт добавлено, 23:22, 24 января 2019
Предобработка текста
=== Предобработка текста ===
Предобработка текста переводит текст на естественном языке в формат удобный для дальнейшей работы. Предобработка состоит из различных этапов, которые могут отличаться в зависимости от задачи и реализации. Далее приведен один из возможных набор этапов:
* Перевод всех букв в тексте в нижний или верхний регистры.* Удаление цифр (чисел) или замена на текстовый эквивалент (обычно используются регулярные выражения).* Удаление пунктуации. Обычно реализуется как удаление из текста символов из заранее заданного набора.* Удаление пробельных символов (whitespaces).* Токенизация (обычно реализуется на основе регулярных выражений).* Удаление стоп слов.* Стемминг.* Лемматизация.* Векторизация.
=== Стемминг ===
Анонимный участник

Навигация