Изменения
→Предобработка текста
=== Предобработка текста ===
Предобработка текста переводит текст на естественном языке в формат удобный для дальнейшей работы. Предобработка состоит из различных этапов, которые могут отличаться в зависимости от задачи и реализации. Далее приведен один из возможных набор этапов:
* Перевод всех букв в тексте в нижний или верхний регистры.* Удаление цифр (чисел) или замена на текстовый эквивалент (обычно используются регулярные выражения).* Удаление пунктуации. Обычно реализуется как удаление из текста символов из заранее заданного набора.* Удаление пробельных символов (whitespaces).* Токенизация (обычно реализуется на основе регулярных выражений).* Удаление стоп слов.* Стемминг.* Лемматизация.* Векторизация.
=== Стемминг ===