Изменения

Перейти к: навигация, поиск

Обработка естественного языка

1375 байт добавлено, 15:44, 23 января 2019
Основные подходы
== Основные подходы ==
=== Предобработка текста ===
Предобработка текста переводит текст на естественном языке в формат удобный для дальнейшей работы. Предобработка состоит из различных этапов, которые могут отличаться в зависимости от задачи и реализации. Далее приведен один из возможных набор этапов:
* Перевод всех букв в тексте в нижний или верхний регистры
* Удаление цифр (чисел) или замена на текстовый эквивалент (обычно используются регулярные выражения)
* Удаление пунктуации. Обычно реализуется как удаление из текста символов из заранее заданного набора
* Удаление пробельных символов (whitespaces)
* Токенизация (обычно реализуется на основе регулярных выражений)
* Удаление стоп слов
* Стемминг
* Лемматизация
* Векторизация
 
=== Стемминг ===
Количество корректных словоформ, значения которых схожи, но написания отличаются суффиксами, приставками, окончаниями и прочим, очень велико, что усложняет создание словарей и дальнейшую обработку. Стемминг позволяет привести слово к его основной форме. Суть подхода в нахождении основы слова, для этого с конца и начала слова последовательно отрезаются его части. Правила отсекания для стеммера создаются заранее (лингвистами), и чаще всего представляют из себя регулярные выражения, что делает данный подход трудоемким, так как при подключении очередного языка нужны новые лингвистические исследования. Вторым недостатком подхода является возможная потеря информации при отрезании частей, например, мы можем потерять информацию о части речи.
=== Лемматизация ===
Анонимный участник

Навигация