54
правки
Изменения
+ предобработка
== Задачи классификации текстов ==
Классификация текстов применяется, в том числе, для:
* Разделения веб страниц и сайтов по тематическим каталогам;* Борьбы со спамом;* Определение языка текста;* Показа более релевантной рекламы;
== Задачи анализа тональности текста ==
Основной задачей анализа тональности текста является определение его эмоциональной окраски. Это необходимо, в том числе, для:
* Анализа отзывов о товарах и услугах;* Определение языка вражды<ref>[https://ru.wikipedia.org/wiki/%D0%AF%D0%B7%D1%8B%D0%BA_%D0%B2%D1%80%D0%B0%D0%B6%D0%B4%D1%8B Язык Вражды]</ref>;
В общем случае, задача анализа тональности текста эквивалентна задаче классификации текста, где категориями текстов могут быть тональные оценки.
Примеры тональных оценок:
* позитивня;* негативня;* нейтральная;
Под «нейтральной» подразумевается, что текст не содержит эмоциональной окраски.
=== Этапы подготовки ===
==== Предобработка текста ====
Предобработка текста переводит текст на естественном языке в формат удобный для дальнейшей работы. Применяются следующие операции:
* Перевод всех букв в тексте в нижний или верхний регистры;
* Удаление чисел или замена на текстовый эквивалент;
* Удаление пунктуации;
* Удаление редких и слишком частых слов;
* [http://neerc.ifmo.ru/wiki/index.php?title=%D0%9E%D0%B1%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B0_%D0%B5%D1%81%D1%82%D0%B5%D1%81%D1%82%D0%B2%D0%B5%D0%BD%D0%BD%D0%BE%D0%B3%D0%BE_%D1%8F%D0%B7%D1%8B%D0%BA%D0%B0#.D0.A1.D1.82.D0.B5.D0.BC.D0.BC.D0.B8.D0.BD.D0.B3| Стемминг] или [http://neerc.ifmo.ru/wiki/index.php?title=%D0%9E%D0%B1%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B0_%D0%B5%D1%81%D1%82%D0%B5%D1%81%D1%82%D0%B2%D0%B5%D0%BD%D0%BD%D0%BE%D0%B3%D0%BE_%D1%8F%D0%B7%D1%8B%D0%BA%D0%B0#.D0.9B.D0.B5.D0.BC.D0.BC.D0.B0.D1.82.D0.B8.D0.B7.D0.B0.D1.86.D0.B8.D1.8F| Лемматизация]
==== Извлечение признаков ====