Классификация текстов и анализ тональности
Классификация текстов (документов) (Document classification) — задача компьютерной лингвистики[1], заключающаяся в отнесении документа к одной из нескольких категорий на основании содержания документа.
Анализ тональности текста (Sentiment analysis) — задача компьютерной лингвистики, заключающаяся в определении эмоциональной окраски (тональности) текста и, в частности, в выявлении эмоциональной оценки авторов по отношению к объектам, описываемым в тексте.
Задачи классификации текстов
Классификация текстов применяется, в том числе, для:
- Разделения веб страниц и сайтов по тематическим каталогам
- Борьбы со спамом
- Показа более релевантной рекламы
Задачи анализа тональности текста
Основной задачей анализа тональности текста является определение его эмоциональной окраски. Это необходимо, в том числе, для:
- Анализа отзывов о товарах и услугах
- Определение языка вражды[2]