Классификация текстов и анализ тональности
Классификация текстов (документов) (Document classification) — задача компьютерной лингвистики[1], заключающаяся в отнесении документа к одной из нескольких категорий на основании содержания документа.
Анализ тональности текста (Sentiment analysis) — задача компьютерной лингвистики, заключающаяся в определении эмоциональной окраски (тональности) текста и, в частности, в выявлении эмоциональной оценки авторов по отношению к объектам, описываемым в тексте.
Содержание
Задачи классификации текстов
Классификация текстов применяется, в том числе, для:
- Разделения веб страниц и сайтов по тематическим каталогам;
- Борьбы со спамом;
- Определение языка текста;
- Показа более релевантной рекламы;
Задачи анализа тональности текста
Основной задачей анализа тональности текста является определение его эмоциональной окраски. Это необходимо, в том числе, для:
- Анализа отзывов о товарах и услугах;
- Определение языка вражды[2];
В общем случае, задача анализа тональности текста эквивалентна задаче классификации текста, где категориями текстов могут быть тональные оценки. Примеры тональных оценок:
- позитивня;
- негативня;
- нейтральная;
Под «нейтральной» подразумевается, что текст не содержит эмоциональной окраски.
Классификация текстов методами машинного обучения
Постановка задачи
Имеется множество категорий (классов, меток)
.Имеется множество документов
.Неизвестная целевая функция
.Необходимо построить классификатор
, максимально близкий к .Имеется некоторая начальная коллекция размеченных документов
, для которых известны значения . Обычно её делят на «обучающую» и «проверочную» части. Первая используется для обучения классификатора, вторая — для независимой проверки качества его работы.Классификатор может выдавать точный ответ
или степень подобия .Этапы подготовки
Предобработка текста
Предобработка текста переводит текст на естественном языке в формат удобный для дальнейшей работы. Применяются следующие операции:
- Перевод всех букв в тексте в нижний или верхний регистры;
- Удаление чисел или замена на текстовый эквивалент;
- Удаление пунктуации;
- Удаление редких и слишком частых слов;
- Стемминг или Лемматизация