Классификация текстов и анализ тональности

Классификация текстов (документов) (Document classification) — задача компьютерной лингвистики^[1], заключающаяся в отнесении документа к одной из нескольких категорий на основании содержания документа.

Анализ тональности текста (Sentiment analysis) — задача компьютерной лингвистики, заключающаяся в определении эмоциональной окраски (тональности) текста и, в частности, в выявлении эмоциональной оценки авторов по отношению к объектам, описываемым в тексте.

Содержание

1 Задачи классификации текстов
2 Задачи анализа тональности текста
3 Классификация текстов методами машинного обучения
- 3.1 Постановка задачи
- 3.2 Этапы подготовки

Задачи классификации текстов

Классификация текстов применяется, в том числе, для:

Разделения веб страниц и сайтов по тематическим каталогам
Борьбы со спамом
Показа более релевантной рекламы

Задачи анализа тональности текста

Основной задачей анализа тональности текста является определение его эмоциональной окраски. Это необходимо, в том числе, для:

Анализа отзывов о товарах и услугах
Определение языка вражды^[2]

В общем случае, задача анализа тональности текста эквивалентна задаче классификации текста, где категориями текстов могут быть тональные оценки. Примеры тональных оценок:

позитивня
негативня
нейтральная

Под «нейтральной» подразумевается, что текст не содержит эмоциональной окраски.

Классификация текстов методами машинного обучения

Постановка задачи

Имеется множество категорий (классов, меток) .

Имеется множество документов .

Неизвестная целевая функция .

Необходимо построить классификатор [math] \Phi^\prime [/math], максимально близкий к [math]\Phi[/math].

Имеется некоторая начальная коллекция размеченных документов , для которых известны значения [math]\Phi[/math]. Обычно её делят на «обучающую» и «проверочную» части. Первая используется для обучения классификатора, вторая — для независимой проверки качества его работы.

Классификатор может выдавать точный ответ или степень подобия .

Этапы подготовки

[1] Компьютерная лингвистика

[2] Язык Вражды

[1]

[2]

Классификация текстов и анализ тональности

Содержание

Задачи классификации текстов

Задачи анализа тональности текста

Классификация текстов методами машинного обучения

Постановка задачи

Этапы подготовки

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты