Классификация текстов и анализ тональности — различия между версиями
KirillTim (обсуждение | вклад) (+ постановка задачи) |
KirillTim (обсуждение | вклад) (+ предобработка) |
||
Строка 5: | Строка 5: | ||
== Задачи классификации текстов == | == Задачи классификации текстов == | ||
Классификация текстов применяется, в том числе, для: | Классификация текстов применяется, в том числе, для: | ||
− | * Разделения веб страниц и сайтов по тематическим каталогам | + | * Разделения веб страниц и сайтов по тематическим каталогам; |
− | * Борьбы со спамом | + | * Борьбы со спамом; |
− | * Показа более релевантной рекламы | + | * Определение языка текста; |
+ | * Показа более релевантной рекламы; | ||
== Задачи анализа тональности текста == | == Задачи анализа тональности текста == | ||
Основной задачей анализа тональности текста является определение его эмоциональной окраски. Это необходимо, в том числе, для: | Основной задачей анализа тональности текста является определение его эмоциональной окраски. Это необходимо, в том числе, для: | ||
− | * Анализа отзывов о товарах и услугах | + | * Анализа отзывов о товарах и услугах; |
− | * Определение языка вражды<ref>[https://ru.wikipedia.org/wiki/%D0%AF%D0%B7%D1%8B%D0%BA_%D0%B2%D1%80%D0%B0%D0%B6%D0%B4%D1%8B Язык Вражды]</ref> | + | * Определение языка вражды<ref>[https://ru.wikipedia.org/wiki/%D0%AF%D0%B7%D1%8B%D0%BA_%D0%B2%D1%80%D0%B0%D0%B6%D0%B4%D1%8B Язык Вражды]</ref>; |
В общем случае, задача анализа тональности текста эквивалентна задаче классификации текста, где категориями текстов могут быть тональные оценки. | В общем случае, задача анализа тональности текста эквивалентна задаче классификации текста, где категориями текстов могут быть тональные оценки. | ||
Примеры тональных оценок: | Примеры тональных оценок: | ||
− | * позитивня | + | * позитивня; |
− | * негативня | + | * негативня; |
− | * нейтральная | + | * нейтральная; |
Под «нейтральной» подразумевается, что текст не содержит эмоциональной окраски. | Под «нейтральной» подразумевается, что текст не содержит эмоциональной окраски. | ||
Строка 35: | Строка 36: | ||
=== Этапы подготовки === | === Этапы подготовки === | ||
+ | ==== Предобработка текста ==== | ||
+ | Предобработка текста переводит текст на естественном языке в формат удобный для дальнейшей работы. Применяются следующие операции: | ||
+ | * Перевод всех букв в тексте в нижний или верхний регистры; | ||
+ | * Удаление чисел или замена на текстовый эквивалент; | ||
+ | * Удаление пунктуации; | ||
+ | * Удаление редких и слишком частых слов; | ||
+ | * [http://neerc.ifmo.ru/wiki/index.php?title=%D0%9E%D0%B1%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B0_%D0%B5%D1%81%D1%82%D0%B5%D1%81%D1%82%D0%B2%D0%B5%D0%BD%D0%BD%D0%BE%D0%B3%D0%BE_%D1%8F%D0%B7%D1%8B%D0%BA%D0%B0#.D0.A1.D1.82.D0.B5.D0.BC.D0.BC.D0.B8.D0.BD.D0.B3| Стемминг] или [http://neerc.ifmo.ru/wiki/index.php?title=%D0%9E%D0%B1%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B0_%D0%B5%D1%81%D1%82%D0%B5%D1%81%D1%82%D0%B2%D0%B5%D0%BD%D0%BD%D0%BE%D0%B3%D0%BE_%D1%8F%D0%B7%D1%8B%D0%BA%D0%B0#.D0.9B.D0.B5.D0.BC.D0.BC.D0.B0.D1.82.D0.B8.D0.B7.D0.B0.D1.86.D0.B8.D1.8F| Лемматизация] | ||
+ | ==== Извлечение признаков ==== |
Версия 11:06, 9 апреля 2019
Классификация текстов (документов) (Document classification) — задача компьютерной лингвистики[1], заключающаяся в отнесении документа к одной из нескольких категорий на основании содержания документа.
Анализ тональности текста (Sentiment analysis) — задача компьютерной лингвистики, заключающаяся в определении эмоциональной окраски (тональности) текста и, в частности, в выявлении эмоциональной оценки авторов по отношению к объектам, описываемым в тексте.
Содержание
Задачи классификации текстов
Классификация текстов применяется, в том числе, для:
- Разделения веб страниц и сайтов по тематическим каталогам;
- Борьбы со спамом;
- Определение языка текста;
- Показа более релевантной рекламы;
Задачи анализа тональности текста
Основной задачей анализа тональности текста является определение его эмоциональной окраски. Это необходимо, в том числе, для:
- Анализа отзывов о товарах и услугах;
- Определение языка вражды[2];
В общем случае, задача анализа тональности текста эквивалентна задаче классификации текста, где категориями текстов могут быть тональные оценки. Примеры тональных оценок:
- позитивня;
- негативня;
- нейтральная;
Под «нейтральной» подразумевается, что текст не содержит эмоциональной окраски.
Классификация текстов методами машинного обучения
Постановка задачи
Имеется множество категорий (классов, меток)
.Имеется множество документов
.Неизвестная целевая функция
.Необходимо построить классификатор
, максимально близкий к .Имеется некоторая начальная коллекция размеченных документов
, для которых известны значения . Обычно её делят на «обучающую» и «проверочную» части. Первая используется для обучения классификатора, вторая — для независимой проверки качества его работы.Классификатор может выдавать точный ответ
или степень подобия .Этапы подготовки
Предобработка текста
Предобработка текста переводит текст на естественном языке в формат удобный для дальнейшей работы. Применяются следующие операции:
- Перевод всех букв в тексте в нижний или верхний регистры;
- Удаление чисел или замена на текстовый эквивалент;
- Удаление пунктуации;
- Удаление редких и слишком частых слов;
- Стемминг или Лемматизация