Классификация текстов и анализ тональности — различия между версиями

Материал из Викиконспекты
Перейти к: навигация, поиск
(+ постановка задачи)
(+ предобработка)
Строка 5: Строка 5:
 
== Задачи классификации текстов ==
 
== Задачи классификации текстов ==
 
Классификация текстов применяется, в том числе, для:
 
Классификация текстов применяется, в том числе, для:
* Разделения веб страниц и сайтов по тематическим каталогам
+
* Разделения веб страниц и сайтов по тематическим каталогам;
* Борьбы со спамом
+
* Борьбы со спамом;
* Показа более релевантной рекламы
+
* Определение языка текста;
 +
* Показа более релевантной рекламы;
  
 
== Задачи анализа тональности текста ==
 
== Задачи анализа тональности текста ==
 
Основной задачей анализа тональности текста является определение его эмоциональной окраски. Это необходимо, в том числе, для:
 
Основной задачей анализа тональности текста является определение его эмоциональной окраски. Это необходимо, в том числе, для:
* Анализа отзывов о товарах и услугах
+
* Анализа отзывов о товарах и услугах;
* Определение языка вражды<ref>[https://ru.wikipedia.org/wiki/%D0%AF%D0%B7%D1%8B%D0%BA_%D0%B2%D1%80%D0%B0%D0%B6%D0%B4%D1%8B Язык Вражды]</ref>
+
* Определение языка вражды<ref>[https://ru.wikipedia.org/wiki/%D0%AF%D0%B7%D1%8B%D0%BA_%D0%B2%D1%80%D0%B0%D0%B6%D0%B4%D1%8B Язык Вражды]</ref>;
 
В общем случае, задача анализа тональности текста эквивалентна задаче классификации текста, где категориями текстов могут быть тональные оценки.
 
В общем случае, задача анализа тональности текста эквивалентна задаче классификации текста, где категориями текстов могут быть тональные оценки.
 
Примеры тональных оценок:
 
Примеры тональных оценок:
* позитивня
+
* позитивня;
* негативня
+
* негативня;
* нейтральная
+
* нейтральная;
 
Под «нейтральной» подразумевается, что текст не содержит эмоциональной окраски.
 
Под «нейтральной» подразумевается, что текст не содержит эмоциональной окраски.
  
Строка 35: Строка 36:
  
 
=== Этапы подготовки ===
 
=== Этапы подготовки ===
 +
==== Предобработка текста ====
 +
Предобработка текста переводит текст на естественном языке в формат удобный для дальнейшей работы. Применяются следующие операции:
 +
* Перевод всех букв в тексте в нижний или верхний регистры;
 +
* Удаление чисел или замена на текстовый эквивалент;
 +
* Удаление пунктуации;
 +
* Удаление редких и слишком частых слов;
 +
* [http://neerc.ifmo.ru/wiki/index.php?title=%D0%9E%D0%B1%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B0_%D0%B5%D1%81%D1%82%D0%B5%D1%81%D1%82%D0%B2%D0%B5%D0%BD%D0%BD%D0%BE%D0%B3%D0%BE_%D1%8F%D0%B7%D1%8B%D0%BA%D0%B0#.D0.A1.D1.82.D0.B5.D0.BC.D0.BC.D0.B8.D0.BD.D0.B3| Стемминг] или [http://neerc.ifmo.ru/wiki/index.php?title=%D0%9E%D0%B1%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B0_%D0%B5%D1%81%D1%82%D0%B5%D1%81%D1%82%D0%B2%D0%B5%D0%BD%D0%BD%D0%BE%D0%B3%D0%BE_%D1%8F%D0%B7%D1%8B%D0%BA%D0%B0#.D0.9B.D0.B5.D0.BC.D0.BC.D0.B0.D1.82.D0.B8.D0.B7.D0.B0.D1.86.D0.B8.D1.8F| Лемматизация]
 +
==== Извлечение признаков ====

Версия 11:06, 9 апреля 2019

Классификация текстов (документов) (Document classification) — задача компьютерной лингвистики[1], заключающаяся в отнесении документа к одной из нескольких категорий на основании содержания документа.

Анализ тональности текста (Sentiment analysis) — задача компьютерной лингвистики, заключающаяся в определении эмоциональной окраски (тональности) текста и, в частности, в выявлении эмоциональной оценки авторов по отношению к объектам, описываемым в тексте.

Задачи классификации текстов

Классификация текстов применяется, в том числе, для:

  • Разделения веб страниц и сайтов по тематическим каталогам;
  • Борьбы со спамом;
  • Определение языка текста;
  • Показа более релевантной рекламы;

Задачи анализа тональности текста

Основной задачей анализа тональности текста является определение его эмоциональной окраски. Это необходимо, в том числе, для:

  • Анализа отзывов о товарах и услугах;
  • Определение языка вражды[2];

В общем случае, задача анализа тональности текста эквивалентна задаче классификации текста, где категориями текстов могут быть тональные оценки. Примеры тональных оценок:

  • позитивня;
  • негативня;
  • нейтральная;

Под «нейтральной» подразумевается, что текст не содержит эмоциональной окраски.

Классификация текстов методами машинного обучения

Постановка задачи

Имеется множество категорий (классов, меток) [math]\mathfrak{C}=\{c_1,...,c_{\left|\mathfrak{C}\right|}\}[/math].

Имеется множество документов [math]\mathfrak{D}= \{ d_1, ... , d_{ \left| \mathfrak{D} \right| } \}[/math].

Неизвестная целевая функция [math]\Phi\colon \mathfrak{C} \times \mathfrak{D} \rightarrow \{ 0, 1 \}[/math].

Необходимо построить классификатор [math] \Phi^\prime [/math], максимально близкий к [math]\Phi[/math].

Имеется некоторая начальная коллекция размеченных документов [math]\mathfrak{R} \subset \mathfrak{C} \times \mathfrak{D}[/math], для которых известны значения [math]\Phi[/math]. Обычно её делят на «обучающую» и «проверочную» части. Первая используется для обучения классификатора, вторая — для независимой проверки качества его работы.

Классификатор может выдавать точный ответ [math]\Phi^\prime\colon \mathfrak{C} \times \mathfrak{D} \rightarrow \{ 0, 1 \}[/math] или степень подобия [math]\Phi^\prime\colon \mathfrak{C} \times \mathfrak{D} \rightarrow [ 0, 1 ][/math].

Этапы подготовки

Предобработка текста

Предобработка текста переводит текст на естественном языке в формат удобный для дальнейшей работы. Применяются следующие операции:

  • Перевод всех букв в тексте в нижний или верхний регистры;
  • Удаление чисел или замена на текстовый эквивалент;
  • Удаление пунктуации;
  • Удаление редких и слишком частых слов;
  • Стемминг или Лемматизация

Извлечение признаков