Классификация текстов и анализ тональности

Классификация текстов (документов) (Document classification) — задача компьютерной лингвистики^[1], заключающаяся в отнесении документа к одной из нескольких категорий на основании содержания документа.

Анализ тональности текста (Sentiment analysis) — задача компьютерной лингвистики, заключающаяся в определении эмоциональной окраски (тональности) текста и, в частности, в выявлении эмоциональной оценки авторов по отношению к объектам, описываемым в тексте.

Содержание

1 Задачи классификации текстов
2 Задачи анализа тональности текста
3 Классификация текстов методами машинного обучения
4 Применение семантических тезаурусов для анализа тональности текстов
5 Примечания

Задачи классификации текстов

Классификация текстов применяется, в том числе, для:

Разделения веб страниц и сайтов по тематическим каталогам;
Борьбы со спамом;
Определение языка текста;
Показа более релевантной рекламы;

Задачи анализа тональности текста

Основной задачей анализа тональности текста является определение его эмоциональной окраски. Это необходимо, в том числе, для:

Анализа отзывов о товарах и услугах;
Определение языка вражды^[2];

В общем случае, задача анализа тональности текста эквивалентна задаче классификации текста, где категориями текстов могут быть тональные оценки. Примеры тональных оценок:

позитивная;
негативная;
нейтральная;

Под «нейтральной» подразумевается, что текст не содержит эмоциональной окраски.

Классификация текстов методами машинного обучения

Постановка задачи

Имеется множество категорий (классов, меток) .

Имеется множество документов .

Неизвестная целевая функция .

Необходимо построить классификатор [math] \Phi^\prime [/math], максимально близкий к [math]\Phi[/math].

Имеется некоторая начальная коллекция размеченных документов , для которых известны значения [math]\Phi[/math]. Обычно её делят на «обучающую» и «проверочную» части. Первая используется для обучения классификатора, вторая — для независимой проверки качества его работы.

Классификатор может выдавать точный ответ или степень подобия .

Этапы подготовки

Этапы подготовки не отличается от обработки текста, описанной выше в анализе тональности.

Алгоритмы классификации

Наивная байесовская модель

Пусть [math]P(c_i|d)[/math] — вероятность того, что документ, представленный вектором [math]d = (t_1, ..., t_n)[/math], соответствует категории [math]c_i[/math] для [math]i = 1, ..., |C|[/math]. Задача классификатора заключается в том, чтобы подобрать такие значения [math]c_i[/math] и [math]d[/math], при которых значение вероятности [math]P(c_i|d)[/math] будет максимальным:

Для вычисления значений [math]P(c_i|d)[/math] пользуются теоремой Байеса:

где [math]P(c_i)[/math] – априорная вероятность того, что документ отнесен к категории [math]c_i[/math]; [math]P(d | c_i)[/math] – вероятность найти документ, представленный вектором [math]d = (t_1, ..., t_n)[/math], в категории [math]c_i[/math]; [math]P(d)[/math] – вероятность того, что произвольно взятый документ можно представить в виде вектора признаков [math]d = (t_1, ..., t_n)[/math].

По сути [math]P(c_i)[/math] является отношением количества документов из обучающей выборки [math]L[/math], отнесенных в категорию c_i , к количеству всех документов из [math]L[/math].

[math]P(d)[/math] не зависит от категории [math]c_i[/math], а значения [math]t_1, ..., t_n[/math] заданы заранее, поэтому знаменатель — это константа, не влияющая на выбор наибольшего из значений [math]P(c_i|d)[/math].

Вычисление [math]P(d | c_i)[/math] затруднительно из-за большого количества признаков [math]t_1, ..., t_n[/math] , поэтому делают «наивное» предположение о том, что любые две координаты, рассматриваемые как случайные величины, статистически не зависят друг от друга. Тогда можно воспользоваться формулой

Далее все вероятности подсчитываются по методу максимального правдоподобия.

Преимущества метода:

высокая скорость работы;
простая реализация алгоритма;
легкая интерпретируемость результатов работы алгоритма.

Недостатками являются частое низкое качество классификации и неспособность учитывать зависимость результата классификации от сочетания признаков.

Многомерная модель

В многомерной(multivariate) модели документ – это вектор бинарных атрибутов, показывающих, встретилось ли в документе то или иное слово. Когда мы подсчитываем правдоподобие е документа, мы перемножаем вероятности того, что встретилось каждое слово из документа и вероятности того, что не встретилось каждое (словарное) слово, которое не встретилось. Получается модель многомерных испытаний Бернулли. Наивное предположение в том, что события «встретилось ли слово» предполагаются независимыми.

Математически: пусть [math]V = \{w_t\}_{t=1}^{|V|}[/math] – словарь. Тогда документ [math]d_i[/math] – это вектор длины [math]|V|[/math], состоящий из битов [math]B_{it}[/math]. [math]B_{it} = 1[/math] тогда и только тогда, когда слово [math]w_{t}[/math] встречается в документе [math]d_{i}[/math].

Правдоподобие принадлежности [math]d_{i}[/math] классу [math]c_{j}[/math]:

Для обучения такого классификатора нужно обучить [math]P(w_t|c_j)[/math].

Пусть дан набор документов [math]D = \{d_{i}\}[/math], которые уже распределены по классам [math]c_{j}[/math] (возможно, даже вероятностно распределены), дан словарь [math]V = \{w_t\}[/math], и мы знаем биты [math]B_{it}[/math] (знаем документы).

Тогда можно подсчитать оптимальные оценки вероятностей того, что то или иное слово встречается в том или ином классе (при помощи лапласовой оценки):

Априорные вероятности классов можно подсчитать как . Классификация происходит как обычно - максимизацией правдоподобия: .

Мультиномиальная модель

В мультиномиальной(multinomial) модели документ – это последовательность событий. Каждое событие – это случайный выбор одного слова из того самого «bag of words». Когда мы подсчитываем правдоподобие документа, мы перемножаем вероятности того, что мы достали из мешка те самые слова, которые встретились в документе. Наивное предположение в том, что мы достаём из мешка разные слова независимо друг от друга. Получается мультиномиальная генеративная модель, которая учитывает количество повторений каждого слова, но не учитывает, каких слов нет в документе.

Математически: пусть [math]V = \{w_t\}_{t=1}^{|V|}[/math] – словарь. Тогда документ [math]d_i[/math] – это вектор длины [math]|V|[/math], состоящий из слов, каждое из которых «вынуто» из словаря с вероятностью [math]P(w_t|c_j)[/math].

Правдоподобие принадлежности [math]d_{i}[/math] классу [math]c_{j}[/math]:

, где 𝑁𝑖𝑡 – количество вхождений .

Для обучения такого классификатора тоже нужно обучить вероятности [math]P(w_t|c_j)[/math].

Пусть дан набор документов [math]D = \{d_{i}\}[/math], которые уже распределены по классам [math]c_{j}[/math] (возможно, даже вероятностно распределены), дан словарь [math]V = \{w_t\}[/math], и мы знаем вхождения [math]N_{it}[/math].

Тогда можно подсчитать апостериорные оценки вероятностей того, что то или иное слово встречается в том или ином классе (не забываем сглаживание – правило Лапласа):

.

Априорные вероятности классов можно подсчитать как . Тогда классификация будет происходить как .

Метод опорных векторов (SVM)

Будем представлять каждый документ, как вектор, задаваемый своим содержимым в общем векторном пространстве. После этого будем строить разделяющую гиперплоскость для каждого известного класса.

Преимущества метода:

один из наиболее качественных методов;
возможность работы с небольшим набором данных для обучения;
сводимость к задаче выпуклой оптимизации, имеющей единственное решение.

Недостатки метода: сложная интерпретируемость параметров алгоритма и неустойчивость по отношению к выбросам в исходных данных.

pLSA (Hoffmann, 1999)

Каждое слово [math]d[/math] порождается некой темой [math]t \in T[/math]. Lокумент порождается некоторым распределением на темах [math]p(t|d)[/math]. Cлово порождается именно темой, а не документом - [math]p(w|d, t) = p(w|d)[/math]. Итого получается следующая функция правдоподобия: .

Можно оценить , а требуется найти . Правдоподобие выглядит следующим образом .

Максимизировать такое правдоподобие следует ЕМ-алгоритмом. На Е-шаге ищемм, сколько слов [math]w[/math] в документе [math]d[/math] из темы [math]t[/math]:

На М шаге пересчитываем параметры модели: [math]n_{wt} = \sum_d n_{dwt}[/math], , [math]n_{t} = \sum_w n_{wt}[/math], , .

Параметров очень много, что явно введет к оверфиттингу, только если корпус не будет на порядки больше числа тем. Однако это решается регуляризацией(Есть целая наука о разных регуляризаторах для pLSA (К.В. Воронцов)).

В общем виде так: добавим регуляризаторы [math]R_{i}[/math] в логарифм правдоподобия:

Тогда ЕМ-алгоритме на М-шаге появятся частные производные [math]R[/math]:

, .

Также известное расширение pLSA это LDA^[3].

Оценка качества классификации

Для оценки качества классификации, как и для оценки качества работы многих других алгоритмов машинного обучения вычисляется точность и полнота.

Применение семантических тезаурусов для анализа тональности текстов

Существуют тезаурусы^[4], размеченные силами людей с учётом эмоциональной окраски слов, содержащихся в них. Такие словари позволяют определять тональность текста без применения алгоритмов машинного обучения. Тональность текста определяется как сумма тональностей слов, содержащихся в размеченных словарях.

Основной проблемой методов, основанных на словарях является трудоёмкость построения словаря: отдельного для каждого нового языка и каждой новой тематики.

Известные тезаурусы:

Примечания

[1] Компьютерная лингвистика

[2] Язык Вражды

[3] LDA

[4] Тезаурус

[1]

[2]

[3]

[4]