Классификация текстов и анализ тональности — различия между версиями
(→Наивная байесовская модель) |
(→Классификация текстов методами машинного обучения) |
||
Строка 125: | Строка 125: | ||
Недостатки метода: сложная интерпретируемость параметров алгоритма и неустойчивость по отношению к выбросам в исходных данных. | Недостатки метода: сложная интерпретируемость параметров алгоритма и неустойчивость по отношению к выбросам в исходных данных. | ||
+ | |||
+ | ==== pLSA (Hoffmann, 1999) ==== | ||
+ | Каждое слово <math>d</math> порождается некой темой <math>t \in T</math>. Lокумент порождается некоторым распределением на темах <math>p(t|d)</math>. Cлово порождается именно темой, а не документом - <math>p(w|d, t) = p(w|d)</math>. Итого получается следующая функция правдоподобия: <math>p(w|d) = \sum_{t \in T}p(w|t)p(t|d)</math>. | ||
+ | |||
+ | Можно оценить <math>p(w|d) = \frac{n_{wd}}{n_{d}}</math>, а требуется найти <math>\phi_{wt} = p(w|t), \theta_{td} = p(t|d)</math>. Правдоподобие выглядит следующим образом <math>p(D) = \prod_{d \in D}\prod_{w \in d}p(d, w)^{n_dw} = \prod_{d \in D}\prod_{w \in d}(\sum_{t \in T}p(w|t)p(t|d))^{n_dw}</math>. | ||
+ | |||
+ | Максимизировать такое правдоподобие следует ЕМ-алгоритмом. На Е-шаге ищемм, сколько слов <math>w</math> в документе <math>d</math> из темы <math>t</math>: | ||
+ | |||
+ | <math>n_{dwt} = n_{dw}p(t|d, w)=n_{dw}\frac{\phi_{wt}\theta_{td}}{\sum_{s \in T}\phi_{ws}\theta_{sd}}</math> | ||
+ | |||
+ | На М шаге пересчитываем параметры модели: <math>n_{wt} = \sum_d n_{dwt}</math>, <math>n_{td} = \sum_{w \in d} n_{dwt}</math>, <math>n_{t} = \sum_w n_{wt}</math>, <math>\theta_{td} = \frac{n_{td}}{n_d}</math>, <math>\phi_{wt} = \frac{n_{wt}}{n_t}</math>. | ||
+ | |||
+ | Параметров очень много, что явно введет к оверфиттингу, только если корпус не будет на порядки больше числа тем. Однако это решается регуляризацией(Есть целая наука о разных регуляризаторах для pLSA (К.В. Воронцов)). | ||
+ | |||
+ | В общем виде так: добавим регуляризаторы <math>R_{i}</math> в логарифм правдоподобия: | ||
+ | <math>\sum_{d \in D}\sum_{w \in d}n_{dw}\log{(\sum_{t \in T}\phi_{wt}\theta_{td})} + \sum_i \tau R_i(\Phi, \Theta)</math> | ||
+ | |||
+ | Тогда ЕМ-алгоритме на М-шаге появятся частные производные <math>R</math>: | ||
+ | |||
+ | <math>n_{wt} = \sum_{d \in D}n_{dwt} + \phi\frac{\partial R}{\partial \phi_{wt}}</math>, | ||
+ | <math>n_{td} = \sum_{w \in d}n_{dwt} + \theta\frac{\partial R}{\partial \theta_{td}}</math>. | ||
+ | |||
+ | Также известное расширение pLSA это LDA<ref>[https://en.wikipedia.org/wiki/Latent_Dirichlet_allocation LDA]</ref>. | ||
+ | |||
=== Оценка качества классификации === | === Оценка качества классификации === |
Версия 20:27, 23 января 2020
Классификация текстов (документов) (Document classification) — задача компьютерной лингвистики[1], заключающаяся в отнесении документа к одной из нескольких категорий на основании содержания документа.
Анализ тональности текста (Sentiment analysis) — задача компьютерной лингвистики, заключающаяся в определении эмоциональной окраски (тональности) текста и, в частности, в выявлении эмоциональной оценки авторов по отношению к объектам, описываемым в тексте.
Содержание
- 1 Задачи классификации текстов
- 2 Задачи анализа тональности текста
- 3 Классификация текстов методами машинного обучения
- 4 Применение семантических тезаурусов для анализа тональности текстов
- 5 Примечания
Задачи классификации текстов
Классификация текстов применяется, в том числе, для:
- Разделения веб страниц и сайтов по тематическим каталогам;
- Борьбы со спамом;
- Определение языка текста;
- Показа более релевантной рекламы;
Задачи анализа тональности текста
Основной задачей анализа тональности текста является определение его эмоциональной окраски. Это необходимо, в том числе, для:
- Анализа отзывов о товарах и услугах;
- Определение языка вражды[2];
В общем случае, задача анализа тональности текста эквивалентна задаче классификации текста, где категориями текстов могут быть тональные оценки. Примеры тональных оценок:
- позитивная;
- негативная;
- нейтральная;
Под «нейтральной» подразумевается, что текст не содержит эмоциональной окраски.
Классификация текстов методами машинного обучения
Постановка задачи
Имеется множество категорий (классов, меток)
.Имеется множество документов
.Неизвестная целевая функция
.Необходимо построить классификатор
, максимально близкий к .Имеется некоторая начальная коллекция размеченных документов
, для которых известны значения . Обычно её делят на «обучающую» и «проверочную» части. Первая используется для обучения классификатора, вторая — для независимой проверки качества его работы.Классификатор может выдавать точный ответ
или степень подобия .Этапы подготовки
Предобработка текста
Предобработка текста переводит текст на естественном языке в формат удобный для дальнейшей работы. Применяются следующие операции:
- Перевод всех букв в тексте в нижний или верхний регистры;
- Удаление чисел или замена на текстовый эквивалент;
- Удаление пунктуации;
- Удаление редких и слишком частых слов;
- Стемминг или Лемматизация;
Извлечение признаков из текстов
Большинство математических моделей работают в векторных пространствах больших размерностей, поэтому необходимо отобразить текст в векторном пространстве. Основным походом является мешок слов (bag-of-words): для документа формируется вектор размерности словаря, для каждого слова выделяется своя размерность, для документа записывается признак насколько часто слово встречается в нем, получаем вектор. Наиболее распространенным методом для вычисления признака является TF-IDF[3] и его вариации (TF — частота слова, term frequency, IDF — обратная частота документа, inverse document frequency). Плюсами мешка слов является простая реализация, однако данный метод теряет часть информации, например, порядок слов. Для уменьшения потери информации можно использовать мешок N-грамм (добавлять не только слова, но и словосочетания), или использовать методы векторных представлений слов(Word2vec) это, например, позволяет снизить ошибку на словах с одинаковыми написаниями, но разными значениями и наоборот.
Алгоритмы классификации
Наивная байесовская модель
Пусть
— вероятность того, что документ, представленный вектором , соответствует категории для . Задача классификатора заключается в том, чтобы подобрать такие значения и , при которых значение вероятности будет максимальным:
Для вычисления значений
пользуются теоремой Байеса:
где
– априорная вероятность того, что документ отнесен к категории ; – вероятность найти документ, представленный вектором , в категории ; – вероятность того, что произвольно взятый документ можно представить в виде вектора признаков .По сути
является отношением количества документов из обучающей выборки , отнесенных в категорию c_i , к количеству всех документов из .не зависит от категории , а значения заданы заранее, поэтому знаменатель — это константа, не влияющая на выбор наибольшего из значений .
Вычисление
затруднительно из-за большого количества признаков , поэтому делают «наивное» предположение о том, что любые две координаты, рассматриваемые как случайные величины, статистически не зависят друг от друга. Тогда можно воспользоваться формулой
Далее все вероятности подсчитываются по методу максимального правдоподобия.
Преимущества метода:
- высокая скорость работы;
- простая реализация алгоритма;
- легкая интерпретируемость результатов работы алгоритма.
Недостатками являются частое низкое качество классификации и неспособность учитывать зависимость результата классификации от сочетания признаков.
Многомерная модель
В многомерной(multivariate) модели документ – это вектор бинарных атрибутов, показывающих, встретилось ли в документе то или иное слово. Когда мы подсчитываем правдоподобие е документа, мы перемножаем вероятности того, что встретилось каждое слово из документа и вероятности того, что не встретилось каждое (словарное) слово, которое не встретилось. Получается модель многомерных испытаний Бернулли. Наивное предположение в том, что события «встретилось ли слово» предполагаются независимыми.
Математически: пусть
– словарь. Тогда документ – это вектор длины , состоящий из битов . тогда и только тогда, когда слово встречается в документе .Правдоподобие принадлежности
классу :
Для обучения такого классификатора нужно обучить
.Пусть дан набор документов
, которые уже распределены по классам (возможно, даже вероятностно распределены), дан словарь , и мы знаем биты (знаем документы).Тогда можно подсчитать оптимальные оценки вероятностей того, что то или иное слово встречается в том или ином классе (при помощи лапласовой оценки):
Априорные вероятности классов можно подсчитать как
. Классификация происходит как обычно - максимизацией правдоподобия: .Мультиномиальная модель
В мультиномиальной(multinomial) модели документ – это последовательность событий. Каждое событие – это случайный выбор одного слова из того самого «bag of words». Когда мы подсчитываем правдоподобие документа, мы перемножаем вероятности того, что мы достали из мешка те самые слова, которые встретились в документе. Наивное предположение в том, что мы достаём из мешка разные слова независимо друг от друга. Получается мультиномиальная генеративная модель, которая учитывает количество повторений каждого слова, но не учитывает, каких слов нет в документе.
Математически: пусть
– словарь. Тогда документ – это вектор длины , состоящий из слов, каждое из которых «вынуто» из словаря с вероятностью .Правдоподобие принадлежности
классу :, где 𝑁𝑖𝑡 – количество вхождений .
Для обучения такого классификатора тоже нужно обучить вероятности
.Пусть дан набор документов
, которые уже распределены по классам (возможно, даже вероятностно распределены), дан словарь , и мы знаем вхождения .Тогда можно подсчитать апостериорные оценки вероятностей того, что то или иное слово встречается в том или ином классе (не забываем сглаживание – правило Лапласа):
.
Априорные вероятности классов можно подсчитать как
. Тогда классификация будет происходить как .Метод опорных векторов (SVM)
Будем представлять каждый документ, как вектор, задаваемый своим содержимым в общем векторном пространстве. После этого будем строить разделяющую гиперплоскость для каждого известного класса.
Преимущества метода:
- один из наиболее качественных методов;
- возможность работы с небольшим набором данных для обучения;
- сводимость к задаче выпуклой оптимизации, имеющей единственное решение.
Недостатки метода: сложная интерпретируемость параметров алгоритма и неустойчивость по отношению к выбросам в исходных данных.
pLSA (Hoffmann, 1999)
Каждое слово
порождается некой темой . Lокумент порождается некоторым распределением на темах . Cлово порождается именно темой, а не документом - . Итого получается следующая функция правдоподобия: .Можно оценить
, а требуется найти . Правдоподобие выглядит следующим образом .Максимизировать такое правдоподобие следует ЕМ-алгоритмом. На Е-шаге ищемм, сколько слов
в документе из темы :
На М шаге пересчитываем параметры модели:
, , , , .Параметров очень много, что явно введет к оверфиттингу, только если корпус не будет на порядки больше числа тем. Однако это решается регуляризацией(Есть целая наука о разных регуляризаторах для pLSA (К.В. Воронцов)).
В общем виде так: добавим регуляризаторы
в логарифм правдоподобия:Тогда ЕМ-алгоритме на М-шаге появятся частные производные
:, .
Также известное расширение pLSA это LDA[4].
Оценка качества классификации
Для оценки качества классификации, как и для оценки качества работы многих других алгоритмов машинного обучения вычисляется точность и полнота.
Применение семантических тезаурусов для анализа тональности текстов
Существуют тезаурусы[5], размеченные силами людей с учётом эмоциональной окраски слов, содержащихся в них. Такие словари позволяют определять тональность текста без применения алгоритмов машинного обучения. Тональность текста определяется как сумма тональностей слов, содержащихся в размеченных словарях.
Основной проблемой методов, основанных на словарях является трудоёмкость построения словаря: отдельного для каждого нового языка и каждой новой тематики.
Известные тезаурусы: