Изменения

← Предыдущая правка

Классификация текстов и анализ тональности

1444 байта убрано, 19:44, 4 сентября 2022

м

rollbackEdits.php mass rollback

=== Алгоритмы классификации ===

==== Байесовская классификация ====

[[Байесовская классификация]] является одним из самых простых,но не значит, что неэффективных, методов в классификации текстов.Данный алгоритм основан на принципе максимума апостериорной вероятности. Для классифицируемого объекта вычисляются функции правдоподобия каждого из классов, по ним вычисляются апостериорные вероятности классов. Объект относится к тому классу, для которого апостериорная вероятность максимальна.

Пусть <math>P(c_i|d)</math> {{---}} вероятность того, что документ, представленный вектором <math>d = (t_1, ..., t_n)</math>, соответствует категории <math>c_i</math> для <math>i = 1, ..., |C|</math>. Задача классификатора заключается в том, чтобы подобрать такие значения <math>c_i</math> и <math>d</math>, при которых значение вероятности <math>P(c_i|d)</math> будет максимальным:

<math>c_m = \underset{c \in C}{\operatorname{argmax}} \, P(c|d)</math>

~~Для вычисления значений <math>P(c_i|d)</math> пользуются теоремой Байеса:~~ ~~<math>P(c_i|d) = \frac{P(d|c_i)P(c_i)}{P(d)}</math>~~ где <math>P(c_i)</math> – априорная вероятность того, что документ отнесен к категории <math>c_i</math>; <math>P(d | c_i)</math> – вероятность найти документ, представленный вектором <math>d = (t_1, ..., t_n)</math>, в категории <math>c_i</math>; <math>P(d)</math> – вероятность того, что произвольно взятый документ можно представить в виде вектора признаков <math>d = (t_1, ..., t_n)</math>. ~~По сути <math>P(c_i)</math> является отношением количества документов из обучающей выборки <math>L</math>, отнесенных~~ Подробно байесовская классификация описана в ~~категорию c_i , к количеству всех документов из <math>L</math>.~~ <math>P(d)</math> не зависит от категории <math>c_i</math>, а значения <math>t_1, ..., t_n</math> заданы заранее, поэтому знаменатель {{---}} это константа, не влияющая на выбор наибольшего из значений <math>P(c_i[[Байесовская классификация|~~d)</math>~~соответствующей статье]]. Вычисление <math>P(d | c_i)</math> затруднительно из-за большого количества признаков <math>t_1, ..., t_n</math> , поэтому делают «наивное» предположение о том, что любые две координаты, рассматриваемые как случайные величины, статистически не зависят друг от друга. Тогда можно воспользоваться формулой ~~<math>P(d|c_i) = \prod_{k=1}^{n} P(t_k|c)</math>~~ ~~Далее все вероятности подсчитываются по методу максимального правдоподобия.~~ ~~<math>c = argmax_{c \in C} P(c)\prod_{k=1}^{n} P(t_k|c)</math>~~

Преимущества метода:

* легкая интерпретируемость результатов работы алгоритма.

~~Недостатками являются~~ Недостатки метода:* частое низкое качество классификации и ;* неспособность учитывать зависимость результата классификации от сочетания признаков.

===== Многомерная модель =====

Тогда можно подсчитать оптимальные оценки вероятностей того, что то или иное слово встречается в том или ином классе (при помощи лапласовой оценки):

<math>P(~~w_i~~w_t|c_j) = \frac{1 + \sum_{i=1}^{|D|} B_{it} \times P(c_j|d_i)}{2 + \sum_{i=1}^{|D|} P(c_j|d_i)}</math>

Априорные вероятности классов можно подсчитать как <math>P(c_j) = \frac{1}{|D|}\sum_{i=1}^{|D|}P(c_j|d_i)</math>. Классификация происходит как обычно — максимизацией правдоподобия: <math>c = argmax_{j}P(c_j)P(d_i|c_j) = argmax_{j}(\log{\sum_{i=1}^{|D|}P(c_j|d_i)} + \sum_{t=1}^{|V|}\log{(B_{it} \times P(w_t|c_j) + (1 - B_{it}) \times (1 - P(w_t|c_j)))})</math>.

Maintenance script

1632

правки

Изменения

Классификация текстов и анализ тональности

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты