1632
правки
Изменения
м
[[Байесовская классификация]] является одним из самых простых,но не значит, что неэффективных, методов в классификации текстов.Данный алгоритм основан на принципе максимума апостериорной вероятности. Для классифицируемого объекта вычисляются функции правдоподобия каждого из классов, по ним вычисляются апостериорные вероятности классов. Объект относится к тому классу, для которого апостериорная вероятность максимальна.
Для вычисления значений <math>P(c_i|d)</math> пользуются теоремой Байеса: <math>P(c_i|d) = \frac{P(d|c_i)P(c_i)}{P(d)}</math> где <math>P(c_i)</math> – априорная вероятность того, что документ отнесен к категории <math>c_i</math>; <math>P(d | c_i)</math> – вероятность найти документ, представленный вектором <math>d = (t_1, ..., t_n)</math>, в категории <math>c_i</math>; <math>P(d)</math> – вероятность того, что произвольно взятый документ можно представить в виде вектора признаков <math>d = (t_1, ..., t_n)</math>. По сути <math>P(c_i)</math> является отношением количества документов из обучающей выборки <math>L</math>, отнесенных Подробно байесовская классификация описана в категорию c_i , к количеству всех документов из <math>L</math>. <math>P(d)</math> не зависит от категории <math>c_i</math>, а значения <math>t_1, ..., t_n</math> заданы заранее, поэтому знаменатель {{---}} это константа, не влияющая на выбор наибольшего из значений <math>P(c_i[[Байесовская классификация|d)</math>соответствующей статье]]. Вычисление <math>P(d | c_i)</math> затруднительно из-за большого количества признаков <math>t_1, ..., t_n</math> , поэтому делают «наивное» предположение о том, что любые две координаты, рассматриваемые как случайные величины, статистически не зависят друг от друга. Тогда можно воспользоваться формулой <math>P(d|c_i) = \prod_{k=1}^{n} P(t_k|c)</math> Далее все вероятности подсчитываются по методу максимального правдоподобия. <math>c = argmax_{c \in C} P(c)\prod_{k=1}^{n} P(t_k|c)</math>
Недостатками являются Недостатки метода:* частое низкое качество классификации и ;* неспособность учитывать зависимость результата классификации от сочетания признаков.
rollbackEdits.php mass rollback
=== Алгоритмы классификации ===
==== Байесовская классификация ====
Пусть <math>P(c_i|d)</math> {{---}} вероятность того, что документ, представленный вектором <math>d = (t_1, ..., t_n)</math>, соответствует категории <math>c_i</math> для <math>i = 1, ..., |C|</math>. Задача классификатора заключается в том, чтобы подобрать такие значения <math>c_i</math> и <math>d</math>, при которых значение вероятности <math>P(c_i|d)</math> будет максимальным:
<math>c_m = \underset{c \in C}{\operatorname{argmax}} \, P(c|d)</math>
Преимущества метода:
* легкая интерпретируемость результатов работы алгоритма.
===== Многомерная модель =====
Тогда можно подсчитать оптимальные оценки вероятностей того, что то или иное слово встречается в том или ином классе (при помощи лапласовой оценки):
<math>P(w_iw_t|c_j) = \frac{1 + \sum_{i=1}^{|D|} B_{it} \times P(c_j|d_i)}{2 + \sum_{i=1}^{|D|} P(c_j|d_i)}</math>
Априорные вероятности классов можно подсчитать как <math>P(c_j) = \frac{1}{|D|}\sum_{i=1}^{|D|}P(c_j|d_i)</math>. Классификация происходит как обычно — максимизацией правдоподобия: <math>c = argmax_{j}P(c_j)P(d_i|c_j) = argmax_{j}(\log{\sum_{i=1}^{|D|}P(c_j|d_i)} + \sum_{t=1}^{|V|}\log{(B_{it} \times P(w_t|c_j) + (1 - B_{it}) \times (1 - P(w_t|c_j)))})</math>.