Изменения

Перейти к: навигация, поиск

Классификация текстов и анализ тональности

2109 байт убрано, 19:02, 16 февраля 2020
м
Переписан подраздел байесовской классификации с добавлением ссылки на существующий конспект
=== Алгоритмы классификации ===
==== Байесовская классификация ====
[[Байесовская классификация]] является одним из самых простых,но не значит, что неэффективных, методов в классификации текстов.Пусть <math>P(c_i|d)</math> {{---}} вероятность того, что документ, представленный вектором <math>d = (t_1Данный алгоритм основан на принципе максимума апостериорной вероятности. Для классифицируемого объекта вычисляются функции правдоподобия каждого из классов, по ним вычисляются апостериорные вероятности классов...Объект относится к тому классу, t_n)</math>, соответствует категории <math>c_i</math> для <math>i = 1, ..., |C|</math>которого апостериорная вероятность максимальна. Задача классификатора заключается в том, чтобы подобрать такие значения <math>c_i</math> и <math>d</math>, при которых значение вероятности <math>P(c_i|d)</math> будет максимальным:
<math>c_m = \underset{c \in C}{\operatorname{argmax}} \, P(c|d)</math> Для вычисления значений <math>P(c_i|d)</math> пользуются теоремой Байеса: <math>P(c_i|d) = \frac{P(d|c_i)P(c_i)}{P(d)}</math> где <math>P(c_i)</math> – априорная вероятность того, что документ отнесен к категории <math>c_i</math>; <math>P(d | c_i)</math> – вероятность найти документ, представленный вектором <math>d = (t_1, ..., t_n)</math>, в категории <math>c_i</math>; <math>P(d)</math> – вероятность того, что произвольно взятый документ можно представить Подробно данный алгоритм описан в виде вектора признаков <math>d = (t_1, ..., t_n)</math>. По сути <math>P(c_i)</math> является отношением количества документов из обучающей выборки <math>L</math>, отнесенных в категорию c_i , к количеству всех документов из <math>L</math>. <math>P(d)</math> не зависит от категории <math>c_i</math>, а значения <math>t_1, ..., t_n</math> заданы заранее, поэтому знаменатель {{---}} это константа, не влияющая на выбор наибольшего из значений <math>P(c_i[[Байесовская классификация|d)</math>соответствующей статье]]Вычисление <math>P(d | c_i)</math> затруднительно из-за большого количества признаков <math>t_1, ..., t_n</math> , поэтому делают «наивное» предположение о том, что любые две координаты, рассматриваемые как случайные величины, статистически не зависят друг от друга. Тогда можно воспользоваться формулой <math>P(d|c_i) = \prod_{k=1}^{n} P(t_k|c)</math> Далее все вероятности подсчитываются по методу максимального правдоподобия. <math>c = argmax_{c \in C} P(c)\prod_{k=1}^{n} P(t_k|c)</math>
Преимущества метода:
* легкая интерпретируемость результатов работы алгоритма.
Недостатками являются Недостатки метода:* частое низкое качество классификации и ;* неспособность учитывать зависимость результата классификации от сочетания признаков.
===== Многомерная модель =====
3
правки

Навигация