Изменения

Перейти к: навигация, поиск

Классификация текстов и анализ тональности

3296 байт добавлено, 12:37, 9 апреля 2019
+ Наивная байесовская модель
=== Алгоритмы классификации ===
==== Наивная байесовская модель ====
Пусть <math>P(c_i|d)</math> {{---}} вероятность того, что документ, представленный вектором <math>d = (t_1, ..., t_n)</math>, соответствует категории <math>c_i</math> для <math>i = 1, ..., |C|</math>. Задача классификатора заключается в том, чтобы подобрать такие значения <math>c_i</math> и <math>d</math>, при которых значение вероятности <math>P(c_i|d)</math> будет максимальным:
 
<math>c_m = \underset{c \in C}{\operatorname{argmax}} \, P(c|d)</math>
 
Для вычисления значений <math>P(c_i|d)</math> пользуются теоремой Байеса:
 
<math>P(c_i|d) = \frac{P(d|c_i)P(c_i)}{P(d)}</math>
 
где <math>P(c_i)</math> – априорная вероятность того, что документ отнесен к категории <math>c_i</math>; <math>P(d | c_i)</math> – вероятность найти документ, представленный вектором <math>d = (t_1, ..., t_n)</math>, в категории <math>c_i</math>; <math>P(d)</math> – вероятность того, что произвольно взятый документ можно представить в виде вектора признаков <math>d = (t_1, ..., t_n)</math>.
 
По сути <math>P(c_i)</math> является отношением количества документов из обучающей выборки <math>L</math>, отнесенных в категорию c_i , к количеству всех документов из <math>L</math>.
 
<math>P(d)</math> не зависит от категории <math>c_i</math>, а значения <math>t_1, ..., t_n</math> заданы заранее, поэтому знаменатель {{---}} это константа, не влияющая на выбор наибольшего из значений <math>P(c_i|d)</math>.
 
Вычисление <math>P(d | c_i)</math> затруднительно из-за большого количества признаков <math>t_1, ..., t_n</math> , поэтому делают «наивное» предположение о том, что любые две координаты, рассматриваемые как случайные величины, статистически не зависят друг от друга. Тогда можно воспользоваться формулой
 
<math>P(d|c_i) = \prod_{k=1}^{n} P(t_k|c)</math>
 
Далее все вероятности подсчитываются по методу максимального правдоподобия.
 
Преимущества метода:
* высокая скорость работы;
* простая реализация алгоритма;
* легкая интерпретируемость результатов работы алгоритма.
 
Недостатками являются относительно низкое качество классификации и неспособность учитывать зависимость результата классификации от сочетания признаков.
 
==== Метод K ближайших соседей ====
==== Метод опорных векторов ====
54
правки

Навигация