Изменения

Классификация текстов и анализ тональности

3296 байт добавлено, 12:37, 9 апреля 2019

+ Наивная байесовская модель

=== Алгоритмы классификации ===

==== Наивная байесовская модель ====

Пусть <math>P(c_i|d)</math> {{---}} вероятность того, что документ, представленный вектором <math>d = (t_1, ..., t_n)</math>, соответствует категории <math>c_i</math> для <math>i = 1, ..., |C|</math>. Задача классификатора заключается в том, чтобы подобрать такие значения <math>c_i</math> и <math>d</math>, при которых значение вероятности <math>P(c_i|d)</math> будет максимальным:

<math>c_m = \underset{c \in C}{\operatorname{argmax}} \, P(c|d)</math>

Для вычисления значений <math>P(c_i|d)</math> пользуются теоремой Байеса:

где <math>P(c_i)</math> – априорная вероятность того, что документ отнесен к категории <math>c_i</math>; <math>P(d | c_i)</math> – вероятность найти документ, представленный вектором <math>d = (t_1, ..., t_n)</math>, в категории <math>c_i</math>; <math>P(d)</math> – вероятность того, что произвольно взятый документ можно представить в виде вектора признаков <math>d = (t_1, ..., t_n)</math>.

По сути <math>P(c_i)</math> является отношением количества документов из обучающей выборки <math>L</math>, отнесенных в категорию c_i , к количеству всех документов из <math>L</math>.

<math>P(d)</math> не зависит от категории <math>c_i</math>, а значения <math>t_1, ..., t_n</math> заданы заранее, поэтому знаменатель {{---}} это константа, не влияющая на выбор наибольшего из значений <math>P(c_i|d)</math>.

Вычисление <math>P(d | c_i)</math> затруднительно из-за большого количества признаков <math>t_1, ..., t_n</math> , поэтому делают «наивное» предположение о том, что любые две координаты, рассматриваемые как случайные величины, статистически не зависят друг от друга. Тогда можно воспользоваться формулой

Далее все вероятности подсчитываются по методу максимального правдоподобия.

Преимущества метода:

* высокая скорость работы;

* простая реализация алгоритма;

* легкая интерпретируемость результатов работы алгоритма.

Недостатками являются относительно низкое качество классификации и неспособность учитывать зависимость результата классификации от сочетания признаков.

==== Метод K ближайших соседей ====

==== Метод опорных векторов ====

KirillTim

54

правки

Изменения

Классификация текстов и анализ тональности

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты