Байесовская классификация
Вероятностная постановка задачи классификации
Пусть $X$ множество объектов, $Y$ конечное множество имён классов, множество $X×Y$ является вероятностным пространством с плотностью распределения $p(x,y)=P(y)p(x|y)$. Вероятности появления объектов каждого из классов $P_y=P(y)$ называются априорными вероятностями классов. Плотности распределения $p_y(x)=p(x|y)$ называются функциями правдоподобия классов.
Вероятностная постановка задачи классификации разделяется на две независимые подзадачи:
- Имеется простая выборка $X^ℓ=(x_i, y_i)^ℓ_{i=1}$ из неизвестного распределения $p(x,y)=P_yp_y(x)$. Требуется построить эмпирические оценки априорных вероятностей $P'_y$ и функций правдоподобия $p'_y(x)$ для каждого из классов $y \in Y$.
- По известным плотностям распределения $p_y(x)$ и априорным вероятностям $P_y$ всех классов $y \in Y$ построить алгоритм $a(x)$, минимизирующий вероятность ошибочной классификации.
Задача восстановления плотности распределения
Требуется оценить плотность вероятностного распределения $p(x,y) =P_yp_y(x)$, по выборке $X^ℓ_y=\{(x_i,y_i)^ℓ_{i=1} | y_i=y\}$.
Априорные вероятности классов $P_y$ можно оценить согласно закону больших чисел, тогда частота появления объектов каждого из классов $P'_y=\frac{ℓ_y}{ℓ}$ где $ℓ_y=|X^ℓ_y|, y \in Y$ сходится по вероятности к $P_y$ при $ℓ_y→∞$. Чем больше длина выборки, тем точнее выборочная оценка $P'_y$.
Наивный байесовский классификатор
Гипотеза: |
{{{statement}}} |