Байесовская классификация — различия между версиями
Vlad (обсуждение | вклад) (Новая страница: « == Вероятностная постановка задачи классификации == Пусть $X$ множество объектов, $Y$ конеч…») |
Vlad (обсуждение | вклад) |
||
Строка 9: | Строка 9: | ||
* Имеется простая выборка $X^ℓ=(x_i, y_i)^ℓ_{i=1}$ из неизвестного распределения $p(x,y)=P_yp_y(x)$. Требуется построить ''эмпирические оценки'' априорных вероятностей $P'_y$ и функций правдоподобия $p'_y(x)$ для каждого из классов $y \in Y$. | * Имеется простая выборка $X^ℓ=(x_i, y_i)^ℓ_{i=1}$ из неизвестного распределения $p(x,y)=P_yp_y(x)$. Требуется построить ''эмпирические оценки'' априорных вероятностей $P'_y$ и функций правдоподобия $p'_y(x)$ для каждого из классов $y \in Y$. | ||
* По известным плотностям распределения $p_y(x)$ и априорным вероятностям $P_y$ всех классов $y \in Y$ построить алгоритм $a(x)$, минимизирующий вероятность ошибочной классификации. | * По известным плотностям распределения $p_y(x)$ и априорным вероятностям $P_y$ всех классов $y \in Y$ построить алгоритм $a(x)$, минимизирующий вероятность ошибочной классификации. | ||
− | |||
− | |||
− | |||
Априорные вероятности классов $P_y$ можно оценить согласно закону больших чисел, тогда частота появления объектов каждого из классов $P'_y=\frac{ℓ_y}{ℓ}$ где $ℓ_y=|X^ℓ_y|, y \in Y$ | Априорные вероятности классов $P_y$ можно оценить согласно закону больших чисел, тогда частота появления объектов каждого из классов $P'_y=\frac{ℓ_y}{ℓ}$ где $ℓ_y=|X^ℓ_y|, y \in Y$ | ||
сходится по вероятности к $P_y$ при $ℓ_y→∞$. Чем больше длина выборки, тем точнее выборочная оценка $P'_y$. | сходится по вероятности к $P_y$ при $ℓ_y→∞$. Чем больше длина выборки, тем точнее выборочная оценка $P'_y$. | ||
− | + | == Наивный байесовский классификатор == | |
+ | |||
+ | Допустим, что объекты $x \in X$ описываются $n$ числовыми признаками $f_j:X→R,j= 1,...,n$. Обозначим через $x = (ξ_1,...,ξ_n)$ произвольный элемент пространства объектов $X=Rn$, где $ξ_j=f_j(x)$. | ||
+ | |||
+ | Предположим, что признаки $f_1(x),...,f_n(x)$ являются независимыми случайными величинами. | ||
+ | Следовательно, функции правдоподобия классов представимы в виде: | ||
+ | |||
+ | <tex> | ||
+ | p_y(x) = \prod^n_{i=1}p_{yi}(ξ_i) | ||
+ | </tex> | ||
− | + | где $p_{yj}(ξ_j)$ плотность распределения значений $j$-го признака для класса $y$. | |
− | + | Алгоритмы классификации исходящие их этого предположения, называются ''наивными байесовскими'' | |
− | |||
− | $ | ||
− |
Версия 20:11, 31 марта 2019
Вероятностная постановка задачи классификации
Пусть $X$ множество объектов, $Y$ конечное множество имён классов, множество $X×Y$ является вероятностным пространством с плотностью распределения $p(x,y)=P(y)p(x|y)$. Вероятности появления объектов каждого из классов $P_y=P(y)$ называются априорными вероятностями классов. Плотности распределения $p_y(x)=p(x|y)$ называются функциями правдоподобия классов.
Вероятностная постановка задачи классификации разделяется на две независимые подзадачи:
- Имеется простая выборка $X^ℓ=(x_i, y_i)^ℓ_{i=1}$ из неизвестного распределения $p(x,y)=P_yp_y(x)$. Требуется построить эмпирические оценки априорных вероятностей $P'_y$ и функций правдоподобия $p'_y(x)$ для каждого из классов $y \in Y$.
- По известным плотностям распределения $p_y(x)$ и априорным вероятностям $P_y$ всех классов $y \in Y$ построить алгоритм $a(x)$, минимизирующий вероятность ошибочной классификации.
Априорные вероятности классов $P_y$ можно оценить согласно закону больших чисел, тогда частота появления объектов каждого из классов $P'_y=\frac{ℓ_y}{ℓ}$ где $ℓ_y=|X^ℓ_y|, y \in Y$ сходится по вероятности к $P_y$ при $ℓ_y→∞$. Чем больше длина выборки, тем точнее выборочная оценка $P'_y$.
Наивный байесовский классификатор
Допустим, что объекты $x \in X$ описываются $n$ числовыми признаками $f_j:X→R,j= 1,...,n$. Обозначим через $x = (ξ_1,...,ξ_n)$ произвольный элемент пространства объектов $X=Rn$, где $ξ_j=f_j(x)$.
Предположим, что признаки $f_1(x),...,f_n(x)$ являются независимыми случайными величинами. Следовательно, функции правдоподобия классов представимы в виде:
где $p_{yj}(ξ_j)$ плотность распределения значений $j$-го признака для класса $y$. Алгоритмы классификации исходящие их этого предположения, называются наивными байесовскими