Изменения

Перейти к: навигация, поиск

Логистическая регрессия

708 байт добавлено, 15:29, 26 января 2019
Обоснование
{{Теорема
|statement=Пусть
* функции правдоподобия выборка прецедентов $\mathrm{X}^l=\{\left(x_1, y_1\right), ... ,\left(x_l, y_l\right)\}$ получена согласно вероятностному распределению с плотностью <tex>p\left(x, y\right)=\mathrm{P}_yp_y\left(x\right)=\mathrm{P}\left(плотности распределенияy|x\right) классов p\left(x\right)</tex>где $\mathrm{P}_y$ $-$ ''априорные вероятности'',$p_y(x)$ принадлежат $-$ ''функции правдоподобия'', принадлежащие экспонентному семейству плотностей (т.е. $p_y(x) = \exp \left( \langle\theta,x\rangle \cdot a(\delta) + b(\delta,\theta) + d(x,\delta) \right)$, где $a, b, d$ $-$ произвольные функции)
*функции правдоподобия имеют равные знаения параметра разброса $\delta$ и отличаются только значениями параметра сдвига $\theta_y$
*среди признаков есть константа, скажем, $f_0(x) = -1$
*апостериорные вероятности классов оценивается по формуле <tex>\mathbb{P}\{y|x\} = \sigma\left( y \langle x,w \rangle\right),\;\; y\in Y</tex>
|proof=
Рассмотрим отношение апостериорных вероятностей классов и воспользуемся темНапомним, что $p_yоптимальный байесовский классификатор для двух классов выглядит следущим образом:<center><tex>a\left(x\right)$ — экспонентные плотности с параметрами $=\mathrm{sign}\theta_y$ и $left(\delta$:lambda_+\mathrm{P}\left(+1|x\right)-\lambda_-\mathrm{P}\left(-1|x\right)\right)=\mathrm{sign}\left(\frac{\mathrm{P}\left(+1|x\right)}{\mathrm{P}\left(-1|x\right)}-\frac{\lambda_-}{\lambda_+}\right)</tex></center> Рассмотрим отношение апостериорных вероятностей классов
<center><tex>\frac{\mathrm{P}\left(+1|x\right)}{\mathrm{P}\left(-1|x\right)} = \frac{\mathrm{P_+}p_+(x)}{\mathrm{P}_-p_-(x)}</tex></center>
где и распишем функции правдоподобия, используя экспонентную формулу с параметрами $\mathrm{P}_+theta_y$ и $-\delta$ ''априорные вероятности'', $p_+(x)$ $-$ ''функции правдоподобия'':
<center><tex>\frac{\mathrm{P_+}p_+(x)}{\mathrm{P}_-p_-(x)} = \exp\left(\langle\left(c_+(\delta)\theta_+-c_-(\delta)\theta_-\right), x\rangle+b_+(\delta, \theta_+)-b_-(\delta, \theta_-) + \ln\frac{\mathrm{P}_+}{\mathrm{P}_-}\right)</tex></center>
$w=c_+(\delta)\theta_+-c_-(\delta)\theta_- = const(x)$
 
Здесь вектор $w$ не зависит от $x$ и является вектором свободных коэффициентов при признаках. Все слагаемые под экспонентой, не зависящие от $x$, можно считать аддитивной добавкой к коэффициенту при константном признаке. Поскольку свободные коэффициенты настраиваются по обучающей выборке, вычислять эту аддитивную добавку нет никакого смысла, и её можно включить в $\langle w, x\rangle$.
 
Следовательно,
<center><tex>\frac{\mathrm{P}\left(+1|x\right)}{\mathrm{P}\left(-1|x\right)} = \exp\left(\langle w, x\rangle\right)</tex></center>
Используя [[Формула полной вероятности|формулу полной вероятности]] Рассмотрим получившуюся под экспонентой сумму: <center><tex>*$\mathrm{P}langle\left(c_+1|x(\rightdelta) \theta_+ \mathrm{P}\left-c_-(-1|x\rightdelta) = 1</tex></center>выразим апостериорные вероятности <center><tex>\mathrm{P}\left(+1|xtheta_-\right) , \mathrm{P}\left(-1|x\right)</tex></center> через $rangle = \langle w, x\rangle$. Вектор $w$ не зависит от $x$ и является вектором свободных коэффициентов(весов) при константных признаках<center><tex>*$b_+(\mathrm{P}delta, \left(theta_+1|x\right) = -b_-(\sigmadelta, \left(theta_-) +\langle w ,xln\ranglefrac{\right) , mathrm{P}_+}{\mathrm{P}_-} = \mathrm{const}\left(-1|x\right) = \sigma\left(-$. Можно считать данные слагаемые аддитивной добавкой к коэффициенту при признаке. Но так как свободные коэффициенты настраиваются по обучающей выборке, вычислять эту добавку не имеет смысла и ее можно включить в $\langle w ,x\rangle\right)</tex></center>$.
Объединяя эти два равенства в одноТаким образом, получаем требуемое: <center><tex>\frac{\mathrm{P}\left(y+1|x\right)=}{\sigmamathrm{P}\left(-1|x\right)} = \mathrm{e}^{\langle w, x\rangle y\right)}</tex></center>
Разделяющая поверхность в байесовском решающем правиле определяется уравнением
которое равносильно
<center><tex>\langle w, x\rangle - \ln\frac{\lambda_-}{\lambda_+} = 0</tex></center>
Следовательно, разделяющая поверхность линейнаи первый пункт теоремы доказан. Используя [[Формула полной вероятности|формулу полной вероятности]] получаем следующее равенство<center><tex>\mathrm{P}\left(+1|x\right) + \mathrm{P}\left(-1|x\right) = \sigma\left(+\langle w ,x\rangle\right) + \sigma\left(-\langle w ,x\rangle\right) = 1</tex></center> Откуда следует<center><tex>\mathrm{P}\left(y|x\right)=\sigma\left(\langle w, x\rangle y\right), y = \{-1, +1\}</tex></center>Таким образом, второй пункт теоремы доказан.
}}
Анонимный участник

Навигация