Изменения

Логистическая регрессия

708 байт добавлено, 15:29, 26 января 2019

→‎Обоснование

{{Теорема

|statement=Пусть

* ~~функции правдоподобия~~ выборка прецедентов $\mathrm{X}^l=\{\left(x_1, y_1\right), ... ,\left(x_l, y_l\right)\}$ получена согласно вероятностному распределению с плотностью <tex>p\left(x, y\right)=\mathrm{P}_yp_y\left(x\right)=\mathrm{P}\left(~~плотности распределения~~y|x\right) ~~классов~~ p\left(x\right)</tex>где $\mathrm{P}_y$ $-$ ''априорные вероятности'',$p_y(x)$ ~~принадлежат~~ $-$ ''функции правдоподобия'', принадлежащие экспонентному семейству плотностей (т.е. $p_y(x) = \exp \left( \langle\theta,x\rangle \cdot a(\delta) + b(\delta,\theta) + d(x,\delta) \right)$, где $a, b, d$ — $-$ произвольные функции)

*функции правдоподобия имеют равные знаения параметра разброса $\delta$ и отличаются только значениями параметра сдвига $\theta_y$

*среди признаков есть константа, скажем, $f_0(x) = -1$

*апостериорные вероятности классов оценивается по формуле <tex>\mathbb{P}\{y|x\} = \sigma\left( y \langle x,w \rangle\right),\;\; y\in Y</tex>

|proof=

~~Рассмотрим отношение апостериорных вероятностей классов и воспользуемся тем~~Напомним, что ~~$p_y~~оптимальный байесовский классификатор для двух классов выглядит следущим образом:<center><tex>a\left(x\right)~~$ — экспонентные плотности с параметрами $~~=\mathrm{sign}\~~theta_y$ и $~~left(\~~delta$:~~lambda_+\mathrm{P}\left(+1|x\right)-\lambda_-\mathrm{P}\left(-1|x\right)\right)=\mathrm{sign}\left(\frac{\mathrm{P}\left(+1|x\right)}{\mathrm{P}\left(-1|x\right)}-\frac{\lambda_-}{\lambda_+}\right)</tex></center> Рассмотрим отношение апостериорных вероятностей классов

<center><tex>\frac{\mathrm{P}\left(+1|x\right)}{\mathrm{P}\left(-1|x\right)} = \frac{\mathrm{P_+}p_+(x)}{\mathrm{P}_-p_-(x)}</tex></center>

~~где~~ и распишем функции правдоподобия, используя экспонентную формулу с параметрами $\~~mathrm{P}_+~~theta_y$ и $-\delta$ ~~''априорные вероятности'', $p_+(x)$ $-$ ''функции правдоподобия''~~:

<center><tex>\frac{\mathrm{P_+}p_+(x)}{\mathrm{P}_-p_-(x)} = \exp\left(\langle\left(c_+(\delta)\theta_+-c_-(\delta)\theta_-\right), x\rangle+b_+(\delta, \theta_+)-b_-(\delta, \theta_-) + \ln\frac{\mathrm{P}_+}{\mathrm{P}_-}\right)</tex></center>

~~$w=c_+(\delta)\theta_+-c_-(\delta)\theta_- = const(x)$~~

Здесь вектор $w$ не зависит от $x$ и является вектором свободных коэффициентов при признаках. Все слагаемые под экспонентой, не зависящие от $x$, можно считать аддитивной добавкой к коэффициенту при константном признаке. Поскольку свободные коэффициенты настраиваются по обучающей выборке, вычислять эту аддитивную добавку нет никакого смысла, и её можно включить в $\langle w, x\rangle$.

~~Следовательно,~~

~~<center><tex>\frac{\mathrm{P}\left(+1|x\right)}{\mathrm{P}\left(-1|x\right)} = \exp\left(\langle w, x\rangle\right)</tex></center>~~

~~Используя [[Формула полной вероятности|формулу полной вероятности]]~~ Рассмотрим получившуюся под экспонентой сумму: ~~<center><tex>~~*$\~~mathrm{P}~~langle\left(c_+~~1|x~~(\~~right~~delta) \theta_+ ~~\mathrm{P}\left~~-c_-(~~-1|x~~\~~right~~delta) ~~= 1</tex></center>выразим апостериорные вероятности~~ ~~<center><tex>~~\~~mathrm{P}\left(+1|x~~theta_-\right) , ~~\mathrm{P}\left(-1|~~x\~~right)</tex></center> через $~~rangle = \langle w, x\rangle$. Вектор $w$ не зависит от $x$ и является вектором свободных коэффициентов(весов) при константных признаках~~<center><tex>~~*$b_+(\~~mathrm{P}~~delta, \~~left(~~theta_+~~1|x\right~~) = -b_-(\~~sigma~~delta, \~~left(~~theta_-) +\~~langle w ,x~~ln\~~rangle~~frac{\~~right) ,~~ mathrm{P}_+}{\mathrm{P}_-} = \mathrm{const}\left(~~-1|~~x\right) ~~= \sigma\left(-~~$. Можно считать данные слагаемые аддитивной добавкой к коэффициенту при признаке. Но так как свободные коэффициенты настраиваются по обучающей выборке, вычислять эту добавку не имеет смысла и ее можно включить в $\langle w ,x\rangle~~\right)</tex></center>~~$.

~~Объединяя эти два равенства в одно~~Таким образом, ~~получаем требуемое:~~ <center><tex>\frac{\mathrm{P}\left(y+1|x\right)=}{\~~sigma~~mathrm{P}\left(-1|x\right)} = \mathrm{e}^{\langle w, x\rangle ~~y\right)~~}</tex></center>

Разделяющая поверхность в байесовском решающем правиле определяется уравнением

которое равносильно

<center><tex>\langle w, x\rangle - \ln\frac{\lambda_-}{\lambda_+} = 0</tex></center>

Следовательно, разделяющая поверхность линейнаи первый пункт теоремы доказан. Используя [[Формула полной вероятности|формулу полной вероятности]] получаем следующее равенство<center><tex>\mathrm{P}\left(+1|x\right) + \mathrm{P}\left(-1|x\right) = \sigma\left(+\langle w ,x\rangle\right) + \sigma\left(-\langle w ,x\rangle\right) = 1</tex></center> Откуда следует<center><tex>\mathrm{P}\left(y|x\right)=\sigma\left(\langle w, x\rangle y\right), y = \{-1, +1\}</tex></center>Таким образом, второй пункт теоремы доказан.

}}

Анонимный участник

188.227.78.144

Изменения

Логистическая регрессия

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты