Логистическая регрессия — различия между версиями
(→Обоснование) |
|||
Строка 30: | Строка 30: | ||
*апостериорные вероятности классов оценивается по формуле <tex>\mathbb{P}\{y|x\} = \sigma\left( y \langle x,w \rangle\right),\;\; y\in Y</tex> | *апостериорные вероятности классов оценивается по формуле <tex>\mathbb{P}\{y|x\} = \sigma\left( y \langle x,w \rangle\right),\;\; y\in Y</tex> | ||
|proof= | |proof= | ||
+ | Рассмотрим отношение апостериорных вероятностей классов и воспользуемся тем, что $p_y(x)$ — экспонентные плотности с параметрами $\theta_y$ и $\delta$: | ||
+ | <center><tex>\frac{\mathrm{P}\left(+1|x\right)}{\mathrm{P}\left(-1|x\right)} = \frac{\mathrm{P_+}p_+(x)}{\mathrm{P}_-p_-(x)}</tex></center> | ||
+ | где $\mathrm{P}_+$ $-$ ''априорные вероятности'', $p_+(x)$ $-$ ''функции правдоподобия'' | ||
+ | <center><tex>\frac{\mathrm{P_+}p_+(x)}{\mathrm{P}_-p_-(x)} = \exp\left(\langle\left(c_+(\delta)\theta_+-c_-(\delta)\theta_-\right), x\rangle+b_+(\delta, \theta_+)-b_-(\delta, \theta_-) + \ln\frac{\mathrm{P}_+}{\mathrm{P}_-}\right)</tex></center> | ||
+ | $w=c_+(\delta)\theta_+-c_-(\delta)\theta_- = const(x)$ | ||
+ | |||
+ | Здесь вектор $w$ не зависит от $x$ и является вектором свободных коэффициентов при признаках. Все слагаемые под экспонентой, не зависящие от $x$, можно считать аддитивной добавкой к коэффициенту при константном признаке. Поскольку свободные коэффициенты настраиваются по обучающей выборке, вычислять эту аддитивную добавку нет никакого смысла, и её можно включить в $\langle w, x\rangle$. | ||
+ | |||
+ | Следовательно, | ||
+ | <center><tex>\frac{\mathrm{P}\left(+1|x\right)}{\mathrm{P}\left(-1|x\right)} = \exp\left(\langle w, x\rangle\right)</tex></center> | ||
+ | |||
+ | Используя [[Формула полной вероятности|формулу полной вероятности]] | ||
+ | <center><tex>\mathrm{P}\left(+1|x\right) + \mathrm{P}\left(-1|x\right) = 1</tex></center> | ||
+ | выразим апостериорные вероятности | ||
+ | <center><tex>\mathrm{P}\left(+1|x\right) , \mathrm{P}\left(-1|x\right)</tex></center> через $\langle w, x\rangle$ | ||
+ | <center><tex>\mathrm{P}\left(+1|x\right) = \sigma\left(+\langle w ,x\rangle\right) , \mathrm{P}\left(-1|x\right) = \sigma\left(-\langle w ,x\rangle\right)</tex></center> | ||
+ | |||
+ | Объединяя эти два равенства в одно, получаем требуемое: | ||
+ | <center><tex>\mathrm{P}\left(y|x\right)=\sigma\left(\langle w, x\rangle y\right)</tex></center> | ||
+ | |||
+ | Разделяющая поверхность в байесовском решающем правиле определяется уравнением | ||
+ | <center><tex>\lambda_- \mathrm{P}\left(-1|x\right) = \lambda_+ \mathrm{P}\left(+1|x\right)</tex></center> | ||
+ | которое равносильно | ||
+ | <center><tex>\langle w, x\rangle - \ln\frac{\lambda_-}{\lambda_+} = 0</tex></center> | ||
+ | Следовательно, разделяющая поверхность линейна. | ||
}} | }} |
Версия 15:52, 23 января 2019
Логистическая регрессия (англ. logistic regression) — метод построения линейного классификатора[на 23.01.19 не создан], позволяющий оценивать апостериорные вероятности принадлежности объектов классам.
Описание
Логистическая регрессия применяется для прогнозирования вероятности возникновения некоторого события по значениям множества признаков. Для этого вводится зависимая переменная $y$, принимающая значения $0$ и $1$ и множество независимых переменных на основе значений которых требуется вычислить вероятность принятия того или иного значения зависимой переменной.
Итак, пусть объекты задаются $n$ числовымы признаками $f_j : X \to R, j = 1 ... n$ и пространство признаковых описаний в таком случае $X = R^n$. Пусть $Y$ $-$ конечное множество меток классов и задана обучающая выборка пар «объект-ответ»
Рассмотрим случай двух классов: $Y = \{-1, +1\}$. В логистической регрессии строится линейный алгоритм классификации $a: X \to Y$ вида
где $w_j$ $-$ вес $j$-го признака, $w_0$ $-$ порог принятия решения, $w=\left(w_0, ..., w_n\right)$ $-$ вектор весов, $\left<x, w\right>$ $-$ скалярное произведение признакового описания объекта на вектор весов. Предполагается, что искусственно введён нулевой признак: $f_{0}(x)=-1$.
Задача обучения линейного классификатора заключается в том, чтобы по выборке $X^m$ настроить вектор весов $w$. В логистической регрессии для этого решается задача минимизации эмпирического риска с функцией потерь специального вида:После того, как решение $w$ найдено, становится возможным не только вычислять классификацию $a(x) = \mathrm{sign}\langle x,w \rangle$ для произвольного объекта $x$, но и оценивать апостериорные вероятности его принадлежности классам:
где $\sigma(z) = \frac1{1+e^{-z}}$ — сигмоидная функция.
Обоснование
С точки зрения байесовского классификатора
Наиболее строгое обоснование логистической регрессии опирается на следующую теорему
Теорема: |
Пусть
Тогда
|
Доказательство: |
Рассмотрим отношение апостериорных вероятностей классов и воспользуемся тем, что $p_y(x)$ — экспонентные плотности с параметрами $\theta_y$ и $\delta$: где $\mathrm{P}_+$ $-$ априорные вероятности, $p_+(x)$ $-$ функции правдоподобия $w=c_+(\delta)\theta_+-c_-(\delta)\theta_- = const(x)$ Здесь вектор $w$ не зависит от $x$ и является вектором свободных коэффициентов при признаках. Все слагаемые под экспонентой, не зависящие от $x$, можно считать аддитивной добавкой к коэффициенту при константном признаке. Поскольку свободные коэффициенты настраиваются по обучающей выборке, вычислять эту аддитивную добавку нет никакого смысла, и её можно включить в $\langle w, x\rangle$. Следовательно, Используя формулу полной вероятности выразим апостериорные вероятности Объединяя эти два равенства в одно, получаем требуемое: Разделяющая поверхность в байесовском решающем правиле определяется уравнением которое равносильно |