Логистическая регрессия — различия между версиями

Материал из Викиконспекты
Перейти к: навигация, поиск
(Обоснование)
Строка 18: Строка 18:
  
 
== Обоснование ==
 
== Обоснование ==
 +
'''С точки зрения [[Байесовский классификатор|байесовского классификатора]]'''
 +
 +
Наиболее строгое обоснование логистической регрессии опирается на следующую теорему
 +
{{Теорема
 +
|statement=Пусть
 +
* функции правдоподобия (плотности распределения) классов $p_y(x)$ принадлежат экспонентному семейству плотностей $p_y(x) = \exp \left( \langle\theta,x\rangle \cdot a(\delta) + b(\delta,\theta) + d(x,\delta) \right)$, где $a, b, d$ — произвольные функции
 +
*функции правдоподобия имеют равные знаения параметра разброса $\delta$ и отличаются только значениями параметра сдвига $\theta_y$
 +
*среди признаков есть константа, скажем, $f_0(x) = -1$
 +
Тогда
 +
*линейный классификатор является оптимальным байесовским классификатором
 +
*апостериорные вероятности классов оценивается по формуле
 +
|proof=
 +
}}

Версия 15:07, 23 января 2019

Логистическая регрессия (англ. logistic regression) — метод построения линейного классификатора[на 23.01.19 не создан], позволяющий оценивать апостериорные вероятности принадлежности объектов классам.

Описание

Логистическая регрессия применяется для прогнозирования вероятности возникновения некоторого события по значениям множества признаков. Для этого вводится зависимая переменная $y$, принимающая значения $0$ и $1$ и множество независимых переменных [math]x_1, ... x_n[/math] на основе значений которых требуется вычислить вероятность принятия того или иного значения зависимой переменной.

Итак, пусть объекты задаются $n$ числовымы признаками $f_j : X \to R, j = 1 ... n$ и пространство признаковых описаний в таком случае $X = R^n$. Пусть $Y$ $-$ конечное множество меток классов и задана обучающая выборка пар «объект-ответ» [math]X^m = \{(x_1,y_1),\dots,(x_m,y_m)\}.[/math]

Рассмотрим случай двух классов: $Y = \{-1, +1\}$. В логистической регрессии строится линейный алгоритм классификации $a: X \to Y$ вида

[math]a(x, w) = \mathrm{sign}\left(\sum\limits_{j=1}^n w_j f_j(x) - w_0 \right)=\mathrm{sign}\left\lt x, w\right\gt [/math]

где $w_j$ $-$ вес $j$-го признака, $w_0$ $-$ порог принятия решения, $w=\left(w_0, ..., w_n\right)$ $-$ вектор весов, $\left<x, w\right>$ $-$ скалярное произведение признакового описания объекта на вектор весов. Предполагается, что искусственно введён нулевой признак: $f_{0}(x)=-1$.

Задача обучения линейного классификатора заключается в том, чтобы по выборке $X^m$ настроить вектор весов $w$. В логистической регрессии для этого решается задача минимизации эмпирического риска с функцией потерь специального вида:
[math]Q(w) = \sum\limits_{i=1}^m \ln\left( 1 + \exp( -y_i \langle x_i,w \rangle ) \right) \to \min_{w}[/math]

После того, как решение $w$ найдено, становится возможным не только вычислять классификацию $a(x) = \mathrm{sign}\langle x,w \rangle$ для произвольного объекта $x$, но и оценивать апостериорные вероятности его принадлежности классам:

[math]\mathbb{P}\{y|x\} = \sigma\left( y \langle x,w \rangle\right),\;\; y\in Y[/math]

где $\sigma(z) = \frac1{1+e^{-z}}$ — сигмоидная функция.


Обоснование

С точки зрения байесовского классификатора

Наиболее строгое обоснование логистической регрессии опирается на следующую теорему

Теорема:
Пусть
  • функции правдоподобия (плотности распределения) классов $p_y(x)$ принадлежат экспонентному семейству плотностей $p_y(x) = \exp \left( \langle\theta,x\rangle \cdot a(\delta) + b(\delta,\theta) + d(x,\delta) \right)$, где $a, b, d$ — произвольные функции
  • функции правдоподобия имеют равные знаения параметра разброса $\delta$ и отличаются только значениями параметра сдвига $\theta_y$
  • среди признаков есть константа, скажем, $f_0(x) = -1$

Тогда

  • линейный классификатор является оптимальным байесовским классификатором
  • апостериорные вероятности классов оценивается по формуле