Викиконспекты - Вклад участника [ru]

Логистическая регрессия

2019-01-23T13:39:32Z

Karavaevitalii: /* Источники информации */

'''Логистическая регрессия''' (англ. ''logistic regression'') — метод построения [[Линейный классификатор|линейного классификатора]][на 23.01.19 не создан], позволяющий оценивать апостериорные вероятности принадлежности объектов классам.
== Описание ==
Логистическая регрессия применяется для прогнозирования вероятности возникновения некоторого события по значениям множества признаков. Для этого вводится зависимая переменная $y$, принимающая значения $0$ и $1$ и множество [[Независимые случайные величины|независимых]] переменных <tex>x_1, ... x_n</tex> на основе значений которых требуется вычислить вероятность принятия того или иного значения зависимой переменной.

Итак, пусть объекты задаются $n$ числовымы признаками $f_j : X \to R, j = 1 ... n$ и пространство признаковых описаний в таком случае $X = R^n$. Пусть $Y$ $-$ конечное множество меток классов и задана обучающая выборка пар «объект-ответ» <tex>X^m = \{(x_1,y_1),\dots,(x_m,y_m)\}.</tex>

Рассмотрим случай двух классов: $Y = \{-1, +1\}$. В логистической регрессии строится линейный алгоритм классификации $a: X \to Y$ вида
<center><tex>a(x, w) = \mathrm{sign}\left(\sum\limits_{j=1}^n w_j f_j(x) - w_0 \right)=\mathrm{sign}\left<x, w\right></tex></center>
где $w_j$ $-$ вес $j$-го признака, $w_0$ $-$ порог принятия решения, $w=\left(w_0, ..., w_n\right)$ $-$ вектор весов, $\left<x, w\right>$ $-$ скалярное произведение признакового описания объекта на вектор весов. Предполагается, что искусственно введён нулевой признак: $f_{0}(x)=-1$.

Задача обучения линейного классификатора заключается в том, чтобы по выборке $X^m$ настроить вектор весов $w$. В логистической регрессии для этого решается задача минимизации эмпирического риска с функцией потерь специального вида: <center><tex>Q(w) = \sum\limits_{i=1}^m \ln\left( 1 + \exp( -y_i \langle x_i,w \rangle ) \right) \to \min_{w}</tex></center>

После того, как решение $w$ найдено, становится возможным не только вычислять классификацию $a(x) = \mathrm{sign}\langle x,w \rangle$ для произвольного объекта $x$, но и оценивать апостериорные вероятности его принадлежности классам:
<center><tex>\mathbb{P}\{y|x\} = \sigma\left( y \langle x,w \rangle\right),\;\; y\in Y</tex></center>
где $\sigma(z) = \frac1{1+e^{-z}}$ — сигмоидная функция.
== Обоснование ==
'''С точки зрения [[Байесовский классификатор|байесовского классификатора]]'''

Наиболее строгое обоснование логистической регрессии опирается на следующую теорему
{{Теорема
|statement=Пусть
* функции правдоподобия (плотности распределения) классов $p_y(x)$ принадлежат экспонентному семейству плотностей $p_y(x) = \exp \left( \langle\theta,x\rangle \cdot a(\delta) + b(\delta,\theta) + d(x,\delta) \right)$, где $a, b, d$ — произвольные функции
*функции правдоподобия имеют равные знаения параметра разброса $\delta$ и отличаются только значениями параметра сдвига $\theta_y$
*среди признаков есть константа, скажем, $f_0(x) = -1$
Тогда
*линейный классификатор является оптимальным байесовским классификатором
*апостериорные вероятности классов оценивается по формуле <tex>\mathbb{P}\{y|x\} = \sigma\left( y \langle x,w \rangle\right),\;\; y\in Y</tex>
|proof=
Рассмотрим отношение апостериорных вероятностей классов и воспользуемся тем, что $p_y(x)$ — экспонентные плотности с параметрами $\theta_y$ и $\delta$:
<center><tex>\frac{\mathrm{P}\left(+1|x\right)}{\mathrm{P}\left(-1|x\right)} = \frac{\mathrm{P_+}p_+(x)}{\mathrm{P}_-p_-(x)}</tex></center>
где $\mathrm{P}_+$ $-$ ''априорные вероятности'', $p_+(x)$ $-$ ''функции правдоподобия''
<center><tex>\frac{\mathrm{P_+}p_+(x)}{\mathrm{P}_-p_-(x)} = \exp\left(\langle\left(c_+(\delta)\theta_+-c_-(\delta)\theta_-\right), x\rangle+b_+(\delta, \theta_+)-b_-(\delta, \theta_-) + \ln\frac{\mathrm{P}_+}{\mathrm{P}_-}\right)</tex></center>
$w=c_+(\delta)\theta_+-c_-(\delta)\theta_- = const(x)$

Здесь вектор $w$ не зависит от $x$ и является вектором свободных коэффициентов при признаках. Все слагаемые под экспонентой, не зависящие от $x$, можно считать аддитивной добавкой к коэффициенту при константном признаке. Поскольку свободные коэффициенты настраиваются по обучающей выборке, вычислять эту аддитивную добавку нет никакого смысла, и её можно включить в $\langle w, x\rangle$.

Следовательно,
<center><tex>\frac{\mathrm{P}\left(+1|x\right)}{\mathrm{P}\left(-1|x\right)} = \exp\left(\langle w, x\rangle\right)</tex></center>

Используя [[Формула полной вероятности|формулу полной вероятности]]
<center><tex>\mathrm{P}\left(+1|x\right) + \mathrm{P}\left(-1|x\right) = 1</tex></center>
выразим апостериорные вероятности
<center><tex>\mathrm{P}\left(+1|x\right) , \mathrm{P}\left(-1|x\right)</tex></center> через $\langle w, x\rangle$
<center><tex>\mathrm{P}\left(+1|x\right) = \sigma\left(+\langle w ,x\rangle\right) , \mathrm{P}\left(-1|x\right) = \sigma\left(-\langle w ,x\rangle\right)</tex></center>

Объединяя эти два равенства в одно, получаем требуемое:
<center><tex>\mathrm{P}\left(y|x\right)=\sigma\left(\langle w, x\rangle y\right)</tex></center>

Разделяющая поверхность в байесовском решающем правиле определяется уравнением
<center><tex>\lambda_- \mathrm{P}\left(-1|x\right) = \lambda_+ \mathrm{P}\left(+1|x\right)</tex></center>
которое равносильно
<center><tex>\langle w, x\rangle - \ln\frac{\lambda_-}{\lambda_+} = 0</tex></center>
Следовательно, разделяющая поверхность линейна.
}}
== Пример кода для scikit-learn ==
Классификатор [https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html sklearn.linear_model.'''LogisticRegression'''] имеет несколько параметров, например:
* '''solver''' $-$ алгоритм, использующийся для оптимизации
* '''multi_class''' $-$ классификация на 2 или много классов

* Импортируем нужные библиотеки
'''from''' sklearn.linear_model '''import''' LogisticRegression
'''from''' sklearn '''import''' datasets
'''from''' sklearn.model_selection '''import''' train_test_split

* Выберем тренировочное и тестовое множества
iris = datasets.'''load_iris()'''

X = iris.data
y = iris.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size='''0.3''')

* Обучение
clf = LogisticRegression(random_state='''0''', solver='lbfgs', multi_class='multinomial')
model = clf.'''fit'''(X_train, y_train)

* Предсказание
y_pred = model.'''predict'''(X_test)
model.'''score'''(X_test, y_test)

== См. также ==
* [[Байесовская классификация]]
* [[Линейная регрессия]]
* [[Вариации регрессии]]
* [[Обзор библиотек для машинного обучения на Python]]
* [[Общие понятия]]
* [[Уменьшение размерности]]

== Источники информации ==
#[http://www.machinelearning.ru/wiki/index.php?title=%D0%9B%D0%BE%D0%B3%D0%B8%D1%81%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B0%D1%8F_%D1%80%D0%B5%D0%B3%D1%80%D0%B5%D1%81%D1%81%D0%B8%D1%8F Логистическая регрессия] $-$ курс лекций Воронцова
#[https://en.wikipedia.org/wiki/Logistic_regression Logistic regression] $-$ Wikipedia
#[https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html sklearn.linear_model.LogisticRegression] $-$ реализация алгоритма на scikit-learn.org

[[Категория: Машинное обучение]]

Логистическая регрессия

2019-01-23T13:39:08Z

Karavaevitalii: /* Источники информации */

'''Логистическая регрессия''' (англ. ''logistic regression'') — метод построения [[Линейный классификатор|линейного классификатора]][на 23.01.19 не создан], позволяющий оценивать апостериорные вероятности принадлежности объектов классам.
== Описание ==
Логистическая регрессия применяется для прогнозирования вероятности возникновения некоторого события по значениям множества признаков. Для этого вводится зависимая переменная $y$, принимающая значения $0$ и $1$ и множество [[Независимые случайные величины|независимых]] переменных <tex>x_1, ... x_n</tex> на основе значений которых требуется вычислить вероятность принятия того или иного значения зависимой переменной.

Итак, пусть объекты задаются $n$ числовымы признаками $f_j : X \to R, j = 1 ... n$ и пространство признаковых описаний в таком случае $X = R^n$. Пусть $Y$ $-$ конечное множество меток классов и задана обучающая выборка пар «объект-ответ» <tex>X^m = \{(x_1,y_1),\dots,(x_m,y_m)\}.</tex>

Рассмотрим случай двух классов: $Y = \{-1, +1\}$. В логистической регрессии строится линейный алгоритм классификации $a: X \to Y$ вида
<center><tex>a(x, w) = \mathrm{sign}\left(\sum\limits_{j=1}^n w_j f_j(x) - w_0 \right)=\mathrm{sign}\left<x, w\right></tex></center>
где $w_j$ $-$ вес $j$-го признака, $w_0$ $-$ порог принятия решения, $w=\left(w_0, ..., w_n\right)$ $-$ вектор весов, $\left<x, w\right>$ $-$ скалярное произведение признакового описания объекта на вектор весов. Предполагается, что искусственно введён нулевой признак: $f_{0}(x)=-1$.

Задача обучения линейного классификатора заключается в том, чтобы по выборке $X^m$ настроить вектор весов $w$. В логистической регрессии для этого решается задача минимизации эмпирического риска с функцией потерь специального вида: <center><tex>Q(w) = \sum\limits_{i=1}^m \ln\left( 1 + \exp( -y_i \langle x_i,w \rangle ) \right) \to \min_{w}</tex></center>

После того, как решение $w$ найдено, становится возможным не только вычислять классификацию $a(x) = \mathrm{sign}\langle x,w \rangle$ для произвольного объекта $x$, но и оценивать апостериорные вероятности его принадлежности классам:
<center><tex>\mathbb{P}\{y|x\} = \sigma\left( y \langle x,w \rangle\right),\;\; y\in Y</tex></center>
где $\sigma(z) = \frac1{1+e^{-z}}$ — сигмоидная функция.
== Обоснование ==
'''С точки зрения [[Байесовский классификатор|байесовского классификатора]]'''

Наиболее строгое обоснование логистической регрессии опирается на следующую теорему
{{Теорема
|statement=Пусть
* функции правдоподобия (плотности распределения) классов $p_y(x)$ принадлежат экспонентному семейству плотностей $p_y(x) = \exp \left( \langle\theta,x\rangle \cdot a(\delta) + b(\delta,\theta) + d(x,\delta) \right)$, где $a, b, d$ — произвольные функции
*функции правдоподобия имеют равные знаения параметра разброса $\delta$ и отличаются только значениями параметра сдвига $\theta_y$
*среди признаков есть константа, скажем, $f_0(x) = -1$
Тогда
*линейный классификатор является оптимальным байесовским классификатором
*апостериорные вероятности классов оценивается по формуле <tex>\mathbb{P}\{y|x\} = \sigma\left( y \langle x,w \rangle\right),\;\; y\in Y</tex>
|proof=
Рассмотрим отношение апостериорных вероятностей классов и воспользуемся тем, что $p_y(x)$ — экспонентные плотности с параметрами $\theta_y$ и $\delta$:
<center><tex>\frac{\mathrm{P}\left(+1|x\right)}{\mathrm{P}\left(-1|x\right)} = \frac{\mathrm{P_+}p_+(x)}{\mathrm{P}_-p_-(x)}</tex></center>
где $\mathrm{P}_+$ $-$ ''априорные вероятности'', $p_+(x)$ $-$ ''функции правдоподобия''
<center><tex>\frac{\mathrm{P_+}p_+(x)}{\mathrm{P}_-p_-(x)} = \exp\left(\langle\left(c_+(\delta)\theta_+-c_-(\delta)\theta_-\right), x\rangle+b_+(\delta, \theta_+)-b_-(\delta, \theta_-) + \ln\frac{\mathrm{P}_+}{\mathrm{P}_-}\right)</tex></center>
$w=c_+(\delta)\theta_+-c_-(\delta)\theta_- = const(x)$

Здесь вектор $w$ не зависит от $x$ и является вектором свободных коэффициентов при признаках. Все слагаемые под экспонентой, не зависящие от $x$, можно считать аддитивной добавкой к коэффициенту при константном признаке. Поскольку свободные коэффициенты настраиваются по обучающей выборке, вычислять эту аддитивную добавку нет никакого смысла, и её можно включить в $\langle w, x\rangle$.

Следовательно,
<center><tex>\frac{\mathrm{P}\left(+1|x\right)}{\mathrm{P}\left(-1|x\right)} = \exp\left(\langle w, x\rangle\right)</tex></center>

Используя [[Формула полной вероятности|формулу полной вероятности]]
<center><tex>\mathrm{P}\left(+1|x\right) + \mathrm{P}\left(-1|x\right) = 1</tex></center>
выразим апостериорные вероятности
<center><tex>\mathrm{P}\left(+1|x\right) , \mathrm{P}\left(-1|x\right)</tex></center> через $\langle w, x\rangle$
<center><tex>\mathrm{P}\left(+1|x\right) = \sigma\left(+\langle w ,x\rangle\right) , \mathrm{P}\left(-1|x\right) = \sigma\left(-\langle w ,x\rangle\right)</tex></center>

Объединяя эти два равенства в одно, получаем требуемое:
<center><tex>\mathrm{P}\left(y|x\right)=\sigma\left(\langle w, x\rangle y\right)</tex></center>

Разделяющая поверхность в байесовском решающем правиле определяется уравнением
<center><tex>\lambda_- \mathrm{P}\left(-1|x\right) = \lambda_+ \mathrm{P}\left(+1|x\right)</tex></center>
которое равносильно
<center><tex>\langle w, x\rangle - \ln\frac{\lambda_-}{\lambda_+} = 0</tex></center>
Следовательно, разделяющая поверхность линейна.
}}
== Пример кода для scikit-learn ==
Классификатор [https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html sklearn.linear_model.'''LogisticRegression'''] имеет несколько параметров, например:
* '''solver''' $-$ алгоритм, использующийся для оптимизации
* '''multi_class''' $-$ классификация на 2 или много классов

* Импортируем нужные библиотеки
'''from''' sklearn.linear_model '''import''' LogisticRegression
'''from''' sklearn '''import''' datasets
'''from''' sklearn.model_selection '''import''' train_test_split

* Выберем тренировочное и тестовое множества
iris = datasets.'''load_iris()'''

X = iris.data
y = iris.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size='''0.3''')

* Обучение
clf = LogisticRegression(random_state='''0''', solver='lbfgs', multi_class='multinomial')
model = clf.'''fit'''(X_train, y_train)

* Предсказание
y_pred = model.'''predict'''(X_test)
model.'''score'''(X_test, y_test)

== См. также ==
* [[Байесовская классификация]]
* [[Линейная регрессия]]
* [[Вариации регрессии]]
* [[Обзор библиотек для машинного обучения на Python]]
* [[Общие понятия]]
* [[Уменьшение размерности]]

== Источники информации ==
#[http://www.machinelearning.ru/wiki/index.php?title=%D0%9B%D0%BE%D0%B3%D0%B8%D1%81%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B0%D1%8F_%D1%80%D0%B5%D0%B3%D1%80%D0%B5%D1%81%D1%81%D0%B8%D1%8F Логистическая регрессия] $-$ курс лекций Воронцова
#[https://en.wikipedia.org/wiki/Logistic_regression Logistic_regression] $-$ Wikipedia
#[https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html sklearn.linear_model.LogisticRegression] $-$ реализация алгоритма на scikit-learn.org

[[Категория: Машинное обучение]]

Логистическая регрессия

2019-01-23T13:38:35Z

Karavaevitalii: /* Пример кода для scikit-learn */

'''Логистическая регрессия''' (англ. ''logistic regression'') — метод построения [[Линейный классификатор|линейного классификатора]][на 23.01.19 не создан], позволяющий оценивать апостериорные вероятности принадлежности объектов классам.
== Описание ==
Логистическая регрессия применяется для прогнозирования вероятности возникновения некоторого события по значениям множества признаков. Для этого вводится зависимая переменная $y$, принимающая значения $0$ и $1$ и множество [[Независимые случайные величины|независимых]] переменных <tex>x_1, ... x_n</tex> на основе значений которых требуется вычислить вероятность принятия того или иного значения зависимой переменной.

Итак, пусть объекты задаются $n$ числовымы признаками $f_j : X \to R, j = 1 ... n$ и пространство признаковых описаний в таком случае $X = R^n$. Пусть $Y$ $-$ конечное множество меток классов и задана обучающая выборка пар «объект-ответ» <tex>X^m = \{(x_1,y_1),\dots,(x_m,y_m)\}.</tex>

Рассмотрим случай двух классов: $Y = \{-1, +1\}$. В логистической регрессии строится линейный алгоритм классификации $a: X \to Y$ вида
<center><tex>a(x, w) = \mathrm{sign}\left(\sum\limits_{j=1}^n w_j f_j(x) - w_0 \right)=\mathrm{sign}\left<x, w\right></tex></center>
где $w_j$ $-$ вес $j$-го признака, $w_0$ $-$ порог принятия решения, $w=\left(w_0, ..., w_n\right)$ $-$ вектор весов, $\left<x, w\right>$ $-$ скалярное произведение признакового описания объекта на вектор весов. Предполагается, что искусственно введён нулевой признак: $f_{0}(x)=-1$.

Задача обучения линейного классификатора заключается в том, чтобы по выборке $X^m$ настроить вектор весов $w$. В логистической регрессии для этого решается задача минимизации эмпирического риска с функцией потерь специального вида: <center><tex>Q(w) = \sum\limits_{i=1}^m \ln\left( 1 + \exp( -y_i \langle x_i,w \rangle ) \right) \to \min_{w}</tex></center>

После того, как решение $w$ найдено, становится возможным не только вычислять классификацию $a(x) = \mathrm{sign}\langle x,w \rangle$ для произвольного объекта $x$, но и оценивать апостериорные вероятности его принадлежности классам:
<center><tex>\mathbb{P}\{y|x\} = \sigma\left( y \langle x,w \rangle\right),\;\; y\in Y</tex></center>
где $\sigma(z) = \frac1{1+e^{-z}}$ — сигмоидная функция.
== Обоснование ==
'''С точки зрения [[Байесовский классификатор|байесовского классификатора]]'''

Наиболее строгое обоснование логистической регрессии опирается на следующую теорему
{{Теорема
|statement=Пусть
* функции правдоподобия (плотности распределения) классов $p_y(x)$ принадлежат экспонентному семейству плотностей $p_y(x) = \exp \left( \langle\theta,x\rangle \cdot a(\delta) + b(\delta,\theta) + d(x,\delta) \right)$, где $a, b, d$ — произвольные функции
*функции правдоподобия имеют равные знаения параметра разброса $\delta$ и отличаются только значениями параметра сдвига $\theta_y$
*среди признаков есть константа, скажем, $f_0(x) = -1$
Тогда
*линейный классификатор является оптимальным байесовским классификатором
*апостериорные вероятности классов оценивается по формуле <tex>\mathbb{P}\{y|x\} = \sigma\left( y \langle x,w \rangle\right),\;\; y\in Y</tex>
|proof=
Рассмотрим отношение апостериорных вероятностей классов и воспользуемся тем, что $p_y(x)$ — экспонентные плотности с параметрами $\theta_y$ и $\delta$:
<center><tex>\frac{\mathrm{P}\left(+1|x\right)}{\mathrm{P}\left(-1|x\right)} = \frac{\mathrm{P_+}p_+(x)}{\mathrm{P}_-p_-(x)}</tex></center>
где $\mathrm{P}_+$ $-$ ''априорные вероятности'', $p_+(x)$ $-$ ''функции правдоподобия''
<center><tex>\frac{\mathrm{P_+}p_+(x)}{\mathrm{P}_-p_-(x)} = \exp\left(\langle\left(c_+(\delta)\theta_+-c_-(\delta)\theta_-\right), x\rangle+b_+(\delta, \theta_+)-b_-(\delta, \theta_-) + \ln\frac{\mathrm{P}_+}{\mathrm{P}_-}\right)</tex></center>
$w=c_+(\delta)\theta_+-c_-(\delta)\theta_- = const(x)$

Здесь вектор $w$ не зависит от $x$ и является вектором свободных коэффициентов при признаках. Все слагаемые под экспонентой, не зависящие от $x$, можно считать аддитивной добавкой к коэффициенту при константном признаке. Поскольку свободные коэффициенты настраиваются по обучающей выборке, вычислять эту аддитивную добавку нет никакого смысла, и её можно включить в $\langle w, x\rangle$.

Следовательно,
<center><tex>\frac{\mathrm{P}\left(+1|x\right)}{\mathrm{P}\left(-1|x\right)} = \exp\left(\langle w, x\rangle\right)</tex></center>

Используя [[Формула полной вероятности|формулу полной вероятности]]
<center><tex>\mathrm{P}\left(+1|x\right) + \mathrm{P}\left(-1|x\right) = 1</tex></center>
выразим апостериорные вероятности
<center><tex>\mathrm{P}\left(+1|x\right) , \mathrm{P}\left(-1|x\right)</tex></center> через $\langle w, x\rangle$
<center><tex>\mathrm{P}\left(+1|x\right) = \sigma\left(+\langle w ,x\rangle\right) , \mathrm{P}\left(-1|x\right) = \sigma\left(-\langle w ,x\rangle\right)</tex></center>

Объединяя эти два равенства в одно, получаем требуемое:
<center><tex>\mathrm{P}\left(y|x\right)=\sigma\left(\langle w, x\rangle y\right)</tex></center>

Разделяющая поверхность в байесовском решающем правиле определяется уравнением
<center><tex>\lambda_- \mathrm{P}\left(-1|x\right) = \lambda_+ \mathrm{P}\left(+1|x\right)</tex></center>
которое равносильно
<center><tex>\langle w, x\rangle - \ln\frac{\lambda_-}{\lambda_+} = 0</tex></center>
Следовательно, разделяющая поверхность линейна.
}}
== Пример кода для scikit-learn ==
Классификатор [https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html sklearn.linear_model.'''LogisticRegression'''] имеет несколько параметров, например:
* '''solver''' $-$ алгоритм, использующийся для оптимизации
* '''multi_class''' $-$ классификация на 2 или много классов

* Импортируем нужные библиотеки
'''from''' sklearn.linear_model '''import''' LogisticRegression
'''from''' sklearn '''import''' datasets
'''from''' sklearn.model_selection '''import''' train_test_split

* Выберем тренировочное и тестовое множества
iris = datasets.'''load_iris()'''

X = iris.data
y = iris.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size='''0.3''')

* Обучение
clf = LogisticRegression(random_state='''0''', solver='lbfgs', multi_class='multinomial')
model = clf.'''fit'''(X_train, y_train)

* Предсказание
y_pred = model.'''predict'''(X_test)
model.'''score'''(X_test, y_test)

== См. также ==
* [[Байесовская классификация]]
* [[Линейная регрессия]]
* [[Вариации регрессии]]
* [[Обзор библиотек для машинного обучения на Python]]
* [[Общие понятия]]
* [[Уменьшение размерности]]

== Источники информации ==
#[http://www.machinelearning.ru/wiki/index.php?title=%D0%9B%D0%BE%D0%B3%D0%B8%D1%81%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B0%D1%8F_%D1%80%D0%B5%D0%B3%D1%80%D0%B5%D1%81%D1%81%D0%B8%D1%8F Логистическая регрессия] $-$ курс лекций Воронцова
#[https://en.wikipedia.org/wiki/Logistic_regression Logistic_regression] $-$ Wiipedia
#[https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html sklearn.linear_model.LogisticRegression] $-$ реализация алгоритма на scikit-learn.org

[[Категория: Машинное обучение]]

Логистическая регрессия

2019-01-23T13:38:20Z

Karavaevitalii: /* Источники информации */

'''Логистическая регрессия''' (англ. ''logistic regression'') — метод построения [[Линейный классификатор|линейного классификатора]][на 23.01.19 не создан], позволяющий оценивать апостериорные вероятности принадлежности объектов классам.
== Описание ==
Логистическая регрессия применяется для прогнозирования вероятности возникновения некоторого события по значениям множества признаков. Для этого вводится зависимая переменная $y$, принимающая значения $0$ и $1$ и множество [[Независимые случайные величины|независимых]] переменных <tex>x_1, ... x_n</tex> на основе значений которых требуется вычислить вероятность принятия того или иного значения зависимой переменной.

Итак, пусть объекты задаются $n$ числовымы признаками $f_j : X \to R, j = 1 ... n$ и пространство признаковых описаний в таком случае $X = R^n$. Пусть $Y$ $-$ конечное множество меток классов и задана обучающая выборка пар «объект-ответ» <tex>X^m = \{(x_1,y_1),\dots,(x_m,y_m)\}.</tex>

Рассмотрим случай двух классов: $Y = \{-1, +1\}$. В логистической регрессии строится линейный алгоритм классификации $a: X \to Y$ вида
<center><tex>a(x, w) = \mathrm{sign}\left(\sum\limits_{j=1}^n w_j f_j(x) - w_0 \right)=\mathrm{sign}\left<x, w\right></tex></center>
где $w_j$ $-$ вес $j$-го признака, $w_0$ $-$ порог принятия решения, $w=\left(w_0, ..., w_n\right)$ $-$ вектор весов, $\left<x, w\right>$ $-$ скалярное произведение признакового описания объекта на вектор весов. Предполагается, что искусственно введён нулевой признак: $f_{0}(x)=-1$.

Задача обучения линейного классификатора заключается в том, чтобы по выборке $X^m$ настроить вектор весов $w$. В логистической регрессии для этого решается задача минимизации эмпирического риска с функцией потерь специального вида: <center><tex>Q(w) = \sum\limits_{i=1}^m \ln\left( 1 + \exp( -y_i \langle x_i,w \rangle ) \right) \to \min_{w}</tex></center>

После того, как решение $w$ найдено, становится возможным не только вычислять классификацию $a(x) = \mathrm{sign}\langle x,w \rangle$ для произвольного объекта $x$, но и оценивать апостериорные вероятности его принадлежности классам:
<center><tex>\mathbb{P}\{y|x\} = \sigma\left( y \langle x,w \rangle\right),\;\; y\in Y</tex></center>
где $\sigma(z) = \frac1{1+e^{-z}}$ — сигмоидная функция.
== Обоснование ==
'''С точки зрения [[Байесовский классификатор|байесовского классификатора]]'''

Наиболее строгое обоснование логистической регрессии опирается на следующую теорему
{{Теорема
|statement=Пусть
* функции правдоподобия (плотности распределения) классов $p_y(x)$ принадлежат экспонентному семейству плотностей $p_y(x) = \exp \left( \langle\theta,x\rangle \cdot a(\delta) + b(\delta,\theta) + d(x,\delta) \right)$, где $a, b, d$ — произвольные функции
*функции правдоподобия имеют равные знаения параметра разброса $\delta$ и отличаются только значениями параметра сдвига $\theta_y$
*среди признаков есть константа, скажем, $f_0(x) = -1$
Тогда
*линейный классификатор является оптимальным байесовским классификатором
*апостериорные вероятности классов оценивается по формуле <tex>\mathbb{P}\{y|x\} = \sigma\left( y \langle x,w \rangle\right),\;\; y\in Y</tex>
|proof=
Рассмотрим отношение апостериорных вероятностей классов и воспользуемся тем, что $p_y(x)$ — экспонентные плотности с параметрами $\theta_y$ и $\delta$:
<center><tex>\frac{\mathrm{P}\left(+1|x\right)}{\mathrm{P}\left(-1|x\right)} = \frac{\mathrm{P_+}p_+(x)}{\mathrm{P}_-p_-(x)}</tex></center>
где $\mathrm{P}_+$ $-$ ''априорные вероятности'', $p_+(x)$ $-$ ''функции правдоподобия''
<center><tex>\frac{\mathrm{P_+}p_+(x)}{\mathrm{P}_-p_-(x)} = \exp\left(\langle\left(c_+(\delta)\theta_+-c_-(\delta)\theta_-\right), x\rangle+b_+(\delta, \theta_+)-b_-(\delta, \theta_-) + \ln\frac{\mathrm{P}_+}{\mathrm{P}_-}\right)</tex></center>
$w=c_+(\delta)\theta_+-c_-(\delta)\theta_- = const(x)$

Здесь вектор $w$ не зависит от $x$ и является вектором свободных коэффициентов при признаках. Все слагаемые под экспонентой, не зависящие от $x$, можно считать аддитивной добавкой к коэффициенту при константном признаке. Поскольку свободные коэффициенты настраиваются по обучающей выборке, вычислять эту аддитивную добавку нет никакого смысла, и её можно включить в $\langle w, x\rangle$.

Следовательно,
<center><tex>\frac{\mathrm{P}\left(+1|x\right)}{\mathrm{P}\left(-1|x\right)} = \exp\left(\langle w, x\rangle\right)</tex></center>

Используя [[Формула полной вероятности|формулу полной вероятности]]
<center><tex>\mathrm{P}\left(+1|x\right) + \mathrm{P}\left(-1|x\right) = 1</tex></center>
выразим апостериорные вероятности
<center><tex>\mathrm{P}\left(+1|x\right) , \mathrm{P}\left(-1|x\right)</tex></center> через $\langle w, x\rangle$
<center><tex>\mathrm{P}\left(+1|x\right) = \sigma\left(+\langle w ,x\rangle\right) , \mathrm{P}\left(-1|x\right) = \sigma\left(-\langle w ,x\rangle\right)</tex></center>

Объединяя эти два равенства в одно, получаем требуемое:
<center><tex>\mathrm{P}\left(y|x\right)=\sigma\left(\langle w, x\rangle y\right)</tex></center>

Разделяющая поверхность в байесовском решающем правиле определяется уравнением
<center><tex>\lambda_- \mathrm{P}\left(-1|x\right) = \lambda_+ \mathrm{P}\left(+1|x\right)</tex></center>
которое равносильно
<center><tex>\langle w, x\rangle - \ln\frac{\lambda_-}{\lambda_+} = 0</tex></center>
Следовательно, разделяющая поверхность линейна.
}}
== Пример кода для scikit-learn ==
Классификатор [https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html sklearn.linear_model.'''LogisticRegression'''] имеет несколько параметров, например:
* '''solver''' $-$ алгоритм, использующийся для оптимизации
* '''multi_class''' $-$ классификация на 2 или много классов

* Импортируем нужные библиотеки
'''from''' sklearn.linear_model '''import''' LogisticRegression
'''from''' sklearn '''import''' datasets
'''from''' sklearn.model_selection '''import''' train_test_split

* Выберем тренировочное и тестовое множества
iris = datasets.'''load_iris()'''

X = iris.data
y = iris.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size='''0.3''')

* Обучение
clf = LogisticRegression(random_state='''0''', solver='lbfgs', multi_class='multinomial')
model = clf.'''fit'''(X_train, y_train)

* Предсказание
y_pred = model.'''predict'''(X_test)
model.'''score'''(X_test, y_test)
== См. также ==
* [[Байесовская классификация]]
* [[Линейная регрессия]]
* [[Вариации регрессии]]
* [[Обзор библиотек для машинного обучения на Python]]
* [[Общие понятия]]
* [[Уменьшение размерности]]

== Источники информации ==
#[http://www.machinelearning.ru/wiki/index.php?title=%D0%9B%D0%BE%D0%B3%D0%B8%D1%81%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B0%D1%8F_%D1%80%D0%B5%D0%B3%D1%80%D0%B5%D1%81%D1%81%D0%B8%D1%8F Логистическая регрессия] $-$ курс лекций Воронцова
#[https://en.wikipedia.org/wiki/Logistic_regression Logistic_regression] $-$ Wiipedia
#[https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html sklearn.linear_model.LogisticRegression] $-$ реализация алгоритма на scikit-learn.org

[[Категория: Машинное обучение]]

Логистическая регрессия

2019-01-23T13:35:43Z

Karavaevitalii: /* Источники информации */

'''Логистическая регрессия''' (англ. ''logistic regression'') — метод построения [[Линейный классификатор|линейного классификатора]][на 23.01.19 не создан], позволяющий оценивать апостериорные вероятности принадлежности объектов классам.
== Описание ==
Логистическая регрессия применяется для прогнозирования вероятности возникновения некоторого события по значениям множества признаков. Для этого вводится зависимая переменная $y$, принимающая значения $0$ и $1$ и множество [[Независимые случайные величины|независимых]] переменных <tex>x_1, ... x_n</tex> на основе значений которых требуется вычислить вероятность принятия того или иного значения зависимой переменной.

Итак, пусть объекты задаются $n$ числовымы признаками $f_j : X \to R, j = 1 ... n$ и пространство признаковых описаний в таком случае $X = R^n$. Пусть $Y$ $-$ конечное множество меток классов и задана обучающая выборка пар «объект-ответ» <tex>X^m = \{(x_1,y_1),\dots,(x_m,y_m)\}.</tex>

Рассмотрим случай двух классов: $Y = \{-1, +1\}$. В логистической регрессии строится линейный алгоритм классификации $a: X \to Y$ вида
<center><tex>a(x, w) = \mathrm{sign}\left(\sum\limits_{j=1}^n w_j f_j(x) - w_0 \right)=\mathrm{sign}\left<x, w\right></tex></center>
где $w_j$ $-$ вес $j$-го признака, $w_0$ $-$ порог принятия решения, $w=\left(w_0, ..., w_n\right)$ $-$ вектор весов, $\left<x, w\right>$ $-$ скалярное произведение признакового описания объекта на вектор весов. Предполагается, что искусственно введён нулевой признак: $f_{0}(x)=-1$.

Задача обучения линейного классификатора заключается в том, чтобы по выборке $X^m$ настроить вектор весов $w$. В логистической регрессии для этого решается задача минимизации эмпирического риска с функцией потерь специального вида: <center><tex>Q(w) = \sum\limits_{i=1}^m \ln\left( 1 + \exp( -y_i \langle x_i,w \rangle ) \right) \to \min_{w}</tex></center>

После того, как решение $w$ найдено, становится возможным не только вычислять классификацию $a(x) = \mathrm{sign}\langle x,w \rangle$ для произвольного объекта $x$, но и оценивать апостериорные вероятности его принадлежности классам:
<center><tex>\mathbb{P}\{y|x\} = \sigma\left( y \langle x,w \rangle\right),\;\; y\in Y</tex></center>
где $\sigma(z) = \frac1{1+e^{-z}}$ — сигмоидная функция.
== Обоснование ==
'''С точки зрения [[Байесовский классификатор|байесовского классификатора]]'''

Наиболее строгое обоснование логистической регрессии опирается на следующую теорему
{{Теорема
|statement=Пусть
* функции правдоподобия (плотности распределения) классов $p_y(x)$ принадлежат экспонентному семейству плотностей $p_y(x) = \exp \left( \langle\theta,x\rangle \cdot a(\delta) + b(\delta,\theta) + d(x,\delta) \right)$, где $a, b, d$ — произвольные функции
*функции правдоподобия имеют равные знаения параметра разброса $\delta$ и отличаются только значениями параметра сдвига $\theta_y$
*среди признаков есть константа, скажем, $f_0(x) = -1$
Тогда
*линейный классификатор является оптимальным байесовским классификатором
*апостериорные вероятности классов оценивается по формуле <tex>\mathbb{P}\{y|x\} = \sigma\left( y \langle x,w \rangle\right),\;\; y\in Y</tex>
|proof=
Рассмотрим отношение апостериорных вероятностей классов и воспользуемся тем, что $p_y(x)$ — экспонентные плотности с параметрами $\theta_y$ и $\delta$:
<center><tex>\frac{\mathrm{P}\left(+1|x\right)}{\mathrm{P}\left(-1|x\right)} = \frac{\mathrm{P_+}p_+(x)}{\mathrm{P}_-p_-(x)}</tex></center>
где $\mathrm{P}_+$ $-$ ''априорные вероятности'', $p_+(x)$ $-$ ''функции правдоподобия''
<center><tex>\frac{\mathrm{P_+}p_+(x)}{\mathrm{P}_-p_-(x)} = \exp\left(\langle\left(c_+(\delta)\theta_+-c_-(\delta)\theta_-\right), x\rangle+b_+(\delta, \theta_+)-b_-(\delta, \theta_-) + \ln\frac{\mathrm{P}_+}{\mathrm{P}_-}\right)</tex></center>
$w=c_+(\delta)\theta_+-c_-(\delta)\theta_- = const(x)$

Здесь вектор $w$ не зависит от $x$ и является вектором свободных коэффициентов при признаках. Все слагаемые под экспонентой, не зависящие от $x$, можно считать аддитивной добавкой к коэффициенту при константном признаке. Поскольку свободные коэффициенты настраиваются по обучающей выборке, вычислять эту аддитивную добавку нет никакого смысла, и её можно включить в $\langle w, x\rangle$.

Следовательно,
<center><tex>\frac{\mathrm{P}\left(+1|x\right)}{\mathrm{P}\left(-1|x\right)} = \exp\left(\langle w, x\rangle\right)</tex></center>

Используя [[Формула полной вероятности|формулу полной вероятности]]
<center><tex>\mathrm{P}\left(+1|x\right) + \mathrm{P}\left(-1|x\right) = 1</tex></center>
выразим апостериорные вероятности
<center><tex>\mathrm{P}\left(+1|x\right) , \mathrm{P}\left(-1|x\right)</tex></center> через $\langle w, x\rangle$
<center><tex>\mathrm{P}\left(+1|x\right) = \sigma\left(+\langle w ,x\rangle\right) , \mathrm{P}\left(-1|x\right) = \sigma\left(-\langle w ,x\rangle\right)</tex></center>

Объединяя эти два равенства в одно, получаем требуемое:
<center><tex>\mathrm{P}\left(y|x\right)=\sigma\left(\langle w, x\rangle y\right)</tex></center>

Разделяющая поверхность в байесовском решающем правиле определяется уравнением
<center><tex>\lambda_- \mathrm{P}\left(-1|x\right) = \lambda_+ \mathrm{P}\left(+1|x\right)</tex></center>
которое равносильно
<center><tex>\langle w, x\rangle - \ln\frac{\lambda_-}{\lambda_+} = 0</tex></center>
Следовательно, разделяющая поверхность линейна.
}}
== Пример кода для scikit-learn ==
Классификатор [https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html sklearn.linear_model.'''LogisticRegression'''] имеет несколько параметров, например:
* '''solver''' $-$ алгоритм, использующийся для оптимизации
* '''multi_class''' $-$ классификация на 2 или много классов

* Импортируем нужные библиотеки
'''from''' sklearn.linear_model '''import''' LogisticRegression
'''from''' sklearn '''import''' datasets
'''from''' sklearn.model_selection '''import''' train_test_split

* Выберем тренировочное и тестовое множества
iris = datasets.'''load_iris()'''

X = iris.data
y = iris.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size='''0.3''')

* Обучение
clf = LogisticRegression(random_state='''0''', solver='lbfgs', multi_class='multinomial')
model = clf.'''fit'''(X_train, y_train)

* Предсказание
y_pred = model.'''predict'''(X_test)
model.'''score'''(X_test, y_test)
== См. также ==
* [[Байесовская классификация]]
* [[Линейная регрессия]]
* [[Вариации регрессии]]
* [[Обзор библиотек для машинного обучения на Python]]
* [[Общие понятия]]
* [[Уменьшение размерности]]

== Источники информации ==
#[http://www.machinelearning.ru/wiki/index.php?title=%D0%9B%D0%BE%D0%B3%D0%B8%D1%81%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B0%D1%8F_%D1%80%D0%B5%D0%B3%D1%80%D0%B5%D1%81%D1%81%D0%B8%D1%8F] $-$ курс лекций Воронцова
#[https://en.wikipedia.org/wiki/Logistic_regression] $-$ Wiipedia
#[https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html] $-$ реализация алгоритма на scikit-learn.org
[[Категория: Машинное обучение]]

Логистическая регрессия

2019-01-23T13:34:04Z

Karavaevitalii:

'''Логистическая регрессия''' (англ. ''logistic regression'') — метод построения [[Линейный классификатор|линейного классификатора]][на 23.01.19 не создан], позволяющий оценивать апостериорные вероятности принадлежности объектов классам.
== Описание ==
Логистическая регрессия применяется для прогнозирования вероятности возникновения некоторого события по значениям множества признаков. Для этого вводится зависимая переменная $y$, принимающая значения $0$ и $1$ и множество [[Независимые случайные величины|независимых]] переменных <tex>x_1, ... x_n</tex> на основе значений которых требуется вычислить вероятность принятия того или иного значения зависимой переменной.

Итак, пусть объекты задаются $n$ числовымы признаками $f_j : X \to R, j = 1 ... n$ и пространство признаковых описаний в таком случае $X = R^n$. Пусть $Y$ $-$ конечное множество меток классов и задана обучающая выборка пар «объект-ответ» <tex>X^m = \{(x_1,y_1),\dots,(x_m,y_m)\}.</tex>

Рассмотрим случай двух классов: $Y = \{-1, +1\}$. В логистической регрессии строится линейный алгоритм классификации $a: X \to Y$ вида
<center><tex>a(x, w) = \mathrm{sign}\left(\sum\limits_{j=1}^n w_j f_j(x) - w_0 \right)=\mathrm{sign}\left<x, w\right></tex></center>
где $w_j$ $-$ вес $j$-го признака, $w_0$ $-$ порог принятия решения, $w=\left(w_0, ..., w_n\right)$ $-$ вектор весов, $\left<x, w\right>$ $-$ скалярное произведение признакового описания объекта на вектор весов. Предполагается, что искусственно введён нулевой признак: $f_{0}(x)=-1$.

Задача обучения линейного классификатора заключается в том, чтобы по выборке $X^m$ настроить вектор весов $w$. В логистической регрессии для этого решается задача минимизации эмпирического риска с функцией потерь специального вида: <center><tex>Q(w) = \sum\limits_{i=1}^m \ln\left( 1 + \exp( -y_i \langle x_i,w \rangle ) \right) \to \min_{w}</tex></center>

После того, как решение $w$ найдено, становится возможным не только вычислять классификацию $a(x) = \mathrm{sign}\langle x,w \rangle$ для произвольного объекта $x$, но и оценивать апостериорные вероятности его принадлежности классам:
<center><tex>\mathbb{P}\{y|x\} = \sigma\left( y \langle x,w \rangle\right),\;\; y\in Y</tex></center>
где $\sigma(z) = \frac1{1+e^{-z}}$ — сигмоидная функция.
== Обоснование ==
'''С точки зрения [[Байесовский классификатор|байесовского классификатора]]'''

Наиболее строгое обоснование логистической регрессии опирается на следующую теорему
{{Теорема
|statement=Пусть
* функции правдоподобия (плотности распределения) классов $p_y(x)$ принадлежат экспонентному семейству плотностей $p_y(x) = \exp \left( \langle\theta,x\rangle \cdot a(\delta) + b(\delta,\theta) + d(x,\delta) \right)$, где $a, b, d$ — произвольные функции
*функции правдоподобия имеют равные знаения параметра разброса $\delta$ и отличаются только значениями параметра сдвига $\theta_y$
*среди признаков есть константа, скажем, $f_0(x) = -1$
Тогда
*линейный классификатор является оптимальным байесовским классификатором
*апостериорные вероятности классов оценивается по формуле <tex>\mathbb{P}\{y|x\} = \sigma\left( y \langle x,w \rangle\right),\;\; y\in Y</tex>
|proof=
Рассмотрим отношение апостериорных вероятностей классов и воспользуемся тем, что $p_y(x)$ — экспонентные плотности с параметрами $\theta_y$ и $\delta$:
<center><tex>\frac{\mathrm{P}\left(+1|x\right)}{\mathrm{P}\left(-1|x\right)} = \frac{\mathrm{P_+}p_+(x)}{\mathrm{P}_-p_-(x)}</tex></center>
где $\mathrm{P}_+$ $-$ ''априорные вероятности'', $p_+(x)$ $-$ ''функции правдоподобия''
<center><tex>\frac{\mathrm{P_+}p_+(x)}{\mathrm{P}_-p_-(x)} = \exp\left(\langle\left(c_+(\delta)\theta_+-c_-(\delta)\theta_-\right), x\rangle+b_+(\delta, \theta_+)-b_-(\delta, \theta_-) + \ln\frac{\mathrm{P}_+}{\mathrm{P}_-}\right)</tex></center>
$w=c_+(\delta)\theta_+-c_-(\delta)\theta_- = const(x)$

Здесь вектор $w$ не зависит от $x$ и является вектором свободных коэффициентов при признаках. Все слагаемые под экспонентой, не зависящие от $x$, можно считать аддитивной добавкой к коэффициенту при константном признаке. Поскольку свободные коэффициенты настраиваются по обучающей выборке, вычислять эту аддитивную добавку нет никакого смысла, и её можно включить в $\langle w, x\rangle$.

Следовательно,
<center><tex>\frac{\mathrm{P}\left(+1|x\right)}{\mathrm{P}\left(-1|x\right)} = \exp\left(\langle w, x\rangle\right)</tex></center>

Используя [[Формула полной вероятности|формулу полной вероятности]]
<center><tex>\mathrm{P}\left(+1|x\right) + \mathrm{P}\left(-1|x\right) = 1</tex></center>
выразим апостериорные вероятности
<center><tex>\mathrm{P}\left(+1|x\right) , \mathrm{P}\left(-1|x\right)</tex></center> через $\langle w, x\rangle$
<center><tex>\mathrm{P}\left(+1|x\right) = \sigma\left(+\langle w ,x\rangle\right) , \mathrm{P}\left(-1|x\right) = \sigma\left(-\langle w ,x\rangle\right)</tex></center>

Объединяя эти два равенства в одно, получаем требуемое:
<center><tex>\mathrm{P}\left(y|x\right)=\sigma\left(\langle w, x\rangle y\right)</tex></center>

Разделяющая поверхность в байесовском решающем правиле определяется уравнением
<center><tex>\lambda_- \mathrm{P}\left(-1|x\right) = \lambda_+ \mathrm{P}\left(+1|x\right)</tex></center>
которое равносильно
<center><tex>\langle w, x\rangle - \ln\frac{\lambda_-}{\lambda_+} = 0</tex></center>
Следовательно, разделяющая поверхность линейна.
}}
== Пример кода для scikit-learn ==
Классификатор [https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html sklearn.linear_model.'''LogisticRegression'''] имеет несколько параметров, например:
* '''solver''' $-$ алгоритм, использующийся для оптимизации
* '''multi_class''' $-$ классификация на 2 или много классов

* Импортируем нужные библиотеки
'''from''' sklearn.linear_model '''import''' LogisticRegression
'''from''' sklearn '''import''' datasets
'''from''' sklearn.model_selection '''import''' train_test_split

* Выберем тренировочное и тестовое множества
iris = datasets.'''load_iris()'''

X = iris.data
y = iris.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size='''0.3''')

* Обучение
clf = LogisticRegression(random_state='''0''', solver='lbfgs', multi_class='multinomial')
model = clf.'''fit'''(X_train, y_train)

* Предсказание
y_pred = model.'''predict'''(X_test)
model.'''score'''(X_test, y_test)
== См. также ==
* [[Байесовская классификация]]
* [[Линейная регрессия]]
* [[Вариации регрессии]]
* [[Обзор библиотек для машинного обучения на Python]]
* [[Общие понятия]]
* [[Уменьшение размерности]]

== Источники информации ==
#[http://www.machinelearning.ru/wiki/index.php?title=%D0%9B%D0%BE%D0%B3%D0%B8%D1%81%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B0%D1%8F_%D1%80%D0%B5%D0%B3%D1%80%D0%B5%D1%81%D1%81%D0%B8%D1%8F курс лекций Воронцова]
#[https://en.wikipedia.org/wiki/Logistic_regression Wikipedia]
#[https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html реализация алгоритма на scikit-learn.org]
[[Категория: Машинное обучение]]

Логистическая регрессия

2019-01-23T13:25:31Z

Karavaevitalii: /* Пример кода для scikit-learn */

Логистическая регрессия

2019-01-23T13:11:03Z

Karavaevitalii:

'''Логистическая регрессия''' (англ. ''logistic regression'') — метод построения [[Линейный классификатор|линейного классификатора]][на 23.01.19 не создан], позволяющий оценивать апостериорные вероятности принадлежности объектов классам.
== Описание ==
Логистическая регрессия применяется для прогнозирования вероятности возникновения некоторого события по значениям множества признаков. Для этого вводится зависимая переменная $y$, принимающая значения $0$ и $1$ и множество [[Независимые случайные величины|независимых]] переменных <tex>x_1, ... x_n</tex> на основе значений которых требуется вычислить вероятность принятия того или иного значения зависимой переменной.

Итак, пусть объекты задаются $n$ числовымы признаками $f_j : X \to R, j = 1 ... n$ и пространство признаковых описаний в таком случае $X = R^n$. Пусть $Y$ $-$ конечное множество меток классов и задана обучающая выборка пар «объект-ответ» <tex>X^m = \{(x_1,y_1),\dots,(x_m,y_m)\}.</tex>

Рассмотрим случай двух классов: $Y = \{-1, +1\}$. В логистической регрессии строится линейный алгоритм классификации $a: X \to Y$ вида
<center><tex>a(x, w) = \mathrm{sign}\left(\sum\limits_{j=1}^n w_j f_j(x) - w_0 \right)=\mathrm{sign}\left<x, w\right></tex></center>
где $w_j$ $-$ вес $j$-го признака, $w_0$ $-$ порог принятия решения, $w=\left(w_0, ..., w_n\right)$ $-$ вектор весов, $\left<x, w\right>$ $-$ скалярное произведение признакового описания объекта на вектор весов. Предполагается, что искусственно введён нулевой признак: $f_{0}(x)=-1$.

Задача обучения линейного классификатора заключается в том, чтобы по выборке $X^m$ настроить вектор весов $w$. В логистической регрессии для этого решается задача минимизации эмпирического риска с функцией потерь специального вида: <center><tex>Q(w) = \sum\limits_{i=1}^m \ln\left( 1 + \exp( -y_i \langle x_i,w \rangle ) \right) \to \min_{w}</tex></center>

После того, как решение $w$ найдено, становится возможным не только вычислять классификацию $a(x) = \mathrm{sign}\langle x,w \rangle$ для произвольного объекта $x$, но и оценивать апостериорные вероятности его принадлежности классам:
<center><tex>\mathbb{P}\{y|x\} = \sigma\left( y \langle x,w \rangle\right),\;\; y\in Y</tex></center>
где $\sigma(z) = \frac1{1+e^{-z}}$ — сигмоидная функция.
== Обоснование ==
'''С точки зрения [[Байесовский классификатор|байесовского классификатора]]'''

Наиболее строгое обоснование логистической регрессии опирается на следующую теорему
{{Теорема
|statement=Пусть
* функции правдоподобия (плотности распределения) классов $p_y(x)$ принадлежат экспонентному семейству плотностей $p_y(x) = \exp \left( \langle\theta,x\rangle \cdot a(\delta) + b(\delta,\theta) + d(x,\delta) \right)$, где $a, b, d$ — произвольные функции
*функции правдоподобия имеют равные знаения параметра разброса $\delta$ и отличаются только значениями параметра сдвига $\theta_y$
*среди признаков есть константа, скажем, $f_0(x) = -1$
Тогда
*линейный классификатор является оптимальным байесовским классификатором
*апостериорные вероятности классов оценивается по формуле <tex>\mathbb{P}\{y|x\} = \sigma\left( y \langle x,w \rangle\right),\;\; y\in Y</tex>
|proof=
Рассмотрим отношение апостериорных вероятностей классов и воспользуемся тем, что $p_y(x)$ — экспонентные плотности с параметрами $\theta_y$ и $\delta$:
<center><tex>\frac{\mathrm{P}\left(+1|x\right)}{\mathrm{P}\left(-1|x\right)} = \frac{\mathrm{P_+}p_+(x)}{\mathrm{P}_-p_-(x)}</tex></center>
где $\mathrm{P}_+$ $-$ ''априорные вероятности'', $p_+(x)$ $-$ ''функции правдоподобия''
<center><tex>\frac{\mathrm{P_+}p_+(x)}{\mathrm{P}_-p_-(x)} = \exp\left(\langle\left(c_+(\delta)\theta_+-c_-(\delta)\theta_-\right), x\rangle+b_+(\delta, \theta_+)-b_-(\delta, \theta_-) + \ln\frac{\mathrm{P}_+}{\mathrm{P}_-}\right)</tex></center>
$w=c_+(\delta)\theta_+-c_-(\delta)\theta_- = const(x)$

Здесь вектор $w$ не зависит от $x$ и является вектором свободных коэффициентов при признаках. Все слагаемые под экспонентой, не зависящие от $x$, можно считать аддитивной добавкой к коэффициенту при константном признаке. Поскольку свободные коэффициенты настраиваются по обучающей выборке, вычислять эту аддитивную добавку нет никакого смысла, и её можно включить в $\langle w, x\rangle$.

Следовательно,
<center><tex>\frac{\mathrm{P}\left(+1|x\right)}{\mathrm{P}\left(-1|x\right)} = \exp\left(\langle w, x\rangle\right)</tex></center>

Используя [[Формула полной вероятности|формулу полной вероятности]]
<center><tex>\mathrm{P}\left(+1|x\right) + \mathrm{P}\left(-1|x\right) = 1</tex></center>
выразим апостериорные вероятности
<center><tex>\mathrm{P}\left(+1|x\right) , \mathrm{P}\left(-1|x\right)</tex></center> через $\langle w, x\rangle$
<center><tex>\mathrm{P}\left(+1|x\right) = \sigma\left(+\langle w ,x\rangle\right) , \mathrm{P}\left(-1|x\right) = \sigma\left(-\langle w ,x\rangle\right)</tex></center>

Объединяя эти два равенства в одно, получаем требуемое:
<center><tex>\mathrm{P}\left(y|x\right)=\sigma\left(\langle w, x\rangle y\right)</tex></center>

Разделяющая поверхность в байесовском решающем правиле определяется уравнением
<center><tex>\lambda_- \mathrm{P}\left(-1|x\right) = \lambda_+ \mathrm{P}\left(+1|x\right)</tex></center>
которое равносильно
<center><tex>\langle w, x\rangle - \ln\frac{\lambda_-}{\lambda_+} = 0</tex></center>
Следовательно, разделяющая поверхность линейна.
}}
== Пример кода для scikit-learn ==

'''from''' sklearn.linear_model '''import''' LogisticRegression
'''from''' sklearn '''import''' datasets
'''from''' sklearn.model_selection '''import''' train_test_split

Логистическая регрессия

2019-01-23T13:05:26Z

Karavaevitalii:

'''Логистическая регрессия''' (англ. ''logistic regression'') — метод построения [[Линейный классификатор|линейного классификатора]][на 23.01.19 не создан], позволяющий оценивать апостериорные вероятности принадлежности объектов классам.
== Описание ==
Логистическая регрессия применяется для прогнозирования вероятности возникновения некоторого события по значениям множества признаков. Для этого вводится зависимая переменная $y$, принимающая значения $0$ и $1$ и множество [[Независимые случайные величины|независимых]] переменных <tex>x_1, ... x_n</tex> на основе значений которых требуется вычислить вероятность принятия того или иного значения зависимой переменной.

Итак, пусть объекты задаются $n$ числовымы признаками $f_j : X \to R, j = 1 ... n$ и пространство признаковых описаний в таком случае $X = R^n$. Пусть $Y$ $-$ конечное множество меток классов и задана обучающая выборка пар «объект-ответ» <tex>X^m = \{(x_1,y_1),\dots,(x_m,y_m)\}.</tex>

Рассмотрим случай двух классов: $Y = \{-1, +1\}$. В логистической регрессии строится линейный алгоритм классификации $a: X \to Y$ вида
<center><tex>a(x, w) = \mathrm{sign}\left(\sum\limits_{j=1}^n w_j f_j(x) - w_0 \right)=\mathrm{sign}\left<x, w\right></tex></center>
где $w_j$ $-$ вес $j$-го признака, $w_0$ $-$ порог принятия решения, $w=\left(w_0, ..., w_n\right)$ $-$ вектор весов, $\left<x, w\right>$ $-$ скалярное произведение признакового описания объекта на вектор весов. Предполагается, что искусственно введён нулевой признак: $f_{0}(x)=-1$.

Задача обучения линейного классификатора заключается в том, чтобы по выборке $X^m$ настроить вектор весов $w$. В логистической регрессии для этого решается задача минимизации эмпирического риска с функцией потерь специального вида: <center><tex>Q(w) = \sum\limits_{i=1}^m \ln\left( 1 + \exp( -y_i \langle x_i,w \rangle ) \right) \to \min_{w}</tex></center>

После того, как решение $w$ найдено, становится возможным не только вычислять классификацию $a(x) = \mathrm{sign}\langle x,w \rangle$ для произвольного объекта $x$, но и оценивать апостериорные вероятности его принадлежности классам:
<center><tex>\mathbb{P}\{y|x\} = \sigma\left( y \langle x,w \rangle\right),\;\; y\in Y</tex></center>
где $\sigma(z) = \frac1{1+e^{-z}}$ — сигмоидная функция.

== Обоснование ==
'''С точки зрения [[Байесовский классификатор|байесовского классификатора]]'''

Наиболее строгое обоснование логистической регрессии опирается на следующую теорему
{{Теорема
|statement=Пусть
* функции правдоподобия (плотности распределения) классов $p_y(x)$ принадлежат экспонентному семейству плотностей $p_y(x) = \exp \left( \langle\theta,x\rangle \cdot a(\delta) + b(\delta,\theta) + d(x,\delta) \right)$, где $a, b, d$ — произвольные функции
*функции правдоподобия имеют равные знаения параметра разброса $\delta$ и отличаются только значениями параметра сдвига $\theta_y$
*среди признаков есть константа, скажем, $f_0(x) = -1$
Тогда
*линейный классификатор является оптимальным байесовским классификатором
*апостериорные вероятности классов оценивается по формуле <tex>\mathbb{P}\{y|x\} = \sigma\left( y \langle x,w \rangle\right),\;\; y\in Y</tex>
|proof=
Рассмотрим отношение апостериорных вероятностей классов и воспользуемся тем, что $p_y(x)$ — экспонентные плотности с параметрами $\theta_y$ и $\delta$:
<center><tex>\frac{\mathrm{P}\left(+1|x\right)}{\mathrm{P}\left(-1|x\right)} = \frac{\mathrm{P_+}p_+(x)}{\mathrm{P}_-p_-(x)}</tex></center>
где $\mathrm{P}_+$ $-$ ''априорные вероятности'', $p_+(x)$ $-$ ''функции правдоподобия''
<center><tex>\frac{\mathrm{P_+}p_+(x)}{\mathrm{P}_-p_-(x)} = \exp\left(\langle\left(c_+(\delta)\theta_+-c_-(\delta)\theta_-\right), x\rangle+b_+(\delta, \theta_+)-b_-(\delta, \theta_-) + \ln\frac{\mathrm{P}_+}{\mathrm{P}_-}\right)</tex></center>
$w=c_+(\delta)\theta_+-c_-(\delta)\theta_- = const(x)$

Здесь вектор $w$ не зависит от $x$ и является вектором свободных коэффициентов при признаках. Все слагаемые под экспонентой, не зависящие от $x$, можно считать аддитивной добавкой к коэффициенту при константном признаке. Поскольку свободные коэффициенты настраиваются по обучающей выборке, вычислять эту аддитивную добавку нет никакого смысла, и её можно включить в $\langle w, x\rangle$.

Следовательно,
<center><tex>\frac{\mathrm{P}\left(+1|x\right)}{\mathrm{P}\left(-1|x\right)} = \exp\left(\langle w, x\rangle\right)</tex></center>

Используя [[Формула полной вероятности|формулу полной вероятности]]
<center><tex>\mathrm{P}\left(+1|x\right) + \mathrm{P}\left(-1|x\right) = 1</tex></center>
выразим апостериорные вероятности
<center><tex>\mathrm{P}\left(+1|x\right) , \mathrm{P}\left(-1|x\right)</tex></center> через $\langle w, x\rangle$
<center><tex>\mathrm{P}\left(+1|x\right) = \sigma\left(+\langle w ,x\rangle\right) , \mathrm{P}\left(-1|x\right) = \sigma\left(-\langle w ,x\rangle\right)</tex></center>

Объединяя эти два равенства в одно, получаем требуемое:
<center><tex>\mathrm{P}\left(y|x\right)=\sigma\left(\langle w, x\rangle y\right)</tex></center>

Разделяющая поверхность в байесовском решающем правиле определяется уравнением
<center><tex>\lambda_- \mathrm{P}\left(-1|x\right) = \lambda_+ \mathrm{P}\left(+1|x\right)</tex></center>
которое равносильно
<center><tex>\langle w, x\rangle - \ln\frac{\lambda_-}{\lambda_+} = 0</tex></center>
Следовательно, разделяющая поверхность линейна.
}}

== Пример кода для scikit-learn ==

Логистическая регрессия

2019-01-23T12:52:40Z

Karavaevitalii: /* Обоснование */

'''Логистическая регрессия''' (англ. ''logistic regression'') — метод построения [[Линейный классификатор|линейного классификатора]][на 23.01.19 не создан], позволяющий оценивать апостериорные вероятности принадлежности объектов классам.
== Описание ==
Логистическая регрессия применяется для прогнозирования вероятности возникновения некоторого события по значениям множества признаков. Для этого вводится зависимая переменная $y$, принимающая значения $0$ и $1$ и множество [[Независимые случайные величины|независимых]] переменных <tex>x_1, ... x_n</tex> на основе значений которых требуется вычислить вероятность принятия того или иного значения зависимой переменной.

Итак, пусть объекты задаются $n$ числовымы признаками $f_j : X \to R, j = 1 ... n$ и пространство признаковых описаний в таком случае $X = R^n$. Пусть $Y$ $-$ конечное множество меток классов и задана обучающая выборка пар «объект-ответ» <tex>X^m = \{(x_1,y_1),\dots,(x_m,y_m)\}.</tex>

Рассмотрим случай двух классов: $Y = \{-1, +1\}$. В логистической регрессии строится линейный алгоритм классификации $a: X \to Y$ вида
<center><tex>a(x, w) = \mathrm{sign}\left(\sum\limits_{j=1}^n w_j f_j(x) - w_0 \right)=\mathrm{sign}\left<x, w\right></tex></center>
где $w_j$ $-$ вес $j$-го признака, $w_0$ $-$ порог принятия решения, $w=\left(w_0, ..., w_n\right)$ $-$ вектор весов, $\left<x, w\right>$ $-$ скалярное произведение признакового описания объекта на вектор весов. Предполагается, что искусственно введён нулевой признак: $f_{0}(x)=-1$.

Задача обучения линейного классификатора заключается в том, чтобы по выборке $X^m$ настроить вектор весов $w$. В логистической регрессии для этого решается задача минимизации эмпирического риска с функцией потерь специального вида: <center><tex>Q(w) = \sum\limits_{i=1}^m \ln\left( 1 + \exp( -y_i \langle x_i,w \rangle ) \right) \to \min_{w}</tex></center>

После того, как решение $w$ найдено, становится возможным не только вычислять классификацию $a(x) = \mathrm{sign}\langle x,w \rangle$ для произвольного объекта $x$, но и оценивать апостериорные вероятности его принадлежности классам:
<center><tex>\mathbb{P}\{y|x\} = \sigma\left( y \langle x,w \rangle\right),\;\; y\in Y</tex></center>
где $\sigma(z) = \frac1{1+e^{-z}}$ — сигмоидная функция.

== Обоснование ==
'''С точки зрения [[Байесовский классификатор|байесовского классификатора]]'''

Наиболее строгое обоснование логистической регрессии опирается на следующую теорему
{{Теорема
|statement=Пусть
* функции правдоподобия (плотности распределения) классов $p_y(x)$ принадлежат экспонентному семейству плотностей $p_y(x) = \exp \left( \langle\theta,x\rangle \cdot a(\delta) + b(\delta,\theta) + d(x,\delta) \right)$, где $a, b, d$ — произвольные функции
*функции правдоподобия имеют равные знаения параметра разброса $\delta$ и отличаются только значениями параметра сдвига $\theta_y$
*среди признаков есть константа, скажем, $f_0(x) = -1$
Тогда
*линейный классификатор является оптимальным байесовским классификатором
*апостериорные вероятности классов оценивается по формуле <tex>\mathbb{P}\{y|x\} = \sigma\left( y \langle x,w \rangle\right),\;\; y\in Y</tex>
|proof=
Рассмотрим отношение апостериорных вероятностей классов и воспользуемся тем, что $p_y(x)$ — экспонентные плотности с параметрами $\theta_y$ и $\delta$:
<center><tex>\frac{\mathrm{P}\left(+1|x\right)}{\mathrm{P}\left(-1|x\right)} = \frac{\mathrm{P_+}p_+(x)}{\mathrm{P}_-p_-(x)}</tex></center>
где $\mathrm{P}_+$ $-$ ''априорные вероятности'', $p_+(x)$ $-$ ''функции правдоподобия''
<center><tex>\frac{\mathrm{P_+}p_+(x)}{\mathrm{P}_-p_-(x)} = \exp\left(\langle\left(c_+(\delta)\theta_+-c_-(\delta)\theta_-\right), x\rangle+b_+(\delta, \theta_+)-b_-(\delta, \theta_-) + \ln\frac{\mathrm{P}_+}{\mathrm{P}_-}\right)</tex></center>
$w=c_+(\delta)\theta_+-c_-(\delta)\theta_- = const(x)$

Здесь вектор $w$ не зависит от $x$ и является вектором свободных коэффициентов при признаках. Все слагаемые под экспонентой, не зависящие от $x$, можно считать аддитивной добавкой к коэффициенту при константном признаке. Поскольку свободные коэффициенты настраиваются по обучающей выборке, вычислять эту аддитивную добавку нет никакого смысла, и её можно включить в $\langle w, x\rangle$.

Следовательно,
<center><tex>\frac{\mathrm{P}\left(+1|x\right)}{\mathrm{P}\left(-1|x\right)} = \exp\left(\langle w, x\rangle\right)</tex></center>

Используя [[Формула полной вероятности|формулу полной вероятности]]
<center><tex>\mathrm{P}\left(+1|x\right) + \mathrm{P}\left(-1|x\right) = 1</tex></center>
выразим апостериорные вероятности
<center><tex>\mathrm{P}\left(+1|x\right) , \mathrm{P}\left(-1|x\right)</tex></center> через $\langle w, x\rangle$
<center><tex>\mathrm{P}\left(+1|x\right) = \sigma\left(+\langle w ,x\rangle\right) , \mathrm{P}\left(-1|x\right) = \sigma\left(-\langle w ,x\rangle\right)</tex></center>

Объединяя эти два равенства в одно, получаем требуемое:
<center><tex>\mathrm{P}\left(y|x\right)=\sigma\left(\langle w, x\rangle y\right)</tex></center>

Разделяющая поверхность в байесовском решающем правиле определяется уравнением
<center><tex>\lambda_- \mathrm{P}\left(-1|x\right) = \lambda_+ \mathrm{P}\left(+1|x\right)</tex></center>
которое равносильно
<center><tex>\langle w, x\rangle - \ln\frac{\lambda_-}{\lambda_+} = 0</tex></center>
Следовательно, разделяющая поверхность линейна.
}}

Логистическая регрессия

2019-01-23T12:08:20Z

Karavaevitalii:

Логистическая регрессия

2019-01-23T12:07:49Z

Karavaevitalii: /* Обоснование */

Логистическая регрессия

2019-01-23T11:58:29Z

Karavaevitalii:

Логистическая регрессия

2019-01-23T11:54:38Z