Логистическая регрессия

Логистическая регрессия (англ. logistic regression) — метод построения линейного классификатора, позволяющий оценивать апостериорные вероятности принадлежности объектов классам.

Описание

Логистическая регрессия применяется для прогнозирования вероятности возникновения некоторого события по значениям множества признаков. Для этого вводится зависимая переменная $y$, принимающая значения $0$ и $1$ и множество независимых переменных [math]x_1, ... x_n[/math] на основе значений которых требуется вычислить вероятность принятия того или иного значения зависимой переменной.

Итак, пусть объекты задаются $n$ числовыми признаками $f_j : X \to R, j = 1 ... n$ и пространство признаковых описаний в таком случае $X = R^n$. Пусть $Y$ $-$ конечное множество меток классов и задана обучающая выборка пар «объект-ответ»

Рассмотрим случай двух классов: $Y = \{-1, +1\}$. В логистической регрессии строится линейный алгоритм классификации $a: X \to Y$ вида

где $w_j$ $-$ вес $j$-го признака, $w_0$ $-$ порог принятия решения, $w=\left(w_0, ..., w_n\right)$ $-$ вектор весов, $\left<x, w\right>$ $-$ скалярное произведение признакового описания объекта на вектор весов. Предполагается, что искусственно введён нулевой признак: $f_{0}(x)=-1$.

Задача обучения линейного классификатора заключается в том, чтобы по выборке $X^m$ настроить вектор весов $w$. В логистической регрессии для этого решается задача минимизации эмпирического риска с функцией потерь специального вида:

После того, как решение $w$ найдено, становится возможным не только вычислять классификацию $a(x) = \mathrm{sign}\langle x,w \rangle$ для произвольного объекта $x$, но и оценивать апостериорные вероятности его принадлежности классам:

где $\sigma(z) = \frac1{1+e^{-z}}$ — сигмоидная функция.

Обоснование

С точки зрения байесовского классификатора^{[на 28.01.19 не создан]}

Наиболее строгое обоснование логистической регрессии опирается на следующую теорему

Теорема:

Пусть

выборка прецедентов $\mathrm{X}^l=\{\left(x_1, y_1\right), ... ,\left(x_l, y_l\right)\}$ получена согласно вероятностному распределению с плотностью

где $\mathrm{P}_y$ $-$ априорные вероятности, $p_y(x)$ $-$ функции правдоподобия, принадлежащие экспонентному семейству плотностей (т.е. $p_y(x) = \exp \left( \langle\theta,x\rangle \cdot a(\delta) + b(\delta,\theta) + d(x,\delta) \right)$, где $a, b, d$ $-$ произвольные функции)

функции правдоподобия имеют равные знаения параметра разброса $\delta$ и отличаются только значениями параметра сдвига $\theta_y$
среди признаков есть константа, скажем, $f_0(x) = -1$

Тогда

линейный классификатор является оптимальным байесовским классификатором
апостериорные вероятности классов оценивается по формуле

Доказательство:

Напомним, что оптимальный байесовский классификатор для двух классов выглядит следущим образом:

Рассмотрим отношение апостериорных вероятностей классов

и распишем функции правдоподобия, используя экспонентную формулу с параметрами $\theta_y$ и $\delta$:

Рассмотрим получившуюся под экспонентой сумму:

$\langle\left(c_+(\delta)\theta_+-c_-(\delta)\theta_-\right), x\rangle = \langle w, x\rangle$. Вектор $w$ не зависит от $x$ и является вектором свободных коэффициентов(весов) при константных признаках
$b_+(\delta, \theta_+)-b_-(\delta, \theta_-) + \ln\frac{\mathrm{P}_+}{\mathrm{P}_-} = \mathrm{const}\left(x\right)$. Можно считать данные слагаемые аддитивной добавкой к коэффициенту при признаке. Но так как свободные коэффициенты настраиваются по обучающей выборке, вычислять эту добавку не имеет смысла и ее можно включить в $\langle w, x\rangle$.

Таким образом,

Разделяющая поверхность в байесовском решающем правиле определяется уравнением

которое равносильно

Следовательно, разделяющая поверхность линейна и первый пункт теоремы доказан.

Используя формулу полной вероятности получаем следующее равенство

Откуда следует

Таким образом, второй пункт теоремы доказан.

Примеры кода

scikit-learn

Классификатор sklearn.linear_model.LogisticRegression имеет несколько параметров, например:

solver $-$ алгоритм, использующийся для оптимизации
multi_class $-$ классификация на 2 или много классов

Импортируем нужные библиотеки

from sklearn.linear_model import LogisticRegression
from sklearn import datasets
from sklearn.model_selection import train_test_split

Выберем тренировочное и тестовое множества

iris = datasets.load_iris()

X = iris.data
y = iris.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

Обучение

clf = LogisticRegression(random_state=0, solver='lbfgs', multi_class='multinomial')
model = clf.fit(X_train, y_train)

Предсказание

y_pred = model.predict(X_test)
model.score(X_test, y_test)

Пример кода на Scala

См. также

Байесовская классификация^{[на 28.01.19 не создан]}
Линейная регрессия^{[на 28.01.19 не создан]}
Вариации регрессии
Обзор библиотек для машинного обучения на Python
Общие понятия
Уменьшение размерности

Источники информации

Логистическая регрессия $-$ курс лекций Воронцова
Logistic regression $-$ Wikipedia
sklearn.linear_model.LogisticRegression $-$ реализация алгоритма на scikit-learn.org

Логистическая регрессия

Описание

Обоснование

Примеры кода

scikit-learn

Пример кода на Scala

См. также

Источники информации

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты