Вариации регрессии — различия между версиями

Материал из Викиконспекты
Перейти к: навигация, поиск
м (Лассо-регрессия)
(Пример кода для Scikit-learn)
Строка 82: Строка 82:
  
 
===Пример кода для Scikit-learn===
 
===Пример кода для Scikit-learn===
 +
===Пример кода для Scikit-learn===
 +
<font color = green># Импорт библиотек</font>
 +
'''from''' sklearn.linear_model '''import''' Lasso
 +
'''from''' sklearn.model_selection '''import''' train_test_split
 +
 +
X = ... <font color = green># загрузка X</font>
 +
y = ... <font color = green># загрузка y</font>
 +
<font color = green># разделение данных на train и test</font>
 +
train_X, test_X, train_y, test_y = train_test_split(X, y)
 +
 +
lasso_regression = Lasso(alpha=0.1) <font color = green># alpha {{---}} величина регуляризации</font>
 +
 +
<font color = green># обучение</font>
 +
lasso_regression.fit(train_X, train_y)
 +
 +
<font color = green># предсказание результата</font>
 +
''print''(lasso_regression.predict(test_X))
 +
 +
<font color = green># вывод точности предсказания</font>
 +
''print''(lasso_regression.score(test_X, test_y))
  
 
==Байесовская регрессия==
 
==Байесовская регрессия==

Версия 00:26, 24 января 2019

Регрессия (англ. Regression) — метод моделирования зависимости между зависимой переменной [math]y[/math] и одной или несколькими независимыми переменными [math]x_1, x_2, \dots, x_n[/math]. В случае нескольких независимых переменных регрессия называется множественной (англ. multivariate regression). Цель регрессионного анализа состоит в том, чтобы оценить значение непрерывной выходной переменной по значениям входных переменных.

Линейная регрессия

Основная статья: Линейная регрессия

Линейная регрессия (англ. Linear regression) — разновидность регрессии для моделирования линейной зависимости между зависимой и независимой переменными.

Логистическая регрессия

Основная статья: Логистическая регрессия

Логистическая регрессия (англ. Logistic regression) — разновидность регрессии для моделирования зависимости между зависимой и независимой переменными в случае, когда зависимая переменная [math]y[/math] принимает значения в диапазоне от [math]0[/math] до [math]1[/math].

Гребневая регрессия (ридж-регрессия)

Гребневая регрессия или ридж-регрессия (англ. ridge regression) — один из методов понижения размерности. Применяется для борьбы с избыточностью данных, когда независимые переменные коррелируют друг с другом, вследствие чего проявляется неустойчивость оценок коэффициентов многомерной линейной регрессии.

Мотивация

Мультиколлинеарность (англ. multicollinearity) — наличие линейной зависимости между независимыми переменными регрессионной модели. Различают полную коллинеарность и частичную или просто мультиколлинеарность — наличие сильной корреляции между факторами.

Рассмотрим пример линейной модели: [math]y = b_1 x_1 + b_2 x_2 + b_3 x_3 + \varepsilon[/math]. Пусть имеет место зависимость [math]x_1 = x_2 + x_ 3[/math]. Добавим к первому коэффициенту произвольное число [math]a[/math], а из двух других коэффициентов это же число вычтем. Получаем (без случайной ошибки):

[math]y = (b_1 + a)x_1 + (b_2 - a)x_2 + (b_3 - a)x_3 = b_1 x_1 + b_2 x_2 + b_3 x_3 + a(x_1 - x_2 - x_3) = b_1 x_1 + b_2 x_2 + b_3 x_3[/math]

Несмотря на относительно произвольное изменение коэффициентов модели мы получили исходную модель, то есть такая модель неидентифицируема.

На практике чаще встречается проблема сильной корреляции между независимыми переменными. В этом случае оценки параметров модели получить можно, но они будут неустойчивыми.

Описание

Напомним задачу многомерной линейной регрессии: Рассматривается линейная зависимость [math]f(x, \beta) = \langle \beta, x \rangle[/math].

Находим вектор [math]\beta^*[/math], при котором достигается минимум среднего квадрата ошибки:

[math]Q(\beta) = ||F \beta - y||^2[/math]


[math]\beta^*=\arg \min\limits_\beta Q(\beta)[/math]

Методом наименьших квадратов находим решение:

[math]\beta^* = (F^T F)^{-1} F^T y[/math]

В условиях мультиколлинеарности матрица [math]F^T F[/math] становится плохо обусловленной.

Для решения этой проблемы добавим к функционалу [math]Q[/math] регуляризационное слагаемое:

[math]Q_{\tau}(\beta) = ||F \beta - y||^2 + \tau ||\beta||^2[/math],

где [math]\tau[/math] — неотрицательный параметр.

Решением в этом случае будет

[math]\beta^* = (F^T F + \tau I_n)^{-1} F^T y[/math]

Это изменение увеличивает собственные значения матрицы [math]F^T F[/math], но не изменяет ее собственные вектора. В результате имеем хорошо обусловленную матрицу.

Диагональная матрица [math]\tau I_n[/math] называется гребнем.

Пример кода для Scikit-learn

# Импорт библиотек
from sklearn.linear_model import Ridge
from sklearn.model_selection import train_test_split

X = ... # загрузка X
y = ... # загрузка y
# разделение данных на train и test
train_X, test_X, train_y, test_y = train_test_split(X, y)

ridge_regression = Ridge(alpha=0.1) # alpha — величина регуляризации

# обучение
ridge_regression.fit(train_X, train_y)

# предсказание результата
print(ridge_regression.predict(test_X))

# вывод точности предсказания
print(ridge_regression.score(test_X, test_y))

Лассо-регрессия

Описание

Метод регрессии лассо (англ. LASSO, Least Absolute Shrinkage and Selection Operator) похож на гребневую регрессию, но вместо добавочного слагаемого здесь используется ограничение на величину абсолютных значений коэффициентов:

[math]\begin{cases}Q(\beta) = ||F \beta - y||^2 \rightarrow \min\limits_\beta \\ \sum\limits_{i=1}^n |\beta_i| \leq \varkappa \end{cases}[/math],

где [math]\varkappa[/math] — параметр регуляризации.

Этот метод отбирает информативные признаки.

Пример кода для Scikit-learn

Пример кода для Scikit-learn

# Импорт библиотек
from sklearn.linear_model import Lasso
from sklearn.model_selection import train_test_split

X = ... # загрузка X
y = ... # загрузка y
# разделение данных на train и test
train_X, test_X, train_y, test_y = train_test_split(X, y)

lasso_regression = Lasso(alpha=0.1) # alpha — величина регуляризации

# обучение
lasso_regression.fit(train_X, train_y)

# предсказание результата
print(lasso_regression.predict(test_X))

# вывод точности предсказания
print(lasso_regression.score(test_X, test_y))

Байесовская регрессия

Логическая регрессия

См. также

Источники информации

  1. 10 типов регрессии — какой выбрать?
  2. machinelearning.ru — Линейная регрессия (пример)
  3. machinelearning.ru — Ридж-регрессия
  4. Wikipedia — Мультиколлинеарность
  5. Лекции по алгоритмам восстановления регрессии К. В. Воронцов
  6. Словарь статистических терминов