Вариации регрессии — различия между версиями

Версия 02:51, 24 января 2019

Регрессия (англ. Regression) — метод моделирования зависимости между зависимой переменной [math]y[/math] и одной или несколькими независимыми переменными [math]x_1, x_2, \dots, x_n[/math]. В случае нескольких независимых переменных регрессия называется множественной (англ. multivariate regression). Цель регрессионного анализа состоит в том, чтобы оценить значение непрерывной выходной переменной по значениям входных переменных.

Содержание

1 Линейная регрессия
2 Логистическая регрессия
3 Гребневая регрессия (ридж-регрессия)
4 Лассо-регрессия
- 4.1 Описание
- 4.2 Пример кода для Scikit-learn
5 Байесовская регрессия
6 Логическая регрессия
7 См. также
8 Источники информации

Линейная регрессия

Основная статья: Линейная регрессия

Линейная регрессия (англ. Linear regression) — разновидность регрессии для моделирования линейной зависимости между зависимой и независимой переменными.

Логистическая регрессия

Основная статья: Логистическая регрессия

Логистическая регрессия (англ. Logistic regression) — разновидность регрессии для моделирования зависимости между зависимой и независимой переменными в случае, когда зависимая переменная [math]y[/math] принимает значения в диапазоне от [math]0[/math] до [math]1[/math].

Гребневая регрессия (ридж-регрессия)

Гребневая регрессия или ридж-регрессия (англ. ridge regression) — один из методов понижения размерности. Применяется для борьбы с избыточностью данных, когда независимые переменные коррелируют друг с другом, вследствие чего проявляется неустойчивость оценок коэффициентов многомерной линейной регрессии.

Мотивация

Определение:

Мультиколлинеарность (англ. multicollinearity) — наличие линейной зависимости между независимыми переменными регрессионной модели. Различают полную коллинеарность и частичную или просто мультиколлинеарность — наличие сильной корреляции между факторами.

Рассмотрим пример линейной модели: . Пусть имеет место зависимость [math]x_1 = x_2 + x_ 3[/math]. Добавим к первому коэффициенту произвольное число [math]a[/math], а из двух других коэффициентов это же число вычтем. Получаем (без случайной ошибки):

Несмотря на относительно произвольное изменение коэффициентов модели мы получили исходную модель, то есть такая модель неидентифицируема.

На практике чаще встречается проблема сильной корреляции между независимыми переменными. В этом случае оценки параметров модели получить можно, но они будут неустойчивыми.

Описание

Напомним задачу многомерной линейной регрессии: Рассматривается линейная зависимость .

Находим вектор [math]\beta^*[/math], при котором достигается минимум среднего квадрата ошибки:

Методом наименьших квадратов находим решение:

В условиях мультиколлинеарности матрица [math]F^T F[/math] становится плохо обусловленной.

Для решения этой проблемы добавим к функционалу [math]Q[/math] регуляризационное слагаемое:

,

где [math]\lambda[/math] — неотрицательный параметр.

Решением в этом случае будет

Это изменение увеличивает собственные значения матрицы [math]F^T F[/math], но не изменяет ее собственные вектора. В результате имеем хорошо обусловленную матрицу.

Диагональная матрица [math]\lambda I_n[/math] называется гребнем.

Пример кода для Scikit-learn

# Импорт библиотек
from sklearn.linear_model import Ridge
from sklearn.model_selection import train_test_split

X = ... # загрузка X
y = ... # загрузка y

# разделение данных на train и test
train_X, test_X, train_y, test_y = train_test_split(X, y)

ridge_regression = Ridge(alpha=0.1) # alpha — величина регуляризации

# обучение
ridge_regression.fit(train_X, train_y)

# предсказание результата
print(ridge_regression.predict(test_X))

# вывод точности предсказания
print(ridge_regression.score(test_X, test_y))

Лассо-регрессия

Описание

Метод регрессии лассо (англ. LASSO, Least Absolute Shrinkage and Selection Operator) похож на гребневую регрессию:

,

В ходе минимизации некоторые коэффициенты становятся равными нулю, что определяет отбор информативных признаков.

Пример кода для Scikit-learn

# Импорт библиотек
from sklearn.linear_model import Lasso
from sklearn.model_selection import train_test_split

X = ... # загрузка X
y = ... # загрузка y

# разделение данных на train и test
train_X, test_X, train_y, test_y = train_test_split(X, y)

lasso_regression = Lasso(alpha=0.1) # alpha — величина регуляризации

# обучение
lasso_regression.fit(train_X, train_y)

# предсказание результата
print(lasso_regression.predict(test_X))

# вывод точности предсказания
print(lasso_regression.score(test_X, test_y))

Байесовская регрессия

Байесовская линейная регрессия (англ. Bayesian linear regression) — подход в линейной регрессии, в котором предполагается что шум распределен нормально.

Логическая регрессия

См. также

Источники информации

@@ Строка 123: / Строка 123: @@
 # [https://ru.wikipedia.org/wiki/%D0%9C%D1%83%D0%BB%D1%8C%D1%82%D0%B8%D0%BA%D0%BE%D0%BB%D0%BB%D0%B8%D0%BD%D0%B5%D0%B0%D1%80%D0%BD%D0%BE%D1%81%D1%82%D1%8C Wikipedia {{---}} Мультиколлинеарность]
 # [http://www.ccas.ru/voron/download/Regression.pdf Лекции по алгоритмам восстановления регрессии К. В. Воронцов]
-# [http://statistica.ru/glossary/general/regressiya/ Словарь статистических терминов]
+# [https://habr.com/ru/company/ods/blog/322076/ Habr {{---}} Базовые принципы машинного обучения на примере линейной регрессии]
 [[Категория: Машинное обучение]]
 [[Категория: Регрессия]]

Вариации регрессии — различия между версиями

Версия 02:51, 24 января 2019

Содержание

Линейная регрессия

Логистическая регрессия

Гребневая регрессия (ридж-регрессия)

Мотивация

Описание

Пример кода для Scikit-learn

Лассо-регрессия

Описание

Пример кода для Scikit-learn

Байесовская регрессия

Логическая регрессия

См. также

Источники информации

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты