Вариации регрессии — различия между версиями
Penguinni (обсуждение | вклад) м |
Penguinni (обсуждение | вклад) (→Гребневая регрессия (ридж-регрессия)) |
||
Строка 26: | Строка 26: | ||
На практике чаще встречается проблема сильной корреляции между независимыми переменными. В этом случае оценки параметров модели получить можно, но они будут неустойчивыми. | На практике чаще встречается проблема сильной корреляции между независимыми переменными. В этом случае оценки параметров модели получить можно, но они будут неустойчивыми. | ||
− | === | + | ===Описание=== |
− | Напомним | + | Напомним задачу многомерной линейной регрессии: |
− | <tex>\beta | + | Рассматривается линейная зависимость <tex>f(x, \beta) = \langle \beta, x \rangle</tex>. |
+ | Находим вектор <tex>\beta^*</tex>, при котором достигается минимум среднего квадрата ошибки: | ||
+ | <center><tex>Q(\beta) = ||F \beta - y||^2</tex></center> | ||
+ | |||
+ | |||
+ | <center><tex>\beta^*=\arg \min\limits_\beta Q(\beta)</tex></center> | ||
+ | |||
+ | Методом наименьших квадратов находим решение: | ||
+ | <center><tex>\beta^* = (F^T F)^{-1} F^T y</tex></center> | ||
+ | |||
+ | В условиях мультиколлинеарности матрица <tex>F^T F</tex> становится плохо обусловленной. | ||
+ | |||
+ | Для решения этой проблемы добавим к функционалу <tex>Q</tex> регуляризационное слагаемое: | ||
+ | <center><tex>Q_{\tau}(\beta) = ||F \beta - y||^2 + \tau ||\beta||^2</tex>,</center> | ||
+ | где <tex>\tau</tex> {{---}} неотрицательный параметр. | ||
+ | |||
+ | Решением в этом случае будет | ||
+ | <center><tex>\beta^* = (F^T F + \tau I_n)^{-1} F^T y</tex></center> | ||
+ | |||
+ | Это изменение увеличивает собственные значения матрицы <tex>F^T F</tex>, но не изменяет ее собственные вектора. В результате имеем хорошо обусловленную матрицу. | ||
+ | |||
+ | Диагональная матрица <tex>\tau I_n</tex> называется '''гребнем'''. | ||
===Пример кода для Scikit-learn=== | ===Пример кода для Scikit-learn=== |
Версия 22:23, 23 января 2019
Регрессия (англ. Regression) — метод моделирования зависимости между зависимой переменной
и одной или несколькими независимыми переменными . В случае нескольких независимых переменных регрессия называется множественной (англ. multivariate regression). Цель регрессионного анализа состоит в том, чтобы оценить значение непрерывной выходной переменной по значениям входных переменных.Содержание
Линейная регрессия
Линейная регрессия (англ. Linear regression) — разновидность регрессии для моделирования линейной зависимости между зависимой и независимой переменными.
Логистическая регрессия
Логистическая регрессия (англ. Logistic regression) — разновидность регрессии для моделирования зависимости между зависимой и независимой переменными в случае, когда зависимая переменная
принимает значения в диапазоне от до .Гребневая регрессия (ридж-регрессия)
Гребневая регрессия или ридж-регрессия (англ. ridge regression) — один из методов понижения размерности. Применяется для борьбы с избыточностью данных, когда независимые переменные коррелируют друг с другом, вследствие чего проявляется неустойчивость оценок коэффициентов многомерной линейной регрессии.
Мотивация
Мультиколлинеарность (англ. multicollinearity) — наличие линейной зависимости между независимыми переменными регрессионной модели. Различают полную коллинеарность и частичную или просто мультиколлинеарность — наличие сильной корреляции между факторами.
Рассмотрим пример линейной модели:
. Пусть имеет место зависимость . Добавим к первому коэффициенту произвольное число , а из двух других коэффициентов это же число вычтем. Получаем (без случайной ошибки):
Несмотря на относительно произвольное изменение коэффициентов модели мы получили исходную модель, то есть такая модель неидентифицируема.
На практике чаще встречается проблема сильной корреляции между независимыми переменными. В этом случае оценки параметров модели получить можно, но они будут неустойчивыми.
Описание
Напомним задачу многомерной линейной регрессии: Рассматривается линейная зависимость
.Находим вектор
, при котором достигается минимум среднего квадрата ошибки:
Методом наименьших квадратов находим решение:
В условиях мультиколлинеарности матрица
становится плохо обусловленной.Для решения этой проблемы добавим к функционалу
регуляризационное слагаемое:где
— неотрицательный параметр.Решением в этом случае будет
Это изменение увеличивает собственные значения матрицы
, но не изменяет ее собственные вектора. В результате имеем хорошо обусловленную матрицу.Диагональная матрица
называется гребнем.Пример кода для Scikit-learn
Лассо-регрессия
Описание
Пример кода для Scikit-learn
Байесовская
Логическая регрессия
Другие виды регрессии
Экологическая регрессия
LAD-регрессия
Джекнайф-регрессия
См. также
- Общие понятия
- Линейная регрессия
- Логистическая регрессия
- Обзор библиотек для машинного обучения на Python
- Байесовская классификация
- Уменьшение размерности