Вариации регрессии — различия между версиями
Penguinni (обсуждение | вклад) м (→Логическая регрессия) |
Penguinni (обсуждение | вклад) (→Гребневая регрессия (ридж-регрессия)) |
||
Строка 10: | Строка 10: | ||
'''Логистическая регрессия''' (англ. ''Logistic regression'') {{---}} разновидность регрессии для моделирования зависимости между зависимой и независимой переменными в случае, когда зависимая переменная <tex>y</tex> принимает значения в диапазоне от <tex>0</tex> до <tex>1</tex>. | '''Логистическая регрессия''' (англ. ''Logistic regression'') {{---}} разновидность регрессии для моделирования зависимости между зависимой и независимой переменными в случае, когда зависимая переменная <tex>y</tex> принимает значения в диапазоне от <tex>0</tex> до <tex>1</tex>. | ||
− | ===Гребневая регрессия | + | ==Гребневая регрессия (ридж-регрессия)== |
− | ==== | + | '''Гребневая регрессия или ридж-регрессия''' (англ. ''ridge regression'') {{---}} один из методов [[Уменьшение размерности|понижения размерности]]. Применяется для борьбы с избыточностью данных, когда независимые переменные коррелируют друг с другом, вследствие чего проявляется неустойчивость оценок коэффициентов многомерной линейной регрессии. |
− | ====Пример кода для Scikit-learn | + | |
+ | ===Мотивация=== | ||
+ | '''Мультиколлинеарность''' ''(англ. multicollinearity)'' {{---}} наличие линейной зависимости между независимыми переменными регрессионной модели. Различают ''полную коллинеарность'' и ''частичную'' или просто ''мультиколлинеарность'' {{---}} наличие сильной корреляции между факторами. | ||
+ | |||
+ | Рассмотрим пример линейной модели: <tex>y = b_1 x_1 + b_2 x_2 + b_3 x_3 + \varepsilon</tex>. | ||
+ | Пусть имеет место зависимость <tex>x_1 = x_2 + x_ 3</tex>. Добавим к первому коэффициенту произвольное число <tex>a</tex>, а из двух других коэффициентов это же число вычтем. | ||
+ | Получаем (без случайной ошибки): | ||
+ | |||
+ | <tex>y = (b_1 + a)x_1 + (b_2 - a)x_2 + (b_3 - a)x_3 = b_1 x_1 + b_2 x_2 + b_3 x_3 + a(x_1 - x_2 - x_3) = b_1 x_1 + b_2 x_2 + b_3 x_3</tex> | ||
+ | |||
+ | Несмотря на относительно произвольное изменение коэффициентов модели мы получили исходную модель, то есть такая модель неидентифицируема. | ||
+ | |||
+ | На практике чаще встречается проблема сильной корреляции между независимыми переменными. В этом случае оценки параметров модели получить можно, но они будут неустойчивыми. | ||
+ | |||
+ | ===Идея=== | ||
+ | Напомним решение для многомерной линейной регрессии: | ||
+ | <tex>\alpha* = (F^T F)^{-1} F^T y = F^+ y</tex> | ||
+ | |||
+ | |||
+ | ===Пример кода для Scikit-learn=== | ||
===Лассо-регрессия=== | ===Лассо-регрессия=== |
Версия 19:49, 23 января 2019
Регрессия (англ. Regression) — метод моделирования зависимости между зависимой переменной
и одной или несколькими независимыми переменными . В случае нескольких независимых переменных регрессия называется множественной (англ. multivariate regression). Цель регрессионного анализа состоит в том, чтобы оценить значение непрерывной выходной переменной по значениям входных переменных.Содержание
Линейная регрессия
Линейная регрессия (англ. Linear regression) — разновидность регрессии для моделирования линейной зависимости между зависимой и независимой переменными.
Логистическая регрессия
Логистическая регрессия (англ. Logistic regression) — разновидность регрессии для моделирования зависимости между зависимой и независимой переменными в случае, когда зависимая переменная
принимает значения в диапазоне от до .Гребневая регрессия (ридж-регрессия)
Гребневая регрессия или ридж-регрессия (англ. ridge regression) — один из методов понижения размерности. Применяется для борьбы с избыточностью данных, когда независимые переменные коррелируют друг с другом, вследствие чего проявляется неустойчивость оценок коэффициентов многомерной линейной регрессии.
Мотивация
Мультиколлинеарность (англ. multicollinearity) — наличие линейной зависимости между независимыми переменными регрессионной модели. Различают полную коллинеарность и частичную или просто мультиколлинеарность — наличие сильной корреляции между факторами.
Рассмотрим пример линейной модели:
. Пусть имеет место зависимость . Добавим к первому коэффициенту произвольное число , а из двух других коэффициентов это же число вычтем. Получаем (без случайной ошибки):
Несмотря на относительно произвольное изменение коэффициентов модели мы получили исходную модель, то есть такая модель неидентифицируема.
На практике чаще встречается проблема сильной корреляции между независимыми переменными. В этом случае оценки параметров модели получить можно, но они будут неустойчивыми.
Идея
Напомним решение для многомерной линейной регрессии:
Пример кода для Scikit-learn
Лассо-регрессия
Описание
Пример кода для Scikit-learn
Байесовская
Логическая регрессия
Другие виды регрессии
Экологическая регрессия
LAD-регрессия
Джекнайф-регрессия
См. также
- Общие понятия
- Линейная регрессия
- Логистическая регрессия
- Обзор библиотек для машинного обучения на Python
- Байесовская классификация
- Уменьшение размерности