Викиконспекты - Вклад участника [ru]

Вариации регрессии

2019-01-24T08:33:50Z

188.170.80.236: /* Источники информации */

'''Регрессия''' (англ. ''Regression'') {{---}} метод моделирования зависимости между зависимой переменной <tex>y</tex> и одной или несколькими независимыми переменными <tex>x_1, x_2, \dots, x_n</tex>. В случае нескольких независимых переменных регрессия называется '''множественной''' (англ. ''multivariate regression''). Цель регрессионного анализа состоит в том, чтобы оценить значение непрерывной выходной переменной по значениям входных переменных.

==Линейная регрессия==
{{main|Линейная регрессия}}

'''Линейная регрессия''' (англ. ''Linear regression'') {{---}} разновидность регрессии для моделирования линейной зависимости между зависимой и независимой переменными.

==Логистическая регрессия==
{{main|Логистическая регрессия}}
'''Логистическая регрессия''' (англ. ''Logistic regression'') {{---}} разновидность регрессии для моделирования зависимости между зависимой и независимой переменными в случае, когда зависимая переменная <tex>y</tex> принимает значения в диапазоне от <tex>0</tex> до <tex>1</tex>.

==Гребневая регрессия (ридж-регрессия)==
'''Гребневая регрессия или ридж-регрессия''' (англ. ''ridge regression'') {{---}} один из методов [[Уменьшение размерности|понижения размерности]]. Применяется для борьбы с избыточностью данных, когда независимые переменные коррелируют друг с другом, вследствие чего проявляется неустойчивость оценок коэффициентов многомерной линейной регрессии.

===Мотивация===
{{Определение
|definition =
'''Мультиколлинеарность''' ''(англ. multicollinearity)'' {{---}} наличие линейной зависимости между независимыми переменными регрессионной модели. Различают ''полную коллинеарность'' и ''частичную'' или просто ''мультиколлинеарность'' {{---}} наличие сильной корреляции между факторами.
}}
Рассмотрим пример линейной модели: <tex>y = b_1 x_1 + b_2 x_2 + b_3 x_3 + \varepsilon</tex>.
Пусть имеет место зависимость <tex>x_1 = x_2 + x_ 3</tex>. Добавим к первому коэффициенту произвольное число <tex>a</tex>, а из двух других коэффициентов это же число вычтем.
Получаем (без случайной ошибки):

<tex>y = (b_1 + a)x_1 + (b_2 - a)x_2 + (b_3 - a)x_3 = b_1 x_1 + b_2 x_2 + b_3 x_3 + a(x_1 - x_2 - x_3) = b_1 x_1 + b_2 x_2 + b_3 x_3</tex>

Несмотря на относительно произвольное изменение коэффициентов модели мы получили исходную модель, то есть такая модель неидентифицируема.

На практике чаще встречается проблема сильной корреляции между независимыми переменными. В этом случае оценки параметров модели получить можно, но они будут неустойчивыми.

===Описание===
Напомним задачу многомерной линейной регрессии:
Рассматривается линейная зависимость <tex>f(x, \beta) = \langle \beta, x \rangle</tex>.

Находим вектор <tex>\beta^*</tex>, при котором достигается минимум среднего квадрата ошибки:
<center><tex>Q(\beta) = ||F \beta - y||^2</tex></center>

<center><tex>\beta^*=\arg \min\limits_\beta Q(\beta)</tex></center>

Методом наименьших квадратов находим решение:
<center><tex>\beta^* = (F^T F)^{-1} F^T y</tex></center>

В условиях мультиколлинеарности матрица <tex>F^T F</tex> становится плохо обусловленной.

Для решения этой проблемы добавим к функционалу <tex>Q</tex> регуляризационное слагаемое:
<center><tex>Q_{\lambda}(\beta) = ||F \beta - y||^2 + \lambda ||\beta||^2</tex>,</center>
где <tex>\lambda</tex> {{---}} неотрицательный параметр.

Решением в этом случае будет
<center><tex>\beta^* = (F^T F + \lambda I_n)^{-1} F^T y</tex></center>

Это изменение увеличивает собственные значения матрицы <tex>F^T F</tex>, но не изменяет ее собственные вектора. В результате имеем хорошо обусловленную матрицу.

Диагональная матрица <tex>\lambda I_n</tex> называется '''гребнем'''.

===Пример кода для Scikit-learn===
# Импорт библиотек
'''from''' sklearn.linear_model '''import''' Ridge
'''from''' sklearn.model_selection '''import''' train_test_split

X = ... # загрузка X
y = ... # загрузка y

# разделение данных на train и test
train_X, test_X, train_y, test_y = train_test_split(X, y)

ridge_regression = Ridge(alpha=0.1) # alpha {{---}} величина регуляризации

# обучение
ridge_regression.fit(train_X, train_y)

# предсказание результата
''print''(ridge_regression.predict(test_X))

# вывод точности предсказания
''print''(ridge_regression.score(test_X, test_y))

==Лассо-регрессия==
===Описание===
Метод регрессии лассо (англ. ''LASSO, Least Absolute Shrinkage and Selection Operator'') похож на гребневую регрессию:
<center><tex>Q_{\lambda}(\beta) = ||F \beta - y||^2 + \lambda ||\beta||</tex>,</center>
В ходе минимизации некоторые коэффициенты становятся равными нулю, что определяет отбор информативных признаков.

===Пример кода для Scikit-learn===
# Импорт библиотек
'''from''' sklearn.linear_model '''import''' Lasso
'''from''' sklearn.model_selection '''import''' train_test_split

X = ... # загрузка X
y = ... # загрузка y

# разделение данных на train и test
train_X, test_X, train_y, test_y = train_test_split(X, y)

lasso_regression = Lasso(alpha=0.1) # alpha {{---}} величина регуляризации

# обучение
lasso_regression.fit(train_X, train_y)

# предсказание результата
''print''(lasso_regression.predict(test_X))

# вывод точности предсказания
''print''(lasso_regression.score(test_X, test_y))

==Байесовская регрессия==
'''Байесовская линейная регрессия''' (англ. ''Bayesian linear regression'') {{---}} подход в линейной регрессии, в котором предполагается что шум распределен нормально.

Рассмотрим задачу линейной регрессии <tex>y = \overrightarrow{\beta}^T\overrightarrow{x} + \varepsilon</tex>, где <tex>\varepsilon_i \sim N(0, \sigma^2)</tex>.

В терминах вероятностей можно записать следующее:
<tex>p(y|\overrightarrow{x}, \overrightarrow{\beta}, \sigma^2) = N(y|\overrightarrow{\beta}^T \overrightarrow{x}), \sigma^2)</tex>

Будем предполагать, что данные независимы:
<center><tex>p(Y|X, \overrightarrow{\beta}, \sigma^2) = \prod\limits_{i=1}^n N(y_i|\overrightarrow{\beta}^T \overrightarrow{x}_i, \sigma^2)</tex></center>

Пролоарифмируем это выражение:
<tex>\ln p(Y|X, \overrightarrow{\beta}, \sigma^2) \\ = \ln \prod\limits_{i=1}^n N(y_i|\overrightarrow{\beta}^T \overrightarrow{x}_i, \sigma^2) \\ = \ln {\left( \frac{1}{(\sigma \sqrt{2 \pi})^n} \exp{(-\frac{1}{2 \sigma^2} \sum\limits_{i-1}^n (y_i - \overrightarrow{\beta}^T \overrightarrow{x_i})^2)}\right )} \\ = -\frac{n}{2} \ln{2 \pi \sigma^2} - \frac{1}{2\sigma^2} \sum\limits_{i=1}^n (y_i-\overrightarrow{\beta}^T \overrightarrow{x}_i)^2</tex>

Из оценки макимального правдоподобия мы получили оценку по методу наименьших квадратов.

==Логическая регрессия==
Частный случай логистической регрессии, когда все переменные имеют двоичную природу.

==См. также==
* [[Общие понятия]]
* [[Линейная регрессия]]
* [[Логистическая регрессия]]
* [[Обзор библиотек для машинного обучения на Python]]
* [[Байесовская классификация]]
* [[Уменьшение размерности]]

==Источники информации==
* [http://datareview.info/article/10-tipov-regressii-kakoy-vyibrat/ 10 типов регрессии {{---}} какой выбрать?]
* [http://www.machinelearning.ru/wiki/index.php?title=%D0%9B%D0%B8%D0%BD%D0%B5%D0%B9%D0%BD%D0%B0%D1%8F_%D1%80%D0%B5%D0%B3%D1%80%D0%B5%D1%81%D1%81%D0%B8%D1%8F_%28%D0%BF%D1%80%D0%B8%D0%BC%D0%B5%D1%80%29 machinelearning.ru {{---}} Линейная регрессия (пример)]
* [http://www.machinelearning.ru/wiki/index.php?title=%D0%A0%D0%B8%D0%B4%D0%B6-%D1%80%D0%B5%D0%B3%D1%80%D0%B5%D1%81%D1%81%D0%B8%D1%8F machinelearning.ru {{---}} Ридж-регрессия]
* [https://ru.wikipedia.org/wiki/%D0%9C%D1%83%D0%BB%D1%8C%D1%82%D0%B8%D0%BA%D0%BE%D0%BB%D0%BB%D0%B8%D0%BD%D0%B5%D0%B0%D1%80%D0%BD%D0%BE%D1%81%D1%82%D1%8C Wikipedia {{---}} Мультиколлинеарность]
* [http://www.ccas.ru/voron/download/Regression.pdf Лекции по алгоритмам восстановления регрессии К. В. Воронцов]
* [https://habr.com/ru/company/ods/blog/322076/ Habr {{---}} Базовые принципы машинного обучения на примере линейной регрессии]

[[Категория: Машинное обучение]]
[[Категория: Регрессия]]

Вариации регрессии

2019-01-24T08:33:21Z

188.170.80.236: /* Источники информации */

'''Регрессия''' (англ. ''Regression'') {{---}} метод моделирования зависимости между зависимой переменной <tex>y</tex> и одной или несколькими независимыми переменными <tex>x_1, x_2, \dots, x_n</tex>. В случае нескольких независимых переменных регрессия называется '''множественной''' (англ. ''multivariate regression''). Цель регрессионного анализа состоит в том, чтобы оценить значение непрерывной выходной переменной по значениям входных переменных.

==Линейная регрессия==
{{main|Линейная регрессия}}

'''Линейная регрессия''' (англ. ''Linear regression'') {{---}} разновидность регрессии для моделирования линейной зависимости между зависимой и независимой переменными.

==Логистическая регрессия==
{{main|Логистическая регрессия}}
'''Логистическая регрессия''' (англ. ''Logistic regression'') {{---}} разновидность регрессии для моделирования зависимости между зависимой и независимой переменными в случае, когда зависимая переменная <tex>y</tex> принимает значения в диапазоне от <tex>0</tex> до <tex>1</tex>.

==Гребневая регрессия (ридж-регрессия)==
'''Гребневая регрессия или ридж-регрессия''' (англ. ''ridge regression'') {{---}} один из методов [[Уменьшение размерности|понижения размерности]]. Применяется для борьбы с избыточностью данных, когда независимые переменные коррелируют друг с другом, вследствие чего проявляется неустойчивость оценок коэффициентов многомерной линейной регрессии.

===Мотивация===
{{Определение
|definition =
'''Мультиколлинеарность''' ''(англ. multicollinearity)'' {{---}} наличие линейной зависимости между независимыми переменными регрессионной модели. Различают ''полную коллинеарность'' и ''частичную'' или просто ''мультиколлинеарность'' {{---}} наличие сильной корреляции между факторами.
}}
Рассмотрим пример линейной модели: <tex>y = b_1 x_1 + b_2 x_2 + b_3 x_3 + \varepsilon</tex>.
Пусть имеет место зависимость <tex>x_1 = x_2 + x_ 3</tex>. Добавим к первому коэффициенту произвольное число <tex>a</tex>, а из двух других коэффициентов это же число вычтем.
Получаем (без случайной ошибки):

<tex>y = (b_1 + a)x_1 + (b_2 - a)x_2 + (b_3 - a)x_3 = b_1 x_1 + b_2 x_2 + b_3 x_3 + a(x_1 - x_2 - x_3) = b_1 x_1 + b_2 x_2 + b_3 x_3</tex>

Несмотря на относительно произвольное изменение коэффициентов модели мы получили исходную модель, то есть такая модель неидентифицируема.

На практике чаще встречается проблема сильной корреляции между независимыми переменными. В этом случае оценки параметров модели получить можно, но они будут неустойчивыми.

===Описание===
Напомним задачу многомерной линейной регрессии:
Рассматривается линейная зависимость <tex>f(x, \beta) = \langle \beta, x \rangle</tex>.

Находим вектор <tex>\beta^*</tex>, при котором достигается минимум среднего квадрата ошибки:
<center><tex>Q(\beta) = ||F \beta - y||^2</tex></center>

<center><tex>\beta^*=\arg \min\limits_\beta Q(\beta)</tex></center>

Методом наименьших квадратов находим решение:
<center><tex>\beta^* = (F^T F)^{-1} F^T y</tex></center>

В условиях мультиколлинеарности матрица <tex>F^T F</tex> становится плохо обусловленной.

Для решения этой проблемы добавим к функционалу <tex>Q</tex> регуляризационное слагаемое:
<center><tex>Q_{\lambda}(\beta) = ||F \beta - y||^2 + \lambda ||\beta||^2</tex>,</center>
где <tex>\lambda</tex> {{---}} неотрицательный параметр.

Решением в этом случае будет
<center><tex>\beta^* = (F^T F + \lambda I_n)^{-1} F^T y</tex></center>

Это изменение увеличивает собственные значения матрицы <tex>F^T F</tex>, но не изменяет ее собственные вектора. В результате имеем хорошо обусловленную матрицу.

Диагональная матрица <tex>\lambda I_n</tex> называется '''гребнем'''.

===Пример кода для Scikit-learn===
# Импорт библиотек
'''from''' sklearn.linear_model '''import''' Ridge
'''from''' sklearn.model_selection '''import''' train_test_split

X = ... # загрузка X
y = ... # загрузка y

# разделение данных на train и test
train_X, test_X, train_y, test_y = train_test_split(X, y)

ridge_regression = Ridge(alpha=0.1) # alpha {{---}} величина регуляризации

# обучение
ridge_regression.fit(train_X, train_y)

# предсказание результата
''print''(ridge_regression.predict(test_X))

# вывод точности предсказания
''print''(ridge_regression.score(test_X, test_y))

==Лассо-регрессия==
===Описание===
Метод регрессии лассо (англ. ''LASSO, Least Absolute Shrinkage and Selection Operator'') похож на гребневую регрессию:
<center><tex>Q_{\lambda}(\beta) = ||F \beta - y||^2 + \lambda ||\beta||</tex>,</center>
В ходе минимизации некоторые коэффициенты становятся равными нулю, что определяет отбор информативных признаков.

===Пример кода для Scikit-learn===
# Импорт библиотек
'''from''' sklearn.linear_model '''import''' Lasso
'''from''' sklearn.model_selection '''import''' train_test_split

X = ... # загрузка X
y = ... # загрузка y

# разделение данных на train и test
train_X, test_X, train_y, test_y = train_test_split(X, y)

lasso_regression = Lasso(alpha=0.1) # alpha {{---}} величина регуляризации

# обучение
lasso_regression.fit(train_X, train_y)

# предсказание результата
''print''(lasso_regression.predict(test_X))

# вывод точности предсказания
''print''(lasso_regression.score(test_X, test_y))

==Байесовская регрессия==
'''Байесовская линейная регрессия''' (англ. ''Bayesian linear regression'') {{---}} подход в линейной регрессии, в котором предполагается что шум распределен нормально.

Рассмотрим задачу линейной регрессии <tex>y = \overrightarrow{\beta}^T\overrightarrow{x} + \varepsilon</tex>, где <tex>\varepsilon_i \sim N(0, \sigma^2)</tex>.

В терминах вероятностей можно записать следующее:
<tex>p(y|\overrightarrow{x}, \overrightarrow{\beta}, \sigma^2) = N(y|\overrightarrow{\beta}^T \overrightarrow{x}), \sigma^2)</tex>

Будем предполагать, что данные независимы:
<center><tex>p(Y|X, \overrightarrow{\beta}, \sigma^2) = \prod\limits_{i=1}^n N(y_i|\overrightarrow{\beta}^T \overrightarrow{x}_i, \sigma^2)</tex></center>

Пролоарифмируем это выражение:
<tex>\ln p(Y|X, \overrightarrow{\beta}, \sigma^2) \\ = \ln \prod\limits_{i=1}^n N(y_i|\overrightarrow{\beta}^T \overrightarrow{x}_i, \sigma^2) \\ = \ln {\left( \frac{1}{(\sigma \sqrt{2 \pi})^n} \exp{(-\frac{1}{2 \sigma^2} \sum\limits_{i-1}^n (y_i - \overrightarrow{\beta}^T \overrightarrow{x_i})^2)}\right )} \\ = -\frac{n}{2} \ln{2 \pi \sigma^2} - \frac{1}{2\sigma^2} \sum\limits_{i=1}^n (y_i-\overrightarrow{\beta}^T \overrightarrow{x}_i)^2</tex>

Из оценки макимального правдоподобия мы получили оценку по методу наименьших квадратов.

==Логическая регрессия==
Частный случай логистической регрессии, когда все переменные имеют двоичную природу.

==См. также==
* [[Общие понятия]]
* [[Линейная регрессия]]
* [[Логистическая регрессия]]
* [[Обзор библиотек для машинного обучения на Python]]
* [[Байесовская классификация]]
* [[Уменьшение размерности]]

==Источники информации==
* [http://datareview.info/article/10-tipov-regressii-kakoy-vyibrat/ 10 типов регрессии {{---}} какой выбрать?]
* [http://www.machinelearning.ru/wiki/index.php?title=%D0%9B%D0%B8%D0%BD%D0%B5%D0%B9%D0%BD%D0%B0%D1%8F_%D1%80%D0%B5%D0%B3%D1%80%D0%B5%D1%81%D1%81%D0%B8%D1%8F_%28%D0%BF%D1%80%D0%B8%D0%BC%D0%B5%D1%80%29 machinelearning.ru {{---}} Линейная регрессия (пример)]
* [http://www.machinelearning.ru/wiki/index.php?title=%D0%A0%D0%B8%D0%B4%D0%B6-%D1%80%D0%B5%D0%B3%D1%80%D0%B5%D1%81%D1%81%D0%B8%D1%8F machinelearning.ru {{---}} Ридж-регрессия]
* [https://ru.wikipedia.org/wiki/%D0%9C%D1%83%D0%BB%D1%8C%D1%82%D0%B8%D0%BA%D0%BE%D0%BB%D0%BB%D0%B8%D0%BD%D0%B5%D0%B0%D1%80%D0%BD%D0%BE%D1%81%D1%82%D1%8C Wikipedia {{---}} Мультиколлинеарность]
* [http://www.ccas.ru/voron/download/Regression.pdf Лекции по алгоритмам восстановления регрессии К. В. Воронцов]
# [https://habr.com/ru/company/ods/blog/322076/ Habr {{---}} Базовые принципы машинного обучения на примере линейной регрессии]

[[Категория: Машинное обучение]]
[[Категория: Регрессия]]