Линейная регрессия — различия между версиями

Версия 19:21, 19 марта 2019

Линейная регрессия (англ. linear regression) — метод восстановления зависимости одной (объясняемой, зависимой) переменной [math] y [/math] от другой или нескольких других переменных (факторов, регрессоров, независимых переменных) [math] x [/math] с линейной функцией зависимости. Данный метод позволяет предсказывать значения зависимой переменной [math] y [/math] по значениям независимой переменной [math] x [/math].

Содержание

1 Задача
2 Решение
- 2.1 Нормальная система уравнений
  - 2.1.1 Решение системы
  - 2.1.2 Проблемы
- 2.2 Решение МНК через сингулярное разложение
3 Проблема мультиколлинеарности и переобучения
4 Пример кода для Scikit-learn
5 Применение
6 См. также
7 Источники информации

Задача

Дано

[math] f_1(x), \dots ,f_n(x) [/math] — числовые признаки;
модель многомерной линейной регрессии:
,
где [math] a \in R^n [/math];
обучающая выборка: множество из пар [math](x_i, y_i)_{i=1 \dots n}[/math];
[math] x_i [/math] — объекты из множества [math] X = R^n [/math];
[math] y_i [/math] — объекты из множества [math] X = R [/math].

Матричные обозначения

Перейдем к матричным обозначениям:

, где

[math] F [/math] — матрица объектов-признаков, где строки соответствуют объектам а столбцы — признакам;
[math] y [/math] — вектор ответов, или целевой вектор;
[math] \alpha [/math] — вектор коэффициентов.

Постановка задачи

В этих трех векторно-матричных обозначениях очень удобно расписать постановку задачи наименьших квадратов:

.

Необходимо найти вектор [math] \alpha [/math] при известной матрице [math] F [/math] и известном вектор-столбце [math] y [/math].

Решение

Нормальная система уравнений

Запишем необходимые условия минимума в матричном виде.

.

Отсюда следует нормальная система задачи МНК:

[math] F^T F \alpha = F^T y [/math],

где [math] F^T F — n \times n [/math] матрица.

Мы получили систему уравнений, откуда можем выразить искомый вектор [math] \alpha [/math].

Решение системы

,
где [math] F^+ [/math] — псевдо-обратная матрица.

Значение функционала: ,
где — проекционная матрица.

Проблемы

В случае мультиколлинеарности (столбцы матрицы [math] F [/math] линейно-зависимы) нам не удастся найти обратную матрицу к [math] F^T F [/math] (она будет вырождена).

Если же столбцы матрицы [math] F [/math] почти линейно-зависимы, то у нас возникнет масса вычислительных проблем с обращением этой матрицы.

Решение МНК через сингулярное разложение

Воспользуемся понятием сингулярного разложения , которое позволяет произвольную прямоугольную матрицу представить в виде произведения трех матриц:

[math] F = V D U^T [/math].

Найдем псевдо-обратную матрицу:
.

Теперь зная псевдо-обратную матрицу, найдем решение задачи наименьших квадратов:
.

Найдем вектор, которым наша линейная модель аппроксимирует целевой вектор [math] y [/math]:
.

Квадрат нормы вектора коэффициентов:
.

В 3-х из 4-х формул сингулярные числа оказались в знаменателе. Если имеются сингулярные числа приближающиеся к 0, то мы получаем проблему мультиколлинеарности. Близкие к 0 собственные значения или сингулярные числа — показатель того, что среди признаков есть почти линейно-зависимый.

Проблема мультиколлинеарности и переобучения

Если имеются сингулярные числа, близкие к 0, то:

матрица [math] \sum = F^T F [/math] плохо обусловлена;
решение становится неустойчивым и неинтерпретируемым, слишком большие коэффициенты [math] || \alpha_j || [/math] разных знаков;
возникает переобучение:
на обучении мало;
на контроле велико.

Стратегии устранения мультиколлинеарности и переобучения:

отбор признаков, то есть выкидываем те признаки, которые могут оказаться линейно-зависимыми:
;
регуляризация (накладываем дополнительные ограничения на вектор коэффициентов):
;
преобразование признаков, чтобы в новом признаковом пространстве признаков оказалось меньше, но они хорошо восстанавливали бы исходные:
.

Пример кода для Scikit-learn

import matplotlib.pyplot as plt
from sklearn import datasets, linear_model

# generate dataset
X, y = datasets.make_regression(n_samples=1_000, n_features=1, noise=8, shuffle=True)

# test and train data sizes
train_size = 700
test_size = 300

# split the data into training/testing sets
X_train = X[:-train_size]
X_test = X[-test_size:]

# split the targets into training/testing sets
y_train = y[:-train_size]
y_test = y[-test_size:]

# create linear regression object
regr = linear_model.LinearRegression()

# train the model using the training sets
regr.fit(X_train, y_train)

# make predictions using the testing set
y_pred = regr.predict(X_test)

# plot outputs
plt.scatter(X_test, y_test, color='red', s=5)
plt.plot(X_test, y_pred, color='blue', linewidth=2)
 
plt.xticks(())
plt.yticks(())

plt.show()

Возможный результат исполнения программы:

Применение

Перечислим несколько примеров реального применения линейной регрессии:

для предсказания скидки на продукты на основе поведения покупателей в прошлом;
экономисты использую линейную регрессия для предсказания экономического роста страны или региона;
застройщики при помощи данного метода могут предсказать, сколько домов он продаст в ближайшие месяцы и по какой цене;
цены на нефть могут быть предсказаны с использованием линейной регрессии.

См. также

Источники информации

@@ Строка 5: / Строка 5: @@
 ==== Дано ====
-* <tex> f_1(x), \dots ,f_n(x) </tex> - числовые признаки
+* <tex> f_1(x), \dots ,f_n(x) </tex> — числовые признаки;
-* модель многомерной линейной регрессии: <br> <tex> f(x,\alpha) = \sum\limits_{j=1}^n \alpha_j f_j(x) </tex>, <br> где <tex> a \in R^n </tex>
+* модель многомерной линейной регрессии: <br> <tex> f(x,\alpha) = \sum\limits_{j=1}^n \alpha_j f_j(x) </tex>, <br> где <tex> a \in R^n </tex>;
-* обучающая выборка: множество из пар <tex>(x_i, y_i)_{i=1 \dots n}</tex>
+* обучающая выборка: множество из пар <tex>(x_i, y_i)_{i=1 \dots n}</tex>;
-* <tex> x_i </tex> - объекты из множества <tex> X = R^n </tex>
+* <tex> x_i </tex> — объекты из множества <tex> X = R^n </tex>;
-* <tex> y_i </tex> - объекты из множества <tex> X = R </tex>
+* <tex> y_i </tex> — объекты из множества <tex> X = R </tex>.
 ==== Матричные обозначения ====
@@ Строка 42: / Строка 42: @@
 , где
-* <tex> F </tex> - матрица объектов-признаков, где строки соответствуют объектам а столбцы - признакам
+* <tex> F </tex> — матрица объектов-признаков, где строки соответствуют объектам а столбцы — признакам;
-* <tex> y </tex> - вектор ответов, или целевой вектор
+* <tex> y </tex> — вектор ответов, или целевой вектор;
-* <tex> \alpha </tex> - вектор коэффициентов
+* <tex> \alpha </tex> — вектор коэффициентов.
 ==== Постановка задачи ====
@@ Строка 50: / Строка 50: @@
 В этих трех векторно-матричных обозначениях очень удобно расписать постановку задачи наименьших квадратов:
-<tex> Q(\alpha, X^l) = \sum\limits_{i=1}^n (f(x_i, \alpha) - y_i)^2 = || F\alpha - y ||^2 \rightarrow \underset{\alpha}{min} </tex>
+<tex> Q(\alpha, X^l) = \sum\limits_{i=1}^n (f(x_i, \alpha) - y_i)^2 = || F\alpha - y ||^2 \rightarrow \underset{\alpha}{min} </tex>.
 Необходимо найти вектор <tex> \alpha </tex> при известной матрице <tex> F </tex> и известном вектор-столбце <tex> y </tex>.
@@ Строка 60: / Строка 60: @@
 Запишем необходимые условия минимума в матричном виде.
-<tex> \frac{\partial Q }{\partial \alpha } (\alpha) = 2F^T (F\alpha - y) = 0 </tex>
+<tex> \frac{\partial Q }{\partial \alpha } (\alpha) = 2F^T (F\alpha - y) = 0 </tex>.
 Отсюда следует нормальная система задачи МНК:
@@ Строка 66: / Строка 66: @@
 <tex> F^T F \alpha = F^T y </tex>,
-где <tex> F^T F - n \times n </tex> матрица
+где <tex> F^T F — n \times n </tex> матрица.
 Мы получили систему уравнений, откуда можем выразить искомый вектор <tex> \alpha </tex>.
@@ Строка 73: / Строка 73: @@
 <tex> \alpha^* = (F^T F)^{-1} F^T y = F^+ y </tex>, <br> где <tex> F^+ </tex> — псевдо-обратная матрица.
-Значение функционала: <tex> Q(\alpha^*) = ||P_F y - y||^2 </tex>, <br> где <tex> P_F = F F^+ = F (F^T F)^{-1} F^T </tex> - ''проекционная матрица''
+Значение функционала: <tex> Q(\alpha^*) = ||P_F y - y||^2 </tex>, <br> где <tex> P_F = F F^+ = F (F^T F)^{-1} F^T </tex> — ''проекционная матрица''.
 ==== Проблемы ====
@@ Строка 81: / Строка 81: @@
 Если же столбцы матрицы <tex> F </tex> почти линейно-зависимы, то у нас возникнет масса вычислительных проблем с обращением этой матрицы.
-=== Сингулярное разложение ===
+=== Решение МНК через сингулярное разложение ===
-Воспользуемся понятием [https://ru.wikipedia.org/wiki/%D0%A1%D0%B8%D0%BD%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%BD%D0%BE%D0%B5_%D1%80%D0%B0%D0%B7%D0%BB%D0%BE%D0%B6%D0%B5%D0%BD%D0%B8%D0%B5/ сингулярного разложения ], которое позволяет произвольную прямоугольную матрицу представить в виде произведения трех матриц:
+Воспользуемся понятием [[ Сингулярное разложение | сингулярного разложения ]], которое позволяет произвольную прямоугольную матрицу представить в виде произведения трех матриц:
 <tex> F = V D U^T </tex>.
-Основные свойства сингулярного разложения:
-* <tex> l \times n </tex>-матрица <tex> V = (v_1, \dots, v_n) </tex> ортогональна, <tex> V^T V = I_n </tex>,  <br> столбцы <tex> v_j </tex> — собственные векторы матрицы <tex> F F^T </tex>;
-* <tex> n \times n </tex>-матрица <tex> U = (u_1, \dots, u_n) </tex> ортогональна, <tex> U^T U = I_n </tex>, <br> столбцы <tex> u_j </tex> — собственные векторы матриц <tex> F^T F </tex>;
-* <tex> n \times n </tex>-матрица <tex> D </tex> диагональна, <tex> D = diag(\sqrt{\lambda_1}, \dots, \sqrt{\lambda_n}) </tex>, <br> <tex> \lambda_j \geq 0 </tex> — собственные значения матриц <tex> F^T F </tex> и <tex> F F^T </tex>, <br> <tex> \sqrt{ \lambda_j } </tex> — сингулярные числа матрицы <tex> F </tex>.
-=== Решение МНК через сингулярное разложение ===
 Найдем псевдо-обратную матрицу: <br> <tex> F^+ = (U D V^T V D U^T)^{-1} U D V^T = U D^{-1} V^T = \sum\limits_{j=1}^n \frac{ 1 }{ \sqrt{ \lambda_j } } u_j v_j^T </tex>.
@@ Строка 160: / Строка 152: @@
 [[Файл: Linear_regression_example.png]]
+==Применение==
+Перечислим несколько примеров реального применения линейной регрессии:
+* для предсказания скидки на продукты на основе поведения покупателей в прошлом;
+* экономисты использую линейную регрессия для предсказания экономического роста страны или региона;
+* застройщики при помощи данного метода могут предсказать, сколько домов он продаст в ближайшие месяцы и по какой цене;
+* цены на нефть могут быть предсказаны с использованием линейной регрессии.
 ==См. также==
@@ Строка 167: / Строка 168: @@
 * [[Логистическая регрессия]]
 * [[Обзор библиотек для машинного обучения на Python]]
+* [[Переобучение]]
 ==Источники информации==
@@ Строка 174: / Строка 176: @@
 * [http://www.ccas.ru/voron/download/Regression.pdf Лекции по алгоритмам восстановления регрессии К. В. Воронцов]
 * [https://scikit-learn.org/stable/auto_examples/linear_model/plot_ols.html#sphx-glr-auto-examples-linear-model-plot-ols-py Scikit-Learn {{---}} Linear Regression Example]
+* [https://www.quora.com/What-are-some-real-world-applications-of-simple-linear-regression What are some real-world applications of "simple" linear regression?]
 [[Категория: Машинное обучение]]
 [[Категория: Регрессия]]