Линейная регрессия
Линейная регрессия (англ. linear regression) — метод восстановления зависимости одной (объясняемой, зависимой) переменной от другой или нескольких других переменных (факторов, регрессоров, независимых переменных) с линейной функцией зависимости. Данный метод позволяет предсказывать значения зависимой переменной по значениям независимой переменной .
Содержание
Задача
Дано
- - числовые признаки
- модель многомерной линейной регрессии:
где
- обучающая выборка: множество из пар
- - объекты из множества
- - объекты из множества
Матричные обозначения
Перейдем к матричным обозначениям:
, где
- - матрица объектов-признаков, где строки соответствуют объектам а столбцы - признакам
- - вектор ответов, или целевой вектор
- - вектор коэффициентов
Постановка задачи
В этих трех векторно-матричных обозначениях очень удобно расписать постановку задачи наименьших квадратов:
Необходимо найти вектор при известной матрице и известном вектор-столбце .
Решение
Нормальная система уравнений
Запишем необходимые условия минимума в матричном виде.
Отсюда следует нормальная система задачи МНК:
,
где матрица
Мы получили систему уравнений, откуда можем выразить искомый вектор .
Решение системы
, 
 где  — псевдо-обратная матрица.
Значение функционала: , 
 где  - проекционная матрица
Проблемы
В случае мультиколлинеарности (столбцы матрицы линейно-зависимы) нам не удастся найти обратную матрицу к (она будет вырождена).
Если же столбцы матрицы почти линейно-зависимы, то у нас возникнет масса вычислительных проблем с обращением этой матрицы.
Сингулярное разложение
Воспользуемся понятием сингулярного разложения , которое позволяет произвольную прямоугольную матрицу представить в виде произведения трех матриц:
.
Основные свойства сингулярного разложения:
-  -матрица  ортогональна, ,  
 столбцы — собственные векторы матрицы ;
-  -матрица  ортогональна, , 
 столбцы — собственные векторы матриц ;
-  -матрица  диагональна, , 
 — собственные значения матриц и ,
 — сингулярные числа матрицы .
Решение МНК через сингулярное разложение
Найдем псевдо-обратную матрицу: 
 .
Теперь зная псевдо-обратную матрицу, найдем решение задачи наименьших квадратов: 
 .
Найдем вектор, которым наша линейная модель аппроксимирует целевой вектор : 
 .
Квадрат нормы вектора коэффициентов: 
 .
В 3-х из 4-х формул сингулярные числа оказались в знаменателе. Если имеются сингулярные числа приближающиеся к 0, то мы получаем проблему мультиколлинеарности. Близкие к 0 собственные значения или сингулярные числа — показатель того, что среди признаков есть почти линейно-зависимый.
