Линейная регрессия — различия между версиями
(→Сингулярное разложение) |
|||
Строка 86: | Строка 86: | ||
=== Сингулярное разложение === | === Сингулярное разложение === | ||
+ | |||
+ | Воспользуемся понятием [https://ru.wikipedia.org/wiki/%D0%A1%D0%B8%D0%BD%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%BD%D0%BE%D0%B5_%D1%80%D0%B0%D0%B7%D0%BB%D0%BE%D0%B6%D0%B5%D0%BD%D0%B8%D0%B5/ сингулярного разложения ], которое позволяет произвольную прямоугольную матрицу представить в виде произведения трех матриц: | ||
+ | |||
+ | <tex> F = V D U^T </tex>. | ||
+ | |||
+ | Основные свойства сингулярного разложения: | ||
+ | |||
+ | * <tex> l \times n </tex>-матрица <tex> V = (v_1, \dots, v_n) </tex> ортогональна, <tex> V^T V = I_n </tex>, <br> столбцы <tex> v_j </tex> — собственные векторы матрицы <tex> F F^T </tex>; | ||
+ | * <tex> n \times n </tex>-матрица <tex> U = (u_1, \dots, u_n) </tex> ортогональна, <tex> U^T U = I_n </tex>, <br> столбцы <tex> u_j </tex> — собственные векторы матриц <tex> F^T F </tex>; | ||
+ | * <tex> n \times n </tex>-матрица <tex> D </tex> диагональна, <tex> D = diag(\sqrt{\lambda_1}, \dots, \sqrt{\lambda_n}) </tex>, <br> <tex> \lambda_j \geq 0 </tex> — собственные значения матриц <tex> F^T F </tex> и <tex> F F^T </tex>, <br> <tex> \sqrt{ \lambda_j } </tex> — сингулярные числа матрицы <tex> F </tex>. | ||
+ | |||
+ | === Решение МНК через сингулярное разложение === |
Версия 18:11, 11 марта 2019
Линейная регрессия (англ. linear regression) — метод восстановления зависимости одной (объясняемой, зависимой) переменной
от другой или нескольких других переменных (факторов, регрессоров, независимых переменных) с линейной функцией зависимости. Данный метод позволяет предсказывать значения зависимой переменной по значениям независимой переменной .Содержание
Задача
Дано
- - числовые признаки
- модель многомерной линейной регрессии:
где
- обучающая выборка: множество из пар
- - объекты из множества
- - объекты из множества
Матричные обозначения
Перейдем к матричным обозначениям:
, где
- - матрица объектов-признаков, где строки соответствуют объектам а столбцы - признакам
- - вектор ответов, или целевой вектор
- - вектор коэффициентов
Постановка задачи
В этих трех векторно-матричных обозначениях очень удобно расписать постановку задачи наименьших квадратов:
Необходимо найти вектор
при известной матрице и известном вектор-столбце .Решение
Нормальная система уравнений
Запишем необходимые условия минимума в матричном виде.
Отсюда следует нормальная система задачи МНК:
,
где
матрицаМы получили систему уравнений, откуда можем выразить искомый вектор
.Решение системы
.
Значение функционала:
,где
- проекционная матрицаПроблемы
В случае мультиколлинеарности (столбцы матрицы
линейно-зависимы) нам не удастся найти обратную матрицу к (она будет вырождена).Если же столбцы матрицы
почти линейно-зависимы, то у нас возникнет масса вычислительных проблем с обращением этой матрицы.Сингулярное разложение
Воспользуемся понятием сингулярного разложения , которое позволяет произвольную прямоугольную матрицу представить в виде произведения трех матриц:
.
Основные свойства сингулярного разложения:
-
столбцы — собственные векторы матрицы ;
-матрица ортогональна, , -
столбцы — собственные векторы матриц ;
-матрица ортогональна, , -
— собственные значения матриц и ,
— сингулярные числа матрицы . -матрица диагональна, ,