Изменения

Перейти к: навигация, поиск

Вариации регрессии

71 байт добавлено, 00:12, 22 февраля 2019
Описание
[[Файл: Ridge_and_Lasso_Regression.png|400px|thumb|Рис.1. Сравнение Лассо- и Ридж- регрессии, пример для двумерного пространства независимых переменных.<br/>Бирюзовые области изображают ограничения на коэффициенты <tex>\beta</tex>, эллипсы {{---}} некоторые значения функции наименьшей квадратичной ошибки.]]
'''Метод регрессии лассо''' (англ. ''LASSO, Least Absolute Shrinkage and Selection Operator'') похож на гребневую регрессию, но он использует другое ограничение на коэффициенты <tex>\beta</tex>: <tex>||\overrightarrow{\beta}||_1 \leq t</tex> Функционал <tex>Q</tex> принимает следующий вид:
<center><tex>Q_{\lambda}(\beta) = ||F \beta - y||^2 + \lambda ||\beta||</tex>,</center>
В ходе минимизации некоторые коэффициенты становятся равными нулю, что определяет отбор информативных признаков.
Различия Основное различие лассо- и ридж-регрессии заключается в том, что первая может приводить к обращению некоторых независимых переменных в ноль, тогда как вторая уменьшает их до значений, близких к нулю. Рассмотрим для простоты двумерное пространство независимых переменных. В случае ридж-регрессии органичение на коэффициенты представляют собой круг (<tex>\beta_1^2 + \beta_2^2 \leq t^2</tex>), в случае лассо-регрессии {{---}} ромб (<tex>|\beta_1| + |\beta_2| \leq t</tex>). Необходимо минимизировать функцию ошибки, но при этом соблюсти ограничения на коэффициенты. С геометрической точки зрения задача состоит в том, чтобы найти точку касания линии, отражающей функцию ошибки с фигурой, отражающей ограничения на <tex>\beta</tex>. Из рисунка 1 интуитивно понятно, что в случае лассо-регрессии эта точка с большой вероятностью будет находиться на углах ромба, то есть лежать на оси, тогда как в случае ридж-регрессии такое происходит очень редко. Если точка пересечения лежит на оси, один из коэффициентов будет равен нулю, а значит, значение соответствующей независимой переменной не будет учитываться.
===Пример кода для Scikit-learn===
276
правок

Навигация