Вариации регрессии — различия между версиями
Penguinni (обсуждение | вклад) м (→Источники информации) |
Penguinni (обсуждение | вклад) (→Байесовская регрессия) |
||
Строка 106: | Строка 106: | ||
==Байесовская регрессия== | ==Байесовская регрессия== | ||
'''Байесовская линейная регрессия''' (англ. ''Bayesian linear regression'') {{---}} подход в линейной регрессии, в котором предполагается что шум распределен нормально. | '''Байесовская линейная регрессия''' (англ. ''Bayesian linear regression'') {{---}} подход в линейной регрессии, в котором предполагается что шум распределен нормально. | ||
+ | |||
+ | Рассмотрим задачу линейной регрессии <tex>y = \overrightarrow{\beta}^T\overrightarrow{x} + \varepsilon</tex>, где <tex>\varepsilon_i \sim N(0, \sigma^2)</tex>. | ||
+ | |||
+ | В терминах вероятностей можно записать следующее: | ||
+ | <tex>p(y|\overrightarrow{x}, \overrightarrow{\beta}, \sigma^2) = N(y|\overrightarrow{\beta}^T \overrightarrow{x}), \sigma^2)</tex> | ||
+ | |||
+ | Будем предполагать, что данные независимы: | ||
+ | <center><tex>p(Y|X, \overrightarrow{\beta}, \sigma^2) = \prod\limits_{i=1}^n N(y_i|\overrightarrow{\beta}^T \overrightarrow{x}_i, \sigma^2)</tex></center> | ||
+ | |||
+ | Пролоарифмируем это выражение: | ||
+ | <tex>\ln p(Y|X, \overrightarrow{\beta}, \sigma^2) \\ = \ln \prod\limits_{i=1}^n N(y_i|\overrightarrow{\beta}^T \overrightarrow{x}_i, \sigma^2) \\ = \ln {\left( \frac{1}{(\sigma \sqrt{2 \pi})^n} \exp{(-\frac{1}{2 \sigma^2} \sum\limits_{i-1}^n (y_i - \overrightarrow{\beta}^T \overrightarrow{x_i})^2)}\right )} \\ = -\frac{n}{2} \ln{2 \pi \sigma^2} - \frac{1}{2\sigma^2} \sum\limits_{i=1}^n (y_i-\overrightarrow{\beta}^T \overrightarrow{x}_i)^2</tex> | ||
+ | |||
+ | Из оценки макимального правдоподобия мы получили оценку по методу наименьших квадратов. | ||
==Логическая регрессия== | ==Логическая регрессия== |
Версия 03:33, 24 января 2019
Регрессия (англ. Regression) — метод моделирования зависимости между зависимой переменной
и одной или несколькими независимыми переменными . В случае нескольких независимых переменных регрессия называется множественной (англ. multivariate regression). Цель регрессионного анализа состоит в том, чтобы оценить значение непрерывной выходной переменной по значениям входных переменных.Содержание
Линейная регрессия
Линейная регрессия (англ. Linear regression) — разновидность регрессии для моделирования линейной зависимости между зависимой и независимой переменными.
Логистическая регрессия
Логистическая регрессия (англ. Logistic regression) — разновидность регрессии для моделирования зависимости между зависимой и независимой переменными в случае, когда зависимая переменная
принимает значения в диапазоне от до .Гребневая регрессия (ридж-регрессия)
Гребневая регрессия или ридж-регрессия (англ. ridge regression) — один из методов понижения размерности. Применяется для борьбы с избыточностью данных, когда независимые переменные коррелируют друг с другом, вследствие чего проявляется неустойчивость оценок коэффициентов многомерной линейной регрессии.
Мотивация
Определение: |
Мультиколлинеарность (англ. multicollinearity) — наличие линейной зависимости между независимыми переменными регрессионной модели. Различают полную коллинеарность и частичную или просто мультиколлинеарность — наличие сильной корреляции между факторами. |
Рассмотрим пример линейной модели:
. Пусть имеет место зависимость . Добавим к первому коэффициенту произвольное число , а из двух других коэффициентов это же число вычтем. Получаем (без случайной ошибки):
Несмотря на относительно произвольное изменение коэффициентов модели мы получили исходную модель, то есть такая модель неидентифицируема.
На практике чаще встречается проблема сильной корреляции между независимыми переменными. В этом случае оценки параметров модели получить можно, но они будут неустойчивыми.
Описание
Напомним задачу многомерной линейной регрессии: Рассматривается линейная зависимость
.Находим вектор
, при котором достигается минимум среднего квадрата ошибки:
Методом наименьших квадратов находим решение:
В условиях мультиколлинеарности матрица
становится плохо обусловленной.Для решения этой проблемы добавим к функционалу
регуляризационное слагаемое:где
— неотрицательный параметр.Решением в этом случае будет
Это изменение увеличивает собственные значения матрицы
, но не изменяет ее собственные вектора. В результате имеем хорошо обусловленную матрицу.Диагональная матрица
называется гребнем.Пример кода для Scikit-learn
# Импорт библиотек from sklearn.linear_model import Ridge from sklearn.model_selection import train_test_split X = ... # загрузка X y = ... # загрузка y # разделение данных на train и test train_X, test_X, train_y, test_y = train_test_split(X, y) ridge_regression = Ridge(alpha=0.1) # alpha — величина регуляризации # обучение ridge_regression.fit(train_X, train_y) # предсказание результата print(ridge_regression.predict(test_X)) # вывод точности предсказания print(ridge_regression.score(test_X, test_y))
Лассо-регрессия
Описание
Метод регрессии лассо (англ. LASSO, Least Absolute Shrinkage and Selection Operator) похож на гребневую регрессию:
В ходе минимизации некоторые коэффициенты становятся равными нулю, что определяет отбор информативных признаков.
Пример кода для Scikit-learn
# Импорт библиотек from sklearn.linear_model import Lasso from sklearn.model_selection import train_test_split X = ... # загрузка X y = ... # загрузка y # разделение данных на train и test train_X, test_X, train_y, test_y = train_test_split(X, y) lasso_regression = Lasso(alpha=0.1) # alpha — величина регуляризации # обучение lasso_regression.fit(train_X, train_y) # предсказание результата print(lasso_regression.predict(test_X)) # вывод точности предсказания print(lasso_regression.score(test_X, test_y))
Байесовская регрессия
Байесовская линейная регрессия (англ. Bayesian linear regression) — подход в линейной регрессии, в котором предполагается что шум распределен нормально.
Рассмотрим задачу линейной регрессии
, где .В терминах вероятностей можно записать следующее:
Будем предполагать, что данные независимы:
Пролоарифмируем это выражение:
Из оценки макимального правдоподобия мы получили оценку по методу наименьших квадратов.
Логическая регрессия
См. также
- Общие понятия
- Линейная регрессия
- Логистическая регрессия
- Обзор библиотек для машинного обучения на Python
- Байесовская классификация
- Уменьшение размерности