Изменения

Перейти к: навигация, поиск

Линейная регрессия

1595 байт добавлено, 09:31, 12 марта 2019
Проблема мультиколлинеарности и переобучения
В 3-х из 4-х формул сингулярные числа оказались в знаменателе. Если имеются сингулярные числа приближающиеся к 0, то мы получаем проблему мультиколлинеарности. Близкие к 0 собственные значения или сингулярные числа — показатель того, что среди признаков есть почти линейно-зависимый.
 
== Проблема мультиколлинеарности и переобучения ==
 
Если имеются сингулярные числа, близкие к 0, то:
 
* матрица <tex> \sum = F^T F </tex> плохо обусловлена;
* решение становится неустойчивым и неинтерпретируемым, слишком большие коэффициенты <tex> || \alpha_j || </tex> разных знаков;
* возникает переобучение: <br> на обучении <tex> Q( \alpha^*, X^l ) = ||F \alpha^* - y||^2 </tex> мало; <br> на контроле <tex> Q( \alpha^*, X^k ) = ||F' \alpha^* - y'||^2 </tex> велико.
 
Стратегии устранения мультиколлинеарности и переобучения:
 
* отбор признаков, то есть выкидываем те признаки, которые могут оказаться линейно-зависимыми: <br> <tex> f_1, \dots, f_n \rightarrow f_{j_1} \dots, f_{j_m}, m \leq n </tex>;
* регуляризация (накладываем дополнительные ограничения на вектор коэффициентов): <br> || \alpha || \rightarrow min </tex>;
* преобразование признаков, чтобы в новом признаковом пространстве признаков оказалось меньше, но они хорошо восстанавливали бы исходные: <br> <tex> f_1, \dots, f_n \rightarrow g_1 \dots, g_m, m \ll n </tex>.
Анонимный участник

Навигация