Нормализация набора данных — различия между версиями
(Новая страница: «Применяются независимо к столбцу X Важно в sklearn.preprocessing есть метод normalize, но это не то, что…») |
|||
Строка 15: | Строка 15: | ||
После нормализации: <math>\mathbb{E}[X_{new}] = 0</math> и <math>\mathbb{D}[X_{new}] = 1</math> | После нормализации: <math>\mathbb{E}[X_{new}] = 0</math> и <math>\mathbb{D}[X_{new}] = 1</math> | ||
+ | |||
+ | = Декорреляция = | ||
+ | [[File:Декорреляция.png|300px|thumb|рис3]] | ||
+ | |||
+ | 1. Есть матрица X. | ||
+ | |||
+ | 2. Матрицу центрировали (<math>\mathbb{E}[X_j] = 0</math>). | ||
+ | |||
+ | 3. Ковариация вычисляется по следующей формуле: | ||
+ | |||
+ | <tex>\Sigma(X) = \dfrac{1}{N}X^TX</tex> | ||
+ | |||
+ | 4. Если же матрица нормализована так, что <math>\mathbb{D}[X_j] = 1</math>, то из произведения мы получим не ковариационную, а корреляционную матрицу | ||
+ | |||
+ | 5. Декорреляция вычисляется по формуле: | ||
+ | |||
+ | <tex>\hat{X} = X \times \sum^{-1/2}(X)</tex> | ||
+ | |||
+ | где <tex>\Sigma^{1/2}</tex> находится из разложения Холецкого | ||
+ | |||
+ | {{Утверждение | ||
+ | |statement=После декорреляции: <tex>\sum(\hat{X}) = I</tex> | ||
+ | |proof=<tex>\Sigma = \dfrac{X^TX}{n}</tex> | ||
+ | |||
+ | <tex>\hat{X} = X \times \Sigma^{-1/2}</tex> | ||
+ | |||
+ | <tex>\dfrac{\hat{X}^T\hat{X}}{n} = \dfrac{(X \times \Sigma^{-1/2})^T \times (X \times \Sigma^{-1/2})}{n} = \dfrac{\Sigma^{-T/2} \times X^T \times X \times \Sigma^{-1/2}}{n} = (\Sigma^{-T/2} \times \Sigma^{T/2})\times(\Sigma^{1/2}\times\Sigma^{-1/2}) = I \times I = I</tex>. | ||
+ | }} |
Версия 20:27, 29 июня 2022
Применяются независимо к столбцу X
Важно в sklearn.preprocessing есть метод normalize, но это не то, что нам нужно, он рассматривает нормализацию с геометрической точки зрения (представляет объект в виде вектора), а не по столбцам
Минмакс, [0;1] масштабирование
После нормализации:
и
Стандартизация, Z-масштабирование
После нормализации:
иДекорреляция
1. Есть матрица X.
2. Матрицу центрировали (
).3. Ковариация вычисляется по следующей формуле:
4. Если же матрица нормализована так, что
, то из произведения мы получим не ковариационную, а корреляционную матрицу5. Декорреляция вычисляется по формуле:
где
находится из разложения ХолецкогоУтверждение: |
После декорреляции: |
. |