Нормализация набора данных — различия между версиями
(Новая страница: «Применяются независимо к столбцу X Важно в sklearn.preprocessing есть метод normalize, но это не то, что…») |
м (rollbackEdits.php mass rollback) |
||
(не показаны 4 промежуточные версии 2 участников) | |||
Строка 1: | Строка 1: | ||
− | + | Набор данных содержит в себе единицы измерения, которые отбрасываются, чтобы набор данных был просто числами. Но чтобы далее работать, нам нужно, чтобы все объекты были приведены к единому формату. С этим и помогает '''нормализация'''. | |
+ | |||
+ | Нормализация применяется независимо к столбцу X. | ||
Важно в sklearn.preprocessing есть метод normalize, но это не то, что нам нужно, он рассматривает нормализацию с геометрической точки зрения | Важно в sklearn.preprocessing есть метод normalize, но это не то, что нам нужно, он рассматривает нормализацию с геометрической точки зрения | ||
− | (представляет объект в виде вектора), а не по столбцам | + | (представляет объект в виде вектора), а не по столбцам. |
Строка 15: | Строка 17: | ||
После нормализации: <math>\mathbb{E}[X_{new}] = 0</math> и <math>\mathbb{D}[X_{new}] = 1</math> | После нормализации: <math>\mathbb{E}[X_{new}] = 0</math> и <math>\mathbb{D}[X_{new}] = 1</math> | ||
+ | |||
+ | = Декорреляция = | ||
+ | Процесс, который используется для уменьшения корреляции. | ||
+ | [[File:Декорреляция.png|300px|thumb|рис.1 Декорреляция]] | ||
+ | |||
+ | 1. Есть матрица X. | ||
+ | |||
+ | 2. Матрицу центрировали (<math>\mathbb{E}[X_j] = 0</math>). | ||
+ | |||
+ | 3. Ковариация вычисляется по следующей формуле: | ||
+ | |||
+ | <tex>\Sigma(X) = \dfrac{1}{N}X^TX</tex> | ||
+ | |||
+ | 4. Если же матрица нормализована так, что <math>\mathbb{D}[X_j] = 1</math>, то из произведения мы получим не ковариационную, а корреляционную матрицу | ||
+ | |||
+ | 5. Декорреляция вычисляется по формуле: | ||
+ | |||
+ | <tex>\hat{X} = X \times \sum^{-1/2}(X)</tex> | ||
+ | |||
+ | где <tex>\Sigma^{1/2}</tex> находится из разложения Холецкого | ||
+ | |||
+ | {{Утверждение | ||
+ | |statement=После декорреляции: <tex>\sum(\hat{X}) = I</tex> | ||
+ | |proof=<tex>\Sigma = \dfrac{X^TX}{n}</tex> | ||
+ | |||
+ | <tex>\hat{X} = X \times \Sigma^{-1/2}</tex> | ||
+ | |||
+ | <tex>\dfrac{\hat{X}^T\hat{X}}{n} = \dfrac{(X \times \Sigma^{-1/2})^T \times (X \times \Sigma^{-1/2})}{n} = \dfrac{\Sigma^{-T/2} \times X^T \times X \times \Sigma^{-1/2}}{n} = (\Sigma^{-T/2} \times \Sigma^{T/2})\times(\Sigma^{1/2}\times\Sigma^{-1/2}) = I \times I = I</tex>. | ||
+ | }} |
Текущая версия на 19:32, 4 сентября 2022
Набор данных содержит в себе единицы измерения, которые отбрасываются, чтобы набор данных был просто числами. Но чтобы далее работать, нам нужно, чтобы все объекты были приведены к единому формату. С этим и помогает нормализация.
Нормализация применяется независимо к столбцу X.
Важно в sklearn.preprocessing есть метод normalize, но это не то, что нам нужно, он рассматривает нормализацию с геометрической точки зрения (представляет объект в виде вектора), а не по столбцам.
Минмакс, [0;1] масштабирование
После нормализации:
и
Стандартизация, Z-масштабирование
После нормализации:
иДекорреляция
Процесс, который используется для уменьшения корреляции.
1. Есть матрица X.
2. Матрицу центрировали (
).3. Ковариация вычисляется по следующей формуле:
4. Если же матрица нормализована так, что
, то из произведения мы получим не ковариационную, а корреляционную матрицу5. Декорреляция вычисляется по формуле:
где
находится из разложения ХолецкогоУтверждение: |
После декорреляции: |
. |