Нормализация набора данных — различия между версиями
(Новая страница: «Применяются независимо к столбцу X Важно в sklearn.preprocessing есть метод normalize, но это не то, что…») |
м (rollbackEdits.php mass rollback) |
||
| (не показаны 4 промежуточные версии 2 участников) | |||
| Строка 1: | Строка 1: | ||
| − | + | Набор данных содержит в себе единицы измерения, которые отбрасываются, чтобы набор данных был просто числами. Но чтобы далее работать, нам нужно, чтобы все объекты были приведены к единому формату. С этим и помогает '''нормализация'''. | |
| + | |||
| + | Нормализация применяется независимо к столбцу X. | ||
Важно в sklearn.preprocessing есть метод normalize, но это не то, что нам нужно, он рассматривает нормализацию с геометрической точки зрения | Важно в sklearn.preprocessing есть метод normalize, но это не то, что нам нужно, он рассматривает нормализацию с геометрической точки зрения | ||
| − | (представляет объект в виде вектора), а не по столбцам | + | (представляет объект в виде вектора), а не по столбцам. |
| Строка 15: | Строка 17: | ||
После нормализации: <math>\mathbb{E}[X_{new}] = 0</math> и <math>\mathbb{D}[X_{new}] = 1</math> | После нормализации: <math>\mathbb{E}[X_{new}] = 0</math> и <math>\mathbb{D}[X_{new}] = 1</math> | ||
| + | |||
| + | = Декорреляция = | ||
| + | Процесс, который используется для уменьшения корреляции. | ||
| + | [[File:Декорреляция.png|300px|thumb|рис.1 Декорреляция]] | ||
| + | |||
| + | 1. Есть матрица X. | ||
| + | |||
| + | 2. Матрицу центрировали (<math>\mathbb{E}[X_j] = 0</math>). | ||
| + | |||
| + | 3. Ковариация вычисляется по следующей формуле: | ||
| + | |||
| + | <tex>\Sigma(X) = \dfrac{1}{N}X^TX</tex> | ||
| + | |||
| + | 4. Если же матрица нормализована так, что <math>\mathbb{D}[X_j] = 1</math>, то из произведения мы получим не ковариационную, а корреляционную матрицу | ||
| + | |||
| + | 5. Декорреляция вычисляется по формуле: | ||
| + | |||
| + | <tex>\hat{X} = X \times \sum^{-1/2}(X)</tex> | ||
| + | |||
| + | где <tex>\Sigma^{1/2}</tex> находится из разложения Холецкого | ||
| + | |||
| + | {{Утверждение | ||
| + | |statement=После декорреляции: <tex>\sum(\hat{X}) = I</tex> | ||
| + | |proof=<tex>\Sigma = \dfrac{X^TX}{n}</tex> | ||
| + | |||
| + | <tex>\hat{X} = X \times \Sigma^{-1/2}</tex> | ||
| + | |||
| + | <tex>\dfrac{\hat{X}^T\hat{X}}{n} = \dfrac{(X \times \Sigma^{-1/2})^T \times (X \times \Sigma^{-1/2})}{n} = \dfrac{\Sigma^{-T/2} \times X^T \times X \times \Sigma^{-1/2}}{n} = (\Sigma^{-T/2} \times \Sigma^{T/2})\times(\Sigma^{1/2}\times\Sigma^{-1/2}) = I \times I = I</tex>. | ||
| + | }} | ||
Текущая версия на 19:32, 4 сентября 2022
Набор данных содержит в себе единицы измерения, которые отбрасываются, чтобы набор данных был просто числами. Но чтобы далее работать, нам нужно, чтобы все объекты были приведены к единому формату. С этим и помогает нормализация.
Нормализация применяется независимо к столбцу X.
Важно в sklearn.preprocessing есть метод normalize, но это не то, что нам нужно, он рассматривает нормализацию с геометрической точки зрения (представляет объект в виде вектора), а не по столбцам.
Минмакс, [0;1] масштабирование
После нормализации: и
Стандартизация, Z-масштабирование
После нормализации: и
Декорреляция
Процесс, который используется для уменьшения корреляции.
1. Есть матрица X.
2. Матрицу центрировали ().
3. Ковариация вычисляется по следующей формуле:
4. Если же матрица нормализована так, что , то из произведения мы получим не ковариационную, а корреляционную матрицу
5. Декорреляция вычисляется по формуле:
где находится из разложения Холецкого
| Утверждение: |
После декорреляции: |
|
. |