Предварительная обработка данных

Материал из Викиконспекты
Перейти к: навигация, поиск

Базовые методы нормализации данных

Применяются независимо к столбцу X

Важно в sklearn.preprocessing есть метод normalize, но это не то, что нам нужно, он рассматривает нормализацию с геометрической точки зрения (представляет объект в виде вектора), а не по столбцам


Минмакс, [0;1] масштабирование xnew=xoldmin[X]max[X]min[X]

После нормализации: min[Xnew]=0 и max[Xnew]=1


Стандартизация, Z-масштабирование xnew=xoldE[X]D[X]

После нормализации: E[Xnew]=0 и D[Xnew]=1

Декорреляция

1. Есть матрица X.

2. Матрицу центрировали (E[Xj]=0).

3. Ковариация вычисляется по следующей формуле:

Σ(X)=1NXTX

4. Если же матрица нормализована так, что D[Xj]=1, то из произведения мы получим не ковариационную, а корреляционную матрицу

5. Декорреляция вычисляется по формуле:

ˆX=X×1/2(X)

где Σ1/2 находится из разложения Холецкого

Утверждение:
После декорреляции: (ˆX)=I

Σ=XTXn

ˆX=X×Σ1/2

ˆXTˆXn=(XΣ1/2)T(XΣ1/2)n=ΣT/2XTXΣ1/2n==(ΣT/2ΣT/2)(Σ1/2Σ1/2)=II=I.