Предварительная обработка данных
Набор данных на самом деле содержит в себе единицы измерения, которые возможно будут указаны в формальном описании. Эти единицы измерения отбрасываются, чтобы набор данных имел только число. Чтобы это сделать необходимо, чтобы все объекты были приведены к единому формату (всё в килограммах или всё в метрах)
Базовые методы нормализации данных
Применяются независимо к столбцу X
Важно в sklearn.preprocessing есть метод normalize, но это не то, что нам нужно, он рассматривает нормализацию с геометрической точки зрения (представляет объект в виде вектора), а не по столбцам
Минмакс, [0;1] масштабирование
После нормализации:
и
Стандартизация, Z-масштабирование
После нормализации:
иДекорреляция
1. Есть матрица X.
2. Матрицу центрировали (
).3. Ковариация вычисляется по следующей формуле:
4. Если же матрица нормализована так, что
, то из произведения мы получим не ковариационную, а корреляционную матрицу5. Декорреляция вычисляется по формуле:
где
находится из разложения ХолецкогоУтверждение: |
После декорреляции: |
. |