Предварительная обработка данных — различия между версиями
м (rollbackEdits.php mass rollback) |
|||
Строка 1: | Строка 1: | ||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
= Типизация признаков = | = Типизация признаков = | ||
== Преобразование числа == | == Преобразование числа == |
Текущая версия на 19:30, 4 сентября 2022
Содержание
Типизация признаков
Преобразование числа
Обычно с числами довольно удобно работать и преобразовывают их достаточно редко.
Дискретизация
- Преобразование в порядковый признак. (берём в числах диапазоны и диапазонам сопоставляем категории)
- Преобразование в категориальный признак. (НО теряется информация о порядке)
Преобразование порядкового типа
- Преобразование в число(берём его порядковый номер)
- Преобразование в k бинарных категорий(если число значений конечно и равно k):
{ } - множество значений порядкового признака.(см. рис.1)
Преобразование категории
- Бинарную категорию можно преобразовать в число: или
- Категорию из k значений { } можно бинаризовать получив k бинарных категорий: (см. рис.2)(НО обратное преобразование иногда невозможно(получим много true и не понятно, к какой категории относить))
- One-hot encoding - преобразование категорий в числа (0, 1): one-hot
Нормализация данных
Набор данных содержит в себе единицы измерения, которые отбрасываются, чтобы набор данных был просто числами. Но чтобы далее работать, нам нужно, чтобы все объекты были приведены к единому формату. Подробнее читай тут
Аномалии в наборе данных
Аномалии - плохие объекты для построения нашей модели.
Задача поиска аномалий является отдельной задачей машинного обучения, про которую можно почитать здесь
Пропуски в наборе данных
Иногда в таблице с данными существую пустоты(они же пропуски), про работу с пропусками можно почитать тут