Процесс подготовки данных для дальнейшего анализа называется предобработка

Содержание

1 Нормализация
- 1.1 Базовые методы нормализации данных
2 Задача заполнения пропусков.

Нормализация

Набор данных на самом деле содержит в себе единицы измерения, которые возможно будут указаны в формальном описании. Эти единицы измерения отбрасываются, чтобы набор данных имел только число. Чтобы это сделать необходимо, чтобы все объекты были приведены к единому формату (всё в килограммах или всё в метрах)

//Пример про разницу машин

Базовые методы нормализации данных

Применяются независимо к столбцу X

Важно в sklearn.preprocessing есть метод normalize, но это не то, что нам нужно, он рассматривает нормализацию с геометрической точки зрения (представляет объект в виде вектора), а не по столбцам

Минмакс, [0;1] масштабирование

После нормализации: [math]min[X_{new}] = 0[/math] и [math]max[X_{new}] = 1[/math]

Стандартизация, Z-масштабирование

После нормализации: [math]E[X_{new}] = 0[/math] и [math]D[X_{new}] = 1[/math]

// == декорреляция == пока не нашёл

Задача заполнения пропусков.

Откуда берутся пропуски?

Решаем задачу поиска аномалий для столбцов. Когда находим аномальное значение в столбце. Можно сказать, что это не аномалия, а ошибка и его можно пометить как пропуск
2 набора данных объединяем(рис1(1 лекция, стр60)). Из-за того, что эти наборы данных немного разные(в разных наборах данных были разные признаки) и после объединения получатся пропуски.

// про разные скорости

Конвертировать разреженный набор данных в обычный. Недостающие значения сконцентрируются(3:45:26) в пропуски.//(Вы будете делать таблицу)

Как кодируются пропуски?

В CSV не стандартизировано, могут быть: “?”, “ “(пробел), “_”, любой другой символ или например две запятых подряд или пустая строка
В ARFF файле: “?”
В программе(Строка / объект): Null, None, пустая строка
В категории(кодирующейся от 0 до k-1): -1 или k
Число: NaN

Базовые решения:

Удалить
Заменить
Добавить

Если алгоритм делает что-то быстрее или умнее чем базовое решение, то утверждается, что алгоритм умеет работать с пропусками

Удаление

Если в столбце есть пропуск - берём и удаляем его из рассмотрения.

Можно удалять строки(объекты), НО могут возникнуть проблемы: если в столбце были пропуски в тренировочном наборе данных, то скорее всего в этом столбце они будут и в тестовом наборе.

Замена

Выделяют 2 подхода:

Общий подход:

Обучить модель, которая умеет учитывать пропуски, предсказывать значения текущего столбца. рис2(1 лекция, стр61, левый) Предполагаем, что второй объект ближе всего к четвёртому, поэтому скорость заполняем 160, а первый ближе к пятому, поэтому цвет заполняем красный

Частный случай:

заполнение средним арифметическим / модой рис2(1 лекция, стр61, правый)

//про zero-rule classification

Среднее арифметическое(230, 160, 80, 250) = 180

Мода(красный, синий, зелёный, синий) = синий

Константная замена

Применяется в случае, когда мы знаем, что кодирует пропуск

(например) разреженная таблица состоит из слов и количества вхождений этого слова в текст, если слово в тексте не встречалось, то на месте количества может стоять пропуск, что эквивалентно 0, если же храним встречалось или нет, то на месте пропуска может быть false

Добавление

Если признак категориальный - добавляем к нему новое значение "пропуск"(увеличиваем количество категорий на 1)
Если признак числовой - добавляем новый бинарный признак, было ли данное значение пропущено, а само значение заменять методами описанными выше

рис3(1 лекция, страница 62)

Отказ алгоритмов

(3:52:00) возвращение дата-сетов с пропусками

Задача предсказания и заполнения пропусков

Задачу заполнения пропусков можно свести к задаче предсказания рис4(1 лекция, страница 64 верхняя часть)

Есть набор данных, который условно разбит на train и test. Можно сказать, что значения test в столбце Y пропущены и вместо задачи обучения с учителем решать задачу заполнения пропусков.

В случае задачи обучения без учителя можно сказать, что все значения в столбце пропущены рис5(1 лекция, страница 64 справа снизу)

Обучение на привилегированных данных

Задача обучения с учителе, но к X даётся некоторый X', про который известно, что в тестовом множестве X' будет пропущен рис7(1 лекция, страница 66)

Базовые решения:

Не использовать X'
Обучить модель [math]a_1[/math] предсказывать X' по X. Затем обучить модель [math]a_2[/math] предсказывать Y по X и [math] a_1[/math](X)
Обучать предсказывать X' и Y.

(Пример) Предсказать результат футбольного матча(победа/поражение) Привелигированные данные: число голов, число красных/ жёлтых карточек

Обучение на частично размеченных данных

В тренировачном множестве только часть объектов имеют значение целевой переменной Y, у остальных объектов тренировочного и тестового множества значение Y пропущено. рис8(1 лекция, страница 67)

Базовое решение:

Не использовать объекты у которых пропущен целевой признак
Не использовать целевой признак для обучения. Размеченные объекты(с заданным Y) можно использовать для тестирования(как внешнюю меру)

//Активное обучение //Обучение с подкреплением

Предварительная обработка данных

Содержание

Нормализация

Базовые методы нормализации данных

Задача заполнения пропусков.

Откуда берутся пропуски?

Как кодируются пропуски?

Базовые решения:

Удаление

Замена

Общий подход:

Частный случай:

Константная замена

Добавление

Отказ алгоритмов

Задача предсказания и заполнения пропусков

Рекомендательные системы

Обучение на привилегированных данных

Обучение на частично размеченных данных

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты