Изменения

← Предыдущая правка

Предварительная обработка данных

6096 байт убрано, 19:30, 4 сентября 2022

м

rollbackEdits.php mass rollback

~~Процесс подготовки данных для дальнейшего анализа называется '''предобработка'''~~= Типизация признаков === Преобразование числа ==Обычно с числами довольно удобно работать и преобразовывают их достаточно редко.

~~= Нормализация =~~'''Дискретизация'''~~Набор данных на самом деле содержит~~ * Преобразование в себе единицы измерения, которые возможно будут указаны в формальном описании. Эти единицы измерения отбрасываются, чтобы набор данных имел только числопорядковый признак.~~Чтобы это сделать необходимо, чтобы все объекты были приведены к единому формату~~ (~~всё~~ берём в ~~килограммах или всё~~ числах диапазоны и диапазонам сопоставляем категории)* Преобразование в ~~метрах~~категориальный признак. ('''НО''' теряется информация о порядке)~~//Пример про разницу машин~~

== ~~Базовые методы нормализации данных~~ Преобразование порядкового типа ==~~Применяются независимо к столбцу X~~[[File:Преобразование_порядкового_типа_в_k_категорий.png|250px|thumb|рис.1 Преобразование порядкового типа в 3 категории A, B, C : (A<B<C)]]

~~Важно~~ * Преобразование в sklearn.preprocessing есть метод normalize, но это не то, что нам нужно, он рассматривает нормализацию с геометрической точки зрениячисло(берём его порядковый номер)* Преобразование в k бинарных категорий(~~представляет объект в виде вектора~~если число значений конечно и равно k)~~, а не по столбцам~~:

~~'''Минмакс~~<tex>c_i(ord) := (ord < ord_i), ~~[0;1] масштабирование'''~~ где </tex> x_{~~new} = \dfrac{x_{old} - min[X]}{max[X] - min[X]}~~<tex>ord_1, ..., ord_k</tex>} - множество значений порядкового признака.(см. рис.1)

~~После нормализации~~== Преобразование категории ==[[File: Преобразование_небинарной_категории_в_бинарную.png|250px|thumb|рис.2 Преобразование небинарной категории в бинарную (A<B<~~math>min[X_{new}~~C)] ~~= 0</math> и <math>max[X_{new}~~] ~~= 1</math>~~

* Бинарную категорию можно преобразовать в число: <tex>c_1 \Rightarrow 0, c_2 \Rightarrow 1</tex> или <tex>c_1 \Rightarrow -1, c_2 \Rightarrow +1</tex>

* Категорию из k значений {<tex>c_1, ..., c_k</tex>} можно '''бинаризовать''' получив k бинарных категорий:<tex>b_i(c) := (c = c_i)</tex>(см. рис.2)('''НО''' обратное преобразование иногда невозможно(получим много true и не понятно, к какой категории относить))

* One-hot encoding - преобразование категорий в числа (0, 1): one-hot<tex>_i(c) = [c = c_i]</tex>

~~'''Стандартизация, Z-масштабирование'''<tex> x_{new}~~ = ~~\dfrac{x_{old} - E[X]}{D[X]}</tex>~~Нормализация данных =

~~После нормализации~~Набор данных содержит в себе единицы измерения, которые отбрасываются, чтобы набор данных был просто числами. Но чтобы далее работать, нам нужно, чтобы все объекты были приведены к единому формату. Подробнее читай [http: ~~<math>E[X_{new}]~~ //neerc.ifmo.ru/wiki/index.php?title= ~~0</math> и <math>D[X_{new}~~Нормализация_набора_данных тут] ~~= 1</math>~~

// =Аномалии в наборе данных = ~~декорреляция == пока не нашёл~~

~~= Задача заполнения пропусков~~Аномалии - плохие объекты для построения нашей модели. =

~~== Откуда берутся пропуски? ==~~*Решаем задачу Задача поиска аномалий ~~для столбцов. Когда находим аномальное значение в столбце. Можно сказать~~является отдельной задачей машинного обучения, ~~что это не аномалия, а ошибка и его~~ про которую можно ~~пометить как пропуск~~*2 набора данных объединяем(рис1(1 лекция, стр60)). Из-за того, что эти наборы данных немного разные(в разных наборах данных были разные признаки) и после объединения получатся пропуски.почитать [http:// ~~про разные скорости~~ *Конвертировать разреженный набор данных в обычныйneerc. ~~Недостающие значения сконцентрируются(3:45:26) в пропуски~~ifmo.ru/wiki/~~(Вы будете делать таблицу)~~index.php?title=поиск_аномалий здесь]

=Пропуски в наборе данных = ~~Как кодируются пропуски? ==~~*В CSV не стандартизировано, могут быть: “?”, “ “(пробел), “_”, любой другой символ или например две запятых подряд или пустая строка*В ARFF файле: “?”*В программе(Строка / объект): Null, None, пустая строка*В категории(кодирующейся от 0 до k-1): -1 или k*Число: NaN

~~== Базовые решения: ==~~*Удаление*Заменить*Добавить Если алгоритм делает что-то быстрее или умнее чем базовое решение, то утверждается, что '''алгоритм умеет работать Иногда в таблице с ~~пропусками'''~~ ~~=== Удаление ===Если в столбце есть пропуск - берём и удаляем его из рассмотрения.~~ ~~Можно удалять строки~~данными существую пустоты(объекты), '''НО''' могут возникнуть проблемы: если в столбце были пропуски в тренировочном наборе данных, то скорее всего в этом столбце они ~~будут и в тестовом наборе.~~ ~~=== Замена ===Выделяют 2 подхода:==== Общий подход: ====Обучить модель, которая умеет учитывать~~ же пропуски~~, предсказывать значения текущего столбца.рис2(1 лекция, стр61, левый~~)~~Предполагаем~~, ~~что второй объект ближе всего к четвёртому, поэтому скорость заполняем 160,~~ ~~а первый ближе к пятому, поэтому цвет заполняем красный~~ ~~==== Частный случай: ====~~ ~~заполнение средним арифметическим / модойрис2(1 лекция, стр61, правый)~~//про ~~zero-rule classificationСреднее арифметическое(230, 160, 80, 250) = 180Мода(красный, синий, зелёный, синий) = синий~~ ~~==== Константная замена ====Применяется в случае, когда мы знаем, что кодирует пропуск~~(например) разреженная таблица состоит из слов и количества вхождений этого слова в текст, если слово в тексте не встречалось, то на месте количества может стоять пропуск, что эквивалентно 0, если же храним встречалось или нет, то на месте пропуска может быть false ~~=== Добавление ===~~Если признак категориальный - добавляем к нему новое значение "пропуск"(увеличиваем количество категорий на 1)Если признак числовой - добавляем новый бинарный признак, было ли данное значение пропущено, а само значение заменять методами описанными выше~~рис3(1 лекция, страница 62)~~ ~~== Отказ алгоритмов ==~~ ~~(3:52:00) возвращение дата-сетов~~ работу с пропусками ~~== Задача предсказания и заполнения пропусков ==Задачу заполнения пропусков можно свести к задаче предсказаниярис4(1 лекция, страница 64 верхняя часть)~~Есть набор данных, который условно разбит на train и test. Можно сказать, что значения test в столбце Y пропущены и вместо задачи обучения с учителем решать задачу заполнения пропусков. ~~В случае задачи обучения без учителя можно сказать, что все значения в столбце пропущенырис5(1 лекция, страница 64 справа снизу)~~ ~~== Рекомендательные системы =='''Коллаборативная(совместная) фильтрация'''~~ Есть множество пользователей и множество предметов, которые эти пользователи оценят. Нужно понять, как определённый пользователь оценит предмет, который до этого не оценивал.~~рис6(1 лекция, страница 65)Эта задача не решается методами заполнения пропуска. Но методами рекомендательной систем~~ можно ~~решить задачу заполнения пропусков.~~ ~~== Обучение на привилегированных данных ==~~Задача обучения с учителе, но к X даётся некоторый X', про который известно, что в тестовом множестве X' будет пропущен ~~рис7(1 лекция, страница 66)Базовые решения~~почитать [http:*Не использовать X'*Обучить модель <math>a_1</~~math> предсказывать X' по X~~/neerc. ~~Затем обучить модель <math>a_2<~~ifmo.ru/~~math> предсказывать Y по X и <math> a_1<~~wiki/~~math>(X)~~*Обучать предсказывать X' и Yindex.~~(Пример)~~ ~~Предсказать результат футбольного матча(победа/поражение)Привелигированные данные: число голов, число красных/ жёлтых карточек~~ php?title=~~= Обучение на частично размеченных данных ==~~В тренировачном множестве только часть объектов имеют значение целевой переменной Y, у остальных объектов тренировочного и тестового множества значение Y пропущено.~~рис8(1 лекция, страница 67)~~ ~~Базовое решение:~~*Не использовать объекты у которых пропущен целевой признак*Не использовать целевой признак для обучения. Размеченные объекты(с заданным Y) можно использовать для тестирования(как внешнюю меру) ~~//Активное обучение//Обучение с подкреплением~~Работа_с_пропусками_в_наборе_данных тут]

Maintenance script

1632

правки

Изменения

Предварительная обработка данных

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты