Изменения

← Предыдущая правка

Работа с пропусками в наборе данных

1463 байта добавлено, 19:13, 4 сентября 2022

м

rollbackEdits.php mass rollback

= Откуда берутся пропуски? =

[[File:Пропуски1.png|300px|thumb|рис.1 Объединение 2 наборов данных]]

*Решаем задачу поиска аномалий для столбцов. Когда находим аномальное значение в столбце. Можно сказать, что это не аномалия, а ошибка и его можно пометить как пропуск

*Объединяем 2 набора данных (см. ~~рис1~~рис.1). Из-за того, что эти наборы данных немного разные(в разных наборах данных были разные признаки) после объединения получатся пропуски.*Подали разреженный набор данных. Недостающие значения <tex>- </tex> пропуски.

= Как кодируются пропуски? =

*В CSV не стандартизировано, могут быть: “«?”», ~~“ “~~« »(пробел), ~~“_”~~«_», любой другой символ, будь то две запятых подряд или пустая строка*В ARFF файле: “«?”»

*В программе(Строка / объект): Null, None, пустая строка

*В категории(кодирующейся от 0 до k-1): -1 или k

== Удаление ==

Если в столбце есть пропуск <tex>- </tex> берём и удаляем его из рассмотрения.

Можно удалять строки(объекты), '''НО''' могут возникнуть проблемы: если в столбце были пропуски в тренировочном наборе данных, то скорее всего в этом столбце пропуски будут и в тестовом наборе.

Выделяют 3 подхода:

=== Общий подход: ===

[[File:Пропуски2.png|300px|thumb|рис.2 Пример реализации '''общего''' подхода замены пропусков]]

Обучить модель, которая умеет учитывать пропуски, предсказывать значения текущего столбца.

На примере с ~~рис2~~рис. ~~Предполагаем~~2 предполагаем, что второй объект ближе всего к четвёртому, поэтому скорость заполняем 160, а первый ближе к пятому, поэтому цвет заполняем ~~"красный"~~«красный»

=== Частный случай: ===

[[File:Пропуски3.png|300px|thumb|рис.3 Пример реализации '''частного''' подхода замены пропусков]]

Заполнение средним арифметическим / модой

== Добавление ==

[[File:Пропуски4.png|300px|thumb|рис.4 Пример избавления от пропусков путём добавления]]*Если признак категориальный <tex>- </tex> добавляем к нему новое значение ~~"пропуск"~~«пропуск»(увеличиваем количество категорий на 1)*Если признак числовой <tex>- </tex> добавляем новый бинарный признак, было ли данное значение пропущено, а само значение заменять методами описанными выше.(~~рис4~~Пример рис.4)

= Отказ алгоритмов =

Алгоритм может не только принимать на вход пропуски, но и возвращать. Если алгоритм возвращает проспуск, значит он отказывается от работы.

= Задача предсказания и заполнения пропусков =

[[File:Пропуски5.png|530px|thumb|рис.5 Пример сведения задачи заполнения пропусков к задаче предсказания]]

Задачу заполнения пропусков можно свести к задаче предсказания.

~~(рис5)~~

Есть набор данных, который условно разбит на train и test. Можно сказать, что значения test в столбце Y пропущены и вместо задачи обучения с учителем решать задачу заполнения пропусков.

[[File:Пропуски6.png|300px|thumb|рис.6 Пример сведения задачи заполнения пропусков к задаче обучения без учителя]]В случае задачи обучения без учителя можно сказать, что все значения в столбце пропущены. (см. ~~рис6~~рис.6)

= Рекомендательные системы =

'''Коллаборативная(совместная) фильтрация'''

[[File:Пропуски7.png|300px|thumb|рис.7 Оценка конкретных предметов конкретными пользователями]]Есть множество пользователей и множество предметов, которые эти пользователи оценивают. Нужно понять, как определённый пользователь оценит предмет, который до этого не оценивал. (см. ~~рис7~~рис.7)

Эта задача не решается методами заполнения пропуска. Но методами рекомендательных систем можно решить задачу заполнения пропусков.

= Обучение на привилегированных данных =

~~Задача~~ [[File:Пропуски8.png|300px|thumb|рис.8 Пример задачи обучения на привилегированных данных]]Это задача обучения с учителем, но в которой к X даётся некоторый X', про который известно, что в тестовом множестве X' он будет пропущен. (см. ~~рис8~~рис.8)

Базовое решение:

*Не использовать X'

*Обучить модель <math>a_1</math> предсказывать X' по X. Затем обучить модель <math>a_2</math> предсказывать Y по X и <~~math~~tex> \times</tex> <tex> a_1</~~math~~tex>(X)

*Обучать предсказывать X' и Y.

(Пример)

Предсказать результат футбольного матча(победа/поражение)~~. Где~~ , где привелигированные данные: число голов, число красных/ жёлтых карточек.

= Обучение на частично размеченных данных =

[[File:Пропуски9.png|300px|thumb|рис.9 Пример задачи обучения на частично размеченных данных]]В тренировачном множестве только часть объектов имеют значение целевой переменной Y, у остальных объектов тренировочного и тестового множества значение Y пропущено. (см. ~~рис9~~рис.9)

Базовое решение:

*Не использовать объекты у которых пропущен целевой признак

*Не использовать целевой признак для обучения. Размеченные объекты(с заданным Y) можно использовать для тестирования(как внешнюю меру)

Maintenance script

1632

правки

Изменения

Работа с пропусками в наборе данных

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты