Изменения

Перейти к: навигация, поиск

Работа с пропусками в наборе данных

970 байт добавлено, 20:52, 29 июня 2022
Нет описания правки
= Откуда берутся пропуски? =
[[File:Пропуски1.png|300px|thumb|рис1рис.1 Объединение 2 наборов данных]]
*Решаем задачу поиска аномалий для столбцов. Когда находим аномальное значение в столбце. Можно сказать, что это не аномалия, а ошибка и его можно пометить как пропуск
*Объединяем 2 набора данных (см. рис1рис.1). Из-за того, что эти наборы данных немного разные(в разных наборах данных были разные признаки) после объединения получатся пропуски.
*Подали разреженный набор данных. Недостающие значения <tex>-</tex> пропуски.
Выделяют 3 подхода:
=== Общий подход: ===
[[File:Пропуски2.png|300px|thumb|рис2рис.2 Пример реализации '''общего''' подхода замены пропусков]]
Обучить модель, которая умеет учитывать пропуски, предсказывать значения текущего столбца.
На примере с рис2рис. Предполагаем2 предполагаем, что второй объект ближе всего к четвёртому, поэтому скорость заполняем 160,
а первый ближе к пятому, поэтому цвет заполняем «красный»
=== Частный случай: ===
[[File:Пропуски3.png|300px|thumb|рис3рис.3 Пример реализации '''частного''' подхода замены пропусков]]
Заполнение средним арифметическим / модой
== Добавление ==
[[File:Пропуски4.png|300px|thumb|рис4рис.4 Пример избавления от пропусков путём добавления]]
*Если признак категориальный <tex>-</tex> добавляем к нему новое значение «пропуск»(увеличиваем количество категорий на 1)
*Если признак числовой <tex>-</tex> добавляем новый бинарный признак, было ли данное значение пропущено, а само значение заменять методами описанными выше.
(Пример рис.4)
= Отказ алгоритмов =
Алгоритм может не только принимать на вход пропуски, но и возвращать. Если алгоритм возвращает проспуск, значит он отказывается от работы.
= Задача предсказания и заполнения пропусков =
[[File:Пропуски5.png|530px|thumb|рис5рис.5 Пример сведения задачи заполнения пропусков к задаче предсказания]]
Задачу заполнения пропусков можно свести к задаче предсказания.
Есть набор данных, который условно разбит на train и test. Можно сказать, что значения test в столбце Y пропущены и вместо задачи обучения с учителем решать задачу заполнения пропусков.
[[File:Пропуски6.png|300px|thumb|рис6рис.6 Пример сведения задачи заполнения пропусков к задаче обучения без учителя]]В случае задачи обучения без учителя можно сказать, что все значения в столбце пропущены. (см. рис6рис.6)
= Рекомендательные системы =
'''Коллаборативная(совместная) фильтрация'''
[[File:Пропуски7.png|300px|thumb|рис7рис.7 Оценка конкретных предметов конкретными пользователями]]Есть множество пользователей и множество предметов, которые эти пользователи оценивают. Нужно понять, как определённый пользователь оценит предмет, который до этого не оценивал. (см. рис7рис.7)
Эта задача не решается методами заполнения пропуска. Но методами рекомендательных систем можно решить задачу заполнения пропусков.
= Обучение на привилегированных данных =
[[File:Пропуски8.png|300px|thumb|рис8рис.8 Пример задачи обучения на привилегированных данных]]Задача Это задача обучения с учителем, но в которой к X даётся некоторый X', про который известно, что в тестовом множестве X' он будет пропущен. (см. рис8рис.8)
Базовое решение:
(Пример)
Предсказать результат футбольного матча(победа/поражение). Где , где привелигированные данные: число голов, число красных/ жёлтых карточек.
= Обучение на частично размеченных данных =
[[File:Пропуски9.png|300px|thumb|рис9рис.9 Пример задачи обучения на частично размеченных данных]]В тренировачном множестве только часть объектов имеют значение целевой переменной Y, у остальных объектов тренировочного и тестового множества значение Y пропущено. (см. рис9рис.9)
Базовое решение:
*Не использовать объекты у которых пропущен целевой признак
*Не использовать целевой признак для обучения. Размеченные объекты(с заданным Y) можно использовать для тестирования(как внешнюю меру)
42
правки

Навигация