Изменения

Перейти к: навигация, поиск

Работа с пропусками в наборе данных

395 байт добавлено, 17:32, 29 июня 2022
Нет описания правки
= Откуда берутся пропуски? =
[[File:Пропуски1.png|650px300px|thumb|рис1]]
*Решаем задачу поиска аномалий для столбцов. Когда находим аномальное значение в столбце. Можно сказать, что это не аномалия, а ошибка и его можно пометить как пропуск
*Объединяем 2 набора данных (см. рис1). Из-за того, что эти наборы данных немного разные(в разных наборах данных были разные признаки) после объединения получатся пропуски.
Выделяют 3 подхода:
=== Общий подход: ===
[[File:Пропуски2.png|300px|thumb|рис2]]
Обучить модель, которая умеет учитывать пропуски, предсказывать значения текущего столбца.
=== Частный случай: ===
[[File:Пропуски3.png|300px|thumb|рис3]]
Заполнение средним арифметическим / модой
== Добавление ==
[[File:Пропуски4.png|300px|thumb|рис4]]
*Если признак категориальный - добавляем к нему новое значение "пропуск"(увеличиваем количество категорий на 1)
*Если признак числовой - добавляем новый бинарный признак, было ли данное значение пропущено, а само значение заменять методами описанными выше.
(рис4)
= Отказ алгоритмов =
= Задача предсказания и заполнения пропусков =
[[File:Пропуски5.png|530px|thumb|рис5]]
Задачу заполнения пропусков можно свести к задаче предсказания.
(рис5)
Есть набор данных, который условно разбит на train и test. Можно сказать, что значения test в столбце Y пропущены и вместо задачи обучения с учителем решать задачу заполнения пропусков.
[[File:Пропуски6.png|300px|thumb|рис6]]
В случае задачи обучения без учителя можно сказать, что все значения в столбце пропущены. (см. рис6)
= Рекомендательные системы =
'''Коллаборативная(совместная) фильтрация'''
[[File:Пропуски7.png|300px|thumb|рис7]]
Есть множество пользователей и множество предметов, которые эти пользователи оценивают. Нужно понять, как определённый пользователь оценит предмет, который до этого не оценивал. (см. рис7)
= Обучение на привилегированных данных =
[[File:Пропуски8.png|300px|thumb|рис8]]
Задача обучения с учителем, но к X даётся некоторый X', про который известно, что в тестовом множестве X' будет пропущен. (см. рис8)
= Обучение на частично размеченных данных =
[[File:Пропуски9.png|300px|thumb|рис9]]
В тренировачном множестве только часть объектов имеют значение целевой переменной Y, у остальных объектов тренировочного и тестового множества значение Y пропущено. (см. рис9)
42
правки

Навигация