Изменения

Перейти к: навигация, поиск

Предварительная обработка данных

12 байт добавлено, 20:24, 28 июня 2022
Нет описания правки
Набор данных на самом деле содержит в себе единицы измерения, которые возможно будут указаны в формальном описании. Эти единицы измерения отбрасываются, чтобы набор данных имел только число.
Чтобы это сделать необходимо, чтобы все объекты были приведены к единому формату (всё в килограммах или всё в метрах)
 
//Пример про разницу машин
Важно в sklearn.preprocessing есть метод normalize, но это не то, что нам нужно, он рассматривает нормализацию с геометрической точки зрения
(представляет объект в виде вектора), а не по столбцам
 
'''Минмакс, [0;1] масштабирование'''
заполнение средним арифметическим / модой
рис2(1 лекция, стр61, правый)
 
//про zero-rule classification
 
Среднее арифметическое(230, 160, 80, 250) = 180
 
Мода(красный, синий, зелёный, синий) = синий
==== Константная замена ====
Применяется в случае, когда мы знаем, что кодирует пропуск
 
(например) разреженная таблица состоит из слов и количества вхождений этого слова в текст, если слово в тексте не встречалось, то на месте количества может стоять пропуск, что эквивалентно 0, если же храним встречалось или нет, то на месте пропуска может быть false
=== Добавление ===
*Если признак категориальный - добавляем к нему новое значение "пропуск"(увеличиваем количество категорий на 1)*Если признак числовой - добавляем новый бинарный признак, было ли данное значение пропущено, а само значение заменять методами описанными выше
рис3(1 лекция, страница 62)
Задачу заполнения пропусков можно свести к задаче предсказания
рис4(1 лекция, страница 64 верхняя часть)
 
Есть набор данных, который условно разбит на train и test. Можно сказать, что значения test в столбце Y пропущены и вместо задачи обучения с учителем решать задачу заполнения пропусков.
Есть множество пользователей и множество предметов, которые эти пользователи оценят. Нужно понять, как определённый пользователь оценит предмет, который до этого не оценивал.
рис6(1 лекция, страница 65)
 
Эта задача не решается методами заполнения пропуска. Но методами рекомендательной систем можно решить задачу заполнения пропусков.
Задача обучения с учителе, но к X даётся некоторый X', про который известно, что в тестовом множестве X' будет пропущен
рис7(1 лекция, страница 66)
 
Базовые решения:
*Не использовать X'
*Обучить модель <math>a_1</math> предсказывать X' по X. Затем обучить модель <math>a_2</math> предсказывать Y по X и <math> a_1</math>(X)
*Обучать предсказывать X' и Y.
 
(Пример)
Предсказать результат футбольного матча(победа/поражение)
Анонимный участник

Навигация