Предварительная обработка данных
НЕТ ВОЙНЕ |
24 февраля 2022 года российское руководство во главе с Владимиром Путиным развязало агрессивную войну против Украины. В глазах всего мира это военное преступление совершено от лица всей страны, всех россиян. Будучи гражданами Российской Федерации, мы против своей воли оказались ответственными за нарушение международного права, военное вторжение и массовую гибель людей. Чудовищность совершенного преступления не оставляет возможности промолчать или ограничиться пассивным несогласием. Мы убеждены в абсолютной ценности человеческой жизни, в незыблемости прав и свобод личности. Режим Путина — угроза этим ценностям. Наша задача — обьединить все силы для сопротивления ей. Эту войну начали не россияне, а обезумевший диктатор. И наш гражданский долг — сделать всё, чтобы её остановить. Антивоенный комитет России |
Распространяйте правду о текущих событиях, оберегайте от пропаганды своих друзей и близких. Изменение общественного восприятия войны - ключ к её завершению. |
meduza.io, Популярная политика, Новая газета, zona.media, Майкл Наки. |
Типизация признаков
Преобразование числа
Обычно с числами довольно удобно работать и преобразовывают их достаточно редко.
Дискретизация
- Преобразование в порядковый признак. (берём в числах диапазоны и диапазонам сопоставляем категории)
- Преобразование в категориальный признак. (НО теряется информация о порядке)
Преобразование порядкового типа
- Преобразование в число(берём его порядковый номер)
- Преобразование в k бинарных категорий(если число значений конечно и равно k):
{ } - множество значений порядкового признака.(см. рис.1)
Преобразование категории
- Бинарную категорию можно преобразовать в число: или
- Категорию из k значений { } можно бинаризовать получив k бинарных категорий: (см. рис.2)(НО обратное преобразование иногда невозможно(получим много true и не понятно, к какой категории относить))
- One-hot encoding - преобразование категорий в числа (0, 1): one-hot
Нормализация данных
Набор данных содержит в себе единицы измерения, которые отбрасываются, чтобы набор данных был просто числами. Но чтобы далее работать, нам нужно, чтобы все объекты были приведены к единому формату. Подробнее читай тут
Аномалии в наборе данных
Аномалии - плохие объекты для построения нашей модели.
Задача поиска аномалий является отдельной задачей машинного обучения, про которую можно почитать здесь
Пропуски в наборе данных
Иногда в таблице с данными существую пустоты(они же пропуски), про работу с пропусками можно почитать тут