Обсуждение участника:Gen05
Версия от 16:40, 26 июня 2022; Gen05 (обсуждение | вклад)
Содержание
- 1 Выбор признаков (Feature selection)
- 2 Уменьшение размерности
Выбор признаков (Feature selection)
Уменьшение размерности
Задача уменьшения размерности
Объекты описаны признаками F = (f1, . . . , fn). Задачей является построить множество признаков G = (g1, . . . , gk) : k < n (часто k ≪ n), переход к которым сопровождается наименьшей потерей информации.
- Ускорение обучения и обработки
- Борьба с шумом и мультиколлинеарностью
- Интерпретация и визуализация данных
Проклятие размерности (curse of dimensionality)
Проклятие размерности (curse of dimensionality) — это набор проблем, возникающих с ростом размерности
- Увеличиваются требования к памяти и вычислительной мощности
- Данные становятся более разреженными
- Проще найти гипотезы, не имеющие отношения к реальности
Ситуации применения
Уменьшение размерности — шаг в предобработке данных
- Меньше памяти для хранения
- Уменьшение времени обработки
- Увеличение качества обработки
- Понимание природы признаков
Методы уменьшения размерности
НУЖНО ВСТАВИТЬ КАРТИНКУ
Два основных подхода уменьшения размерности
Выбор признаков (feature selection) включает методы, для которых G ⊂ F. Они
- быстро работают;
- не могут «выдумывать» сложных признаков.
Извлечение признаков (feature extraction) включает все другие методы (в том числе даже те, у которых k > n).
- в целом, дольше работают;
- могут извлекать сложные признаки.
Цели извлечения и выбора признаков
Цель извлечения признаков:
- Уменьшение числа ресурсов, требуемых для обработки больших наборов
данных
- Поиск новых признаков
- Эти признаки могут быть линейными и нелинейными относительно исходных
Цели выбора признаков:
- Уменьшение переобучения и улучшение качества предсказания
- Улучшение понимания моделей
Типы ненужных признаков
Существуют также два типа признаков, которые не являются необходимыми:
- Избыточные (redundant) признаки не привносят
дополнительной информации относительно существующих
- Нерелевантные (irrelevant) признаки просто
неинформативны