Обсуждение участника:Gen05

Материал из Викиконспекты
Перейти к: навигация, поиск

Выбор признаков (Feature selection)

Уменьшение размерности

Задача уменьшения размерности

Объекты описаны признаками F = (f1, . . . , fn). Задачей является построить множество признаков G = (g1, . . . , gk) : k < n (часто k ≪ n), переход к которым сопровождается наименьшей потерей информации.

  • Ускорение обучения и обработки
  • Борьба с шумом и мультиколлинеарностью
  • Интерпретация и визуализация данных

Проклятие размерности (curse of dimensionality)

Проклятие размерности (curse of dimensionality) — это набор проблем, возникающих с ростом размерности

  • Увеличиваются требования к памяти и вычислительной мощности
  • Данные становятся более разреженными
  • Проще найти гипотезы, не имеющие отношения к реальности

Ситуации применения

Уменьшение размерности — шаг в предобработке данных

  • Меньше памяти для хранения
  • Уменьшение времени обработки
  • Увеличение качества обработки
  • Понимание природы признаков

Методы уменьшения размерности

НУЖНО ВСТАВИТЬ КАРТИНКУ

Два основных подхода уменьшения размерности

Выбор признаков (feature selection) включает методы, для которых G ⊂ F. Они

  • быстро работают;
  • не могут «выдумывать» сложных признаков.

Извлечение признаков (feature extraction) включает все другие методы (в том числе даже те, у которых k > n).

  • в целом, дольше работают;
  • могут извлекать сложные признаки.

Цели извлечения и выбора признаков

Цель извлечения признаков:

  • Уменьшение числа ресурсов, требуемых для обработки больших наборов

данных

  • Поиск новых признаков
  • Эти признаки могут быть линейными и нелинейными относительно исходных

Цели выбора признаков:

  • Уменьшение переобучения и улучшение качества предсказания
  • Улучшение понимания моделей

Типы ненужных признаков

Существуют также два типа признаков, которые не являются необходимыми:

  • Избыточные (redundant) признаки не привносят

дополнительной информации относительно существующих

  • Нерелевантные (irrelevant) признаки просто

неинформативны