Обсуждение участника:Gen05 — различия между версиями

Материал из Викиконспекты
Перейти к: навигация, поиск
Строка 26: Строка 26:
 
*Понимание природы признаков
 
*Понимание природы признаков
 
===Методы уменьшения размерности===
 
===Методы уменьшения размерности===
[[Файл:]]
+
НУЖНО ВСТАВИТЬ КАРТИНКУ
 +
===Два основных подхода уменьшения размерности===
 +
Выбор признаков (feature selection) включает методы, для которых
 +
G ⊂ F. Они
 +
*быстро работают;
 +
*не могут «выдумывать» сложных признаков.
 +
Извлечение признаков (feature extraction) включает все другие
 +
методы (в том числе даже те, у которых k > n).
 +
*в целом, дольше работают;
 +
*могут извлекать сложные признаки.
 +
===Цели извлечения и выбора признаков===
 +
====Цель извлечения признаков:====
 +
*Уменьшение числа ресурсов, требуемых для обработки больших наборов
 +
данных
 +
*Поиск новых признаков
 +
*Эти признаки могут быть линейными и нелинейными относительно исходных
 +
====Цели выбора признаков:====
 +
*Уменьшение переобучения и улучшение качества предсказания
 +
*Улучшение понимания моделей
 +
===Типы ненужных признаков===
 +
Существуют также два типа признаков, которые не являются необходимыми:
 +
*Избыточные (redundant) признаки не привносят
 +
дополнительной информации относительно существующих
 +
*Нерелевантные (irrelevant) признаки просто
 +
неинформативны

Версия 16:40, 26 июня 2022

Выбор признаков (Feature selection)

Уменьшение размерности

Задача уменьшения размерности

Объекты описаны признаками F = (f1, . . . , fn). Задачей является построить множество признаков G = (g1, . . . , gk) : k < n (часто k ≪ n), переход к которым сопровождается наименьшей потерей информации.

  • Ускорение обучения и обработки
  • Борьба с шумом и мультиколлинеарностью
  • Интерпретация и визуализация данных

Проклятие размерности (curse of dimensionality)

Проклятие размерности (curse of dimensionality) — это набор проблем, возникающих с ростом размерности

  • Увеличиваются требования к памяти и вычислительной мощности
  • Данные становятся более разреженными
  • Проще найти гипотезы, не имеющие отношения к реальности

Ситуации применения

Уменьшение размерности — шаг в предобработке данных

  • Меньше памяти для хранения
  • Уменьшение времени обработки
  • Увеличение качества обработки
  • Понимание природы признаков

Методы уменьшения размерности

НУЖНО ВСТАВИТЬ КАРТИНКУ

Два основных подхода уменьшения размерности

Выбор признаков (feature selection) включает методы, для которых G ⊂ F. Они

  • быстро работают;
  • не могут «выдумывать» сложных признаков.

Извлечение признаков (feature extraction) включает все другие методы (в том числе даже те, у которых k > n).

  • в целом, дольше работают;
  • могут извлекать сложные признаки.

Цели извлечения и выбора признаков

Цель извлечения признаков:

  • Уменьшение числа ресурсов, требуемых для обработки больших наборов

данных

  • Поиск новых признаков
  • Эти признаки могут быть линейными и нелинейными относительно исходных

Цели выбора признаков:

  • Уменьшение переобучения и улучшение качества предсказания
  • Улучшение понимания моделей

Типы ненужных признаков

Существуют также два типа признаков, которые не являются необходимыми:

  • Избыточные (redundant) признаки не привносят

дополнительной информации относительно существующих

  • Нерелевантные (irrelevant) признаки просто

неинформативны