Обсуждение участника:Gen05 — различия между версиями
Gen05 (обсуждение | вклад) |
Gen05 (обсуждение | вклад) |
||
Строка 26: | Строка 26: | ||
*Понимание природы признаков | *Понимание природы признаков | ||
===Методы уменьшения размерности=== | ===Методы уменьшения размерности=== | ||
− | + | НУЖНО ВСТАВИТЬ КАРТИНКУ | |
+ | ===Два основных подхода уменьшения размерности=== | ||
+ | Выбор признаков (feature selection) включает методы, для которых | ||
+ | G ⊂ F. Они | ||
+ | *быстро работают; | ||
+ | *не могут «выдумывать» сложных признаков. | ||
+ | Извлечение признаков (feature extraction) включает все другие | ||
+ | методы (в том числе даже те, у которых k > n). | ||
+ | *в целом, дольше работают; | ||
+ | *могут извлекать сложные признаки. | ||
+ | ===Цели извлечения и выбора признаков=== | ||
+ | ====Цель извлечения признаков:==== | ||
+ | *Уменьшение числа ресурсов, требуемых для обработки больших наборов | ||
+ | данных | ||
+ | *Поиск новых признаков | ||
+ | *Эти признаки могут быть линейными и нелинейными относительно исходных | ||
+ | ====Цели выбора признаков:==== | ||
+ | *Уменьшение переобучения и улучшение качества предсказания | ||
+ | *Улучшение понимания моделей | ||
+ | ===Типы ненужных признаков=== | ||
+ | Существуют также два типа признаков, которые не являются необходимыми: | ||
+ | *Избыточные (redundant) признаки не привносят | ||
+ | дополнительной информации относительно существующих | ||
+ | *Нерелевантные (irrelevant) признаки просто | ||
+ | неинформативны |
Версия 16:40, 26 июня 2022
Содержание
- 1 Выбор признаков (Feature selection)
- 2 Уменьшение размерности
Выбор признаков (Feature selection)
Уменьшение размерности
Задача уменьшения размерности
Объекты описаны признаками F = (f1, . . . , fn). Задачей является построить множество признаков G = (g1, . . . , gk) : k < n (часто k ≪ n), переход к которым сопровождается наименьшей потерей информации.
- Ускорение обучения и обработки
- Борьба с шумом и мультиколлинеарностью
- Интерпретация и визуализация данных
Проклятие размерности (curse of dimensionality)
Проклятие размерности (curse of dimensionality) — это набор проблем, возникающих с ростом размерности
- Увеличиваются требования к памяти и вычислительной мощности
- Данные становятся более разреженными
- Проще найти гипотезы, не имеющие отношения к реальности
Ситуации применения
Уменьшение размерности — шаг в предобработке данных
- Меньше памяти для хранения
- Уменьшение времени обработки
- Увеличение качества обработки
- Понимание природы признаков
Методы уменьшения размерности
НУЖНО ВСТАВИТЬ КАРТИНКУ
Два основных подхода уменьшения размерности
Выбор признаков (feature selection) включает методы, для которых G ⊂ F. Они
- быстро работают;
- не могут «выдумывать» сложных признаков.
Извлечение признаков (feature extraction) включает все другие методы (в том числе даже те, у которых k > n).
- в целом, дольше работают;
- могут извлекать сложные признаки.
Цели извлечения и выбора признаков
Цель извлечения признаков:
- Уменьшение числа ресурсов, требуемых для обработки больших наборов
данных
- Поиск новых признаков
- Эти признаки могут быть линейными и нелинейными относительно исходных
Цели выбора признаков:
- Уменьшение переобучения и улучшение качества предсказания
- Улучшение понимания моделей
Типы ненужных признаков
Существуют также два типа признаков, которые не являются необходимыми:
- Избыточные (redundant) признаки не привносят
дополнительной информации относительно существующих
- Нерелевантные (irrelevant) признаки просто
неинформативны