Обсуждение участника:Gen05 — различия между версиями
Gen05 (обсуждение | вклад) |
Gen05 (обсуждение | вклад) |
||
| Строка 26: | Строка 26: | ||
*Понимание природы признаков | *Понимание природы признаков | ||
===Методы уменьшения размерности=== | ===Методы уменьшения размерности=== | ||
| − | + | НУЖНО ВСТАВИТЬ КАРТИНКУ | |
| + | ===Два основных подхода уменьшения размерности=== | ||
| + | Выбор признаков (feature selection) включает методы, для которых | ||
| + | G ⊂ F. Они | ||
| + | *быстро работают; | ||
| + | *не могут «выдумывать» сложных признаков. | ||
| + | Извлечение признаков (feature extraction) включает все другие | ||
| + | методы (в том числе даже те, у которых k > n). | ||
| + | *в целом, дольше работают; | ||
| + | *могут извлекать сложные признаки. | ||
| + | ===Цели извлечения и выбора признаков=== | ||
| + | ====Цель извлечения признаков:==== | ||
| + | *Уменьшение числа ресурсов, требуемых для обработки больших наборов | ||
| + | данных | ||
| + | *Поиск новых признаков | ||
| + | *Эти признаки могут быть линейными и нелинейными относительно исходных | ||
| + | ====Цели выбора признаков:==== | ||
| + | *Уменьшение переобучения и улучшение качества предсказания | ||
| + | *Улучшение понимания моделей | ||
| + | ===Типы ненужных признаков=== | ||
| + | Существуют также два типа признаков, которые не являются необходимыми: | ||
| + | *Избыточные (redundant) признаки не привносят | ||
| + | дополнительной информации относительно существующих | ||
| + | *Нерелевантные (irrelevant) признаки просто | ||
| + | неинформативны | ||
Версия 16:40, 26 июня 2022
Содержание
- 1 Выбор признаков (Feature selection)
- 2 Уменьшение размерности
Выбор признаков (Feature selection)
Уменьшение размерности
Задача уменьшения размерности
Объекты описаны признаками F = (f1, . . . , fn). Задачей является построить множество признаков G = (g1, . . . , gk) : k < n (часто k ≪ n), переход к которым сопровождается наименьшей потерей информации.
- Ускорение обучения и обработки
- Борьба с шумом и мультиколлинеарностью
- Интерпретация и визуализация данных
Проклятие размерности (curse of dimensionality)
Проклятие размерности (curse of dimensionality) — это набор проблем, возникающих с ростом размерности
- Увеличиваются требования к памяти и вычислительной мощности
- Данные становятся более разреженными
- Проще найти гипотезы, не имеющие отношения к реальности
Ситуации применения
Уменьшение размерности — шаг в предобработке данных
- Меньше памяти для хранения
- Уменьшение времени обработки
- Увеличение качества обработки
- Понимание природы признаков
Методы уменьшения размерности
НУЖНО ВСТАВИТЬ КАРТИНКУ
Два основных подхода уменьшения размерности
Выбор признаков (feature selection) включает методы, для которых G ⊂ F. Они
- быстро работают;
- не могут «выдумывать» сложных признаков.
Извлечение признаков (feature extraction) включает все другие методы (в том числе даже те, у которых k > n).
- в целом, дольше работают;
- могут извлекать сложные признаки.
Цели извлечения и выбора признаков
Цель извлечения признаков:
- Уменьшение числа ресурсов, требуемых для обработки больших наборов
данных
- Поиск новых признаков
- Эти признаки могут быть линейными и нелинейными относительно исходных
Цели выбора признаков:
- Уменьшение переобучения и улучшение качества предсказания
- Улучшение понимания моделей
Типы ненужных признаков
Существуют также два типа признаков, которые не являются необходимыми:
- Избыточные (redundant) признаки не привносят
дополнительной информации относительно существующих
- Нерелевантные (irrelevant) признаки просто
неинформативны