Изменения

Перейти к: навигация, поиск

Обсуждение участника:Gen05

61 байт убрано, 14:10, 28 июня 2022
Нет описания правки
== Выбор признаков (Feature selection) ==
== Уменьшение размерности ==
 
===Задача уменьшения размерности===
Под '''уменьшением размерности''' (англ. ''dimensionality reduction'') в машинном обучении подразумевается уменьшение числа признаков набора данных. Наличие в нем признаков избыточных, неинформативных или слабо информативных может понизить эффективность модели, а после такого преобразования она упрощается, и соответственно уменьшается размер набора данных в памяти и ускоряется работа алгоритмов ML на нем. Уменьшение размерности может быть осуществлено методами выбора признаков (англ. ''feature selection'') или выделения признаков (англ. ''feature extraction'').
}}
'''===Зачем нужно?'''===
* Ускорение обучения и обработки
* Борьба с шумом и мультиколлинеарностью
* Интерпретация и визуализация данных
===Проклятие размерности (''curse of dimensionality'')=={{Определение|definition=Проклятие размерности (''curse of dimensionality'') — это наборпроблем, возникающих с ростом размерности
* Увеличиваются требования к памяти и вычислительной мощности
* Данные становятся более разреженными
* Проще найти гипотезы, не имеющие отношения к реальности
}}
 
===Когда применяется===
*Меньше памяти для хранения*Уменьшение времени обработки*Увеличение качества обработки*Понимание природы признаков [[Файл:Таблица_1.jpg|600px|thumb|right|Методы уменьшения размерности]] ===Два основных подхода уменьшения размерности===
===Методы уменьшения размерности==='''Выбор признаков''' (''feature selection'') включает методы, для которых $G ⊂ F$. Они:* быстро работают;[[Файл:Таблица_1* не могут «выдумывать» сложных признаков.jpg|600px|thumb|right]]
'''Два основных подхода уменьшения размерностиИзвлечение признаков'''(''feature extraction'') включает все другиеметоды (в том числе даже те, у которых $k > n$).* в целом, дольше работают;* могут извлекать сложные признаки.
Выбор ==Цели извлечения и выбора признаков (feature selection) включает методы==* Уменьшение числа ресурсов, требуемых для которыхG ⊂ F. Ониобработки больших наборов данных*быстро работают;Поиск новых признаков*не Эти признаки могут «выдумывать» сложных признаков.быть линейными и нелинейными относительно исходных
Извлечение признаков (feature extraction) включает все другие
методы (в том числе даже те, у которых k > n).
*в целом, дольше работают;
*могут извлекать сложные признаки.
'''Цели извлечения и выбора признаков'''
*Уменьшение числа ресурсов, требуемых для обработки больших наборов
данных
*Поиск новых признаков
*Эти признаки могут быть линейными и нелинейными относительно исходных
====Цели выбора признаков:====
*Уменьшение переобучения и улучшение качества предсказания*Улучшение понимания моделей
===Типы ненужных признаков===
Существуют также два типа признаков, которые не являются необходимыми:
*Избыточные (''redundant'') признаки не привносятдополнительной информации относительно существующих*Нерелевантные (''irrelevant'') признаки простонеинформативны
==Встроенные методы==
80
правок

Навигация