Уменьшение размерности

Материал из Викиконспекты
Перейти к: навигация, поиск

Под уменьшением размерности (англ. dimensionality reduction) в машинном обучении подразумевается уменьшение числа признаков датасета. Наличие в нем признаков избыточных, неинформативных или слабо информативных может понизить эффективность модели, а после такого преобразования она упрощается, и соответственно уменьшается размер набора данных в памяти и ускоряется работа алгоритмов ML на нем. Уменьшение размерности может быть осуществлено методами отбора признаков (англ. feature selection) или выделения признаков (англ. feature extraction).

Feature selection

Методы feature selection оставляют некоторое подмножество исходного набора признаков, избавляясь от признаков избыточных и слабо информативных. Основные преимущества этого класса алгоритмов:

  • Уменьшение вероятности переобучения
  • Увеличение точности предсказания модели
  • Сокращение времени обучения
  • Увеличивается семантическое понимание модели

Filters

Wrappers

Embedded

Hybrid

Ensemble

Примеры кода scikit-learn

Feature extraction

Linear

Nonlinear

Примеры кода scikit-learn

См. также

Примечания

Источники информации