Уменьшение размерности — различия между версиями

Материал из Викиконспекты
Перейти к: навигация, поиск
(scratch)
 
Строка 1: Строка 1:
Под '''уменьшением размерности''' (англ. dimensionality reduction) в машинном обучении подразумевается уменьшение числа признаков датасета. Данное преобразование осуществляется методами feature selection и feature extraction.
+
Под '''уменьшением размерности''' (англ. dimensionality reduction) в машинном обучении подразумевается уменьшение числа признаков датасета. Наличие в нем признаков избыточных, неинформативных или слабо информативных может понизить эффективность модели, а после такого преобразования она упрощается, и соответственно уменьшается размер набора данных в памяти и ускоряется работа алгоритмов ML на нем. Уменьшение размерности может быть осуществлено методами отбора признаков (англ. feature selection) или выделения признаков (англ. feature extraction).
==Преимущества уменьшения числа признаков==
 
 
==Feature selection==
 
==Feature selection==
 +
Методы feature selection оставляют некоторое подмножество исходного набора признаков, избавляясь от признаков избыточных и слабо информативных. Основные преимущества этого класса алгоритмов:
 +
*Уменьшение вероятности переобучения
 +
*Увеличение точности предсказания модели
 +
*Сокращение времени обучения
 +
*Увеличивается семантическое понимание модели
 +
===Filters===
 +
===Wrappers===
 +
===Embedded===
 +
===Hybrid===
 +
===Ensemble===
 
===Примеры кода scikit-learn===
 
===Примеры кода scikit-learn===
 
==Feature extraction==
 
==Feature extraction==
 +
===Linear===
 +
===Nonlinear===
 
===Примеры кода scikit-learn===
 
===Примеры кода scikit-learn===
 
==См. также==
 
==См. также==
 
==Примечания==
 
==Примечания==
 
==Источники информации==
 
==Источники информации==

Версия 15:34, 29 декабря 2018

Под уменьшением размерности (англ. dimensionality reduction) в машинном обучении подразумевается уменьшение числа признаков датасета. Наличие в нем признаков избыточных, неинформативных или слабо информативных может понизить эффективность модели, а после такого преобразования она упрощается, и соответственно уменьшается размер набора данных в памяти и ускоряется работа алгоритмов ML на нем. Уменьшение размерности может быть осуществлено методами отбора признаков (англ. feature selection) или выделения признаков (англ. feature extraction).

Feature selection

Методы feature selection оставляют некоторое подмножество исходного набора признаков, избавляясь от признаков избыточных и слабо информативных. Основные преимущества этого класса алгоритмов:

  • Уменьшение вероятности переобучения
  • Увеличение точности предсказания модели
  • Сокращение времени обучения
  • Увеличивается семантическое понимание модели

Filters

Wrappers

Embedded

Hybrid

Ensemble

Примеры кода scikit-learn

Feature extraction

Linear

Nonlinear

Примеры кода scikit-learn

См. также

Примечания

Источники информации