Уменьшение размерности — различия между версиями
(scratch) |
|||
Строка 1: | Строка 1: | ||
− | Под '''уменьшением размерности''' (англ. dimensionality reduction) в машинном обучении подразумевается уменьшение числа признаков датасета. | + | Под '''уменьшением размерности''' (англ. dimensionality reduction) в машинном обучении подразумевается уменьшение числа признаков датасета. Наличие в нем признаков избыточных, неинформативных или слабо информативных может понизить эффективность модели, а после такого преобразования она упрощается, и соответственно уменьшается размер набора данных в памяти и ускоряется работа алгоритмов ML на нем. Уменьшение размерности может быть осуществлено методами отбора признаков (англ. feature selection) или выделения признаков (англ. feature extraction). |
− | |||
==Feature selection== | ==Feature selection== | ||
+ | Методы feature selection оставляют некоторое подмножество исходного набора признаков, избавляясь от признаков избыточных и слабо информативных. Основные преимущества этого класса алгоритмов: | ||
+ | *Уменьшение вероятности переобучения | ||
+ | *Увеличение точности предсказания модели | ||
+ | *Сокращение времени обучения | ||
+ | *Увеличивается семантическое понимание модели | ||
+ | ===Filters=== | ||
+ | ===Wrappers=== | ||
+ | ===Embedded=== | ||
+ | ===Hybrid=== | ||
+ | ===Ensemble=== | ||
===Примеры кода scikit-learn=== | ===Примеры кода scikit-learn=== | ||
==Feature extraction== | ==Feature extraction== | ||
+ | ===Linear=== | ||
+ | ===Nonlinear=== | ||
===Примеры кода scikit-learn=== | ===Примеры кода scikit-learn=== | ||
==См. также== | ==См. также== | ||
==Примечания== | ==Примечания== | ||
==Источники информации== | ==Источники информации== |
Версия 15:34, 29 декабря 2018
Под уменьшением размерности (англ. dimensionality reduction) в машинном обучении подразумевается уменьшение числа признаков датасета. Наличие в нем признаков избыточных, неинформативных или слабо информативных может понизить эффективность модели, а после такого преобразования она упрощается, и соответственно уменьшается размер набора данных в памяти и ускоряется работа алгоритмов ML на нем. Уменьшение размерности может быть осуществлено методами отбора признаков (англ. feature selection) или выделения признаков (англ. feature extraction).
Содержание
Feature selection
Методы feature selection оставляют некоторое подмножество исходного набора признаков, избавляясь от признаков избыточных и слабо информативных. Основные преимущества этого класса алгоритмов:
- Уменьшение вероятности переобучения
- Увеличение точности предсказания модели
- Сокращение времени обучения
- Увеличивается семантическое понимание модели