Уменьшение размерности — различия между версиями

Версия 15:03, 20 января 2019

Под уменьшением размерности (англ. dimensionality reduction) в машинном обучении подразумевается уменьшение числа признаков датасета. Наличие в нем признаков избыточных, неинформативных или слабо информативных может понизить эффективность модели, а после такого преобразования она упрощается, и соответственно уменьшается размер набора данных в памяти и ускоряется работа алгоритмов ML на нем. Уменьшение размерности может быть осуществлено методами отбора признаков (англ. feature selection) или выделения признаков (англ. feature extraction).

Feature selection

Методы feature selection оставляют некоторое подмножество исходного набора признаков, избавляясь от признаков избыточных и слабо информативных. Основные преимущества этого класса алгоритмов:

Уменьшение вероятности переобучения
Увеличение точности предсказания модели
Сокращение времени обучения
Увеличивается семантическое понимание модели

Все методы отбора признаков можно разделить на 5 типов, которые отличаются алгоритмами выбора лишних признаков.

Filters

Фильтры (англ. filter methods) измеряют релевантность признаков на основе функции $\mu$, и затем решают по правилу $\kappa$, какие признаки оставить в результирующем множестве.

Фильтры могут быть:

Одномерные (англ. univariate) — функция $\mu$ определяет релевантность одного признака по отношению к выходным меткам. В таком случае, обычно, измеряют "качество" каждого признака и удаляют худшие.
Многомерные (англ. multivariate) — функция $\mu$ определяет релевантность некоторого подмножества исходного множества признаков относительно выходных меток.

Распространенными вариантами для $\mu$ являются коэффициент ранговой корреляции Спирмена, Information gain и коэффициент Джини.

Преимуществом группы фильтров является простота вычисления релевантности признаков в датасете, но недостатком в таком подходе является игнорирование возможных зависимостей между признаками.

Wrappers

Оберточные методы (англ. wrapper methods) находят подмножество искомых признаков последовательно, используя некоторый классификатор как источник оценки качества выбранных признаков, т.е. этот процесс является циклическим и продолжается до тех пор, пока не будут достигнуты заданные условия останова. Оберточные методы учитывают зависимости между признаками, что является преимуществом по сравнению с фильтрами, к тому же показывают большую точность, но вычисления занимают длительное время, и повышается риск переобучения.

Процесс работы оберточных методов

Два самых простых типа оберточных методов:

SFS (Sequential Forward Selection) — жадный алгоритм, который начинает с пустого множества признаков, на каждом шаге добавляя лучший из еще не выбранных признаков в результирующее множество
SBS (Sequential Backward Selection) — алгоритм обратный SFS, который начинает с изначального множества признаков, и удаляет по одному или несколько худших признаков на каждом шаге

Embedded

Группа встроенных методов (англ. wrapper methods) очень похожа на оберточные методы, но для выбора признаков используется непосредственно структуру некоторого классификатора.

@@ Строка 20: / Строка 20: @@
 ===Wrappers===
 '''Оберточные методы''' (англ. wrapper methods) находят подмножество искомых признаков последовательно, используя некоторый классификатор как источник оценки качества выбранных признаков, т.е. этот процесс является циклическим и продолжается до тех пор, пока не будут достигнуты заданные условия останова. Оберточные методы учитывают зависимости между признаками, что является преимуществом по сравнению с фильтрами, к тому же показывают большую точность, но вычисления занимают длительное время, и повышается риск [[переобучение|переобучения]].
+[[File:Feature_selection_Wrapper_Method.png|300px|thumb|right|Процесс работы оберточных методов]]
 Два самых простых типа оберточных методов:
@@ Строка 26: / Строка 28: @@
 ===Embedded===
+Группа '''встроенных методов''' (англ. wrapper methods) очень похожа на оберточные методы, но для выбора признаков используется непосредственно структуру некоторого классификатора.
+[[File:Feature_selection_Embedded_Method.png|300px|thumb|right|Процесс работы встроенных методов]]
 ===Hybrid===
 ===Ensemble===
@@ Строка 37: / Строка 42: @@
 ==Источники информации==
 #[http://research.cs.tamu.edu/prism/lectures/pr/pr_l11.pdf Sequential feature selection] {{---}} курс ML Texas A&M University
+#[https://en.wikipedia.org/wiki/Feature_selection Feature selection] {{---}} статья про Feature Selection в Wikipedia

Уменьшение размерности — различия между версиями

Версия 15:03, 20 января 2019

Содержание

Feature selection

Filters

Wrappers

Embedded

Hybrid

Ensemble

Примеры кода scikit-learn

Feature extraction

Linear

Nonlinear

Примеры кода scikit-learn

См. также

Примечания

Источники информации

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты