Изменения

Уменьшение размерности

2155 байт добавлено, 13:11, 23 января 2019

Нет описания правки

Все методы feature extraction можно разделить на '''линейные''' и '''нелинейные'''.

Одним из самых известных методов '''линейного ~~feature extraction~~ ''' выделения признаков является [[Метод главных компонент (PCA)| PCA]][на 22.01.18 не создан] (Principal Component Analysis, рус. ''метод главных компонент''). Основной идеей этого метода является поиск такой гиперплоскости, на которую при ортогональной проекции всех признаков максимизируется дисперсия. Данное преобразование может быть произведено с помощью сингулярного разложения матриц и создает проекцию только на линейные многомерные плоскости, поэтому и метод находится в категории линейных. К '''нелинейным ''' методам, например, могут быть отнесены методы отображающие исходное пространство признаков на нелинейные поверхности или топологические многообразия. Одним из таких алгоритмов является [[Стохастическое вложение соседей с t-распределением |t-SNE]][на 23.01.19 не создан] (t-distributed Stochastic Neighbor Embedding, рус. ''стохастическое вложение соседей с t-распределением''). Данный метод состоит из двух шагов: изначально строится распределение вероятностей по всем парам точек набора данных, каждая условная вероятность $p_{j|i}$ которого означает насколько точка $X_j$ близка к точке $X_i$ при гауссовом распределении вокруг $X_i$. Данное распределение как метрику похожести использует евклидово расстояние. Алгоритм старается получить отображение из точек размерности $\R^k$ в меньшую размерность $\R^d$, для этого вводится еще одно распределение, описывающее насколько точки из нового пространства похожи друг на друга, но используя при этом t-распределение Стьюдента с одной степенью свободы. Как метрику похожести двух распределений используется дивергенция Кульбака-Лейблера<ref>[https://en.wikipedia.org/wiki/Kullback%E2%80%93Leibler_divergence дивергенция Кульбака-Лейблера]</ref>, и чтобы найти точки новой размерности $d$ запускается градиентный спуск для минимизации этой величины.

===Пример кода scikit-learn===

Пример выделения признаков с помощью PCA в scikit-learn:

*[[Дерево решений и случайный лес| Случайный лес]]

*[[Метод главных компонент (PCA)| PCA]][на 22.01.19 не создан]

[[Стохастическое вложение соседей с t-распределением |t-SNE]][на 23.01.19 не создан]

==Примечания==

Анонимный участник

5.16.38.163

Изменения

Уменьшение размерности

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты