Изменения

Обсуждение участника:Gen05

3506 байт добавлено, 15:26, 29 июня 2022

Нет описания правки

= Уменьшение размерности =

Под '''уменьшением размерности''' (англ. ''dimensionality reduction'') в машинном обучении подразумевается уменьшение числа признаков набора данных. Наличие в нем признаков избыточных, неинформативных или слабо информативных может понизить эффективность модели, а после такого преобразования она упрощается, и , соответственно , уменьшается размер набора данных в памяти и ускоряется работа алгоритмов ML на нем. Уменьшение размерности может быть осуществлено методами выбора признаков (англ. ''feature selection'') или выделения признаков (англ. ''feature extraction'').

{{Определение

Фильтры могут быть:

* Одномерные (англ. ''univariate'') {{---}} функция $\mu$ определяет релевантность одного признака по отношению к выходным меткам. В таком случае обычно измеряют «качество» каждого признака и удаляют худшие;. Одномерные метрики делятся на 3 части: ** Сравнивают два категориальных признака** Сравнивают категориальный и числовой признаки** Сравнивают два числовых признака

* Многомерные (англ. ''multivariate'') {{---}} функция $\mu$ определяет релевантность некоторого подмножества исходного множества признаков относительно выходных меток.

* Работают существенно дольше фильтров

* Не учитывают то, что реально использует предсказательная модель

=Гибриды и ансамбли=

==Гибридный подход==

[[Файл:Таблица_7.jpg|600px|thumb|right|Схема процесса работы гибридного подхода]]

[[Файл:ТАблица_8.jpg|600px|thumb|right|Ансамблирование в выборе признаков]]

[[Файл:Таблица_9.jpg|600px|thumb|right|Ансамбль на уровне моделей]]

[[Файл:Таблица_10.jpg|600px|thumb|right|Ансамбль на уровне ранжирований]]

[[Файл:Таблица_11.jpg|600px|thumb|right|Ансамбль на уровне мер значимости]]

'''Гибридные методы''' (англ. ''hybrid methods'') комбинируют несколько разных методов выбора признаков, например, некоторое множество фильтров, а потом запускают оберточный или встроенный метод. Таким образом, гибридные методы сочетают в себе преимущества сразу нескольких методов, и на практике повышают эффективность выбора признаков.

Будем комбинировать подходы, чтобы использовать их сильные стороны

Самый частый вариант:

* сначала применим фильтр (или набор фильтров), отсеяв лишние признаки

* затем применим метод-обертку или встроенный метод

==Ансамблирование в выборе признаков==

'''Ансамблевые методы''' применяются больше для наборов данных с очень большим числом признаков. В данном подходе для начального множества признаков создается несколько подмножеств признаков, и эти группы каким-то образом объединяются, чтобы получить набор самых релевантных признаков. Это довольно гибкая группа методов, т.к. для нее можно применять различные способы выбора признаков и объединения их подмножеств.

Подход к ансамблированию состоит в построении ансамбля алгоритмов выбора признаков

* Строим ансамбль предсказательных моделей

* Объединяем ранжирования

* Объединяем меры значимости

==Анализ гибридных и ансамблирующих методов==

Преимущества:

* Чаще всего лучше по времени и по качеству

Недостатки:

* Иногда теряется интерпретируемость

* Иногда требуется заботиться о проблеме переобучения

==Примечания==

Gen05

80

правок

Изменения

Обсуждение участника:Gen05

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты