Изменения

Перейти к: навигация, поиск

Обсуждение участника:Gen05

3932 байта добавлено, 18:54, 29 июня 2022
Фильтры
= Уменьшение размерности =
Под '''уменьшением размерности''' (англ. ''dimensionality reduction'') в машинном обучении подразумевается уменьшение числа признаков набора данных. Наличие в нем признаков избыточных, неинформативных или слабо информативных может понизить эффективность модели, а после такого преобразования она упрощается, и , соответственно , уменьшается размер набора данных в памяти и ускоряется работа алгоритмов ML на нем. Уменьшение размерности может быть осуществлено методами выбора признаков (англ. ''feature selection'') или выделения признаков (англ. ''feature extraction'').
{{Определение
Фильтры могут быть:
* Одномерные (англ. ''univariate'') {{---}} функция $\mu$ определяет релевантность одного признака по отношению к выходным меткам. В таком случае обычно измеряют «качество» каждого признака и удаляют худшие;. Одномерные метрики делятся на 3 части: ** Сравнивают два категориальных признака** Сравнивают категориальный и числовой признаки** Сравнивают два числовых признака
* Многомерные (англ. ''multivariate'') {{---}} функция $\mu$ определяет релевантность некоторого подмножества исходного множества признаков относительно выходных меток.
'''Коэффициент корреляции Пирсона''' <br>
'''Замечание'''
Важно помнить, что мы смотрим не на корреляцию, а на модуль корреляции.
<tex>r=\displaystyle \frac{\sum_{i, j}(x_{ij}-\bar{x_j})(y_i-\bar{y})}{\sqrt{\sum_{i, j}(x_{ij}-\bar{x_j})^2\sum_i(y_i-\bar{y})^2}}\in[-1;1]</tex>
'''Information gain'''<ref>[https://en.wikipedia.org/wiki/Information_gain_in_decision_trees Определение information gain]</ref>: <br> $IG(T, C)=\displaystyle -\sum_{i=1}^kp(c_i)\log_2{(p(c_i))}+\sum_{i=1}^{n}p(t_i)\sum_{j=1}^kp(c_j|t_i)\log_2{(p(c_j|t_i))}$
 
==Правило подрезки $k$==
* Число признаков
* Порог значимости признаков
* Интегральный порог значимости признаков
* Метод сломанной трости
* Метод локтя
==Анализ одномерных фильтров==
* Не учитывают то, что реально использует предсказательная модель
=Гибриды и ансамбли= [[Файл:Таблица_7.jpg|600px|thumb|right|Схема процесса работы гибридного подхода]] ==Гибридный подход== '''Гибридные методы''' (англ. ''hybrid methods'') комбинируют несколько разных методов выбора признаков, например, некоторое множество фильтров, а потом запускают оберточный или встроенный метод. Таким образом, гибридные методы сочетают в себе преимущества сразу нескольких методов, и на практике повышают эффективность выбора признаков. Будем комбинировать подходы, чтобы использовать их сильные стороныСамый частый вариант:* сначала применим фильтр (или набор фильтров), отсеяв лишние признаки* затем применим метод-обертку или встроенный метод ==Ансамблирование в выборе признаков==[[Файл:ТАблица_8.jpg|600px|thumb|right|Ансамблирование в выборе признаков]] '''Ансамблевые методы''' применяются больше для наборов данных с очень большим числом признаков. В данном подходе для начального множества признаков создается несколько подмножеств признаков, и эти группы каким-то образом объединяются, чтобы получить набор самых релевантных признаков. Это довольно гибкая группа методов, т.к. для нее можно применять различные способы выбора признаков и объединения их подмножеств. Подход к ансамблированию состоит в построении ансамбля алгоритмов выбора признаков* Строим ансамбль предсказательных моделей* Объединяем ранжирования* Объединяем меры значимости [[Файл:Таблица_9.jpg|none|600px|thumb|Ансамбль на уровне моделей]][[Файл:Таблица_10.jpg|none|600px|thumb|Ансамбль на уровне ранжирований]][[Файл:Таблица_11.jpg|none|600px|thumb|Ансамбль на уровне мер значимости]] ==Анализ гибридных и ансамблирующих методов==Преимущества:* Чаще всего лучше по времени и по качествуНедостатки:* Иногда теряется интерпретируемость* Иногда требуется заботиться о проблеме переобучения =Примечания==
<references/>
80
правок

Навигация