Изменения

Обсуждение участника:Gen05

7817 байт добавлено, 22:57, 26 июня 2022

Нет описания правки

*Понимание природы признаков

===Методы уменьшения размерности===

НУЖНО ВСТАВИТЬ КАРТИНКУ1

===Два основных подхода уменьшения размерности===

Выбор признаков (feature selection) включает методы, для которых

*Нерелевантные (irrelevant) признаки просто

неинформативны

==Встроенные методы==

===Классификация методов выбора признаков===

*Встроенные методы (embedded)

*Фильтрующие методы (filter)

**Одномерные (univariate)

**Многомерные (multivariate)

*Методы-обертки (wrapper)

**Детерминированные (deterministic)

**Стохастические (stochastic)

*Гибридные и ансамблирующие методы

===Встроенные методы===

Встроенные методы (embedded methods) — это методы выбора

признаков, при которых этот выбор осуществляется в процессе работы

других алгоритмов (классификаторов и регрессоров)

*Опираются на конкретный алгоритм

*Специфичны для каждого алгоритма

===Схема встроенного метода===

ВСТАВИТЬ КАРТИНКУ 2

===Пример: случайный лес===

*Учитывать число вхождений признака в дерево.

*Учитывать глубину вершины вхождения признака в дерево.

ВСТАВИТЬ КАРТИНКУ 3

===Пример: SVM-RFE===

#Обучить SVM на обучающем подмножестве

#Установить веса признаков, равными модулям соответствующих коэффициентов

#Отранжировать признаки согласно их весам

#Выбросить некоторое число признаков с наименьшими весами

#Повторять, пока не останется нужное число признаков

==Методы-обертки==

Метод-обертка (wrapper method) использует алгоритм

(классификатор или регрессор) для оценки качества получаемого

подмножества признаков и использует алгоритмы дискретной

оптимизации для поиска оптимального подмножества признаков.

===Схема метода-обертки===

ВСТАВИТЬ КАРТИНКУ 4

===Классификация методов-оберток===

*Детерминированные:

**SFS (sequential forward selection)

**SBE (sequential backward elimination)

**SVM-RFE

**Перестановочная полезность (Permutation importance)

*Стохастические — сводят задачу выбора признаков к задаче

оптимизации в пространстве бинарных векторов:

*Поиск восхождением на холм

**Генетические алгоритмы

**. . .

===Анализ методов-оберток===

Достоинства:

*Более высокая точность, чем у фильтров

*Используют отношения между признаками

*Оптимизируют качество предсказательной модели в явном виде

Недостатки:

*Очень долго работают

*Могут переобучиться при неправильной работе с разбиением набора данных

==Фильтры==

Фильтры (filter methods) оценивают качество отдельных признаков или

подмножеств признаков и удаляют худшие

Две компоненты:

*мера значимости признаков μ

*правило обрезки κ определяет, какие признаки удалить на основе μ

===Схема фильтрующих методов===

ВСТАВИТЬ КАРТИНКУ 5

===Классификация фильтрующих методов===

*Одномерные (univariate):

**Евклидово расстояние

**Коэффициент корреляции (Пирсона или Спирмена)

**Попарные расстояния (внутренние или внешние)

**Условная дисперсия

**Прирост информации (IG)

**Индекс Джини

**χ2

*Многомерные (multivariate):

**Выбор признаков на основе корреляций (CFS)

**Фильтр марковского одеяла (MBF)

===Корреляция===

Коэффициент корреляции Пирсона

Вставить формулу КАРТИНКА 6

Коэффициент корреляции Спирмана

#Отсортировать объекты двумя способами (по каждому из признаков).

#Найти ранги объектов для каждой сортировки.

#Вычислить корреляцию Пирсона между векторами рангов.

===Правило обрезки κ===

*Число признаков

*Порог значимости признаков

*Интегральный порог значимости признаков

*Метод сломанной трости

*Метод локтя

===Анализ одномерных фильтров===

Преимущества:

*Исключительно быстро работают

*Позволяют оценивать значимость каждого признака

Недостатки:

*Порог значимости признаков

*Игнорируют отношения между признаками и то, что реально использует

предсказательная модель

===Анализ многомерных фильтров===

Преимущества:

*Работают достаточно быстро

*Учитывают отношения между признаками

Недостатки:

*Работают существенно дольше фильтров

*Не учитывают то, что реально использует предсказательная модель

==Гибриды и ансамбли==

===Гибридный подход===

Будем комбинировать подходы, чтобы использовать их сильные стороны

Самый частый вариант:

*сначала применим фильтр (или набор фильтров), отсеяв лишние

признаки

*затем применим метод-обертку или встроенный метод

===Схема гибридного подхода===

КАРТИНКА 7

===Ансамблирование в выборе признаков===

Подход к ансамблированию состоит в построении ансамбля алгоритмов выбора

признаков

КАРТИНКА 8

===Ансамбль на уровне моделей===

Строим ансамбль предсказательных моделей

КАРТИНКА 9

===Ансамбль на уровне ранжирований===

Объединяем ранжирования

КАРТИНКА 10

===Ансамбль на уровне мер значимости===

Объединяем меры значимости

КАРТИНКА 11

===Анализ гибридных и ансамблирующих методов===

Преимущества:

*Чаще всего лучше по времени и по качеству

Недостатки:

*Иногда теряется интерпретируемость

*Иногда требуется заботиться о проблеме переобучения

Gen05

80

правок

Изменения

Обсуждение участника:Gen05

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты