80
правок
Изменения
Нет описания правки
*Понимание природы признаков
===Методы уменьшения размерности===
НУЖНО ВСТАВИТЬ КАРТИНКУ1
===Два основных подхода уменьшения размерности===
Выбор признаков (feature selection) включает методы, для которых
*Нерелевантные (irrelevant) признаки просто
неинформативны
==Встроенные методы==
===Классификация методов выбора признаков===
*Встроенные методы (embedded)
*Фильтрующие методы (filter)
**Одномерные (univariate)
**Многомерные (multivariate)
*Методы-обертки (wrapper)
**Детерминированные (deterministic)
**Стохастические (stochastic)
*Гибридные и ансамблирующие методы
===Встроенные методы===
Встроенные методы (embedded methods) — это методы выбора
признаков, при которых этот выбор осуществляется в процессе работы
других алгоритмов (классификаторов и регрессоров)
*Опираются на конкретный алгоритм
*Специфичны для каждого алгоритма
===Схема встроенного метода===
ВСТАВИТЬ КАРТИНКУ 2
===Пример: случайный лес===
*Учитывать число вхождений признака в дерево.
*Учитывать глубину вершины вхождения признака в дерево.
ВСТАВИТЬ КАРТИНКУ 3
===Пример: SVM-RFE===
#Обучить SVM на обучающем подмножестве
#Установить веса признаков, равными модулям соответствующих коэффициентов
#Отранжировать признаки согласно их весам
#Выбросить некоторое число признаков с наименьшими весами
#Повторять, пока не останется нужное число признаков
==Методы-обертки==
Метод-обертка (wrapper method) использует алгоритм
(классификатор или регрессор) для оценки качества получаемого
подмножества признаков и использует алгоритмы дискретной
оптимизации для поиска оптимального подмножества признаков.
===Схема метода-обертки===
ВСТАВИТЬ КАРТИНКУ 4
===Классификация методов-оберток===
*Детерминированные:
**SFS (sequential forward selection)
**SBE (sequential backward elimination)
**SVM-RFE
**Перестановочная полезность (Permutation importance)
*Стохастические — сводят задачу выбора признаков к задаче
оптимизации в пространстве бинарных векторов:
*Поиск восхождением на холм
**Генетические алгоритмы
**. . .
===Анализ методов-оберток===
Достоинства:
*Более высокая точность, чем у фильтров
*Используют отношения между признаками
*Оптимизируют качество предсказательной модели в явном виде
Недостатки:
*Очень долго работают
*Могут переобучиться при неправильной работе с разбиением набора данных
==Фильтры==
Фильтры (filter methods) оценивают качество отдельных признаков или
подмножеств признаков и удаляют худшие
Две компоненты:
*мера значимости признаков μ
*правило обрезки κ определяет, какие признаки удалить на основе μ
===Схема фильтрующих методов===
ВСТАВИТЬ КАРТИНКУ 5
===Классификация фильтрующих методов===
*Одномерные (univariate):
**Евклидово расстояние
**Коэффициент корреляции (Пирсона или Спирмена)
**Попарные расстояния (внутренние или внешние)
**Условная дисперсия
**Прирост информации (IG)
**Индекс Джини
**χ2
*Многомерные (multivariate):
**Выбор признаков на основе корреляций (CFS)
**Фильтр марковского одеяла (MBF)
===Корреляция===
Коэффициент корреляции Пирсона
Вставить формулу КАРТИНКА 6
Коэффициент корреляции Спирмана
#Отсортировать объекты двумя способами (по каждому из признаков).
#Найти ранги объектов для каждой сортировки.
#Вычислить корреляцию Пирсона между векторами рангов.
===Правило обрезки κ===
*Число признаков
*Порог значимости признаков
*Интегральный порог значимости признаков
*Метод сломанной трости
*Метод локтя
===Анализ одномерных фильтров===
Преимущества:
*Исключительно быстро работают
*Позволяют оценивать значимость каждого признака
Недостатки:
*Порог значимости признаков
*Игнорируют отношения между признаками и то, что реально использует
предсказательная модель
===Анализ многомерных фильтров===
Преимущества:
*Работают достаточно быстро
*Учитывают отношения между признаками
Недостатки:
*Работают существенно дольше фильтров
*Не учитывают то, что реально использует предсказательная модель
==Гибриды и ансамбли==
===Гибридный подход===
Будем комбинировать подходы, чтобы использовать их сильные стороны
Самый частый вариант:
*сначала применим фильтр (или набор фильтров), отсеяв лишние
признаки
*затем применим метод-обертку или встроенный метод
===Схема гибридного подхода===
КАРТИНКА 7
===Ансамблирование в выборе признаков===
Подход к ансамблированию состоит в построении ансамбля алгоритмов выбора
признаков
КАРТИНКА 8
===Ансамбль на уровне моделей===
Строим ансамбль предсказательных моделей
КАРТИНКА 9
===Ансамбль на уровне ранжирований===
Объединяем ранжирования
КАРТИНКА 10
===Ансамбль на уровне мер значимости===
Объединяем меры значимости
КАРТИНКА 11
===Анализ гибридных и ансамблирующих методов===
Преимущества:
*Чаще всего лучше по времени и по качеству
Недостатки:
*Иногда теряется интерпретируемость
*Иногда требуется заботиться о проблеме переобучения