Изменения

Перейти к: навигация, поиск

Обсуждение участника:Gen05

11 185 байт добавлено, 22:57, 26 июня 2022
Нет описания правки
== Выбор признаков (Feature selection) ==
 
== Уменьшение размерности ==
 
 
===Задача уменьшения размерности===
 
Объекты описаны признаками F = (f1, . . . , fn).
Задачей является построить множество признаков G = (g1, . . . , gk) : k < n (часто
k ≪ n), переход к которым сопровождается наименьшей потерей
информации.
*Ускорение обучения и обработки
*Борьба с шумом и мультиколлинеарностью
*Интерпретация и визуализация данных
===Проклятие размерности (curse of dimensionality)===
Проклятие размерности (curse of dimensionality) — это набор
проблем, возникающих с ростом размерности
*Увеличиваются требования к памяти и вычислительной мощности
*Данные становятся более разреженными
*Проще найти гипотезы, не имеющие отношения к реальности
===Ситуации применения===
Уменьшение размерности — шаг в предобработке данных
*Меньше памяти для хранения
*Уменьшение времени обработки
*Увеличение качества обработки
*Понимание природы признаков
===Методы уменьшения размерности===
НУЖНО ВСТАВИТЬ КАРТИНКУ 1
===Два основных подхода уменьшения размерности===
Выбор признаков (feature selection) включает методы, для которых
G ⊂ F. Они
*быстро работают;
*не могут «выдумывать» сложных признаков.
Извлечение признаков (feature extraction) включает все другие
методы (в том числе даже те, у которых k > n).
*в целом, дольше работают;
*могут извлекать сложные признаки.
===Цели извлечения и выбора признаков===
====Цель извлечения признаков:====
*Уменьшение числа ресурсов, требуемых для обработки больших наборов
данных
*Поиск новых признаков
*Эти признаки могут быть линейными и нелинейными относительно исходных
====Цели выбора признаков:====
*Уменьшение переобучения и улучшение качества предсказания
*Улучшение понимания моделей
===Типы ненужных признаков===
Существуют также два типа признаков, которые не являются необходимыми:
*Избыточные (redundant) признаки не привносят
дополнительной информации относительно существующих
*Нерелевантные (irrelevant) признаки просто
неинформативны
==Встроенные методы==
===Классификация методов выбора признаков===
*Встроенные методы (embedded)
*Фильтрующие методы (filter)
**Одномерные (univariate)
**Многомерные (multivariate)
*Методы-обертки (wrapper)
**Детерминированные (deterministic)
**Стохастические (stochastic)
*Гибридные и ансамблирующие методы
===Встроенные методы===
Встроенные методы (embedded methods) — это методы выбора
признаков, при которых этот выбор осуществляется в процессе работы
других алгоритмов (классификаторов и регрессоров)
*Опираются на конкретный алгоритм
*Специфичны для каждого алгоритма
===Схема встроенного метода===
ВСТАВИТЬ КАРТИНКУ 2
===Пример: случайный лес===
*Учитывать число вхождений признака в дерево.
*Учитывать глубину вершины вхождения признака в дерево.
ВСТАВИТЬ КАРТИНКУ 3
===Пример: SVM-RFE===
#Обучить SVM на обучающем подмножестве
#Установить веса признаков, равными модулям соответствующих коэффициентов
#Отранжировать признаки согласно их весам
#Выбросить некоторое число признаков с наименьшими весами
#Повторять, пока не останется нужное число признаков
==Методы-обертки==
Метод-обертка (wrapper method) использует алгоритм
(классификатор или регрессор) для оценки качества получаемого
подмножества признаков и использует алгоритмы дискретной
оптимизации для поиска оптимального подмножества признаков.
===Схема метода-обертки===
ВСТАВИТЬ КАРТИНКУ 4
===Классификация методов-оберток===
*Детерминированные:
**SFS (sequential forward selection)
**SBE (sequential backward elimination)
**SVM-RFE
**Перестановочная полезность (Permutation importance)
*Стохастические — сводят задачу выбора признаков к задаче
оптимизации в пространстве бинарных векторов:
*Поиск восхождением на холм
**Генетические алгоритмы
**. . .
===Анализ методов-оберток===
Достоинства:
*Более высокая точность, чем у фильтров
*Используют отношения между признаками
*Оптимизируют качество предсказательной модели в явном виде
Недостатки:
*Очень долго работают
*Могут переобучиться при неправильной работе с разбиением набора данных
==Фильтры==
Фильтры (filter methods) оценивают качество отдельных признаков или
подмножеств признаков и удаляют худшие
 
Две компоненты:
*мера значимости признаков μ
*правило обрезки κ определяет, какие признаки удалить на основе μ
===Схема фильтрующих методов===
ВСТАВИТЬ КАРТИНКУ 5
===Классификация фильтрующих методов===
*Одномерные (univariate):
**Евклидово расстояние
**Коэффициент корреляции (Пирсона или Спирмена)
**Попарные расстояния (внутренние или внешние)
**Условная дисперсия
**Прирост информации (IG)
**Индекс Джини
**χ2
*Многомерные (multivariate):
**Выбор признаков на основе корреляций (CFS)
**Фильтр марковского одеяла (MBF)
===Корреляция===
Коэффициент корреляции Пирсона
Вставить формулу КАРТИНКА 6
Коэффициент корреляции Спирмана
#Отсортировать объекты двумя способами (по каждому из признаков).
#Найти ранги объектов для каждой сортировки.
#Вычислить корреляцию Пирсона между векторами рангов.
===Правило обрезки κ===
*Число признаков
*Порог значимости признаков
*Интегральный порог значимости признаков
*Метод сломанной трости
*Метод локтя
===Анализ одномерных фильтров===
Преимущества:
*Исключительно быстро работают
*Позволяют оценивать значимость каждого признака
Недостатки:
*Порог значимости признаков
*Игнорируют отношения между признаками и то, что реально использует
предсказательная модель
===Анализ многомерных фильтров===
Преимущества:
*Работают достаточно быстро
*Учитывают отношения между признаками
Недостатки:
*Работают существенно дольше фильтров
*Не учитывают то, что реально использует предсказательная модель
==Гибриды и ансамбли==
 
===Гибридный подход===
Будем комбинировать подходы, чтобы использовать их сильные стороны
Самый частый вариант:
*сначала применим фильтр (или набор фильтров), отсеяв лишние
признаки
*затем применим метод-обертку или встроенный метод
===Схема гибридного подхода===
КАРТИНКА 7
===Ансамблирование в выборе признаков===
Подход к ансамблированию состоит в построении ансамбля алгоритмов выбора
признаков
КАРТИНКА 8
===Ансамбль на уровне моделей===
Строим ансамбль предсказательных моделей
КАРТИНКА 9
===Ансамбль на уровне ранжирований===
Объединяем ранжирования
КАРТИНКА 10
===Ансамбль на уровне мер значимости===
Объединяем меры значимости
КАРТИНКА 11
===Анализ гибридных и ансамблирующих методов===
Преимущества:
*Чаще всего лучше по времени и по качеству
Недостатки:
*Иногда теряется интерпретируемость
*Иногда требуется заботиться о проблеме переобучения
80
правок

Навигация