Обсуждение участника:Gen05 — различия между версиями
Gen05 (обсуждение | вклад) |
Gen05 (обсуждение | вклад) |
||
| Строка 26: | Строка 26: | ||
*Понимание природы признаков | *Понимание природы признаков | ||
===Методы уменьшения размерности=== | ===Методы уменьшения размерности=== | ||
| − | НУЖНО ВСТАВИТЬ КАРТИНКУ | + | НУЖНО ВСТАВИТЬ КАРТИНКУ 1 |
===Два основных подхода уменьшения размерности=== | ===Два основных подхода уменьшения размерности=== | ||
Выбор признаков (feature selection) включает методы, для которых | Выбор признаков (feature selection) включает методы, для которых | ||
| Строка 51: | Строка 51: | ||
*Нерелевантные (irrelevant) признаки просто | *Нерелевантные (irrelevant) признаки просто | ||
неинформативны | неинформативны | ||
| + | ==Встроенные методы== | ||
| + | ===Классификация методов выбора признаков=== | ||
| + | *Встроенные методы (embedded) | ||
| + | *Фильтрующие методы (filter) | ||
| + | **Одномерные (univariate) | ||
| + | **Многомерные (multivariate) | ||
| + | *Методы-обертки (wrapper) | ||
| + | **Детерминированные (deterministic) | ||
| + | **Стохастические (stochastic) | ||
| + | *Гибридные и ансамблирующие методы | ||
| + | ===Встроенные методы=== | ||
| + | Встроенные методы (embedded methods) — это методы выбора | ||
| + | признаков, при которых этот выбор осуществляется в процессе работы | ||
| + | других алгоритмов (классификаторов и регрессоров) | ||
| + | *Опираются на конкретный алгоритм | ||
| + | *Специфичны для каждого алгоритма | ||
| + | ===Схема встроенного метода=== | ||
| + | ВСТАВИТЬ КАРТИНКУ 2 | ||
| + | ===Пример: случайный лес=== | ||
| + | *Учитывать число вхождений признака в дерево. | ||
| + | *Учитывать глубину вершины вхождения признака в дерево. | ||
| + | ВСТАВИТЬ КАРТИНКУ 3 | ||
| + | ===Пример: SVM-RFE=== | ||
| + | #Обучить SVM на обучающем подмножестве | ||
| + | #Установить веса признаков, равными модулям соответствующих коэффициентов | ||
| + | #Отранжировать признаки согласно их весам | ||
| + | #Выбросить некоторое число признаков с наименьшими весами | ||
| + | #Повторять, пока не останется нужное число признаков | ||
| + | ==Методы-обертки== | ||
| + | Метод-обертка (wrapper method) использует алгоритм | ||
| + | (классификатор или регрессор) для оценки качества получаемого | ||
| + | подмножества признаков и использует алгоритмы дискретной | ||
| + | оптимизации для поиска оптимального подмножества признаков. | ||
| + | ===Схема метода-обертки=== | ||
| + | ВСТАВИТЬ КАРТИНКУ 4 | ||
| + | ===Классификация методов-оберток=== | ||
| + | *Детерминированные: | ||
| + | **SFS (sequential forward selection) | ||
| + | **SBE (sequential backward elimination) | ||
| + | **SVM-RFE | ||
| + | **Перестановочная полезность (Permutation importance) | ||
| + | *Стохастические — сводят задачу выбора признаков к задаче | ||
| + | оптимизации в пространстве бинарных векторов: | ||
| + | *Поиск восхождением на холм | ||
| + | **Генетические алгоритмы | ||
| + | **. . . | ||
| + | ===Анализ методов-оберток=== | ||
| + | Достоинства: | ||
| + | *Более высокая точность, чем у фильтров | ||
| + | *Используют отношения между признаками | ||
| + | *Оптимизируют качество предсказательной модели в явном виде | ||
| + | Недостатки: | ||
| + | *Очень долго работают | ||
| + | *Могут переобучиться при неправильной работе с разбиением набора данных | ||
| + | ==Фильтры== | ||
| + | Фильтры (filter methods) оценивают качество отдельных признаков или | ||
| + | подмножеств признаков и удаляют худшие | ||
| + | |||
| + | Две компоненты: | ||
| + | *мера значимости признаков μ | ||
| + | *правило обрезки κ определяет, какие признаки удалить на основе μ | ||
| + | ===Схема фильтрующих методов=== | ||
| + | ВСТАВИТЬ КАРТИНКУ 5 | ||
| + | ===Классификация фильтрующих методов=== | ||
| + | *Одномерные (univariate): | ||
| + | **Евклидово расстояние | ||
| + | **Коэффициент корреляции (Пирсона или Спирмена) | ||
| + | **Попарные расстояния (внутренние или внешние) | ||
| + | **Условная дисперсия | ||
| + | **Прирост информации (IG) | ||
| + | **Индекс Джини | ||
| + | **χ2 | ||
| + | *Многомерные (multivariate): | ||
| + | **Выбор признаков на основе корреляций (CFS) | ||
| + | **Фильтр марковского одеяла (MBF) | ||
| + | ===Корреляция=== | ||
| + | Коэффициент корреляции Пирсона | ||
| + | Вставить формулу КАРТИНКА 6 | ||
| + | Коэффициент корреляции Спирмана | ||
| + | #Отсортировать объекты двумя способами (по каждому из признаков). | ||
| + | #Найти ранги объектов для каждой сортировки. | ||
| + | #Вычислить корреляцию Пирсона между векторами рангов. | ||
| + | ===Правило обрезки κ=== | ||
| + | *Число признаков | ||
| + | *Порог значимости признаков | ||
| + | *Интегральный порог значимости признаков | ||
| + | *Метод сломанной трости | ||
| + | *Метод локтя | ||
| + | ===Анализ одномерных фильтров=== | ||
| + | Преимущества: | ||
| + | *Исключительно быстро работают | ||
| + | *Позволяют оценивать значимость каждого признака | ||
| + | Недостатки: | ||
| + | *Порог значимости признаков | ||
| + | *Игнорируют отношения между признаками и то, что реально использует | ||
| + | предсказательная модель | ||
| + | ===Анализ многомерных фильтров=== | ||
| + | Преимущества: | ||
| + | *Работают достаточно быстро | ||
| + | *Учитывают отношения между признаками | ||
| + | Недостатки: | ||
| + | *Работают существенно дольше фильтров | ||
| + | *Не учитывают то, что реально использует предсказательная модель | ||
| + | ==Гибриды и ансамбли== | ||
| + | |||
| + | ===Гибридный подход=== | ||
| + | Будем комбинировать подходы, чтобы использовать их сильные стороны | ||
| + | Самый частый вариант: | ||
| + | *сначала применим фильтр (или набор фильтров), отсеяв лишние | ||
| + | признаки | ||
| + | *затем применим метод-обертку или встроенный метод | ||
| + | ===Схема гибридного подхода=== | ||
| + | КАРТИНКА 7 | ||
| + | ===Ансамблирование в выборе признаков=== | ||
| + | Подход к ансамблированию состоит в построении ансамбля алгоритмов выбора | ||
| + | признаков | ||
| + | КАРТИНКА 8 | ||
| + | ===Ансамбль на уровне моделей=== | ||
| + | Строим ансамбль предсказательных моделей | ||
| + | КАРТИНКА 9 | ||
| + | ===Ансамбль на уровне ранжирований=== | ||
| + | Объединяем ранжирования | ||
| + | КАРТИНКА 10 | ||
| + | ===Ансамбль на уровне мер значимости=== | ||
| + | Объединяем меры значимости | ||
| + | КАРТИНКА 11 | ||
| + | ===Анализ гибридных и ансамблирующих методов=== | ||
| + | Преимущества: | ||
| + | *Чаще всего лучше по времени и по качеству | ||
| + | Недостатки: | ||
| + | *Иногда теряется интерпретируемость | ||
| + | *Иногда требуется заботиться о проблеме переобучения | ||
Версия 22:57, 26 июня 2022
Содержание
- 1 Выбор признаков (Feature selection)
- 2 Уменьшение размерности
- 3 Встроенные методы
- 4 Методы-обертки
- 5 Фильтры
- 6 Гибриды и ансамбли
Выбор признаков (Feature selection)
Уменьшение размерности
Задача уменьшения размерности
Объекты описаны признаками F = (f1, . . . , fn). Задачей является построить множество признаков G = (g1, . . . , gk) : k < n (часто k ≪ n), переход к которым сопровождается наименьшей потерей информации.
- Ускорение обучения и обработки
- Борьба с шумом и мультиколлинеарностью
- Интерпретация и визуализация данных
Проклятие размерности (curse of dimensionality)
Проклятие размерности (curse of dimensionality) — это набор проблем, возникающих с ростом размерности
- Увеличиваются требования к памяти и вычислительной мощности
- Данные становятся более разреженными
- Проще найти гипотезы, не имеющие отношения к реальности
Ситуации применения
Уменьшение размерности — шаг в предобработке данных
- Меньше памяти для хранения
- Уменьшение времени обработки
- Увеличение качества обработки
- Понимание природы признаков
Методы уменьшения размерности
НУЖНО ВСТАВИТЬ КАРТИНКУ 1
Два основных подхода уменьшения размерности
Выбор признаков (feature selection) включает методы, для которых G ⊂ F. Они
- быстро работают;
- не могут «выдумывать» сложных признаков.
Извлечение признаков (feature extraction) включает все другие методы (в том числе даже те, у которых k > n).
- в целом, дольше работают;
- могут извлекать сложные признаки.
Цели извлечения и выбора признаков
Цель извлечения признаков:
- Уменьшение числа ресурсов, требуемых для обработки больших наборов
данных
- Поиск новых признаков
- Эти признаки могут быть линейными и нелинейными относительно исходных
Цели выбора признаков:
- Уменьшение переобучения и улучшение качества предсказания
- Улучшение понимания моделей
Типы ненужных признаков
Существуют также два типа признаков, которые не являются необходимыми:
- Избыточные (redundant) признаки не привносят
дополнительной информации относительно существующих
- Нерелевантные (irrelevant) признаки просто
неинформативны
Встроенные методы
Классификация методов выбора признаков
- Встроенные методы (embedded)
- Фильтрующие методы (filter)
- Одномерные (univariate)
- Многомерные (multivariate)
- Методы-обертки (wrapper)
- Детерминированные (deterministic)
- Стохастические (stochastic)
- Гибридные и ансамблирующие методы
Встроенные методы
Встроенные методы (embedded methods) — это методы выбора признаков, при которых этот выбор осуществляется в процессе работы других алгоритмов (классификаторов и регрессоров)
- Опираются на конкретный алгоритм
- Специфичны для каждого алгоритма
Схема встроенного метода
ВСТАВИТЬ КАРТИНКУ 2
Пример: случайный лес
- Учитывать число вхождений признака в дерево.
- Учитывать глубину вершины вхождения признака в дерево.
ВСТАВИТЬ КАРТИНКУ 3
Пример: SVM-RFE
- Обучить SVM на обучающем подмножестве
- Установить веса признаков, равными модулям соответствующих коэффициентов
- Отранжировать признаки согласно их весам
- Выбросить некоторое число признаков с наименьшими весами
- Повторять, пока не останется нужное число признаков
Методы-обертки
Метод-обертка (wrapper method) использует алгоритм (классификатор или регрессор) для оценки качества получаемого подмножества признаков и использует алгоритмы дискретной оптимизации для поиска оптимального подмножества признаков.
Схема метода-обертки
ВСТАВИТЬ КАРТИНКУ 4
Классификация методов-оберток
- Детерминированные:
- SFS (sequential forward selection)
- SBE (sequential backward elimination)
- SVM-RFE
- Перестановочная полезность (Permutation importance)
- Стохастические — сводят задачу выбора признаков к задаче
оптимизации в пространстве бинарных векторов:
- Поиск восхождением на холм
- Генетические алгоритмы
- . . .
Анализ методов-оберток
Достоинства:
- Более высокая точность, чем у фильтров
- Используют отношения между признаками
- Оптимизируют качество предсказательной модели в явном виде
Недостатки:
- Очень долго работают
- Могут переобучиться при неправильной работе с разбиением набора данных
Фильтры
Фильтры (filter methods) оценивают качество отдельных признаков или подмножеств признаков и удаляют худшие
Две компоненты:
- мера значимости признаков μ
- правило обрезки κ определяет, какие признаки удалить на основе μ
Схема фильтрующих методов
ВСТАВИТЬ КАРТИНКУ 5
Классификация фильтрующих методов
- Одномерные (univariate):
- Евклидово расстояние
- Коэффициент корреляции (Пирсона или Спирмена)
- Попарные расстояния (внутренние или внешние)
- Условная дисперсия
- Прирост информации (IG)
- Индекс Джини
- χ2
- Многомерные (multivariate):
- Выбор признаков на основе корреляций (CFS)
- Фильтр марковского одеяла (MBF)
Корреляция
Коэффициент корреляции Пирсона Вставить формулу КАРТИНКА 6 Коэффициент корреляции Спирмана
- Отсортировать объекты двумя способами (по каждому из признаков).
- Найти ранги объектов для каждой сортировки.
- Вычислить корреляцию Пирсона между векторами рангов.
Правило обрезки κ
- Число признаков
- Порог значимости признаков
- Интегральный порог значимости признаков
- Метод сломанной трости
- Метод локтя
Анализ одномерных фильтров
Преимущества:
- Исключительно быстро работают
- Позволяют оценивать значимость каждого признака
Недостатки:
- Порог значимости признаков
- Игнорируют отношения между признаками и то, что реально использует
предсказательная модель
Анализ многомерных фильтров
Преимущества:
- Работают достаточно быстро
- Учитывают отношения между признаками
Недостатки:
- Работают существенно дольше фильтров
- Не учитывают то, что реально использует предсказательная модель
Гибриды и ансамбли
Гибридный подход
Будем комбинировать подходы, чтобы использовать их сильные стороны Самый частый вариант:
- сначала применим фильтр (или набор фильтров), отсеяв лишние
признаки
- затем применим метод-обертку или встроенный метод
Схема гибридного подхода
КАРТИНКА 7
Ансамблирование в выборе признаков
Подход к ансамблированию состоит в построении ансамбля алгоритмов выбора признаков КАРТИНКА 8
Ансамбль на уровне моделей
Строим ансамбль предсказательных моделей КАРТИНКА 9
Ансамбль на уровне ранжирований
Объединяем ранжирования КАРТИНКА 10
Ансамбль на уровне мер значимости
Объединяем меры значимости КАРТИНКА 11
Анализ гибридных и ансамблирующих методов
Преимущества:
- Чаще всего лучше по времени и по качеству
Недостатки:
- Иногда теряется интерпретируемость
- Иногда требуется заботиться о проблеме переобучения