84
правки
Изменения
Нет описания правки
Разработка признаков состоит из 3 процессов: извлечение признаков, выбор признаков и конструирование признаков.<br>
Этап генерации модели включает в себя выбор модели и оптимизацию гиперпараметров выбранной модели.<br>
Аббревиатуры GD, RL, EA, BO и BOB обозначают градиент-градиентный спуск, обучение с подкреплением, эволюционный алгоритм на основе эволюции, байесовская оптимизация и байесовская оптимизация на основе гиперболы, соответственно.
== Подготовка данных ==
=== Выбор признаков ===
[[Файл:2_automl.png|right|thumb|Рис. 3: Итерационный процесс выбора признаков. Подмножество признаков выбирается на основе стратегии поиска, а затем оценивается. После этого выполняется процедура валидации, чтобы определить, является ли полученное подмножество валидным. Описанные выше шаги повторяются до того момента, пока не будет достигнут критерий остановки.]]
Feature selection строит подмножество объектов на основе исходного набора объектов путем сокращения нерелевантных или избыточных признаков. Это, как правило, упрощает модель, таким образом, избегая переобучения и улучшая производительность модели. Выбранные объекты обычно расходятся и сильно коррелируют со значениями объектов.<br>Стратегия поиска для feature selection включает в себя три типа алгоритмов: полный поиск, эвристический поиск и случайный поиск.<br>Методы оценки получившихся подмножеств можно разделить на три основные категории. <br>Первая {{--}} это метод фильтрации, который оценивает каждый признак в соответствии с его дивергенцией или корреляцией, а затем выбирает признаки в соответствии с установленным порогом. Обычно для каждого признака используются такие методы оценки, как <i>дисперсия, коэффициент корреляции и критерий хи-квадрат.</i><br>Вторая {{--}} метод обертки, который классифицирует выборку с выбранным подмножеством признаков, после чего точность классификации используется в качестве меры для измерения качества подмножества признаков.<br>Третий {{--}} это embedded-метод, в котором выбор осуществляется в процессе обучения. Пример embedded-методов - <i>регуляризация и дерево принятия решений.</i>