Изменения

Настройка гиперпараметров

6351 байт добавлено, 00:17, 11 января 2021

Нет описания правки

== ~~Гиперпараметры~~ Гиперпараметр ==

~~Гиперпараметры~~ '''Гиперпараметр''' (англ. ''hyperparameter'') — ~~параметры~~параметр, ~~которые~~ который не ~~настраиваются~~ настраивается во время обучения модели. Пример гиперпараметра — шаг градиентного спуска, он задается перед обучением. Пример параметров — веса градиентного спуска, они изменяются и настраиваются во время обучения.

Для подбора гиперпараметров необходимо разделить датасет на три части:

* ~~training set (~~тренировочный набор данных(англ. ''training set''), для ~~обучении~~ обучения модели) * ~~validation set (~~валидационный набор данных(англ. ''validation set''), для расчета ошибки и выбора наилучшей модели)* ~~test set (~~тестовый набор данных(англ. ''test set''), для тестирования ~~лучшей~~ выбранной модели)

Зачем нам нужен и валидационный, и тестовый набор? Дело в том, что модель может переучиться на валидационном наборе данных. Для выявления переобучения используется тестовый набор данных.

Рассмотрим модель <code>KNeighborsClassifier</code> из библиотеки sklearn. Все “параметры” данной модели(loss, penalty, alpha и т.д), с точки зрения машинного обучения, являются гиперпараметрами, так как задаются до начала обучения.

~~[[Файл:KNeighborsClassifier_model~~ class sklearn.~~png|center|1000px]]~~ linear_model.SGDClassifier(loss='hinge', penalty='l2', alpha=0.0001, l1_ratio=0.15, fit_intercept=True, max_iter=1000, tol=0.001, shuffle=True, verbose=0, epsilon=0.1, n_jobs=None, random_state=None, learning_rate='optimal', eta0=0.0, power_t=0.5, early_stopping=False, validation_fraction=0.1, n_iter_no_change=5, class_weight=None, warm_start=False, average=False)

== ~~Grid search~~ Поиск по сетке ==

=== Общая информация ===

'''Поиск по сетке''' (англ. ''Grid search '') принимает на вход модель и различные значения гиперпараметров (сетку гиперпараметров). Далее, для каждого возможного сочетания значений гиперпараметров, метод считает ошибку и в конце выбирает сочетание, при котором ошибка минимальна.

=== Поиск по сетке в Sklearn ~~Grid search~~: использование ===

Пример использования <code>GridSearch</code> из библиотеки scikit-learn:

Out:

GridSearchCV(cv=StratifiedShuffleSplit(n_splits=10, random_state=0, test_size=0.2, train_size=None), error_score=nan, estimator=SGDClassifier(alpha=0.0001, average=False, class_weight=None, early_stopping=False, epsilon=0.1, eta0=0.0, fit_intercept=True, l1_ratio=0.15, learning_rate='optimal', loss='hinge', max_iter=1000, n_iter_no_change=5, n_jobs=None,

penalty='l2...

'eta0': array([1.00000000e-05, 1.64285714e-05, 2.28571429e-05, 2.92857143e-05, 3.57142857e-05, 4.21428571e-05, 4.85714286e-05, 5.50000000e-05, 6.14285714e-05, 6.78571429e-05, 7.42857143e-05, 8.07142857e-05, 8.71428571e-05, 9.35714286e-05, 1.00000000e-04]),

'learning_rate': ['optimal', 'constant', 'invscaling'],

'max_iter': array([5, 6, 7, 8, 9])},

scoring='accuracy', verbose=0)

=== Поиск по сетке в Sklearn ~~Grid search~~: важные атрибуты ===

* <code>best_estimator_</code> — лучшая модель

* <code>best_params_</code> — гиперпараметры лучшей модели

~~[[Файл:KNeighborsClassifier_bestest~~ print(grid_cv.~~png|center|1000px]]~~ best_estimator_) Out: SGDClassifier(alpha=4.857142857142857e-05, average=False, class_weight=None, early_stopping=False, epsilon=0.1, eta0=1e-05, fit_intercept=True, l1_ratio=0.15, learning_rate='optimal', loss='hinge', max_iter=6, n_iter_no_change=5, n_jobs=None, penalty='l2', power_t=0.5, random_state=0, shuffle=True, tol=0.001, validation_fraction=0.1, verbose=0, warm_start=False)

* <code>cv_results_</code> — результаты всех моделей print(grid_cv. best_score_) Out: 0.9099999999999999

~~[[Файл:KNeighborsClassifier_results~~ print(grid_cv.~~png|center|1000px]]~~ best_params_) Out: {'alpha': 4.857142857142857e-05, 'eta0': 1e-05, 'learning_rate': 'optimal', 'max_iter': 6}

* ~~доступ к массиву определенного параметра:~~ <code>cv_results_</code> — результаты всех моделей.

print(grid_cv.cv_results_) Out: {'mean_fit_time': array([0.00209482, 0.00120714, 0.00089645, ..., 0.00109975, 0.00100021, 0.00099928]), 'std_fit_time': array([~~Файл~~1.22382854e-03, 6.21233347e-04, 5.32190271e-04, ..., 3.11922473e-04, 1.27400324e-05, 1.94000071e-06]), 'mean_score_time':~~KNeighborsClassifier_param_array~~array([2.00700760e-04, 0.00000000e+00, 2.99715996e-04, ..., 1.99961662e-04, 2.96926498e-04, 9.~~png|center|1000px~~98973846e-05]), 'std_score_time': array([0.0004014 , 0. , 0.00045782, ..., 0.00039992, 0.00045363, 0.00029969] ~~ ~~), ...... }

print(grid_cv.cv_results_['param_max_iter'].data) Out: array([5, 6, 7, ..., 7, 8, 9], dtype=~~== Реализация Grid search в библеотеках ===~~* Katib* scikit-learn* Tune* Talosobject)

=== Реализация поиска по сетке в библиотеках ===

* scikit-learn<ref>[https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html scikit-learn]</ref>

* Katib<ref>[https://github.com/kubeflow/katib Katib]</ref>

* Tune<ref>[https://tidymodels.github.io/tune/articles/grid.html Tune]</ref>

* Talos<ref>[https://autonomio.github.io/docs_talos/#grid-search Talos]</ref>

== ~~Random grid search~~ Случайный поиск по сетке ==

=== Основная информация ===

~~Вместо~~ '''Случайный поиск по сетке''' (англ. ''Random Grid Search'') вместо полного перебора~~, Random grid search~~ работает с некоторыми, случайным образом выбранными, комбинациями. На основе полученных результатов, происходит сужение области поиска.

Когда ~~random grid search~~ случайный поиск по сетке будет гораздо полезнее, чем ~~grid search~~просто поиск по сетке? В ситуации, когда гиперпараметров много, но сильно влияющих на конечную производительность алгоритма — мало.

=== Реализация ~~Random grid~~ случайного поиска по сетке ===

* ~~hyperopt~~Ray<ref>[https://ray.readthedocs.io/en/latest/tune-searchalg.html#variant-generation-grid-search-random-search Ray]</ref>

* Katib

* scikit-learn

* Tune

* Talos

* Hyperopt<ref>[https://hyperopt.github.io/hyperopt/#algorithms Hyperopt]</ref>

== ~~SMBO~~ Последовательная оптимизация по модели ==

=== Основная информация ===

~~SMBO~~ '''Последовательная оптимизация по модели''' (англ. ''Sequential Model-Based Optimization~~) — методы~~, ~~основанные на байесовской оптимизации~~ ~~Когда используют~~ SMBO~~? Когда~~ '') используются когда оптимизация целевой функции будет стоить очень "дорого". Главная идея SMBO — замена целевой функции "суррогатной" функцией.

На каждом шаге работы SMBO:

Методы SMBO отличаются между собой вероятностными моделями и функциями выбора:

Популярные вероятностные модели (суррогатные функции):

* ~~Gaussian Processes~~Гауссовские процессы* ~~Tree Parzen Estimators (TPE)~~Древовидный парзеновский оценщик* ~~Random Forest Regressions~~Регрессия случайного леса

=== ~~Реализация~~ Древовидный парзеновский оценщик ===* Random Forest Regressions: SMAC* Tree Parzen Estimators: Hyperopt* Gaussian Processes: Spearmint, Scikit-optimize

== ~~TPE~~ ==Основная информация ====Как было написано выше, методы SMBO отличаются тем, как они строят вероятностную модель <math> {p(y|x)} </math>. В случае '''древовидного парзеновского оценщика''' (англ. ''Tree-structured Parzen Estimator, TPE''), используется следующая функция:

<math> p(y) =~~== Основная информация ===TPE — Tree-structured Parzen Estimator~~ \frac{p(x|y) * p(y)}{p(~~Древовидная структура Парзена~~x)} </math>

~~Как было написано выше, методы SMBO отличаются тем, как они строят вероятностную модель~~ <math> {p(x|y|x)} </math>~~. В случае TPE~~— распределение гиперпараметров, ~~используется следующая функция:~~<math> y </math> — значение целевой функции, <math> y* </math> — пороговое начение

<math> p(x|y) = \~~frac~~begin{pcases} l(x|), & \mbox{if } y < y) * p\\ g(yx), & \mbox{if } y \ge y*\end{~~p(x)~~cases} </math>

~~<math> {p(x|y)} </math> — распределение~~ В TPE задается два различных распределения гиперпараметров: первое при значениях целевой функции меньших, чем пороговое значение. Второе - при значениях целевой функции больших, чем пороговое значение.

=== ~~Реализация~~ = Алгоритм ====

* Hyperopt# На вход подается список пар (parameters, loss)# По заданному порогу, происходит разбиение списка на 2 части# Для каждого списка строится распределение# Возвращается значение: <math> argmin_{param} \frac{g(param)}{l(param)} </math>

== ~~SMAC~~ = Последовательная конфигурация алгоритма на основе модели ===

==== Основная информация ====

'''Последовательная конфигурация алгоритма на основе модели''' (англ. ''Sequential Model-based Algorithm Configuration, SMAC ~~использует Random Forest regression и~~ '') расширяет подходы SMBO:

* Использует дискретные и условные пространства параметров.

* Обрабатывает негауссовский шум.

* Выделяет бюджет на общее время, доступное для настройки алгоритма, а не на количество оценок функций.

Кроме того, SMAC использует переданную ему модель для формирования списка перспективных конфигураций (сочетаний) параметров. Чтобы оценить перспективность конфигурация <math> \theta </math>, SMAC строит распределение результатов модели для <math> \theta </math>.

С помощью этого распределения, а также информации, о текущей лучшей конфигурации, SMAC вычисляет ожидаемое положительное улучшение [https://www.cs.ubc.ca/~hutter/papers/10-TR-SMAC.pdf <math> EI(\theta) </math>].

После нахождения <math> EI(\theta) </math> необходимо найти конфигурацию с наибольшим значением <math> EI(\theta) </math>. Эта задача приводит к проблеме максимизация значения на всем пространстве конфигураций.

Другие методы SMBO максимизируют значения а случайной выборке из пространства конфигураций, что достаточно плохо работает в случае высокомерного пространства.

SMAC применяет немного другой подход: выполняется несколько локальных и поисков и среди них выбираются все конфигурации с максимальным <math> EI(\theta) </math>. И уже среди них производится новый поиск и выбирается лучшая конфигурация.

=== Реализация ===

* ~~AutoML~~SMBO: [https://www.automl.org/automated-algorithm-design/algorithm-configuration/smac/ SMAC]* TPE: [https://hyperopt.github.io/hyperopt/#algorithms Hyperopt]* Гауссовские процессы: [https://devhub.io/repos/automl-spearmint Spearmint], [https://scikit-optimize.github.io/stable/modules/classes.html#module-skopt.optimizer Scikit-optimize]

==См. также==

*[[Автоматическое машинное обучение]]

*[[Бустинг, AdaBoost]]

*[[Кросс-валидация]]

*[[Поиск архитектуры нейронной сети]]

== Примечания ==

== Источники ==

* [https://~~towardsdatascience~~papers.~~com~~nips.cc/~~hyperparameters~~paper/4443-algorithms-for-hyper-parameter-optimization.pdf Algorithms for Hyper-Parameter Optimization]* [https://www.cs.ubc.ca/~hutter/papers/10-TR-SMAC.pdf Sequential Model-~~526348bb8e2d Hyperparameters~~ Based Optimizationfor General Algorithm Configuration]

* [https://www.youtube.com/watch?v=u6MG_UTwiIQ Bayesian optimization]

* [https://www.youtube.com/watch?v=PgJMLpIfIc8 Гауссовские процессы и байесовская оптимизация]

* [https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html GridSearchCV sklearn]

[[Категория: Машинное обучение]] [[Категория: Автоматическое машинное обучение]]

Hakimov

135

правок

Изменения

Настройка гиперпараметров

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты