Настройка гиперпараметров — различия между версиями

Версия 14:53, 23 апреля 2020

Содержание

1 Гиперпараметры
2 Grid search
3 Random grid search
- 3.1 Основная информация
- 3.2 Реализация Random grid
4 SMBO
5 См. также
6 Источники

Гиперпараметры

Гиперпараметры — параметры, которые не настраиваются во время обучения модели. Пример гиперпараметра — шаг градиентного спуска, он задается перед обучением. Пример параметров — веса градиентного спуска, они изменяются и настраиваются во время обучения.

Для подбора гиперпараметров необходимо разделить датасет на три части:

training set (тренировочный набор данных, для обучении модели)
validation set (валидационный набор данных, для расчета ошибки и выбора наилучшей модели)
test set (тестовый набор данных, для тестирования лучшей модели)

Зачем нам нужен и валидационный, и тестовый набор? Дело в том, что модель может переучиться на валидационном наборе данных. Для выявления переобучения используется тестовый набор данных.

Рассмотрим модель KNeighborsClassifier из библиотеки sklearn. Все “параметры” данной модели (loss, penalty, alpha и т.д), с точки зрения машинного обучения, являются гиперпараметрами, так как задаются до начала обучения.

   class sklearn.linear_model.SGDClassifier(loss='hinge', penalty='l2', alpha=0.0001, l1_ratio=0.15, fit_intercept=True, max_iter=1000, 
                                        tol=0.001, shuffle=True, verbose=0, epsilon=0.1, n_jobs=None, random_state=None, learning_rate='optimal', 
                                        eta0=0.0, power_t=0.5, early_stopping=False, validation_fraction=0.1, n_iter_no_change=5, class_weight=None, 
                                        warm_start=False, average=False)

Grid search

Общая информация

Grid search принимает на вход модель и различные значения гиперпараметров (сетку гиперпараметров). Далее, для каждого возможного сочетания значений гиперпараметров, метод считает ошибку и в конце выбирает сочетание, при котором ошибка минимальна.

Sklearn Grid search: использование

Пример использования GridSearch из библиотеки scikit-learn:

Создание экземпляра класса SGDClassifier (из sklearn)
Создание сетки гиперпараметров. В данном случае будем подбирать коэффициент регуляризации, шаг градиентного спуска, количество итераций и параметр скорости обучения.
Создание экземпляра класса кросс-валидации
Создание экземпляра GridSearch (из sklearn). Первый параметр — модель, второй — сетка гиперпараметров, третий — функционал ошибки (используемый для контроля качества моделей по технике кросс-валидации), четвертый — кросс-валидация (можно задать количество фолдов, а можно передать экземпляр класса кросс - валидации)
Запуск поиска по сетке.

   classifier = linear_model.SGDClassifier(random_state = 0, tol=1e-3)

   parameters_grid = {
       'alpha' : np.linspace(0.00001, 0.0001, 15),
       'learning_rate': ['optimal', 'constant', 'invscaling'],
       'eta0' : np.linspace(0.00001, 0.0001, 15),
       'max_iter' : np.arange(5,10),
   }

   cv = model_selection.StratifiedShuffleSplit(n_splits=10, test_size = 0.2)
   grid_cv = model_selection.GridSearchCV(classifier, parameters_grid, scoring = 'accuracy', cv = cv)
   grid_cv.fit(train_data, test_data)

   Out:
   GridSearchCV(cv=StratifiedShuffleSplit(n_splits=10, random_state=0, test_size=0.2, train_size=None), error_score=nan,
                estimator=SGDClassifier(alpha=0.0001, average=False, class_weight=None, early_stopping=False,
                                    epsilon=0.1, eta0=0.0, fit_intercept=True, l1_ratio=0.15, learning_rate='optimal',
                                    loss='hinge', max_iter=1000, n_iter_no_change=5, n_jobs=None, 
                                    penalty='l2...
                        'eta0': array([1.00000000e-05, 1.64285714e-05, 2.28571429e-05, 2.92857143e-05, 3.57142857e-05, 4.21428571e-05, 4.85714286e-05, 5.50000000e-05,
                                      6.14285714e-05, 6.78571429e-05, 7.42857143e-05, 8.07142857e-05, 8.71428571e-05, 9.35714286e-05, 1.00000000e-04]),
                        'learning_rate': ['optimal', 'constant', 'invscaling'],
                        'max_iter': array([5, 6, 7, 8, 9])},
            pre_dispatch='2*n_jobs', refit=True, return_train_score=False,
            scoring='accuracy', verbose=0)

Sklearn Grid search: важные атрибуты

best_estimator_ — лучшая модель
best_score_ — ошибка, полученная на лучшей модели.
best_params_ — гиперпараметры лучшей модели

   print(grid_cv.best_estimator_) 

   Out: SGDClassifier(alpha=4.857142857142857e-05, average=False, class_weight=None, early_stopping=False, epsilon=0.1, eta0=1e-05, fit_intercept=True,
                  l1_ratio=0.15, learning_rate='optimal', loss='hinge', max_iter=6, n_iter_no_change=5, n_jobs=None, penalty='l2', power_t=0.5,
                  random_state=0, shuffle=True, tol=0.001, validation_fraction=0.1, verbose=0, warm_start=False)

   print(grid_cv.best_score_) 

   Out: 0.9099999999999999

   print(grid_cv.best_params_) 

   Out: {'alpha': 4.857142857142857e-05, 'eta0': 1e-05, 'learning_rate': 'optimal', 'max_iter': 6}

cv_results_ — результаты всех моделей.

   print(grid_cv.cv_results_) 

   Out:
       {'mean_fit_time': array([0.00209482, 0.00120714, 0.00089645, ..., 0.00109975, 0.00100021,
       0.00099928]),
       'std_fit_time': array([1.22382854e-03, 6.21233347e-04, 5.32190271e-04, ...,
           3.11922473e-04, 1.27400324e-05, 1.94000071e-06]),
       'mean_score_time': array([2.00700760e-04, 0.00000000e+00, 2.99715996e-04, ...,
           1.99961662e-04, 2.96926498e-04, 9.98973846e-05]),
       'std_score_time': array([0.0004014 , 0.        , 0.00045782, ..., 0.00039992, 0.00045363,
          0.00029969]),
        ...... }

    print(grid_cv.cv_results_['param_max_iter'].data) 

    Out: array([5, 6, 7, ..., 7, 8, 9], dtype=object)

Реализация Grid search в библеотеках

Random grid search

Основная информация

Вместо полного перебора, Random grid search работает с некоторыми, случайным образом выбранными, комбинациями. На основе полученных результатов, происходит сужение области поиска.

Когда random grid search будет гораздо полезнее, чем grid search? В ситуации, когда гиперпараметров много, но сильно влияющих на конечную производительность алгоритма — мало.

Реализация Random grid

SMBO

Основная информация

SMBO (Sequential Model-Based Optimization) — методы, основанные на байесовской оптимизации

Когда используют SMBO? Когда оптимизация целевой функции будет стоить очень "дорого". Главная идея SMBO — замена целевой функции "суррогатной" функцией.

На каждом шаге работы SMBO:

Строится вероятностная модель (суррогатная функция) целевой функции.
Подбираются гиперпараметры, которые лучше всего подходят для вероятностной модели.
Подобранные гиперпараметры применяются к целевой функции.
Вероятностная модель перестраивается (обновляется).
Шаги 2-4 повторяются столько раз, сколько задал пользователь.

Существует четыре ключевые аспекта SMBO:

Сетка значений гиперпараметров (область поиска).
Целевая функция (выводит оценку, которую мы хотим минимизировать или максимизировать).
Вероятностная модель целевой функции (суррогатная функция).
Критерий, называемый функцией выбора (для выбора следующих гиперпараметры по текущей вероятностной модели).

Методы SMBO отличаются между собой вероятностными моделями и функциями выбора:
Популярные вероятностные модели (суррогатные функции):

Gaussian Processes
Tree Parzen Estimators (TPE)
Random Forest Regressions

TPE

Основная информация

TPE — Tree-structured Parzen Estimator (Древовидная структура Парзена)

Как было написано выше, методы SMBO отличаются тем, как они строят вероятностную модель [math] {p(y|x)} [/math]. В случае TPE, используется следующая функция:

[math] {p(x|y)} [/math] — распределение гиперпараметров, [math] y [/math] — значение целевой функции, [math] y* [/math] — пороговое начение

В TPE задается два различных распределения гиперпараметров: первое при значениях целевой функции меньших, чем пороговое значение. Второе - при значениях целевой функции больших, чем пороговое значение.

Алгоритм

На вход подается список пар (parameters, loss)
По заданному порогу, происходит разбиение списка на 2 части
Для каждого списка строится распределение
Возвращается значение:

SMAC

Основная информация

SMAC использует Random Forest regression и расширяет подходы SMBO:

Использует дискретные и условные пространства параметров.
Обрабатывает негауссовский шум.
Выделяет бюджет на общее время, доступное для настройки алгоритма, а не на количество оценок функций.

Кроме того, SMAC использует переданную ему модель для формирования списка перспективных конфигураций (сочетаний) параметров. Чтобы оценить перспективность конфигурация [math] \theta [/math], SMAC строит распределение результатов модели для [math] \theta [/math]. С помощью этого распределения, а также информации, о текущей лучшей конфигурации, SMAC вычисляет ожидаемое положительное улучшение [math] EI(\theta) [/math]. После нахождения [math] EI(\theta) [/math] необходимо найти конфигурацию с наибольшим значением [math] EI(\theta) [/math]. Эта задача приводит к проблеме максимизация значения на всем пространстве конфигураций. Другие методы SMBO максимизируют значения а случайной выборке из пространства конфигураций, что достаточно плохо работает в случае высокомерного пространства. SMAC применяет немного другой подход: выполняется несколько локальных и поисков и среди них выбираются все конфигурации с максимальным [math] EI(\theta) [/math]. И уже среди них производится новый поиск и выбирается лучшая конфигурация.

Реализация

Random Forest Regressions: SMAC
Tree Parzen Estimators: Hyperopt
Gaussian Processes: Spearmint, Scikit-optimize

См. также

Викиконспекты: Машинное обучение

Источники

Настройка гиперпараметров — различия между версиями

Версия 14:53, 23 апреля 2020

Содержание

Гиперпараметры

Grid search

Общая информация

Sklearn Grid search: использование

Sklearn Grid search: важные атрибуты

Реализация Grid search в библеотеках

Random grid search

Основная информация

Реализация Random grid

SMBO

Основная информация

TPE

Основная информация

Алгоритм

SMAC

Основная информация

Реализация

См. также

Источники

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты

@@ Строка 1: / Строка 1: @@
 == Гиперпараметры ==
-Гиперпараметры - параметры, которые не настраиваются во время обучения модели.
+Гиперпараметры — параметры, которые не настраиваются во время обучения модели.  Пример гиперпараметра — шаг градиентного спуска, он задается перед обучением. Пример параметров — веса градиентного спуска, они изменяются и настраиваются во время обучения.
-Пример гиперпараметра - шаг градиентного спуска, он задается перед обучением. <br>
-Пример параметров - веса градиентного спуска, они изменяются и настраиваются во время обучения.
 Для подбора гиперпараметров необходимо разделить датасет на три части:
@@ Строка 11: / Строка 8: @@
 * test set (тестовый набор данных, для тестирования лучшей модели)
-Зачем нам нужен и валидационный, и тестовый набор? <br>
+Зачем нам нужен и валидационный, и тестовый набор? Дело в том, что модель может переучиться на валидационном наборе данных. Для выявления переобучения используется тестовый набор данных.
-Дело в том, что модель может переучиться на валидационном наборе данных. Для выявления переобучения используется тестовый набор данных.
-Рассмотрим модель KNeighborsClassifier из библиотеки sklearn.
+Рассмотрим модель <code>KNeighborsClassifier</code> из библиотеки sklearn. Все “параметры” данной модели (loss, penalty, alpha и т.д), с точки зрения машинного обучения, являются гиперпараметрами, так как задаются до начала обучения.
-[[Файл:KNeighborsClassifier_model.png|800px|thumb|left|  Все “параметры” данной модели, с точки зрения машинного обучения, являются гиперпараметрами, так как задаются до начала обучения.]]
+    class sklearn.linear_model.SGDClassifier(loss='hinge', penalty='l2', alpha=0.0001, l1_ratio=0.15, fit_intercept=True, max_iter=1000,
+                                         tol=0.001, shuffle=True, verbose=0, epsilon=0.1, n_jobs=None, random_state=None, learning_rate='optimal',
+                                         eta0=0.0, power_t=0.5, early_stopping=False, validation_fraction=0.1, n_iter_no_change=5, class_weight=None,
+                                         warm_start=False, average=False)
-== Техники настройки гиперпараметров ==
+== Grid search ==
-=== Grid search ===
+=== Общая информация ===
-Принимает на вход модель и различные значения гиперпараметров (сетку гиперпараметров). Далее, для каждого возможного сочетания значений гиперпараметров, метод считает ошибку и в конце выбирает сочетание, при котором ошибка минимальна.
+Grid search принимает на вход модель и различные значения гиперпараметров (сетку гиперпараметров). Далее, для каждого возможного сочетания значений гиперпараметров, метод считает ошибку и в конце выбирает сочетание, при котором ошибка минимальна.
-Пример использования Grid search из библиотеки scikit-learn:
+=== Sklearn Grid search: использование ===
-# Создание экземпляра класса  SGDClassifier (из sklearn)
+Пример использования <code>GridSearch</code> из библиотеки scikit-learn:
+# Создание экземпляра класса  <code>SGDClassifier</code> (из sklearn)
 # Создание сетки гиперпараметров. В данном случае будем подбирать коэффициент регуляризации, шаг градиентного спуска, количество итераций и параметр скорости обучения.
-# Создание экземпляра класса кросс-валидации.
+# Создание экземпляра класса кросс-валидации
-# Создание экземпляра GridSearch (из sklearn). Первый параметр - модель, второй - сетка гиперпараметров, третий - функционал ошибки (используемый для контроля качества моделей по технику кросс-валидации), четвертый - кросс-# # # валидация (можно задать количество фолдов, а можно передать экземпляр класса кросс - валидации)
+# Создание экземпляра <code>GridSearch</code> (из sklearn). Первый параметр — модель, второй — сетка гиперпараметров, третий — функционал ошибки (используемый для контроля качества моделей по технике кросс-валидации), четвертый — кросс-валидация (можно задать количество фолдов, а можно передать экземпляр класса кросс - валидации)
 # Запуск поиска по сетке.
-здесь будет картинка
+    classifier = linear_model.SGDClassifier(random_state = 0, tol=1e-3)
+    parameters_grid = {
+        'alpha' : np.linspace(0.00001, 0.0001, 15),
+        'learning_rate': ['optimal', 'constant', 'invscaling'],
+        'eta0' : np.linspace(0.00001, 0.0001, 15),
+        'max_iter' : np.arange(5,10),
+    }
+    cv = model_selection.StratifiedShuffleSplit(n_splits=10, test_size = 0.2)
+    grid_cv = model_selection.GridSearchCV(classifier, parameters_grid, scoring = 'accuracy', cv = cv)
+    grid_cv.fit(train_data, test_data)
+    Out:
+    GridSearchCV(cv=StratifiedShuffleSplit(n_splits=10, random_state=0, test_size=0.2, train_size=None), error_score=nan,
+                 estimator=SGDClassifier(alpha=0.0001, average=False, class_weight=None, early_stopping=False,
+                                     epsilon=0.1, eta0=0.0, fit_intercept=True, l1_ratio=0.15, learning_rate='optimal',
+                                     loss='hinge', max_iter=1000, n_iter_no_change=5, n_jobs=None,
+                                     penalty='l2...
+                         'eta0': array([1.00000000e-05, 1.64285714e-05, 2.28571429e-05, 2.92857143e-05, 3.57142857e-05, 4.21428571e-05, 4.85714286e-05, 5.50000000e-05,
+.14285714e-05, 6.78571429e-05, 7.42857143e-05, 8.07142857e-05, 8.71428571e-05, 9.35714286e-05, 1.00000000e-04]),
+                         'learning_rate': ['optimal', 'constant', 'invscaling'],
+                         'max_iter': array([5, 6, 7, 8, 9])},
+             pre_dispatch='2*n_jobs', refit=True, return_train_score=False,
+             scoring='accuracy', verbose=0)
+=== Sklearn Grid search: важные атрибуты ===
+* <code>best_estimator_</code>  — лучшая модель
+* <code>best_score_</code>  — ошибка, полученная на лучшей модели.
+* <code>best_params_</code> — гиперпараметры лучшей модели <br>
-Важные атрибуты GridSearch
+    print(grid_cv.best_estimator_) <br>
+    Out: SGDClassifier(alpha=4.857142857142857e-05, average=False, class_weight=None, early_stopping=False, epsilon=0.1, eta0=1e-05, fit_intercept=True,
+                   l1_ratio=0.15, learning_rate='optimal', loss='hinge', max_iter=6, n_iter_no_change=5, n_jobs=None, penalty='l2', power_t=0.5,
+                   random_state=0, shuffle=True, tol=0.001, validation_fraction=0.1, verbose=0, warm_start=False)
-* best_estimator_  - лучшая модель
+    print(grid_cv.best_score_) <br>
-* best_score_  - ошибка, полученная на лучшей модели.
+    Out: 0.9099999999999999
-* best_params_  - гиперпараметры лучшей модели
-картинка
+    print(grid_cv.best_params_) <br>
+    Out: {'alpha': 4.857142857142857e-05, 'eta0': 1e-05, 'learning_rate': 'optimal', 'max_iter': 6}
-* cv_results_  - результаты всех моделей.
+* <code>cv_results_</code>  — результаты всех моделей. <br>
-картинка
+    print(grid_cv.cv_results_) <br>
+    Out:
+        {'mean_fit_time': array([0.00209482, 0.00120714, 0.00089645, ..., 0.00109975, 0.00100021,
+.00099928]),
+        'std_fit_time': array([1.22382854e-03, 6.21233347e-04, 5.32190271e-04, ...,
+.11922473e-04, 1.27400324e-05, 1.94000071e-06]),
+        'mean_score_time': array([2.00700760e-04, 0.00000000e+00, 2.99715996e-04, ...,
+.99961662e-04, 2.96926498e-04, 9.98973846e-05]),
+        'std_score_time': array([0.0004014 , 0.        , 0.00045782, ..., 0.00039992, 0.00045363,
+.00029969]),
+         ...... }
-* доступ к массиву определенного параметра:
+     print(grid_cv.cv_results_['param_max_iter'].data) <br>
+     Out: array([5, 6, 7, ..., 7, 8, 9], dtype=object)
-картинка
+=== Реализация Grid search в библеотеках ===
+* [https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html scikit-learn]
+* [https://github.com/kubeflow/katib Katib]
+* [https://tidymodels.github.io/tune/articles/grid.html Tune]
+* [https://autonomio.github.io/docs_talos/#grid-search Talos]
-==== Реализация ====
+== Random grid search ==
-* Katib
-* scikit-learn
-* Tune
-* Talos
+=== Основная информация ===
-=== Random grid search ===
+Вместо полного перебора, Random grid search работает с некоторыми, случайным образом выбранными, комбинациями. На основе полученных результатов, происходит сужение области поиска.
-Вместо полного перебора, Random grid search работает с некоторыми, случайным образом выбранными, комбинациями. На основе полученных результатов,происходит сужение области поиска. Random grid search будет гораздо полезнее, чем  grid search в ситуации,  когда гиперпараметров много, но сильно влияющих на конечную производительность алгоритма - мало.
+Когда random grid search будет гораздо полезнее, чем  grid search? В ситуации,  когда гиперпараметров много, но сильно влияющих на конечную производительность алгоритма — мало.
-==== Реализация ====
+=== Реализация Random grid ===
-* hyperopt
+* [https://ray.readthedocs.io/en/latest/tune-searchalg.html#variant-generation-grid-search-random-search Ray]
-* Katib
+* [https://github.com/kubeflow/katib Katib]
-* scikit-learn
+* [https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.RandomizedSearchCV.html scikit-learn]
-* Tune
+* [https://ray.readthedocs.io/en/latest/tune-searchalg.html#variant-generation-grid-search-random-search Tune]
-* Talos
+* [https://autonomio.github.io/docs_talos/#models Talos]
+* [https://hyperopt.github.io/hyperopt/#algorithms Hyperopt]
+== SMBO  ==
-=== SMBO  ===
+=== Основная информация ===
-SMBO - Sequential Model-Based Optimization (Методы последовательной оптимизации на основе моделей)
-SMBO являются формализацией байесовской оптимизации.
+SMBO (Sequential Model-Based Optimization) — методы, основанные на байесовской оптимизации
+Когда используют SMBO? Когда оптимизация целевой функции будет стоить очень "дорого". Главная идея SMBO — замена целевой функции "суррогатной" функцией.
-На каждом шаге SMBO:
+На каждом шаге работы SMBO:
-# SMBO выбирает текущий набор гиперпараметров на основе предыдущих результатов и Байесовский рассуждений. Делается это для того, чтобы сузить область поиска и сосредоточиться на том, что наиболее перспективно.
-# происходит запуск модели с текущими гиперпараметрами
-# обновляется вероятностная модель.
-Существует пять ключевых аспектов SMBO:
+# Строится вероятностная модель (суррогатная функция) целевой функции.
-* Сетка значений гиперпараметров (область поиска)
+# Подбираются гиперпараметры, которые лучше всего подходят для вероятностной модели.
-* Целевая функция, которая принимает гиперпараметры и выводит оценку, которую мы хотим минимизировать (или максимизировать)
+# Подобранные гиперпараметры применяются к целевой функции.
-* Вероятностная модель целевой функции
+# Вероятностная модель перестраивается (обновляется).
-* Критерий, называемый функцией выбора, для оценки того, какие гиперпараметры выбрать следующим из  вероятностной модели.
+# Шаги 2-4 повторяются столько раз, сколько задал пользователь.
-* История, состоящая из пар <оценка, гиперпараметр>, используемая алгоритмом для обновления вероятностной модели.
-Существует несколько вариантов SMBO оптимизации, которые отличаются между собой в 3 и 4 пунктах: есть различные варианты построения вероятностной модели целевой функции и выбора критерия.
-Вероятностные модели (3 пункт): Gaussian Processes, Random Forest Regressions, and Tree Parzen Estimators (TPE).
-Популярный критерий (4 пункт): Expected Improvement
+Существует четыре ключевые аспекта SMBO:
+* Сетка значений гиперпараметров (область поиска).
+* Целевая функция (выводит оценку, которую мы хотим минимизировать или максимизировать).
+* Вероятностная модель целевой функции (суррогатная функция).
+* Критерий, называемый функцией выбора (для выбора следующих гиперпараметры по текущей вероятностной модели).
+Методы SMBO отличаются между собой вероятностными моделями и функциями выбора: <br>
+Популярные вероятностные модели (суррогатные функции):
+* Gaussian Processes
+* Tree Parzen Estimators (TPE)
+* Random Forest Regressions
 === TPE ===
-TPE - Tree-structured Parzen Estimator (Древовидная структура Парзена)
+==== Основная информация ====
+TPE — Tree-structured Parzen Estimator (Древовидная структура Парзена)
+Как было написано выше, методы SMBO отличаются тем, как они строят вероятностную модель <math> {p(y|x)} </math>. В случае TPE, используется следующая функция:
+<math> p(y) = \frac{p(x|y) * p(y)}{p(x)} </math>
-Методы SMBO отличаются тем, как они строят вероятностную модель p (y | x). В случае TPE, используется следующая функция:
+<math> {p(x|y)} </math> — распределение гиперпараметров, <math> y </math> —  значение целевой функции,  <math> y* </math> — пороговое начение
-формула
+<math>  p(x|y) = \begin{cases}
+  l(x),  & \mbox{if }  y < y* \\
+  g(x), & \mbox{if }  y \ge y*
+\end{cases}
+</math>
+В TPE задается два различных распределения гиперпараметров: первое при значениях целевой функции меньших, чем пороговое значение. Второе - при значениях целевой функции больших, чем пороговое значение.
+==== Алгоритм ====
+# На вход подается список пар (parameters, loss)
+# По заданному порогу, происходит разбиение списка на 2 части
+# Для каждого списка строится распределение
+# Возвращается значение: <math> argmin_{param} \frac{g(param)}{l(param)} </math>
 === SMAC ===
-расширяет подходы SMBO
+==== Основная информация ====
+SMAC использует Random Forest regression и расширяет подходы SMBO:
+* Использует дискретные и условные пространства параметров.
+* Обрабатывает негауссовский шум.
+* Выделяет бюджет на общее время, доступное для настройки алгоритма, а не на количество оценок функций.
-В частности, разработаны подходы обработки данных:
+Кроме того, SMAC использует переданную ему модель для формирования списка перспективных конфигураций (сочетаний) параметров. Чтобы оценить перспективность конфигурация <math> \theta </math>, SMAC строит распределение результатов модели для  <math> \theta </math>.
+С помощью этого распределения, а также информации, о текущей лучшей конфигурации, SMAC вычисляет ожидаемое положительное улучшение [https://www.cs.ubc.ca/~hutter/papers/10-TR-SMAC.pdf <math> EI(\theta) </math>].
+После нахождения <math> EI(\theta) </math> необходимо найти конфигурацию с наибольшим значением <math> EI(\theta) </math>. Эта задача приводит к проблеме максимизация значения на всем пространстве конфигураций.
+Другие методы SMBO максимизируют значения а случайной выборке из пространства конфигураций, что достаточно плохо работает в случае высокомерного пространства.
+SMAC применяет немного другой подход: выполняется несколько локальных и поисков и среди них выбираются все конфигурации с максимальным <math> EI(\theta) </math>. И уже среди них производится новый поиск и выбирается лучшая конфигурация.
+=== Реализация ===
+* Random Forest Regressions: [https://www.automl.org/automated-algorithm-design/algorithm-configuration/smac/ SMAC]
+* Tree Parzen Estimators: [https://hyperopt.github.io/hyperopt/#algorithms Hyperopt]
+* Gaussian Processes: [https://devhub.io/repos/automl-spearmint Spearmint], [https://scikit-optimize.github.io/stable/modules/classes.html#module-skopt.optimizer Scikit-optimize]
+== См. также ==
+[http://neerc.ifmo.ru/wiki/index.php?title=Машинное_обучение Викиконспекты: Машинное обучение]
+== Источники ==
-* дискретные и условные пространства параметров  (с учетом
+* [https://papers.nips.cc/paper/4443-algorithms-for-hyper-parameter-optimization.pdf Algorithms for Hyper-Parameter Optimization]
-оптимизация параметров категориального алгоритма и параметров, между которыми существуют зависимости);
+* [https://www.cs.ubc.ca/~hutter/papers/10-TR-SMAC.pdf Sequential Model-Based Optimization for General Algorithm Configuration]
-* существенный негауссовский шум (из-за дисперсии в
+* [https://www.youtube.com/watch?v=u6MG_UTwiIQ Bayesian optimization]
-распределение времени выполнения алгоритма по экземплярам задач и
+* [https://www.youtube.com/watch?v=PgJMLpIfIc8 Гауссовские процессы и байесовская оптимизация]
-несколько независимых запусков на одном экземпляре);
+* [https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html GridSearchCV sklearn]
-* частично цензурированные оценки функций (из-за преждевременного
-завершенные запуски алгоритма);
-* бюджет на общее время, доступное для настройки алгоритма, а не на количество оценок функций;