1632
правки
Изменения
CatBoost
,rollbackEdits.php mass rollback
Практически любой современный метод на основе градиентного бустинга работает с числамичисловыми признаками. Если у нас в наборе данных присутствуют не только числовые, но и категориальные признаки (англ. ''categorical features''), то необходимо переводить категориальные признаки в числовые. Это приводит к искажению их сути и потенциальному снижению точности работы модели.Именно поэтому было важно научить машину разработать алгоритм, который умеет работать не только с числамичисловыми признаками, но и с категориями категориальными напрямую, закономерности между которыми она этот алгоритм будет выявлять самостоятельно, без ручной «помощи».CatBoost разработан так{{---}} библиотека для градиентного бустинга, главным преимуществом которой является то, чтобы что она одинаково хорошо работать работает «из коробки» как с числовыми признаками, так и с категориальными. Программное обеспечение разработано по методологии SCRUM.
Документацию по CatBoost можно найти здесь: на сайте<ref>[https://tech.yandex.com/catboost/doc/dg/concepts/about-docpage/Документация CatBoost]</ref>.
----
== Общий принцип работы ==
== Режимы работы = Дерево решений ===
Алгоритм работы следующий: для каждого документа имеется набор значений признаков, имеется дерево, в вершинах дерева {{---}} условия. Если условие выполнено, осуществляется переход в правого ребенка вершины, иначе в левого. Нужно пройти до листа по дереву в соответствии со значениями признаков для документа. На выходе каждому документу соответствует значение листа. Это и есть ответ. === Бустинг === Идея бустинг-подхода заключается в комбинации слабых (с невысокой обобщающей способностью) функций, которые строятся в ходе итеративного процесса, где на каждом шаге новая модель обучается с использованием данных об ошибках предыдущих. Результирующая функция представляет собой линейную комбинацию базовых, слабых моделей. Более подробно можно посмотреть в статье про градиентный бустинг<ref>[https://en.wikipedia.org/wiki/Gradient_boosting |Gradient Boosting, Wikipedia]</ref>. Далее будет рассматриваться бустинг деревьев решений. Будем строить несколько деревьев, чтобы добавление новых деревьев уменьшало ошибку. Итого при достаточно большом количестве деревьев мы сможем сильно уменьшить ошибку, однако не стоит забывать, что чем больше деревьев, тем дольше обучается модель и в какой-то момент прирост качества становится незначительным. === Градиентный бустинг ===
== Метрики = Режимы работы ===
* Регрессия (англ. ''regression''); * Классификация (англ. ''classification''); Функция потерь (англ. ''loss function'') {{---}} максимизируем вероятность того, что все объекты в обучающей выборке классифицированы правильно, вероятность - это сигмоида над значением формулы. Функция ''predict_proba'' {{---}} на выходе получаем готовые вероятности. Нужно отметить, что складывать их уже нельзя. Поддерживает много метрикФункция ''predict'' {{---}} выдает необработанный результат. Такой результат можно складывать, например, с результатами других моделей.* Мультиклассификация (англ. ''multiclass classification'');* Ранжирование (англ. ''ranking'').Объекты с попарной классификацией (??)
=== Построение дерева ===
* Выбираем первую вершину;
* Выбираем лучшее дерево с одной вершиной;
* Считаем метрику и по ней выбираем лучшее дерево.
=== Как работает градиентный бустинг? ===
''q'' {{---}} множитель, уменьшающийся при увеличении итерации.
Таким образом, рандом уменьшается ближе к концу.
----
== Работа с датасетом ==
=== Режимов выборки данных ===
CatBoost поддерживает несколько режимов выборки данных
* Бутстрап (англ. ''bootstrap'') Бернулли {{---}} выбираем документ с вероятностью ''p''. Регулируется параметром ''sample_rate'';
* Байесовский бутстрап {{---}} байесовское распределение. Регулируется параметром ''bagging_temp''.
Отметим, что бутстрап используется только для выбора структуры дерева, для подсчета значения в листьях используем всю выборку. Это сделано, так как выбор структуры дерева происходит долго, нужно несколько раз пересчитывать значения, поэтому использовать всю выборку слишком дорого. Однако значения в листьях с уже готовой структурой дерева считаются один раз, и для большей точности можно позволить использовать весь датасет.
=== Бинаризация признаков ===
* Uniform. Равномерно разбиваем отрезок от минимума значения для данного признака до максимума;
* Медианная сетка. Задаем количество разбиений над множеством значений, далее идем по объектам в порядке сортировки и разбиваем на группы по k объектов, где k {{---}} количество объектов в одном слоте разбиения;
* UniformAndQuantiles. Комбинация 1 и 2 пунктов;
* MaxSumLog {{---}} в основе лежит динамика, работает долго;
* GreedyLogSum {{---}} аналог MaxSumLog, используется жадный алгоритм, поэтому работает не точно, однако быстрее чем MaxSumLog.
* LabelEncoding {{---}} на реальных примерах точность работы низкая, так как появляется отношения порядка между объектами;* One-hot encoding {{---}} дает неплохую точность, если различных значений признаков не много. Иначе один признак размножится на множество признаков и будет влиять на модель заведомо сильнее остальных признаков. Лучше не делать препроцессинг самим из-за проблем, описанных выше. В CatBoost можно задать параметр cat_features, передав туда индексы категориальных признаков. Также можно отрегулировать параметр ''one_hot_max_size'' {{---}} максимальное количество различных значений у категориального признака, чтобы он мог в последствии быть подвержен one-hot encoding. == Подбор параметров == Ниже описаны гиперпараметры (англ. ''hyperparameters''), на которые стоит обратить внимание при использовании библиотеки. * cat_features;* Overfitting detector;* Число итераций и learning rate;* L2_reg;* Random_srength;* Bagging_temp;* Глубина дерева (стоит попробовать 10 и 6). == Полезная функциональность == * Snapshots;* Overfitting detector;* CV;* eval_metrics. == Бенчмарки == Сравнение библиотеки CatBoost с открытыми аналогами XGBoost, LightGBM и H20 на наборе публичных датасетов<ref>[https://catboost.yandex/#benchmark| Benchmarks]</ref>. == Пример использования ==* Делим данные на тренировочное и тестовое множество '''from''' sklearn.model_selection '''import''' train_test_split X_train, X_validation, y_train, y_validation = train_test_split(X, y, '''train_size'''=0.5, '''random_state'''=1234) '''print'''(X_train.shape, X_validation.shape) * Создаем классификатор '''from''' catboost '''import''' CatBoostClassifier
best_model =CatBoostClassifier( '''bagging_temperature'''= Рандомизация скора 1, '''random_strength'''=1, '''thread_count'''=3, '''iterations'''=500, '''l2_leaf_reg''' = 4.0, '''learning_rate''' = 0.07521709965938336, '''save_snapshot'''=True, '''snapshot_file'''='snapshot_best.bkp', '''random_seed'''=63, '''od_type'''='Iter', '''od_wait'''=20, '''custom_loss'''=['AUC', 'Accuracy'], '''use_best_model'''=True )
best_model.fit( X_train, y_train, '''cat_features'''=cat_features, '''eval_set'''= Бинаризация фичей (X_validation, y_validation), '''logging_level'''='Silent', '''plot'''=True ) * Вывод числа деревьев в модели
params =best_model.get_params() params['iterations'] = Работа с категориальными фичами 10 params['custom_loss'] ='AUC' del params['use_best_model'] pool1 =Pool(X, '''label'''=y, '''cat_features'''=cat_features)
* Выводим результат
best_value = np.max(cv_data['AUC_test_avg'])
best_iter = np.argmax(cv_data['AUC_test_avg'])
'''print'''('Best validation AUC score: {:.2f}±{:.2f} on step {}'.format(
best_value,
cv_data['AUC_test_stddev'][best_iter],
best_iter
))
== Бенчмрки Примечания==<references/>