Изменения

Перейти к: навигация, поиск

CatBoost

480 байт добавлено, 02:47, 8 ноября 2018
Нет описания правки
== Метрики ==
Поддерживает много множество метрик, таких как * Регрессия: ```MAE, MAPE, RMSE, SMAPE etc.```* Классификация: ```Logloss , Precision, Recall, F1, CrossEntropy, BalancedAccuracy etc.```* Мультиклассификация: ```MultiClass, MultiClassOneVsAll, HammingLoss, F1 etc.```* Ранжирование: ```NDCG, PrecisionAt, RecallAt, PFound, PairLogit etc.```
----
== Как работает градиентный бустинг? ==
  Отметим, что существует идеальный шаг по градиенту, однако листьев в дереве меньше, чем документов в датасете. Поэтому мы можем пытаться приближать тот самый идеальный шаг. Чтобы найти лучший сплит, проверяем похожесть после одного шага алгоритма по градиенту - это скор. 
----
* Бутстрап Бернулли - выбираем документ с вероятностью ''p''. Регулируется параметром ''sample rate''
* Байесовский бутстрап - байесовское распределение. Регулируется параметром ''bagging temp''
 
Отметим, что бутстрап используется только для выбора структуры дерева, для подсчета значения в листьях используем всю выборку. Это сделано так как выбор структуры дерева происходит долго, нужно несколько раз пересчитывать значения, поэтому использовать всю выборку - слишком дорого. Однако значения в листьях с уже готовой структурой дерева считаются один раз, и для большей точности можно позволить использовать весь датасет.
* Bagging_temp
* Глубина дерева (стоит попробовать 10 и 6)
 
== Полезная функциональность ==
 
* Snapshots
* Overfitting detector
* cv
* eval_metrics
== Бенчмрки ==
Сравнение библиотеки CatBoost с открытыми аналогами XGBoost, LightGBM и H20 на наборе публичных датасетов. Результаты - [https://catboost.yandex/#benchmark]
Анонимный участник

Навигация