Изменения
CatBoost
,→Бинаризация признаков
=== Бинаризация признаков ===
Пробовать все {{- --}} долго. Поэтому выбираем сетку заранее и ходим по ней.
Есть несколько способов выбора:
* Uniform. Равномерно разбиваем отрезок от минимума значения для данного признака до максимума.
* Медианная сетка. Задаем количество разбиений над множеством значений, далее идем по объектам в порядке сортировки и разбиваем на группы по k объектов, где k {{- --}} количество объектов в одном слоте разбиения.
* UniformAndQuantiles. Комбинация 1 и 2 пунктов.
* MaxSumLog - в основе лежит точно правильная динамика, работает долго.
* GreedyLogSum {{- --}} аналог MaxSumLog, однако в основе лежит жадность, поэтому работает не точно, однако быстрее чем MaxSumLog
=== Работа с категориальными признаками ===