Изменения
CatBoost
,→Бинаризация фичей
Отметим, что бутстрап используется только для выбора структуры дерева, для подсчета значения в листьях используем всю выборку. Это сделано так как выбор структуры дерева происходит долго, нужно несколько раз пересчитывать значения, поэтому использовать всю выборку - слишком дорого. Однако значения в листьях с уже готовой структурой дерева считаются один раз, и для большей точности можно позволить использовать весь датасет.
=== Бинаризация фичей признаков ===
Пробовать все - долго. Поэтому выбираем сетку заранее и ходим по ней.
Есть несколько способов выбора:
* Uniform. Равномерно разбиваем отрезок от минимума значения для данной данного признака(фичи ) до максимума.
* Медианная сетка. Задаем количество разбиений над множеством значений, далее идем по объектам в порядке сортировки и разбиваем на группы по k объектов, где k - количество объектов в одном слоте разбиения.
* UniformAndQuantiles. Комбинация 1 и 2 пунктов.