Изменения
CatBoost
,Нет описания правки
----
== Дерево решений ==
Алгоритм работы следующий: для каждого документа имеется набор значений фичей, имеется дерево, в вершинах которого условия при выполнении которых мы идем в правого ребенка вершины, иначе в левого. Очень просто для конкретно ребенка пройти до листа по дереву в соответствии со значениям фич для документа. На выходе каждому документу соответствует значение листа. Это и есть ответ.
== Бустинг ==
Одно дерево - хорошо, больше - лучше. Идея состоит в том, чтобы каждое следующее дерево училось на предыдущем, уменьшая ошибку. Итого при достаточно большом количестве деревьев мы сможем сильно уменьшить ошибку, однако не стоит забывать, что чем больше деревьев, тем дольше обучается модель и в какой-то момент прирост качества становится незначительным.
== Градиентный бустинг ==
* В основе CatBoost лежит градиентный бустинг.
* Градиент функции ошибки - все производные по всем значениям функции
Будем минимизировать ошибку опираясь на градиент.
== Режимы работы ==
* Регрессия (mse - функция потерь)* Классификация (надо сделать вероятности, функция Функция потерь - максимизируем вероятность того что все объекты в обучающей выборке классифицированы правильно, вероятность - это сигмоида над значением формулы) Функция ```predict_proba ``` - для на вхоже получаем готовый вероятности (. Нужно отметить, что складывать их уже нельзя)/ .Функция ```predict ``` - просто рез (и тут выдает необработанный результат. Такой результат можно складывать значени] нескольких , например, с результатами других моделей).
* Мультиклассификация
* Ранжирования - (объекты с попарной классификацией).
== Как работает градиентный бустинг? ==
Отметим, что существует идеальный шаг по градиенту, однако листьев в дереве меньше, чем документов в датасете.