Изменения

Перейти к: навигация, поиск

XGBoost

Нет изменений в размере, 14:58, 30 марта 2019
Нет описания правки
Она вскоре стала использоваться с несколькими другими пакетами, что облегчает ее использование в соответствующих сообществах. Теперь у нее есть интеграция с scikit-learn для пользователей Python, а также с пакетом caret для пользователей R. Она также может быть интегрирована в рамах потока данных, таких как Apache Spark<ref>[https://spark.apache.org/ Apache Spark]</ref>, Apache Hadoop<ref>[https://hadoop.apache.org/ Apache Hadoop]</ref>, и Apache Flink<ref>[https://flink.apache.org/ Apache Flink]</ref> с использованием абстрактных Rabit<ref>[https://github.com/dmlc/rabit Rabit]</ref> и XGBoost4J<ref>[https://xgboost.readthedocs.io/en/latest/jvm/ XGBoost JVM]</ref>. Принцип работы XGBoost также был опубликован Тяньцзи Ченом (Tianqi Chen) и Карлосом Гастрин (Carlos Guestrin).
 
==Возможности XGBoost==
'''Особенности модели'''
 
Реализация модели поддерживает особенности реализации scikit-learn и R с новыми дополнениями, такими как регуляризация. Поддерживаются три основные формы повышения градиента:
 
* Алгоритм Gradient Boosting также называется градиентной машиной повышения, включая скорость обучения.
* Stochastic Gradient Boosting с суб-выборкой в ​​строке, столбце и столбце на каждый уровень разделения.
* Регулярное усиление градиента с регуляцией L1 и L2.
 
'''Системные функции'''
 
Библиотека предоставляет систему для использования в различных вычислительных средах, не в последнюю очередь:
 
* Параллелизация построения дерева с использованием всех ваших ядер процессора во время обучения.
* Распределенные вычисления для обучения очень крупных моделей с использованием кластера машин.
* Внекорпоративные вычисления для очень больших наборов данных, которые не вписываются в память.
* Кэш Оптимизация структуры данных и алгоритма для наилучшего использования аппаратного обеспечения.
 
'''Особенности алгоритма'''
 
Реализация алгоритма была разработана для эффективности вычислительных ресурсов времени и памяти. Цель проекта заключалась в том, чтобы наилучшим образом использовать имеющиеся ресурсы для обучения модели. Некоторые ключевые функции реализации алгоритма включают:
 
* Редкая реализация Aware с автоматической обработкой отсутствующих значений данных.
* Блочная структура для поддержки распараллеливания конструкции дерева.
* Продолжение обучения, чтобы вы могли еще больше повысить уже установленную модель для новых данных.
==Описание алгоритма==
Каждое отдельное дерево ансамбля <tex>f_t(x_i)</tex> обучается стандартным алгоритмом. Для более полного описания см. [[Дерево решений и случайный лес|Дерево решений и случайный лес]].
 
==Возможности XGBoost==
'''Особенности модели'''
 
Реализация модели поддерживает особенности реализации scikit-learn и R с новыми дополнениями, такими как регуляризация. Поддерживаются три основные формы повышения градиента:
 
* Алгоритм Gradient Boosting также называется градиентной машиной повышения, включая скорость обучения.
* Stochastic Gradient Boosting с суб-выборкой в ​​строке, столбце и столбце на каждый уровень разделения.
* Регулярное усиление градиента с регуляцией L1 и L2.
 
'''Системные функции'''
 
Библиотека предоставляет систему для использования в различных вычислительных средах, не в последнюю очередь:
 
* Параллелизация построения дерева с использованием всех ваших ядер процессора во время обучения.
* Распределенные вычисления для обучения очень крупных моделей с использованием кластера машин.
* Внекорпоративные вычисления для очень больших наборов данных, которые не вписываются в память.
* Кэш Оптимизация структуры данных и алгоритма для наилучшего использования аппаратного обеспечения.
 
'''Особенности алгоритма'''
 
Реализация алгоритма была разработана для эффективности вычислительных ресурсов времени и памяти. Цель проекта заключалась в том, чтобы наилучшим образом использовать имеющиеся ресурсы для обучения модели. Некоторые ключевые функции реализации алгоритма включают:
 
* Редкая реализация Aware с автоматической обработкой отсутствующих значений данных.
* Блочная структура для поддержки распараллеливания конструкции дерева.
* Продолжение обучения, чтобы вы могли еще больше повысить уже установленную модель для новых данных.
==Основные параметры==
Анонимный участник

Навигация