51
правка
Изменения
Нет описания правки
===Выбор алгоритма===
Вначале нужно понять, какие модели будут использоваться. Выбор модели зависит от решаемой задачи, используемых признаков и требований по сложности (например, если модель будет дальше внедряться в Excel, то Дерево решений или AdaBoost не подойдут). При выборе модели обязательно принять во внимание следующие факторы:
* Достаточность данных (обычно, сложные модели требуют большого количества данных).* Обработка пропусков (некоторые алгоритмы не умеют обрабатывать пропуски) .* Формат данных (для части алгоритмов потребуется конвертация данных).
===Планирование тестирования===
===Обучение модели===
На данном шаге начинается цикл обучения. После каждой итерации записывается результат модели. На выходе получаем результаты для каждой модели и использованных в ней гиперпараметров. Кроме того, для моделей, у которых значение выбранной метрики превышает минимально допустимое, нужно обратить внимание на следующие особенности:
* Необычные закономерности (Например, точность предсказания модели на 95% объясняется всего лишь одним признаком) . * Скорость обучения модели (Если модель долго обучается, то стоит использовать более эффективный алгоритм или уменьшить обучающую выборку).* Проблемы с данными (Например, в тестовую выборку попали объекты с пропущенными значениями, и, как следствие, значение метрики было посчитано не полностью, и она не позволяет целиком оценить модель).
===Оценка результатов===
[[Файл:Deployment lifecycle.png|450px|thumb|right| Цикл развертывания [https://christophergs.github.io/assets/images/deployment.png Источник]]]
Основная задача, решаемая на этом этапе - ввод модели в эксплуатацию. Необходимо развернуть модель и конвейер в рабочую или близкую к ней среду, чтобы приложения могли к ней обращаться.
Создав набор эффективно работающих моделей, требуется ввести их в эксплуатацию для взаимодействия с другими системами компании. В зависимости от бизнес-требований прогнозы выполняются в режиме реального времени или в стандартном режиме. Для развертывания модели, необходимо предоставить их с помощью открытого API-интерфейса. Интерфейс упрощает использование модели различными приложениями, например: