Изменения

Перейти к: навигация, поиск

Жизненный цикл модели машинного обучения

3850 байт добавлено, 19:31, 20 февраля 2020
Нет описания правки
Следующим этапом подготовки данных является моделирование данных, которые мы хотим использовать для прогнозирования. Моделирование данных — это сложный процесс создания логического представления структуры данных. Правильно сконструированная модель данных должна быть адекватна предметной области, т.е. соответствовать всем пользовательским представлениям данных. Моделирование также включает в себя смешивание и агрегирование веб данных, данных из мобильных приложений, оффлайн данных и др.
Для модели, рассматриваемой в данном конспекте, инженеры объединяют разнородные данные в цельный набор данных. Например, у них есть уже готовые данные по признакам, и они объединяют их в один набор данных.
===Конструирование признаков===
Конструирование признаков состоит из учета, статистической обработки и [[Уменьшение размерности|преобразования данных для выбора признаков]], используемых в модели. Чтобы понять лежащие в основе модели механизмы, целесообразно оценить связь между компонентами и понять, как алгоритмы машинного обучения будут использовать эти компоненты.
На данном этапе нужно творческое сочетание опыта и информации, полученной на этапе исследования данных. В конструирование признаков необходимо найти баланс. Важно найти и учесть информативные переменные, не создавая при этом лишние несвязанные признаки. Информативные признаки улучшают результат модели, а не информативные — добавляют в модель ненужный шум. При выборе признаков необходимо учитывать все новые данные, полученные во время обучения модели.
==Разработка моделиМоделирование==
На данном этапе осуществляется разработка Обучение моделей машинного обучения происходит итерационно – пробуются различные модели и решаются две основные задачи: конструирование признаков, перебираются гиперпараметры, сравниваются значения выбранной метрики и поиск модели, которая лучше остальных решает поставленную задачу, на основе имеющихся метриквыбирается лучшая комбинация.
===Конструирование признаковВыбор алгоритма=== Конструирование Вначале нужно понять, какие модели будут использоваться. Выбор модели зависит от решаемой задачи, используемых признаков состоит из учета, статистической обработки и [[Уменьшение размерности|преобразования данных для выбора признаков]]требований по сложности (например, используемых если модель будет дальше внедряться в Excel, то Дерево решений или AdaBoost не подойдут). При выборе моделиобязательно принять во внимание следующие факторы:1. Чтобы понять лежащие в основе Достаточность данных (обычно, сложные модели механизмы, целесообразно оценить связь между компонентами и понять, как требуют большого количества данных)2. Обработка пропусков (некоторые алгоритмы машинного обучения будут использовать эти компонентыне умеют обрабатывать пропуски) 3. Формат данных (для части алгоритмов потребуется конвертация данных) ===Планирование тестирования===На данном этапе нужно творческое сочетание опыта и информацииДалее необходимо определить, полученной на этапе исследования каких данныхбудет обучаться модель, а на каких тестироваться. В конструирование признаков необходимо найти баланс. Важно найти Традиционный подход – это разделение набора данных на 3 части (обучение, валидация и учесть информативные переменные, не создавая при этом лишние несвязанные признакитестирование) в пропорции 60/20/20. Информативные признаки улучшают результат В данном случае обучающая выборка используется для обучения модели, а не информативные — добавляют в модель ненужный шумвалидация и тестирование для получения значения метрики без эффекта переобучения. При выборе признаков необходимо учитывать все новые данные, полученные во время Более сложные стратегии обучения моделиподразумевают использование различных вариантов кросс-валидации. Также на данном шаге требуется определить, как будет происходить оптимизация гиперпараметров моделей, сколько потребуется итераций для каждого алгоритма, будет ли использоваться grid-search или random-search.
===Обучение модели===
В зависимости от типа задачиНа данном шаге начинается цикл обучения. После каждой итерации записывается результат модели. На выходе получаем результаты для каждой модели и использованных в ней гиперпараметров. Кроме того, для моделей, которую требуется решитьу которых значение выбранной метрики превышает минимально допустимое, нужно обратить внимание на следующие особенности: * Необычные закономерности (Например, можно использовать разные алгоритмы моделирования. Процесс точность предсказания модели на 95% объясняется всего лишь одним признаком) * Скорость обучения модели машинного обучения состоит из следующих шагов:(Если модель долго обучается, то стоит использовать более эффективный алгоритм или уменьшить обучающую выборку)* С помощью кросс-валидации Проблемы с данными (Например, в тестовую выборку попали объекты с пропущенными значениями, и, как следствие, значение метрики было посчитано не полностью, и она не позволяет целиком оценить модель) ===Оценка результатов===После формирования списка из подходящих моделей, нужно еще раз их детально проанализировать и выбрать лучшие модели. На выходе необходимо разделить набор данных случайным образом на два набора данныхиметь список моделей, отсортированный по объективному и/или субъективному критерию. Задачи шага: данные для обучения провести технический анализ качества модели (ROC, Gain, K-S и данные для тестированият.* Обучить модель с помощью тренировочного набора данныхд. * Проверить ), оценить, готова ли модель на тестовом наборе к внедрению в корпоративное хранилище данных. * Использовать ансамбль конкурирующих алгоритмов машинного обучения, а также связанные достигаются ли заданные критерии качества, проанализировать результаты с ними параметры настройки точки зрения достижения бизнес-целей. Если критерий успешности ([[Настройка гиперпараметров|перебор гиперпараметров]]выбранная метрика)не достигнут, которые определяют ответы на поставленный вопрос по имеющимся даннымто необходимо или улучшить текущую модель, или использовать другую. * ОпределитьПрежде чем переходить к внедрению нужно убедиться, какой алгоритм наиболее точно решает поставленную задачучто результат моделирования понятен и логичен. Например, сравнивая прогнозируется отток клиентов и значение метрики для все возможных вариантовGAIN равно 99%. Слишком хороший результат – повод проверить модель еще раз
==Развертывание==
51
правка

Навигация