51
правка
Изменения
Нет описания правки
Следующим этапом подготовки данных является моделирование данных, которые мы хотим использовать для прогнозирования. Моделирование данных — это сложный процесс создания логического представления структуры данных. Правильно сконструированная модель данных должна быть адекватна предметной области, т.е. соответствовать всем пользовательским представлениям данных. Моделирование также включает в себя смешивание и агрегирование веб данных, данных из мобильных приложений, оффлайн данных и др.
Для модели, рассматриваемой в данном конспекте, инженеры объединяют разнородные данные в цельный набор данных. Например, у них есть уже готовые данные по признакам, и они объединяют их в один набор данных.
===Конструирование признаков===
Конструирование признаков состоит из учета, статистической обработки и [[Уменьшение размерности|преобразования данных для выбора признаков]], используемых в модели. Чтобы понять лежащие в основе модели механизмы, целесообразно оценить связь между компонентами и понять, как алгоритмы машинного обучения будут использовать эти компоненты.
На данном этапе нужно творческое сочетание опыта и информации, полученной на этапе исследования данных. В конструирование признаков необходимо найти баланс. Важно найти и учесть информативные переменные, не создавая при этом лишние несвязанные признаки. Информативные признаки улучшают результат модели, а не информативные — добавляют в модель ненужный шум. При выборе признаков необходимо учитывать все новые данные, полученные во время обучения модели.
==Разработка моделиМоделирование==
===Конструирование признаковВыбор алгоритма=== Конструирование Вначале нужно понять, какие модели будут использоваться. Выбор модели зависит от решаемой задачи, используемых признаков состоит из учета, статистической обработки и [[Уменьшение размерности|преобразования данных для выбора признаков]]требований по сложности (например, используемых если модель будет дальше внедряться в Excel, то Дерево решений или AdaBoost не подойдут). При выборе моделиобязательно принять во внимание следующие факторы:1. Чтобы понять лежащие в основе Достаточность данных (обычно, сложные модели механизмы, целесообразно оценить связь между компонентами и понять, как требуют большого количества данных)2. Обработка пропусков (некоторые алгоритмы машинного обучения будут использовать эти компонентыне умеют обрабатывать пропуски) 3. Формат данных (для части алгоритмов потребуется конвертация данных) ===Планирование тестирования===На данном этапе нужно творческое сочетание опыта и информацииДалее необходимо определить, полученной на этапе исследования каких данныхбудет обучаться модель, а на каких тестироваться. В конструирование признаков необходимо найти баланс. Важно найти Традиционный подход – это разделение набора данных на 3 части (обучение, валидация и учесть информативные переменные, не создавая при этом лишние несвязанные признакитестирование) в пропорции 60/20/20. Информативные признаки улучшают результат В данном случае обучающая выборка используется для обучения модели, а не информативные — добавляют в модель ненужный шумвалидация и тестирование для получения значения метрики без эффекта переобучения. При выборе признаков необходимо учитывать все новые данные, полученные во время Более сложные стратегии обучения моделиподразумевают использование различных вариантов кросс-валидации. Также на данном шаге требуется определить, как будет происходить оптимизация гиперпараметров моделей, сколько потребуется итераций для каждого алгоритма, будет ли использоваться grid-search или random-search.
===Обучение модели===
==Развертывание==