Изменения

Перейти к: навигация, поиск

Жизненный цикл модели машинного обучения

2197 байт добавлено, 18:05, 13 февраля 2020
Нет описания правки
'''Жизненный цикл модели машинного обучения''' – это многоэтапный процесс, в течении которого исследователи, инженеры и разработчики обучают, разрабатывают и обслуживают модель машинного обучения.Разработка модели машинного обучения принципиально отличается от традиционной разработки программного обеспечения и требует своего собственного уникального процесса: жизненного цикла разработки ML. Модель машинного обучения — это приложение искусственного интеллекта (ИИ), которое дает возможность автоматически учиться и совершенствоваться на основе собственного опыта без явного участия человека. Основная цель модели заключается в том, чтобы компания смогла использовать преимущества алгоритмов искусственного интеллекта и машинного обучения для получения дополнительных конкурентных преимуществ.
 
==Исследование==
==Сбор Анализ и подготовка данных== На данном этапе осуществляется анализ, сбор и подготовка всех необходимых данных для использования в модели. Основные задача данного этапа состоит в том, чтобы получить обработанный, высококачественный набор данных, чья связь с целевыми переменными закономерна. Анализ и подготовка данных состоят из 4 стадий: анализ данных, сбор данных, нормализация данных и моделирование данных.  ===Анализ данных=== Задача данного шага – понять слабые и сильные стороны в имеющихся данных, понять насколько их достаточно, предложить идеи, как их использовать, и лучше понять бизнес-процессы заказчика. Требуется провести анализ всех источников, к которым заказчик предоставляет доступ. Если собственных данных не хватает, тогда необходимо купить данные у третьих лиц или организовать сбор новых данных. Для начала нужно понимать, какие данные есть у заказчика. Данные могут быть: собственными, сторонними и «потенциальные» данными (нужно организовать сбор, чтобы их получить). Также требуется описать данные во всех источниках (таблица, ключ, количество строк, количество столбцов, объем на диске). Далее, с помощью таблиц и графиков смотрим на данные, чтобы сформулировать гипотезы о том как данные помогут решить поставленную задачу. Обязательно до моделирования требуется оценить насколько качественные нужны данные, так как любые ошибки на данном шаге могут негативно повлиять на ход проекта. Типичные проблемы, которые могут быть в данных: пропущенные значения, ошибки в данных, опечатки, неконсистентная кодировка значений (например «w» и «women» в разных системах) 
На данном этапе осуществляется сбор и подготовка всех необходимых данных для использования в модели. Основные задача данного этапа состоит в том, чтобы получить обработанный, высококачественный набор данных, чья связь с целевыми переменными закономерна. Сбор и подготовка данных состоят из 3 стадий: сбор данных, нормализация данных и моделирование данных.
===Сбор данных===
===Нормализация данных===
Cледующий Следующий шаг в процессе подготовки — это то место, где аналитики и инженеры данных обычно проводят большую часть своего времени: очистка и нормализация "грязных" данных. Часто это требует от них принимать решения на основе данных, которые они не совсем понимают, например, что делать с отсутствующими или неполными данными, а также с выбросами. Что еще хуже - эти данные нелегко соотнести с соответствующей единицей анализа: вашим клиентом. Например, чтобы предсказать, уйдет ли один клиент (а не сегмент или целая аудитория), нельзя полагаться на разрозненные данные из разрозненных источников. Ваш специалист Инженер по данным подготовит и объединит все данные из этих источников в формат, который могут интерпретировать модели ML.  
===Моделирование данных===
Следующим этапом подготовки данных является моделирование данных, которые мы хотим использовать для прогнозирования. Моделирование данных — это сложный процесс создания логического представления структуры данных. Правильно сконструированная модель данных должна быть адекватна предметной области, т.е. соответствовать всем пользовательским представлениям данных. Моделирование также включает в себя смешивание и агрегирование веб данных, данных из мобильных приложений, оффлайн данных и др.
Для модели, рассматриваемой в данном конспекте, инженеры объединяют разнородные данные в цельный набор данных. Например, у них есть уже готовые данные по признакам, и они объединяют их в один набор данных.
 
 
 
==Разработка модели==
Используйте ансамбль конкурирующих алгоритмов машинного обучения, а также связанные с ними параметры настройки (перебор гиперпараметров), которые определяют ответы на поставленный вопрос по имеющимся данным.
Выясните, какой алгоритм наиболее точно решает поставленную задачу, сравнивая метрики для все возможных вариантов.
 
 
 
 
==Развертывание==
51
правка

Навигация