Жизненный цикл модели машинного обучения — различия между версиями

Версия 01:30, 10 февраля 2020

Жизненный цикл модели ML

Жизненный цикл модели машинного обучения – это многоэтапный процесс, в течении которого исследователи, инженеры и разработчики обучают, разрабатывают и обслуживают модель машинного обучения.Модель машинного обучения принципиально отличается от традиционной разработки программного обеспечения и требует своего собственного уникального процесса: жизненного цикла разработки ML. Модель машинного обучения — это приложение искусственного интеллекта (ИИ), которое дает возможность автоматически учиться и совершенствоваться на основе собственного опыта без явного участия человека. Основная цель модели заключается в том, чтобы компания смогла использовать преимущества алгоритмов искусственного интеллекта и машинного обучения для получения дополнительных конкурентных преимуществ.

В данном конспекте жизненный цикл модели машинного обучения будет рассмотрен на примере модели, которая предсказывает превышает ли доход человека 50 тысяч долларов.

Содержание

1 Исследование
2 Сбор и подготовка данных
3 Разработка модели
- 3.1 Конструирование признаков
- 3.2 Обучение модели
4 Развертывание
5 Тестирование и мониторинг
6 Пример кода на Python 3

Исследование

На этом этапе необходимо вместе с заказчиком сформулировать проблемы бизнеса, которые будет решать модель. Также, требуется сформулируйте вопросы, которые определяют бизнес-цели, на которых могут сосредоточиться методы науки о данных. Главная задача этого этапа — понять основные бизнес-переменные, которые будет прогнозировать модель. Такие переменные называются ключевыми показателями модели. После этого необходимо определить какие метрики будут использоваться, чтобы определить успешность проекта. Примеры метрик: продолжительность пребывания товара на складе, количество материала, которое экономится в процессе производства и количество абонентов, которые остались у своего оператора. Далее требуется понять ключевые показатели модели, ставя и уточняя "острые" вопросы: релевантные, конкретные и однозначные. Машинное обучение — это работа с именами и числами для получения ответов на такие вопросы. В основном модели машинного обучения отвечают на следующие вопросы:

Сколько? (регрессия)
К какой категории относится объект? (классификация)
К какой группе относится объект? (кластеризация)
Является ли действия данного пользователя странными? (обнаружение аномалий)
Что похожее предложить пользователю? (рекомендация)

После необходимо сформировать команду проекта, распределить роли и обязанности между его участниками; создать расширенный поэтапный план проекта, который будет дополняться по мере поступления новой информации. Команда проекта состоит из менеджера, исследователей, разработчиков, аналитиков и тестировщиков. Последняя задача данного этапа заключается в поиске метрики успешности модели. Например, может потребоваться спрогнозировать количество абонентов, которые хотели уйти от своего оператора, но в итоге остались у него. К моменту завершения проекта требуется чтобы модель уменьшила отток абонентов на X%. С помощью этих данных можно составить рекламные предложения для минимизации оттока. Метрики должны быть составлены в соответствии с принципами SMART.

Сбор и подготовка данных

На данном этапе осуществляется сбор и подготовка всех необходимых данных для использования в модели. Основные задача данного этапа состоит в том, чтобы получить обработанные, высококачественный набор данных, чья связь с целевыми переменными закономерна. Сбор и подготовка данных состоят из 3 стадий: сбор данных, нормализация данных и моделирование данных.

Сбор данных

Сбор данных — это процесс сбора информации по интересующим переменным в установленной систематической форме, которая позволяет отвечать на поставленные вопросы исследования, проверять гипотезы и оценивать результаты. Правильный сбор данных имеет важное значение для обеспечения целостности исследований. Как выбор подходящих инструментов сбора данных, так и четко разграниченные инструкции по их правильному использованию снижают вероятность возникновения ошибок. Прогнозирующие модели хороши только для данных, из которых они построены, поэтому правильная практика сбора данных имеет решающее значение для разработки высокопроизводительных моделей. Данные должны быть безошибочными и содержать релевантную информацию.

Нормализация данных

Cледующий шаг в процессе подготовки — это то место, где аналитики и инженеры данных обычно проводят большую часть своего времени: очистка и нормализация грязных данных. Часто это требует от них принимать решения на основе данных, которые они не совсем понимают, например, что делать с отсутствующими или неполными данными, а также с выбросами. Что еще хуже - эти данные нелегко соотнести с соответствующей единицей анализа: вашим клиентом. Например, чтобы предсказать, уйдет ли один клиент (а не сегмент или целая аудитория), нельзя полагаться на разрозненные данные из разрозненных источников. Ваш специалист по данным подготовит и объединит все данные из этих источников в формат, который могут интерпретировать модели ML.

Моделирование данных

Следующим этапом проекта машинного обучения является моделирование данных, которые мы хотим использовать для прогнозирования. Моделирование данных — это сложный процесс создания логического представления структуры данных. Правильно сконструированная модель данных должна быть адекватна предметной области, т.е. соответствовать всем пользовательским представлениям данных. Моделирование также включает в себя смешивание и агрегирование веб данных, данных из мобильных приложений, оффлайн данных и др. Для модели, рассматриваемой в данном конспекте, инженеры объединяют разнородные данные в цельный набор данных. Например, у них есть уже готовые данные по признакам, и они объединяют их в один набор данных.

Разработка модели

На данном этапе осуществляется разработка модели и решаются две основные задачи: конструирование признаков, и поиск модели, которая лучше остальных решает поставленную задачу, на основе имеющихся метрик.

Конструирование признаков

Конструирование признаков состоит из учета, статистической обработки и преобразования данных для создания признаков, используемых в модели. Чтобы понять лежащие в основе модели механизмы, целесообразно оценить связь между компонентами и понять, как алгоритмы машинного обучения будут использовать эти компоненты. На данном этапе нужно творческое сочетание опыта и информации, полученной на этапе исследования данных. В конструирование признаков необходимо найти баланс. Важно найти и учесть информативные переменные, не создавая при этом лишние несвязанные признаки. Информативные признаки улучшают результат модели, а не информативные — добавляют в модель ненужный шум. При создании признаков необходимо учитывать все новые данные, полученные во время обучения модели.

Обучение модели

В зависимости от типа вопроса, на который вы ищете ответ, можно использовать разные алгоритмы моделирования. Процесс обучения модели машинного обучения состоит из следующих шагов: С помощью кросс-валидации разделите набор данных случайным образом на два набора данных: для обучения и для тестирования. Обучите модель с помощью тренировочного набора данных. Оцените набор данных для обучения и тестирования. Используйте ансамбль конкурирующих алгоритмов машинного обучения, а также связанные с ними параметры настройки (перебор гиперпараметров), которые определяют ответы на поставленный вопрос по имеющимся данным. Выясните, какой алгоритм наиболее точно решает поставленную задачу, сравнивая метрики для все возможных вариантов.

Развертывание

Цикл развертывания

Развертывание моделей машинного обучения или простое внедрение моделей в производство означает доступность моделей для других бизнес-систем. Развертывая модели, другие системы могут отправлять им данные и получать их прогнозы, которые, в свою очередь, заполняются в системах компании. Благодаря развертыванию модели машинного обучения компания сможет в полной мере воспользоваться созданной моделью машинного обучения. Основная задача, решаемая на этом этапе - ввод модели в эксплуатацию. Необходимо развернуть модель и конвейер в рабочую или близкую к ней среду, чтобы приложения могли к ней обращаться. Создав набор эффективно работающих моделей, требуется ввести их в эксплуатацию для взаимодействия с другими системами компании. В зависимости от бизнес-требований прогнозы выполняются в режиме реального времени или в стандартном режиме. Для развертывания модели, необходимо предоставить их с помощью открытого API-интерфейса. Интерфейс упрощает использование модели различными приложениями, например:

веб-сайты в Интернете;
электронные таблицы;
Панели мониторинга бизнес-приложения;
серверные приложения.

Также необходимо понять, собираетесь ли компания использовать Платформу как Сервис (Platform as a Service-PaaS) или Инфраструктуру как Сервис (Infrastructure as a Service-IaaS). PaaS может быть полезен для создания прототипов и компаний с меньшим трафиком. В конце концов, по мере роста бизнеса и / или увеличения трафика компании придется использовать IaaS с большей сложностью. Есть множество решений от больших компаний (AWS, Google, Microsoft). Если приложения контейнеризованы, развертывание на большинстве платформ / инфраструктур будет проще. Контейнезирование также дает возможность использовать платформу оркестровки контейнеров (теперь Kubernetes является стандартом) для быстрого масштабирования количества контейнеров по мере изменения спроса. Убедитесь, что развертывание происходит через платформу непрерывного развертывания(Continuous Deployment platform).

Тестирование и мониторинг

На данном этапе осуществляется тестирование, мониторинг и контролирование модели. В основном тесты моделей машинного обучения делятся на следующие части:

Дифференциальные тесты

Происходит сравниваете средние / на строку прогнозы, данные новой моделью, и прогнозы, данные старой моделью для стандартного набора тестовых данных. Необходимо настроить чувствительность этих тестов в зависимости от варианта использования модели. Эти тесты могут быть жизненно важны для обнаружения моделей, которые выглядят рабочими, например, когда устаревший набор данных использовался в обучении или функция была случайно удалена из кода. Эти виды проблем, связанных с ML, не приведут к провалу традиционных тестов..

Контрольные тесты

Тесты сравнивают время, затрачиваемое либо на обучение, либо на предоставление прогнозов из модели от одной версии к другой. Они мешают вводить неэффективные добавления кода в ваши ML-приложения. Опять же, это то, что трудно уловить с помощью традиционных тестов (хотя некоторые инструменты статического анализа кода помогут).

Нагрузочные / стресс-тесты

Это не совсем ML-специфичные тесты, но с учетом необычно больших требований к ЦП / памяти в некоторых ML-приложениях такие тесты особенно стоит выполнять.

A/B-тестирование

Еще один популярный способ тестирования - A/B-тестирование. Этот метод также называется сплит-тестированием (от англ. split testing — раздельное тестирование). A/B-тестирование позволяет оценивать количественные показатели работы двух вариантов модели, а также сравнивать их между собой. Чтобы получить статистически значимый результат, очень важно исключить влияние моделей друг на друга.

Все вышеперечисленные тесты намного проще с контейнеризованными приложениями, так как это делает раскрутку реалистичного производственного стека тривиальной.

Мониторинг и оповещение могут быть особенно важны при развертывании моделей. По мере усложнения системы потребуются возможности мониторинга и оповещения, чтобы сообщать, когда прогнозы для конкретной системы выходят за пределы ожидаемого диапазона. Мониторинг и оповещение также могут быть связаны с косвенными проблемами, например, при обучении новой сверточной нейронной сети расходовать ежемесячный бюджет AWS за 30 минут. Также понадобятся панели управления, позволяющие быстро проверить развернутые версии моделей.

Пример кода на Python 3

 #установка git-репозитория и добавление в него исходных файлов
 git clone https://github.com/pplonski/my_ml_service.git
 cd my_ml_service
 ls -l
 git add backend/
 git commit -am "setup django project"
 git push

 #создание проекта Django и Jupyter ноутбука
 mkdir backend
 cd backend
 django-admin startproject server
 cd server
 python manage.py runserver
 pip3 install jupyter notebook
 ipython kernel install --user --name=venv

 #обучение модели
 pip3 install numpy pandas sklearn joblib
 import json # will be needed for saving preprocessing details
 import numpy as np 
 import pandas as pd
 from sklearn.model_selection import train_test_split 
 from sklearn.preprocessing import LabelEncoder 
 from sklearn.ensemble import RandomForestClassifier 
 from sklearn.ensemble import ExtraTreesClassifier 
 import joblib # load dataset
 # load dataset
 df = pd.read_csv('https://raw.githubusercontent.com/pplonski/datasets-for-start/master/adult/data.csv', skipinitialspace=True)
 x_cols = [c for c in df.columns if c != 'income']
 # set input matrix and target column
 X = df[x_cols]
 y = df['income']X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state=1234)
 train_mode = dict(X_train.mode().iloc[0])
 X_train = X_train.fillna(train_mode)
 print(train_mode)
 # convert categoricals
 encoders = {}
 for column in ['workclass', 'education', 'marital-status',
                 'occupation', 'relationship', 'race',
                 'sex','native-country']:
     categorical_convert = LabelEncoder()
     X_train[column] = categorical_convert.fit_transform(X_train[column])
     encoders[column] = categorical_convert
 # train the Random Forest algorithm
 rf = RandomForestClassifier(n_estimators = 100)
 rf = rf.fit(X_train, y_train)
 # train the Extra Trees algorithm
 et = ExtraTreesClassifier(n_estimators = 100)
 et = et.fit(X_train, y_train)

 #создание модели Django
 # run this in backend/server directory