Изменения

Жизненный цикл модели машинного обучения

9 байт добавлено, 23:15, 24 февраля 2020

Нет описания правки

[[Файл:Жизненный_цикл_модели_машинного_обучения.jpeg|550px|thumb|right| Жизненный цикл модели машинного обучения [https://en.wikipedia.org/wiki/Cross-industry_standard_process_for_data_mining#/media/File:CRISP-DM_Process_Diagram.~~pngИсточник~~png Источник]]]

'''Жизненный цикл модели машинного обучения''' – {{---}} это многоэтапный процесс, в течении которого исследователи, инженеры и разработчики обучают, разрабатывают и обслуживают модель машинного обучения. Разработка модели машинного обучения принципиально отличается от традиционной разработки программного обеспечения и требует своего собственного уникального способа разработки. Модель машинного обучения — это приложение искусственного интеллекта (ИИ), которое дает возможность автоматически учиться и совершенствоваться на основе собственного опыта без явного участия человека. Основная цель модели заключается в том, чтобы компания смогла использовать преимущества алгоритмов искусственного интеллекта и машинного обучения для получения дополнительных конкурентных преимуществ.

==Бизнес-анализ==

На этом этапе необходимо вместе с заказчиком сформулировать проблемы бизнеса, которые будет решать модель. Также, требуется понять, кто участвует в проекте со стороны заказчика, кто выделяет деньги под проект, и кто принимает ключевые решения. Вдобавок необходимо узнать существуют ли готовые решения и, если да, чем они не устраивают заказчика.

Главная задача этого этапа — {{---}} понять основные бизнес-переменные, которые будет прогнозировать модель. Такие переменные называются ключевыми показателями модели. После этого необходимо определить какие метрики будут использоваться, чтобы определить успешность проекта. Например, может потребоваться спрогнозировать количество абонентов, которые хотели уйти от своего оператора, но в итоге остались у него. К моменту завершения проекта требуется чтобы модель уменьшила отток абонентов на X%. С помощью этих данных можно составить рекламные предложения для минимизации оттока. Метрики должны быть составлены в соответствии с принципами [https://ru.wikipedia.org/wiki/SMART SMART].

Далее необходимо оценить какие ресурсы потребуются в течении проекта: есть ли у заказчика доступное железо или его необходимо закупать, где и как хранятся данные, будет ли предоставлен доступ в эти системы, нужно ли дополнительно докупать/собирать внешние данные, сможет ли заказчик выделить своих экспертов для консультаций на данный проект.

* Данные качественные, но закономерности в принципе отсутствуют и, в результате, заказчик не заинтересован в полученной модели.

После того, как задача описана на языке бизнеса, необходимо поставить ее в терминах машинного обучения. Особенно нужно узнать ответы на следующие вопросы: Какая [[Оценка качества в задачах классификации и регрессии|метрика]] будет использована для оценки результата модели(например: accuracy, precision, recall, MSE, MAE и т.д.)? Каков критерий успешности модели (например, считаем точность (англ. ''accuracy'') равный 0.8 — {{---}} минимально допустимым значением, 0.9 — {{---}} оптимальным)?

После необходимо сформировать команду проекта, распределить роли и обязанности между его участниками; создать расширенный поэтапный план проекта, который будет дополняться по мере поступления новой информации. Команда проекта состоит из менеджера, исследователей, разработчиков, аналитиков и тестировщиков.

===Нормализация данных===

Следующий шаг в процессе подготовки — это то место, где аналитики и инженеры данных обычно проводят большую часть своего времени: очистка и нормализация "грязных" данных. Часто это требует от них принимать решения на основе данных, которые они не совсем понимают, например, что делать с отсутствующими или неполными данными, а также с выбросами. Что еще хуже, эти данные нелегко соотнести с соответствующей единицей анализа: ~~вашим~~ клиентом. Например, чтобы предсказать, уйдет ли один клиент (а не сегмент или целая аудитория), нельзя полагаться на данные из разрозненных источников. Инженер по данным ~~подготовит~~ подготавливает и ~~объединит~~ объединяет все данные из этих источников в формат, который могут интерпретировать модели машинного обучения.

===Моделирование данных===

Следующим этапом подготовки данных является моделирование данных, которые мы хотим использовать для прогнозирования. Моделирование данных — это сложный процесс создания логического представления структуры данных. Правильно сконструированная модель данных должна быть адекватна предметной области, т.е. соответствовать всем пользовательским представлениям данных. Моделирование также включает в себя смешивание и агрегирование веб данных, данных из мобильных приложений, оффлайн данных и др.

Для модели, рассматриваемой в данном конспекте, инженеры объединяют разнородные данные в цельный набор данных. Например, у них есть уже готовые данные по признакам, и они объединяют их в один набор данных.

===Конструирование признаков===

Конструирование признаков состоит из учета, статистической обработки и [[Уменьшение размерности|преобразования данных для выбора признаков]], используемых в модели. Чтобы понять лежащие в основе модели механизмы, целесообразно оценить связь между компонентами и понять, как алгоритмы машинного обучения будут использовать эти компоненты.

На данном этапе нужно творческое сочетание опыта и информации, полученной на этапе исследования данных. В конструирование признаков необходимо найти баланс. Важно найти и учесть информативные переменные, не создавая при этом лишние несвязанные признаки. Информативные признаки улучшают результат модели, а не информативные — добавляют в модель ненужный шум. При выборе признаков необходимо учитывать все новые данные, полученные во время обучения модели.

==Моделирование==

На этом шаге происходит обучения модели. Обучение моделей машинного обучения происходит итерационно – пробуются различные модели, [[Настройка гиперпараметров|перебираются гиперпараметры]], сравниваются значения выбранной метрики и выбирается лучшая комбинация.

===Выбор алгоритма===

Вначале нужно понять, какие модели будут использоваться. Выбор модели зависит от решаемой задачи, используемых признаков и требований по сложности (например, если модель будет дальше внедряться в Excel, то Дерево решений или AdaBoost не подойдут). При выборе модели обязательно принять во внимание следующие факторы:

* Достаточность данных (обычно, сложные модели требуют большого количества данных).* Обработка пропусков (некоторые алгоритмы не умеют обрабатывать пропуски) .* Формат данных (для части алгоритмов потребуется конвертация данных).

===Планирование тестирования===

===Обучение модели===

На данном шаге начинается цикл обучения. После каждой итерации записывается результат модели. На выходе получаем результаты для каждой модели и использованных в ней гиперпараметров. Кроме того, для моделей, у которых значение выбранной метрики превышает минимально допустимое, нужно обратить внимание на следующие особенности:

* Необычные закономерности (Например, точность предсказания модели на 95% объясняется всего лишь одним признаком) . * Скорость обучения модели (Если модель долго обучается, то стоит использовать более эффективный алгоритм или уменьшить обучающую выборку).* Проблемы с данными (Например, в тестовую выборку попали объекты с пропущенными значениями, и, как следствие, значение метрики было посчитано не полностью, и она не позволяет целиком оценить модель).

===Оценка результатов===

* Были ли неожиданности при реализации шагов? Как их предусмотреть в будущем?

~~Далее~~Затем, если модель устраивает заказчика, то ~~нужно либо внедрять её~~необходимо или внедрить модель, ~~либо~~или, если существует возможности для улучшения, ~~попытаться еще ее~~ улучшитьмодель. Если на данном этапе несколько ~~удовлетворяющих~~ подходящих моделей, то нужно выбрать модель, которая будет дальше внедряться.

==~~Внедрени~~Внедрение==[[Файл:Deployment lifecycle.png|450px|thumb|right| Цикл развертывания[https://christophergs.github.io/assets/images/deployment.png Источник]]]

~~Развертывание моделей~~ Внедрение модели машинного обучения ~~или простое внедрение моделей~~ в производство означает доступность ~~моделей~~ модели для других бизнес-систем. ~~Развертывая модели~~Внедряя модель, другие системы могут отправлять им ей данные и получать их от модели прогнозы, которые, в свою очередь, ~~заполняются~~ используются в системах компании. Благодаря ~~развертыванию~~ внедрению модели машинного обучения , компания сможет в полной мере воспользоваться созданной моделью машинного обучения.

Основная задача, решаемая на этом этапе - ввод модели в эксплуатацию. Необходимо развернуть модель и конвейер в рабочую или близкую к ней среду, чтобы приложения могли к ней обращаться.

Создав ~~набор~~ эффективно ~~работающих моделей~~работающую модель, требуется ввести их ее в эксплуатацию для взаимодействия с другими системами компании. В зависимости от бизнес-требований , модель исполняет прогнозы ~~выполняются~~ в режиме реального времени или в стандартном режиме. Для развертывания модели, необходимо ~~предоставить их~~ внедрять модель с помощью открытого API-интерфейса. Интерфейс упрощает использование модели различными приложениями, например:

* Веб-сайты.

* Электронные таблицы.

* Серверные приложения.

Также необходимо понять, собирается ли компания использовать Платформу как Сервис (англ. ''Platform as a Service, PaaS'') или Инфраструктуру как Сервис (англ. ''Infrastructure as a Service, IaaS''). PaaS может быть полезен для создания прототипов и компаний с меньшим трафиком. В конце концов, по мере роста бизнеса и / или увеличения трафика компании придется использовать IaaS с большей сложностью. Есть множество решений от больших компаний (AWS, Google, Microsoft). Если приложения контейнеризованы, развертывание на большинстве платформ / инфраструктур будет проще. Контейнезирование также дает возможность использовать платформу оркестровки контейнеров ~~(теперь Kubernetes является стандартом)~~ для быстрого масштабирования количества контейнеров по мере ~~изменения~~ увеличения спроса. Далее, нужно убедиться, что развертывание происходит через платформу непрерывного развертывания(англ. ''Continuous Deployment platform'').

==Тестирование и мониторинг==

===Дифференциальные тесты===

Происходит сравнение результатов, данных новой моделью, и результатов, данных старой моделью для стандартного набора тестовых данных. Необходимо настроить чувствительность этих тестов в зависимости от варианта использования модели. Эти тесты могут быть жизненно важны для обнаружения ~~моделей~~модели, ~~которые выглядят рабочими~~которая выглядит работающей, но, на самом деле, таковой не является, например, когда устаревший набор данных использовался в обучении или ~~признак был случайно удален из кода~~модель обучилась не на всех признаках. Такие проблемы, присущие машинному обучения, не приведут к ошибке на стандартных тестах.

===Контрольные тесты===

==См.также==

* [[Общие понятия]]

* [[Глубокое обучение]]

* [[Модель алгоритма и её выбор]]

* [[Оценка качества в задачах классификации и регрессии]]

[[Категория: Машинное обучение]]

~~[[Категория: Глубокое обучение]]~~

Nikita Yegorov

51

правка

Изменения

Жизненный цикл модели машинного обучения

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты