51
правка
Изменения
Нет описания правки
==Исследование==
На этом этапе необходимо вместе с заказчиком сформулировать проблемы бизнеса, которые будет решать модель. Также, требуется сформулировать вопросыпонять кто участвует в проекте со стороны заказчика, кто выделяет деньги под проект, и кто принимает ключевые решения. Вдобавок необходимо узнать существуют ли готовые решения и, которые определяют бизнес-целиесли да, на которых могут сосредоточиться методы науки о данныхчем они не устраивают заказчика. Главная задача этого этапа — понять основные бизнес-переменные, которые будет прогнозировать модель. Такие переменные называются ключевыми показателями модели. После этого необходимо определить какие метрики будут использоваться, чтобы определить успешность проекта. Примеры метрик: продолжительность пребывания товара на складеНапример, количество материала, которое экономится в процессе производства и может потребоваться спрогнозировать количество абонентов, которые хотели уйти от своего оператора, но в итоге остались у своего операторанего. К моменту завершения проекта требуется чтобы модель уменьшила отток абонентов на X%. С помощью этих данных можно составить рекламные предложения для минимизации оттока. Метрики должны быть составлены в соответствии с принципами SMART. Далее требуется понять ключевые показатели моделинеобходимо оценить какие ресурсы потребуются в течении проекта: есть ли у заказчика доступное железо или его необходимо закупать, ставя где и уточняя "острые" вопросы: релевантныекак хранятся данные, будет ли предоставлен доступ в эти системы, нужно ли дополнительно докупать/собирать внешние данные, конкретные и однозначные. Машинное обучение — это работа с именами и числами сможет ли заказчик выделить своих экспертов для получения ответов консультаций на такие вопросыданный проект. Нужно описать вероятные риски проекта, а также определить план действий по их уменьшению. Типичные риски следующие. В основном * Не успеть закончить проект к назначенной дате;* Финансовые риски;* Малое количество или плохое качество данных, которые не позволят получить эффективную модель;* Данные качественные, но закономерности в принципе отсутствуют и, в результате, заказчик не заинтересован в полученной модели . После того, как задача описана на языке бизнеса, необходимо поставить ее в терминах машинного обучения отвечают . Особенно нужно узнать ответы на следующие вопросы:* Сколько? Какая метрика будет использована для оценки результата модели(регрессиянапример: accuracy, precision, recall, MSE, MAE и т.д.) * К какой категории относится объект? Каков критерий успешности модели (классификациянапример, считаем Accuracy равный 0.8 — минимально допустимым значением, 0.9 — оптимальным) * К какой группе относится объект? (кластеризация) * Является ли действия данного пользователя странными? (обнаружение аномалий) * Что похожее предложить пользователю? (рекомендация)После необходимо сформировать команду проекта, распределить роли и обязанности между его участниками; создать расширенный поэтапный план проекта, который будет дополняться по мере поступления новой информации. Команда проекта состоит из менеджера, исследователей, разработчиков, аналитиков и тестировщиков.
==Сбор и подготовка данных==