Изменения

Обучение на больших данных

2939 байт добавлено, 20:41, 19 января 2021

→‎Примеры реализации алгоритмов с использованием Spark MLlib

Рассмотрим удобство использования Apache Spark на примере. Задача нашей модели предугадать захочет ли клиент оформить срочный вклад. Для этого воспользуемся [https://www.kaggle.com/rouseguy/bankbalanced| данными из Machine Learning Repository].

Напишем нашу модель на Python. Для начала работы с Apache Spark его необходимо установить, выполнив

'''pip ''' '''install ''' pyspark

Считаем данные из нашего файла и выведем информацию о датасете на экран

'''from ''' pyspark.sql '''import ''' SparkSession spark = SparkSession.builder.appName('ml-bank').getOrCreate() df = spark.read.csv('bank.csv', header = True, inferSchema = True)

df.printSchema()

Результат:

|-- deposit: string (nullable = true)

Как видно наши данные состоят из множества столбцов, содержащих числа и строки Для большей информации выведем наши данные с помощью таблицы pandas. Для примера выведем 7 первых значений

'''import ''' pandas '''as ''' pd pd.DataFrame(df.take(7), columns=df.columns).transpose()

[[Файл:SparkMLFirstTable.png]]

Нас будут интересовать только численные данные. Для них построим таблицу с основной информацией (количество/ среднее по всей таблице/ среднеквадратичное отклонение / минимальное значение / максимальное значение)

numeric_features = [t[0] '''for ''' t '''in ''' df.dtypes '''if ''' t[1] == 'int']

df.select(numeric_features).describe().toPandas().transpose()

[[Файл:SparkMLSecondTable.png]]

Оценим корреляцию между оставшимися данными

'''from ''' pandas.plotting '''import ''' scatter_matrix

numeric_data = df.select(numeric_features).toPandas()

axs = scatter_matrix(numeric_data, figsize=(8, 8))

n = len(numeric_data.columns)

'''for ''' i '''in ''' range(n): v = axs[i, 0] v.yaxis.label.set_rotation(0) v.yaxis.label.set_ha('right')

v.set_yticks(())

h = axs[n-1, i] h.xaxis.label.set_rotation(90)

h.set_xticks(())

На данных графиках можно увидеть зависимость, к примеру, между возрастом и балансом на карте. Не будем учитывать эти корреляции при построении наших моделей, однако избавимся от дня и месяца рождения, так как эти параметры не влияют на желание клиента оформить быстрый кредит.

df = df.select('age', 'job', 'marital', 'education', 'default', 'balance', 'housing', 'loan', 'contact', 'duration', 'campaign', 'pdays', 'previous', 'poutcome', 'deposit')

cols = df.columns

Подготовим оставшиеся данные для построения моделей. '''from ''' pyspark.ml.feature '''import ''' StringIndexer, VectorAssembler, OneHotEncoder

categoricalColumns = ['job', 'marital', 'education', 'default', 'housing', 'loan', 'contact', 'poutcome']

stages = []

'''for ''' categoricalCol '''in ''' categoricalColumns: stringIndexer = StringIndexer(inputCol = categoricalCol, outputCol = categoricalCol + 'Index') encoder = OneHotEncoder(inputCols=[stringIndexer.getOutputCol()], outputCols=[categoricalCol + "classVec"])

stages += [stringIndexer, encoder]

label_stringIdx = StringIndexer(inputCol = 'deposit', outputCol = 'label')

stages += [label_stringIdx]

numericCols = ['age', 'balance', 'duration', 'campaign', 'pdays', 'previous'] assemblerInputs = [c + "classVec" '''for ''' c '''in ''' categoricalColumns] + numericCols assembler = VectorAssembler(inputCols=assemblerInputs, outputCol="features")

stages += [assembler]

'''from ''' pyspark.ml '''import ''' Pipeline

pipeline = Pipeline(stages = stages)

pipelineModel = pipeline.fit(df)

df = pipelineModel.transform(df)

selectedCols = ['label', 'features'] + cols

df = df.select(selectedCols)

df.printSchema()

Наконец, поделим нашу выборку на обучающую и тестирующую

train, test = df.randomSplit([0.7, 0.3], seed = ~~2018)~~ ~~print(~~2018)Построим модели и выведем точность(площадь под ROC-кривой) для:

Logistic Regression

'''from ''' pyspark.ml.classification '''import ''' LogisticRegression lr = LogisticRegression(featuresCol = 'features', labelCol = 'label', maxIter=10)

lrModel = lr.fit(train)

trainingSummary = lrModel.summary

~~roc = trainingSummary.roc.toPandas()~~ ~~plt.plot(roc['FPR'],roc['TPR'])~~ ~~plt.ylabel('False Positive Rate')~~ ~~plt.xlabel('True Positive Rate')~~ ~~plt.title('ROC-кривая')~~ ~~plt.show()~~ print('"Точность: ' " + str(trainingSummary.areaUnderROC))

Точность: 0.8865478305561797

Binary Classification

'''from ''' pyspark.ml.evaluation '''import ''' BinaryClassificationEvaluator

evaluator = BinaryClassificationEvaluator()

print('"Точность: '", evaluator.evaluate(predictions))

~~Точность~~Площадь под ROC-кривой: 0.8837112925002687

Decision Tree

'''from ''' pyspark.ml.classification '''import ''' DecisionTreeClassifier dt = DecisionTreeClassifier(featuresCol = 'features', labelCol = 'label', maxDepth = 3)

dtModel = dt.fit(train)

predictions = dtModel.transform(test)

evaluator = BinaryClassificationEvaluator()

print("Точность: " + str(evaluator.evaluate(predictions, {evaluator.metricName: "areaUnderROC"})))

~~Точность~~Площадь под ROC-кривой: 0.7808118726917547

Random Forest

'''from ''' pyspark.ml.classification '''import ''' RandomForestClassifier rf = RandomForestClassifier(featuresCol = 'features', labelCol = "green">'label')

rfModel = rf.fit(train)

predictions = rfModel.transform(test)

evaluator = BinaryClassificationEvaluator()

print("Точность: " + str(evaluator.evaluate(predictions, {evaluator.metricName: "areaUnderROC"})))

~~Точность~~Площадь под ROC-кривой: 0.8777131493473223

Gradient-Boosted Tree

'''from ''' pyspark.ml.classification '''import ''' GBTClassifier gbt = GBTClassifier(maxIter=10)

gbtModel = gbt.fit(train)

predictions = gbtModel.transform(test)

evaluator = BinaryClassificationEvaluator()

print("Точность: " + str(evaluator.evaluate(predictions, {evaluator.metricName: "areaUnderROC"})))

~~Точность~~Площадь под ROC-кривой: 0.8935091626908479

== Практическое применение Big Data ==

Zanzigota

22

правки

Изменения

Обучение на больших данных

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты