Изменения

Обучение на больших данных

7 байт добавлено, 20:38, 19 января 2021

→‎Примеры реализации алгоритмов с использованием Spark MLlib

Подготовим оставшиеся данные для построения моделей.

'''from''' pyspark.ml.feature '''import''' StringIndexer, VectorAssembler, OneHotEncoder

categoricalColumns = ['job', 'marital', 'education', 'default', 'housing', 'loan', 'contact', 'poutcome']

train, test = df.randomSplit([0.7, 0.3], seed = 2018)

Построим модели и выведем точность (площадь под ROC-кривой) для:

Logistic Regression

22

правки