Изменения

Обучение на больших данных

4 байта добавлено, 20:56, 19 января 2021

→‎Примеры реализации алгоритмов с использованием Spark MLlib

Напишем нашу модель на Python. Для начала работы с Apache Spark его необходимо установить, выполнив

'''pip''' '''install''' pyspark

Считаем данные из нашего файла и выведем информацию о датасете на экран:

'''from''' pyspark.sql '''import''' SparkSession

spark = SparkSession.builder.appName('ml-bank').getOrCreate()

|-- poutcome: string (nullable = true)

|-- deposit: string (nullable = true)

Как видно наши данные состоят из множества столбцов, содержащих числа и строки Для большей информации выведем наши данные с помощью таблицы pandas. Для примера выведем 7 первых значений:

'''import''' pandas '''as''' pd

pd.DataFrame(df.take(7), columns=df.columns).transpose()

Нас будут интересовать только численные данные. Для них построим таблицу с основной информацией (количество/ среднее по всей таблице/ среднеквадратичное отклонение / минимальное значение / максимальное значение):

numeric_features = [t[0] '''for''' t '''in''' df.dtypes '''if''' t[1] == 'int']

df.select(numeric_features).describe().toPandas().transpose()

[[Файл:SparkMLSecondTable.png]]

Оценим корреляцию между оставшимися данными:

'''from''' pandas.plotting '''import''' scatter_matrix

numeric_data = df.select(numeric_features).toPandas()

George bakush

59

правок

Изменения

Обучение на больших данных

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты