59
 правок
Изменения
→Примеры реализации алгоритмов с использованием Spark MLlib
	Напишем нашу модель на Python. Для начала работы с Apache Spark его необходимо установить, выполнив 
 <font color = "orange">'''pip''' '''install'''</font> pyspark
Считаем данные из нашего файла и выведем информацию о датасете на экран:
 <font color = "orange">'''from'''</font> pyspark.sql <font color = "orange">'''import'''</font> SparkSession
 spark = SparkSession.builder.appName(<font color = "green">'ml-bank'</font>).getOrCreate()
  |-- poutcome: string (nullable = true)
  |-- deposit: string (nullable = true)
Как видно наши данные состоят из множества столбцов, содержащих числа и строки Для большей информации выведем наши данные с помощью таблицы pandas. Для примера выведем 7 первых значений:
 <font color = "orange">'''import'''</font> pandas <font color = "orange">'''as'''</font> pd
 pd.DataFrame(df.take(<font color = "blue">7</font>), columns=df.columns).transpose()
Нас будут интересовать только численные данные. Для них построим таблицу с основной информацией (количество/ среднее по всей таблице/ среднеквадратичное отклонение / минимальное значение / максимальное значение):
 numeric_features = [t[<font color = "blue">0</font>] <font color = "orange">'''for'''</font> t <font color = "orange">'''in'''</font> df.dtypes <font color = "orange">'''if'''</font> t[<font color = "blue">1</font>] == <font color = "green">'int'</font>]
 df.select(numeric_features).describe().toPandas().transpose()
[[Файл:SparkMLSecondTable.png]]
Оценим корреляцию между оставшимися данными:
 <font color = "orange">'''from'''</font> pandas.plotting <font color = "orange">'''import'''</font> scatter_matrix
 numeric_data = df.select(numeric_features).toPandas()