Изменения

Перейти к: навигация, поиск

Обучение на больших данных

4 байта добавлено, 20:56, 19 января 2021
Примеры реализации алгоритмов с использованием Spark MLlib
Напишем нашу модель на Python. Для начала работы с Apache Spark его необходимо установить, выполнив
<font color = "orange">'''pip''' '''install'''</font> pyspark
Считаем данные из нашего файла и выведем информацию о датасете на экран:
<font color = "orange">'''from'''</font> pyspark.sql <font color = "orange">'''import'''</font> SparkSession
spark = SparkSession.builder.appName(<font color = "green">'ml-bank'</font>).getOrCreate()
|-- poutcome: string (nullable = true)
|-- deposit: string (nullable = true)
Как видно наши данные состоят из множества столбцов, содержащих числа и строки Для большей информации выведем наши данные с помощью таблицы pandas. Для примера выведем 7 первых значений:
<font color = "orange">'''import'''</font> pandas <font color = "orange">'''as'''</font> pd
pd.DataFrame(df.take(<font color = "blue">7</font>), columns=df.columns).transpose()
Нас будут интересовать только численные данные. Для них построим таблицу с основной информацией (количество/ среднее по всей таблице/ среднеквадратичное отклонение / минимальное значение / максимальное значение):
numeric_features = [t[<font color = "blue">0</font>] <font color = "orange">'''for'''</font> t <font color = "orange">'''in'''</font> df.dtypes <font color = "orange">'''if'''</font> t[<font color = "blue">1</font>] == <font color = "green">'int'</font>]
df.select(numeric_features).describe().toPandas().transpose()
[[Файл:SparkMLSecondTable.png]]
Оценим корреляцию между оставшимися данными:
<font color = "orange">'''from'''</font> pandas.plotting <font color = "orange">'''import'''</font> scatter_matrix
numeric_data = df.select(numeric_features).toPandas()
59
правок

Навигация