Редактирование: Обучение на больших данных

Перейти к: навигация, поиск

Внимание! Вы не авторизовались на сайте. Ваш IP-адрес будет публично видимым, если вы будете вносить любые правки. Если вы войдёте или создадите учётную запись, правки вместо этого будут связаны с вашим именем пользователя, а также у вас появятся другие преимущества.

Правка может быть отменена. Пожалуйста, просмотрите сравнение версий, чтобы убедиться, что это именно те изменения, которые вас интересуют, и нажмите «Записать страницу», чтобы изменения вступили в силу.
Текущая версия Ваш текст
Строка 175: Строка 175:
 
Напишем нашу модель на Python. Для начала работы с Apache Spark его необходимо установить, выполнив  
 
Напишем нашу модель на Python. Для начала работы с Apache Spark его необходимо установить, выполнив  
 
  <font color = "orange">'''pip''' '''install'''</font> pyspark
 
  <font color = "orange">'''pip''' '''install'''</font> pyspark
Считаем данные из нашего файла и выведем информацию о датасете на экран:
+
Считаем данные из нашего файла и выведем информацию о датасете на экран
 
  <font color = "orange">'''from'''</font> pyspark.sql <font color = "orange">'''import'''</font> SparkSession
 
  <font color = "orange">'''from'''</font> pyspark.sql <font color = "orange">'''import'''</font> SparkSession
 
  spark = SparkSession.builder.appName(<font color = "green">'ml-bank'</font>).getOrCreate()
 
  spark = SparkSession.builder.appName(<font color = "green">'ml-bank'</font>).getOrCreate()
Строка 199: Строка 199:
 
   |-- poutcome: string (nullable = true)
 
   |-- poutcome: string (nullable = true)
 
   |-- deposit: string (nullable = true)
 
   |-- deposit: string (nullable = true)
Как видно наши данные состоят из множества столбцов, содержащих числа и строки Для большей информации выведем наши данные с помощью таблицы pandas. Для примера выведем 7 первых значений:
+
Как видно наши данные состоят из множества столбцов, содержащих числа и строки Для большей информации выведем наши данные с помощью таблицы pandas. Для примера выведем 7 первых значений
 
  <font color = "orange">'''import'''</font> pandas <font color = "orange">'''as'''</font> pd
 
  <font color = "orange">'''import'''</font> pandas <font color = "orange">'''as'''</font> pd
 
  pd.DataFrame(df.take(<font color = "blue">7</font>), columns=df.columns).transpose()
 
  pd.DataFrame(df.take(<font color = "blue">7</font>), columns=df.columns).transpose()
Строка 205: Строка 205:
 
   
 
   
 
   
 
   
Нас будут интересовать только численные данные. Для них построим таблицу с основной информацией (количество/ среднее по всей таблице/ среднеквадратичное отклонение / минимальное значение / максимальное значение):
+
Нас будут интересовать только численные данные. Для них построим таблицу с основной информацией (количество/ среднее по всей таблице/ среднеквадратичное отклонение / минимальное значение / максимальное значение)
 
  numeric_features = [t[<font color = "blue">0</font>] <font color = "orange">'''for'''</font> t <font color = "orange">'''in'''</font> df.dtypes <font color = "orange">'''if'''</font> t[<font color = "blue">1</font>] == <font color = "green">'int'</font>]
 
  numeric_features = [t[<font color = "blue">0</font>] <font color = "orange">'''for'''</font> t <font color = "orange">'''in'''</font> df.dtypes <font color = "orange">'''if'''</font> t[<font color = "blue">1</font>] == <font color = "green">'int'</font>]
 
  df.select(numeric_features).describe().toPandas().transpose()
 
  df.select(numeric_features).describe().toPandas().transpose()
Строка 211: Строка 211:
 
[[Файл:SparkMLSecondTable.png]]
 
[[Файл:SparkMLSecondTable.png]]
  
Оценим корреляцию между оставшимися данными:
+
Оценим корреляцию между оставшимися данными
 
  <font color = "orange">'''from'''</font> pandas.plotting <font color = "orange">'''import'''</font> scatter_matrix
 
  <font color = "orange">'''from'''</font> pandas.plotting <font color = "orange">'''import'''</font> scatter_matrix
 
  numeric_data = df.select(numeric_features).toPandas()
 
  numeric_data = df.select(numeric_features).toPandas()

Пожалуйста, учтите, что любой ваш вклад в проект «Викиконспекты» может быть отредактирован или удалён другими участниками. Если вы не хотите, чтобы кто-либо изменял ваши тексты, не помещайте их сюда.
Вы также подтверждаете, что являетесь автором вносимых дополнений, или скопировали их из источника, допускающего свободное распространение и изменение своего содержимого (см. Викиконспекты:Авторские права). НЕ РАЗМЕЩАЙТЕ БЕЗ РАЗРЕШЕНИЯ ОХРАНЯЕМЫЕ АВТОРСКИМ ПРАВОМ МАТЕРИАЛЫ!

Чтобы изменить эту страницу, пожалуйста, ответьте на приведённый ниже вопрос (подробнее):

Отменить | Справка по редактированию (в новом окне)

Шаблон, используемый на этой странице: