Изменения

Обучение на больших данных

20 байт добавлено, 20:00, 21 января 2021

→‎Об инструментах Apache Spark

Но при всех достоинствах данного инструмента, наблюдалась низкая производительность на итеративных алгоритмах (например, алгоритмы машинного обучения). Решение проблемы было найдено в университете Беркли: была разработана модель распределенных вычислений, которая имеет устойчивость к сбоям при пользовании распределенной коллекцией данных (англ. resilient distributed dataset, RDD).

На основе RDD по сей день развивается система [https://spark.apache.org/ Apache Spark], которая обладает сравнительно высокой эффективностью при работе итеративных алгоритмов за счет кэширования результатов в памяти. На основе концепции распределенных коллекций разрабатываются распределенные системы:

* [https://spark.apache.org/docs/1.0.0/sql-programming-guide.html Shark] – {{---}} хранилище данных;* [https://spark.apache.org/docs/latest/graphx-programming-guide.html GraphX] – {{---}} система обработки графовых данных;* [https://spark.apache.org/docs/latest/streaming-programming-guide.html Spark Streaming] – {{---}} система обработки потоковых данных;* [https://spark.apache.org/docs/latest/ml-guide.html Spark MLlib] – {{---}} библиотека алгоритмов машинного обучения.

Все из перечисленных систем совместимы со стеком технологий Hadoop.

MLlib – {{---}} основная библиотека Spark. Она предоставляет множество служебных программ, полезных для задач машинного обучения:

* классификация;

* регрессия;

George bakush

59

правок

Изменения

Обучение на больших данных

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты