67
правок
Изменения
м
→Описание известных пакетов: links added
Для языка R написано много пакетов, каждый из которых предназначен для решения определенного круга проблем. Например, для обработки данных или реализации основных алгоритмов. В статье представлено несколько наиболее часто используемых пакетов.
===Пакеты для обработки данных===
==== Pipelearner<ref>[https://github.com/drsimonj/pipelearner Pipelaerner Pipelearner github repository]</ref> ====
Пакет предоставляет базовые возможности для разбиения набора данных на блоки для обучения моделей. В основе пакета лежит концепция работы конвейера. Пакет хорошо документирован, все непонятные моменты можно прояснить, просто изучив структуру объекта на каждом этапе работы алгоритма.
==== MICE <ref>[https://cran.r-project.org/web/packages/mice/mice.pdf MICE package documentation]</ref>====
Пакет MICE используется для заполнения пропущенных значений в данных. При этом нет необходимости думать о типах значений: для каждого из них в пакете предусмотрено заполнение по умолчанию.
==== Ggplot2 <ref>[https://cran.r-project.org/web/packages/ggplot2/index.html Ggplot2 main info page]</ref> ====
Данный пакет используется для отрисовки данных и графиков.
=== Пакеты с реализованными алгоритмами машинного обучения ===
==== Caret <ref>[http://topepo.github.io/caret/index.html Caret guide book]</ref> ====
В данном пакете представлены модели для регрессии и классификации, а также большая часть популярных метрик. В настоящее время имеется возможность использовать более 180 различных алгоритмов.
Основная функция в составе Caret - функция train(). Параметры обучения в ней задаются аргументом trControl, а оценка качества модели - аргументом metric.
Отличительными особенностями Caret является универсальность используемых команд, наличие автоматического подбора гиперпараметров для алгоритмов, в также наличие параллельных вычислений.
==== Mlr <ref>[https://cran.r-project.org/web/packages/mlr/mlr.pdf Mlr package documentation]</ref> ====
В пакете Mlr представлены модели для регрессии, классификации, кластеризации и анализа выживаемости, а также широкие возможности для оценки качества (в том числе функции для анализа ROC-кривых).
Есть поддержка параллельных вычислений и конвейерных операций.
==== H2O <ref>[https://cran.r-project.org/web/packages/h2o/index.html H20 main info page]</ref> ====
В пакете представлены линейные модели, такие как градиентный бустинг, PCA, GLRM, KNN, Radom forest, наивный Байесовский классификатор. Сильная сторона этой библиотеки – работа с большими объемами данных и поддержка многопоточных вычислений.Однако в ней нет возможности задавать параметры используемых алгоритмов