Примеры кода на R — различия между версиями
(Рефакторинг информации об основных билиотеках) |
|||
Строка 1: | Строка 1: | ||
== Особенности написания кода на R == | == Особенности написания кода на R == | ||
− | R изначально создавался как | + | R изначально создавался как язык программирования для работы с графикой и статистической обработки данных. Поэтому он отличается большим количеством реализованных статистических алгоритмов, на основе которых можно создавать модели и алгоритмы машинного обучения. |
+ | |||
+ | Язык постоянно расширяется за счёт новых библиотек (пакетов). Для их использования необходимо в начале файла прописать строки | ||
− | |||
install.packages("packageName") | install.packages("packageName") | ||
require("packageName) | require("packageName) | ||
− | |||
− | |||
− | |||
== Описание основных пакетов == | == Описание основных пакетов == | ||
− | |||
===Пакеты для обработки данных=== | ===Пакеты для обработки данных=== | ||
− | + | ==== Pipelearner ==== | |
− | ==== | + | Пакет предоставляет базовые возможности для разбиения набора данных на блоки для обучения моделей. В основе пакета лежит концепция работы конвейера. Пакет хорошо документирован, все непонятные моменты можно прояснить, просто изучив структуру объекта на каждом этапе работы алгоритма. |
− | Пакет предоставляет базовые возможности для разбиения набора данных на блоки для обучения моделей. В основе пакета лежит концепция | ||
− | |||
==== MICE ==== | ==== MICE ==== | ||
Пакет MICE используется для заполнения пропущенных значений в данных. При этом нет необходимости думать о типах значений: для каждого из них в пакете предусмотрено заполнение по умолчанию. | Пакет MICE используется для заполнения пропущенных значений в данных. При этом нет необходимости думать о типах значений: для каждого из них в пакете предусмотрено заполнение по умолчанию. | ||
− | |||
===Пакеты с реализованными алгоритмами машинного обучения=== | ===Пакеты с реализованными алгоритмами машинного обучения=== | ||
− | |||
==== Caret ==== | ==== Caret ==== | ||
− | В данном пакете представлены модели для регрессии и классификации, | + | В данном пакете представлены модели для регрессии и классификации, а также большая часть популярных метрик. В настоящее время имеется возможность использовать более 180 различных алгоритмов. |
− | + | Основная функция в составе Caret - функция train(). Параметры обучения в ней задаются аргументом trControl, а оценка качества модели - аргументом metric. | |
− | + | Отличительными особенностями Caret является универсальность используемых команд, наличие автоматического подбора гиперпараметров для алгоритмов, в также наличие параллельных вычислений. | |
− | |||
− | |||
− | возможность | ||
− | |||
− | |||
− | |||
− | train( | ||
− | |||
− | |||
==== Mlr ==== | ==== Mlr ==== | ||
− | + | В пакете Mlr представлены модели для регрессии, классификации, кластеризации и анализа выживаемости, а также широкие возможности для оценки качества (в том числе функции для анализа ROC-кривых). | |
− | + | Есть поддержка параллельных вычислений и конвейерных операций. | |
− | |||
− | |||
− | |||
− | Есть поддержка параллельных вычислений | ||
==== H2O ==== | ==== H2O ==== | ||
− | + | В пакете представлены линейные модели, такие как градиентный бустинг, нейросети прямого распространения, PCA, GLRM, KNN, Radom forest, наивный Байесовский классификатор. Сильная сторона этой библиотеки – работа с большими объемами данных и поддержка многопоточных вычислений.Однако в ней нет возможности задавать параметры используемых алгоритмов | |
− | |||
− | |||
− | Сильная сторона этой библиотеки – работа с большими объемами данных | ||
== Примеры алгоритмов == | == Примеры алгоритмов == | ||
=== Регрессия === | === Регрессия === | ||
=== Кластеризация === | === Кластеризация === |
Версия 09:19, 20 апреля 2020
Содержание
Особенности написания кода на R
R изначально создавался как язык программирования для работы с графикой и статистической обработки данных. Поэтому он отличается большим количеством реализованных статистических алгоритмов, на основе которых можно создавать модели и алгоритмы машинного обучения.
Язык постоянно расширяется за счёт новых библиотек (пакетов). Для их использования необходимо в начале файла прописать строки
install.packages("packageName") require("packageName)
Описание основных пакетов
Пакеты для обработки данных
Pipelearner
Пакет предоставляет базовые возможности для разбиения набора данных на блоки для обучения моделей. В основе пакета лежит концепция работы конвейера. Пакет хорошо документирован, все непонятные моменты можно прояснить, просто изучив структуру объекта на каждом этапе работы алгоритма.
MICE
Пакет MICE используется для заполнения пропущенных значений в данных. При этом нет необходимости думать о типах значений: для каждого из них в пакете предусмотрено заполнение по умолчанию.
Пакеты с реализованными алгоритмами машинного обучения
Caret
В данном пакете представлены модели для регрессии и классификации, а также большая часть популярных метрик. В настоящее время имеется возможность использовать более 180 различных алгоритмов. Основная функция в составе Caret - функция train(). Параметры обучения в ней задаются аргументом trControl, а оценка качества модели - аргументом metric. Отличительными особенностями Caret является универсальность используемых команд, наличие автоматического подбора гиперпараметров для алгоритмов, в также наличие параллельных вычислений.
Mlr
В пакете Mlr представлены модели для регрессии, классификации, кластеризации и анализа выживаемости, а также широкие возможности для оценки качества (в том числе функции для анализа ROC-кривых). Есть поддержка параллельных вычислений и конвейерных операций.
H2O
В пакете представлены линейные модели, такие как градиентный бустинг, нейросети прямого распространения, PCA, GLRM, KNN, Radom forest, наивный Байесовский классификатор. Сильная сторона этой библиотеки – работа с большими объемами данных и поддержка многопоточных вычислений.Однако в ней нет возможности задавать параметры используемых алгоритмов