Изменения

← Предыдущая правка

Примеры кода на R

20 726 байт добавлено, 19:17, 4 сентября 2022

м

rollbackEdits.php mass rollback

== Особенности написания кода на R ==

<code>Язык R </code> изначально создавался как ~~интерпретируемый мультипарадигменный~~ язык программирования для работы с графикой и статистической обработки данных ~~и работы с графикой~~. ~~R поддерживает широкий спектр~~ Поэтому он отличается большим количеством реализованных статистических алгоритмов, на основе которых можно создавать модели и ~~численных методов, а также расширяется за счёт новых библиотек (пакетов)~~алгоритмы машинного обучения.

~~== Описание основных~~ Язык постоянно расширяется за счёт новых библиотек (пакетов ==). Для импорта одного пакета необходимо прописать в файле следующие строки:

install.packages("packageName")

require("packageName")

Для того чтобы импортировать пакет с его зависимостями в код следует включить следующие строки:

library("packageName")

== Описание известных пакетов ==

Для языка <code>R</code> написано много пакетов, каждый из которых предназначен для решения определенного круга проблем. Например, для обработки данных или реализации основных алгоритмов. В статье представлено несколько наиболее часто используемых пакетов.

===Пакеты для обработки данных===

==== ~~pipelearner~~ Pipelearner ====Пакет <code>Pipelearner</code><ref>[https://github.com/drsimonj/pipelearner Pipelearner github repository]</ref> предоставляет базовые возможности ~~по разбивке~~ для разбиения набора данных на блоки и для обучения моделей. В основе пакета лежит концепция работы конвейера. Принцип работы очень прост и описывается 3 шагами:

# '''Инициализация'''

#: Функция <code>pipelearner()</code> инициализирует новый объект, который используется в следующих функциях обработки. На этом этапе необходимо указать датасет, с которым производится работа. Также можно указать набор обучающих моделей и предсказываемую модель данных.

# '''Настройка'''

#: Для настройки есть 3 основных функции:

#* <code>learn_cvpairs()</code> отвечает за [[Кросс-валидация|кросс-валидацию]]. Функция генерирует набор пар из тестовой и обучающей выборки на основе входного датасета.

#: В качестве ядра разделения можно использовать <code>crossv_mc</code> ([[Кросс-валидация#Случайные разбиения (Random subsampling)|случайные разбиения]]), <code>crossv_kfold</code> ([[Кросс-валидация#k-fold кросс-валидация|k-fold кросс-валидация]]) или <code>crossv_loo</code> ([[Кросс-валидация#Кросс-валидация по отдельным объектам (Leave-One-Out)|leave-one-out разбиения]]) из пакета <code>modelr</code><ref>[https://github.com/tidyverse/modelr Modelr github repository]</ref>. Но если данных способов недостаточно, можно написать свою функцию разбиения.

#* <code>learn_curves()</code> служит для настройки [[Переобучение#Кривые обучения|кривых обучения]]. Используется метод увеличивающихся пропорций относительно начала датасета.

#: Например, вызов <code>learn_curves(.5, .75, 1)</code> создаст <tex>3</tex> сценария работы: в первом будет взята первая половина выбоки, во втором {{---}} первые <tex>\frac{3}{4}</tex> объектов, и в третьем {{---}} вся выборка. Авторы пакета утверждают, что брать случайные объекты выборки не имеет смысла, потому что выборка уже случайно разбита с помощью <code>learn_cvpairs()</code>.

#* <code>learn_models()</code> предназначен для добавления новых обучающих моделей.

# '''Обучение'''

#: С помощью функции <code>learn()</code> все сконструированные ранее модели обучаются и выдается таблица результатов работы

В итоге работа с пакетом выглядит приблизительно следующим образом:

# Load the dependencies

library(pipelearner)

library(dplyr)

iris %>% # Use iris dataset

pipelearner() %>% # Initialize a blank pipelearner object

learn_cvpairs(crossv_mc, n = 50) %>% # Creating 50 random cross-validation pairs

learn_curves(seq(.5, 1, by = .1)) %>% # Copy each cv-pair to be fitted in sample size proportions of .5 to 1 in increments of .1.

learn_models(lm, Sepal.Width ~ .*.) %>% # Use regression modell

learn_models(rpart::rpart, Sepal.Width ~ .) %>% # Use decision tree modell

learn() # Fit all models on all partitions and return the results

Пакет хорошо документирован, все непонятные моменты можно прояснить, просто изучив структуру объекта на каждом этапе работы алгоритма.

==== MICE ====

Пакет <code>MICE</code><ref>[https://cran.r-project.org/web/packages/mice/mice.pdf MICE package documentation]</ref> используется для заполнения пропущенных значений в данных. При этом нет необходимости думать о типах значений: для каждого из них в пакете предусмотрено заполнение по умолчанию.

Принцип работы основан на методе множественного восстановления<ref>[https://en.wikipedia.org/wiki/Imputation_(statistics)#Multiple_imputation Multiple Imputation]</ref>. Пропущенные данные заполняются не один, а несколько раз. После этого, каждый из полученных наборов обучается на определенной модели. Затем, результаты агрегируются и выдаются итоговые параметры модели.

Стандартный процесс работы выглядит так:

# Load the dependencies

library(mice)

# Impute the missing data m times

imp <- mice(nhanes, m = 5)

# Analize completed datasets using linear model

fit <- with(imp, lm(chl ~ bmi + age))

# Combine parameter estimates

est <- pool(fit)

# Print summary of estimation

summary(est)

==== Ggplot2 ====

Данный пакет<ref>[https://cran.r-project.org/web/packages/ggplot2/index.html Ggplot2 main info page]</ref> используется для отрисовки данных и графиков.

=== Пакеты с реализованными алгоритмами машинного обучения ===

==== Caret ====

В данном пакете <ref>[http://topepo.github.io/caret/index.html Caret guide book]</ref> представлены модели для регрессии и классификации, а также большая часть популярных метрик. В настоящее время имеется возможность использовать более 180 различных алгоритмов.

Основная функция в составе <code>Caret</code> — функция <code>train()</code>. Параметры обучения в ней задаются аргументом <code>trControl</code>, а оценка качества модели — аргументом <code>metric</code>.

Отличительными особенностями <code>Caret</code> является универсальность используемых команд, наличие автоматического подбора гиперпараметров для алгоритмов, в также наличие параллельных вычислений.

==== Party ====

Пакет <code>Party</code> <ref>[https://cran.r-project.org/web/packages/party/index.html party package main info page]</ref> содержит в себе инструменты для рекурсивного разбиения данных на классы. В пакета также доступна расширяемая функциональность для визуализации древовидных регрессионных моделей.

Основная функция пакета — <code>ctree()</code>, которая используется для создания деревьев решения для таких задач регрессии как номинальные, порядковые, числовые а также многовариантные переменные отклика. На основе деревьев условного вывода <code>cforest()</code> предоставляет реализацию ''случайных лесов Бреймана''. Функция <code>mob()</code> реализует алгоритм рекурсивного разделения на основе параметрических моделей (например, ''линейных моделей'', ''GLM'' или ''регрессии выживания''), использующих тесты нестабильности параметров для выбора разделения.

==== RandomForest ====

<code>RandomForest</code> <ref>[https://cran.r-project.org/web/packages/randomForest/index.html RandomForest package main info]</ref> — пакет с реализацией алгоритма ''[[Дерево решений и случайный лес | случайного леса]]''. Используется для решения задач регрессии и классификации, а также для поиска аномалий и отбора предикторов.

~~Если необходимо решить~~==== ClusterR ====Пакет <code>ClusterR</code> <ref>[https://cran.r-project.org/web/packages/ClusterR/vignettes/the_clusterR_package.html ClusterR documentation]</ref> состоит из алгоритмов кластеризации на основе центроидов (''[[Кластеризация#Метод K-средних (Алгоритм Ллойда) |метод K-средних]]'' (k-means), ~~что делать с пропущенными значениями~~''mini-batch-kmeans'', ~~MICE — именно то, что вам нужно~~''k-medoids'') и распределений (''GMM''). ~~Когда возникает проблема пропущенных значений~~Кроме того, ~~наиболее частый способ ее решения — простые замены~~пакет предлагает функции для: ~~нулями~~* проверки результатов, ~~средним~~* построения графика результатов, ~~модой~~используя ''[[Оценка качества в задаче кластеризации |метрики]]''* прогнозирования новых наблюдения, ~~т.д. Однако, ни один из этих методов не гибок и может привести к несоответствиям в данных.~~* оценки оптимального количества кластеров для каждого алгоритма

==== E1071 ====Пакет ~~MICE поможет заменить пропущенные значения~~<ref>[https://www.rdocumentation.org/packages/e1071/versions/1.7-3 1071 package documentation]</ref> содержит в себя функции для анализа классов, ''кратковременного преобразование Фурье'', ''нечеткой кластеризации'', ~~используя разнообразные техники~~реализации ''[[Метод опорных векторов (SVM) | метода опорных векторов]]'', ~~в зависимости от данных~~''вычисления кратчайшего пути'', ~~с которыми вы работаете~~а также реализации ''[[Байесовская_классификация#Наивный байесовский классификатор | наивного байесовского классификатора]]''.

==== Mlr ====

В пакете <code>Mlr</code> <ref>[https://cran.r-project.org/web/packages/mlr/mlr.pdf Mlr package documentation]</ref> представлены модели для регрессии, классификации, кластеризации и анализа выживаемости, а также широкие возможности для оценки качества (в том числе функции для анализа ''[https://en.wikipedia.org/wiki/Receiver_operating_characteristic ROC-кривых]'').

Есть поддержка параллельных вычислений и конвейерных операций.

===~~Пакеты с реализованными алгоритмами машинного обучения~~= H2O ==== В пакете <code>H20</code> <ref>[https://cran.r-project.org/web/packages/h2o/index.html H20 main info page]</ref> представлены линейные модели, такие как ''[[Бустинг, AdaBoost |градиентный бустинг]]'', ''[[Метод главных компонент (PCA)|метод главных компонент]]'' (PCA), ''GLRM'', ''[[Метрический классификатор и метод ближайших соседей|метод k ближайших соседей]]'', ''[[Дерево решений и случайный лес|случайный лес]]'', ''[[Байесовская_классификация#Наивный байесовский классификатор | наивный байесовский классификатор]]''. Сильная сторона этой библиотеки {{---}} работа с большими объемами данных и поддержка многопоточных вычислений. Однако в ней нет возможности задавать параметры используемых алгоритмов

== Примеры алгоритмов ==

В интернете много хороших примеров реализации алгоритмов на <code>R</code>, но среди них хотелось бы особо отметить один учебник<ref>[https://coderlessons.com/tutorials/kompiuternoe-programmirovanie/learn-r-programmirovanie/uchebnik-po-r Учебник по R]</ref> c портала coderlessons.com. В нем представлена реализация основных алгоритмов в порядке, удобном для изучения.

=== Задачи регрессии ===

==== Линейная регрессия ====

1 # reading data data <- read.csv("input. ~~caretПомимо встроенной справки и руководства на сайте имеется книга от разработчика~~csv", sep = ', которая может служить еще и отличным учебником по машинному обучению: Applied Predictive Modeling. Много примеров в интернете', ~~много вопросов и ответов на StackOverflow.~~ header = FALSE)На момент написания этого сообщения доступно 233 модели: Available Models. Недостатком можно считать то, что представлены только модели для регрессии и классификации. Реализовано достаточно много популярных метрик. Есть несколько способов отбора признаков: от исключения признаков с околонулевой дисперсией до генетических алгоритмов. Можно писать свои собственные метрики качества и обертки для моделей. Это особенно полезно с учетом того, что не все гиперпараметры сделаны настраиваемыми в имеющихся обертках. # evaluating linear regression modelВозможности имеются, но ограниченные: можно выполнить стандартизацию или трансформацию при помощи PCA, импутацию средним или при помощи метода k model <-ближайших соседей. Однако новые варианты предобработки так просто не добавить. UPD: если верить Custom preprocessing in caret, скоро все будет lm(data$x ~ data$y) # getting summary print(summary(~~за ссылку спасибо S.Skripko~~model)).~~Ансамбли моделей можно обучать при помощи пакета caretEnsemble. Правильно реализован стекинг: Understanding caretEnsemble.~~ # visualizing data plot(data$y, data$x)Есть поддержка параллельных вычислений с использованием foreach. В остальном производительность зависит от используемой реализации того или иного алгоритма. lines(data$y, predict(fit), col = 'red')

~~2. mlr~~Пакет более новый, материалов и примеров по нему меньше. Документирован хорошо, разобраться в любом вопросе можно без проблем.Количество моделей меньше, чем для caret, но список более разнообразен. В частности, можно использовать модели для кластеризации и анализа выживаемости, чего нет в caret. Более широкие возможности для оценки качества, в том числе функции для анализа ROC-кривых.Широчайшие возможности по кастомизации: можно легко добавлять новые модели, метрики, способы импутации и методы отбора признаков.Все этапы можно объединять в цепочки (суть в том, чтобы операции предобработки выполнялись на каждой итерации перекрестной проверки, а не один раз для всего набора данных – это более корректный подход). Более того, можно использовать функцию preProcess() из caret. Отдельно хочу отметить наличие Nested Resampling.Есть возможность обучать метамодели при помощи makeStackedLearner (как просто на предсказаниях по всем данным, так и реализуя полноценный стекинг).~~Есть поддержка параллельных вычислений, см. Parallelization.~~==== Множественная регрессия ====

~~3. H2O~~ # reading data~~Обширная документация, примеры и книга Practical Machine Learning with H2O~~ rdata <- read.~~Моделей немного, и все они реализованы на Java~~ csv(~~пакеты для R и Python просто используют API)~~"input. ~~Есть линейные модели~~csv", sep = ', ~~градиентный бустинг~~', ~~нейросети прямого распространения (включая автокодировщики~~header = FALSE)~~, PCA, GLRM, KNN, наивный байесовский классификатор и Word2vec. Также существует отдельная~~ # evaluating regression model model <-~~библиотек~~lm(target ~ x + y + z, ~~в т.ч. mxnet. Для отбора признаков алгоритмов нет.~~data = rdata)~~Возможности кастомизации нулевые.~~ ~~Предобработку нужно делать до загрузки данных в H2O.~~ # getting summary~~Есть функция h2o.stackedEnsemble~~ print(summary(model).Сильная сторона этой библиотеки – работа с большими объемами данных. Есть поддержка многопоточных вычислений, можно создавать кластеры из нескольких ПК (см. сообщение) ~~или же использовать H2O вместе со Spark-ом.~~

==== Логистическая регрессия ====

Логистическая регрессия – это модель регрессии, в которой переменная ответа принимает значения 0 или 1 (True или False). Реализация на языке <code>R</code> представлена в следующем фрагменте:

# reading data

rdata <- read.csv("input.csv", sep = ',', header = FALSE)

# evaluating model

model = glm(formula = target ~ x + y + z, data = rdata, family = binomial)

# printing summary

print(summary(model))

=== Метод главных компонент ===

# importing library and its' dependencies

library(h2o)

h2o.init()

path <- system.file("extdata", "data.csv", package = "h2o")

data <- h2o.uploadFile(path = data)

# evaluating

h2o.prcomp(training_frame = data, k = 8, transform = "STANDARDIZE")

=== Деревья решений, случайный лес ===

==== Деревья решений ====

Для создания ''[[Дерево решений и случайный лес |деревьев решений]]'' в <code>R</code> используется функция <code>ctree()</code> из пакета <code>party</code>.

# importing package

install.packages("party")

# reading data

rdata <- read.csv("input.csv", sep = ',', header = FALSE)

# evaluating model

output.tree <- ctree(target ~ x + y + z, data = rdata)

# plotting results

plot(output.tree)

==== Случайный лес ====

Для создания ''[[Дерево решений и случайный лес|случайного леса]]'' необходимо импортировать пакет <code>randomForest</code>

# importing packages

install.packages("party")

install.packages("randomForest")

# reading data

rdata <- read.csv("input.csv", sep = ',', header = FALSE)

# creating the forest

output.forest <- randomForest(target ~ x + y + z, data = rdata)

# getting results

print(output.forest)

=== Наивный Бейесовский классификатор ===

# importing package and it's dependencies

library(e1071)

# reading data

data <- read.csv("input.csv", sep = ',', header = FALSE)

# splitting data into training and test data sets

index <- createDataPartition(y = data$target, p = 0.8, list = FALSE)

training <- data[index,]

testing <- data[-index,]

# create objects x and y for predictor and response variables

x <- training[, -9]

y <- training$target

# training model

model <- train(x, y, 'nb', trControl = trainControl(method = 'cv', number = 10))

# predicting results

predictions <- predict(model, newdata = testing)

=== Метод опорных векторов ===

# importing package and its' dependencies

library(caret)

#reading data

data <- read.csv("input.csv", sep = ',', header = FALSE)

# splitting data into train and test sets

index <- createDataPartition(y = data$target, p = 0.8, list = FALSE)

training <- data[index,]

testing <- data[-index,]

# evaluating model

fit <- train(target ~ x + y + z,

data = train_flats,

method = "svmRadial",

trControl = trainControl(method = "repeatedcv", number = 10, repeats = 3))

# printing parameters

print(fit)

=== Бустинг ===

# loading libraries

install.packages("mlr")

library(mlr)

# loading data

train <- read.csv("input.csv")

test <- read.csv("testInput.csv")

# loading GBM

getParamSet("classif.gbm")

baseLearner <- makeLearner("classif.gbm", predict.type = "response")

# specifying parameters

controlFunction <- makeTuneControlRandom(maxit = 50000) # specifying tuning method

cvFunction <- makeResampleDesc("CV", iters = 100000) # definig cross-validation function

gbmParameters<- makeParamSet(

makeDiscreteParam("distribution", values = "bernoulli"),

makeIntegerParam("n.trees", lower = 100, upper = 1000), # number of trees

makeIntegerParam("interaction.depth", lower = 2, upper = 10), # depth of tree

makeIntegerParam("n.minobsinnode", lower = 10, upper = 80),

makeNumericParam("shrinkage", lower = 0.01, upper = 1)

)

# tunning parameters

gbmTuningParameters <- tuneParams(learner = baseLearner,

task = trainTask,

resampling = cvFunction,

measures = acc,

par.set = gbmParameters,

control = controlFunction)

# creating model parameters

model <- setHyperPars(learner = baseLearner, par.vals = gbmTuningParameters)

# evaluating model

fit <- train(model, train)

predictions <- predict(fit, test)

~~== Примеры алгоритмов ==~~

~~=== Регрессия ===~~

=== Кластеризация ===

Для реализации алгоритма кластеризации ''k-средних'' используется пакет <code>ClusterR</code>. В нем реализовано 2 функции: <code>KMeans_arma()</code> и <code>KMeans_rcpp()</code>. В примере далее рассмотрена реализация с использованием функции <code>KMeans_arma()</code>.

# importing package and its' dependencies

library(ClusterR)

# reading data

data <- read.csv("data.csv")

# evaluating model

model <- KMeans_arma(data, clusters = 2, n_iter = 10, seed_mode = "random_subset",

verbose = T, CENTROIDS = NULL)

# predicting results

predictions <- predict_KMeans(test_data, model)

==См. также==

*[[:Примеры кода на Scala|Примеры кода на Scala]]

*[[:Примеры кода на Java|Примеры кода на Java]]

*[[:Примеры кода на Kotlin|Примеры кода на Kotlin]]

*[[:Обзор библиотек для машинного обучения на Python|Обзор библиотек для машинного обучения на Python]]

== Примечания ==

[[Категория: Машинное обучение]] [[Категория: Примеры кода]]

Maintenance script

1632

правки

Изменения

Примеры кода на R

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты