Изменения

← Предыдущая правка

Примеры кода на R

19 418 байт добавлено, 19:17, 4 сентября 2022

м

rollbackEdits.php mass rollback

== Особенности написания кода на R ==

<code>Язык R </code> изначально создавался как ~~интерпретируемый мультипарадигменный~~ язык программирования для работы с графикой и статистической обработки данных ~~и работы с графикой~~. ~~R поддерживает широкий спектр~~ Поэтому он отличается большим количеством реализованных статистических алгоритмов, на основе которых можно создавать модели и ~~численных методов, а также расширяется за счёт новых библиотек (пакетов)~~алгоритмы машинного обучения.

Язык постоянно расширяется за счёт новых библиотек (пакетов). Для ~~использования любого из пакетов~~ импорта одного пакета необходимо прописать в ~~начале файла прописать~~ ~~install.packages("packageName")require("packageName)~~файле следующие строки:

Среда статистических вычислений R отличается особенно высоким количеством реализованных в ней алгоритмов машинного обучения, на основе которых можно создавать подобные модели install. Однако вместе с явным преимуществом наличия такого большого количества алгоритмов возникают и некоторые проблемы. В частности, для аналитика становится все сложнее помнить особенности применения и синтаксиса соответствующих R-функций. Кроме того, функции, позволяющие реализовать полный цикл разработки предсказательных моделей, часто packages("packageName") require("~~разбросаны~~packageName" ~~по разным пакетам, что требует времени для поиска необходимых функций и их освоения.~~)

~~== Описание основных пакетов ==~~Для того чтобы импортировать пакет с его зависимостями в код следует включить следующие строки:

library("packageName")

== Описание известных пакетов ==

Для языка <code>R</code> написано много пакетов, каждый из которых предназначен для решения определенного круга проблем. Например, для обработки данных или реализации основных алгоритмов. В статье представлено несколько наиболее часто используемых пакетов.

===Пакеты для обработки данных===

==== Pipelearner ====

Пакет <code>Pipelearner</code><ref>[https://github.com/drsimonj/pipelearner Pipelearner github repository]</ref> предоставляет базовые возможности для разбиения набора данных на блоки для обучения моделей. В основе пакета лежит концепция работы конвейера.

Принцип работы очень прост и описывается 3 шагами:

# '''Инициализация'''

#: Функция <code>pipelearner()</code> инициализирует новый объект, который используется в следующих функциях обработки. На этом этапе необходимо указать датасет, с которым производится работа. Также можно указать набор обучающих моделей и предсказываемую модель данных.

# '''Настройка'''

#: Для настройки есть 3 основных функции:

#* <code>learn_cvpairs()</code> отвечает за [[Кросс-валидация|кросс-валидацию]]. Функция генерирует набор пар из тестовой и обучающей выборки на основе входного датасета.

#: В качестве ядра разделения можно использовать <code>crossv_mc</code> ([[Кросс-валидация#Случайные разбиения (Random subsampling)|случайные разбиения]]), <code>crossv_kfold</code> ([[Кросс-валидация#k-fold кросс-валидация|k-fold кросс-валидация]]) или <code>crossv_loo</code> ([[Кросс-валидация#Кросс-валидация по отдельным объектам (Leave-One-Out)|leave-one-out разбиения]]) из пакета <code>modelr</code><ref>[https://github.com/tidyverse/modelr Modelr github repository]</ref>. Но если данных способов недостаточно, можно написать свою функцию разбиения.

#* <code>learn_curves()</code> служит для настройки [[Переобучение#Кривые обучения|кривых обучения]]. Используется метод увеличивающихся пропорций относительно начала датасета.

#: Например, вызов <code>learn_curves(.5, .75, 1)</code> создаст <tex>3</tex> сценария работы: в первом будет взята первая половина выбоки, во втором {{---}} первые <tex>\frac{3}{4}</tex> объектов, и в третьем {{---}} вся выборка. Авторы пакета утверждают, что брать случайные объекты выборки не имеет смысла, потому что выборка уже случайно разбита с помощью <code>learn_cvpairs()</code>.

#* <code>learn_models()</code> предназначен для добавления новых обучающих моделей.

# '''Обучение'''

#: С помощью функции <code>learn()</code> все сконструированные ранее модели обучаются и выдается таблица результатов работы

В итоге работа с пакетом выглядит приблизительно следующим образом:

# Load the dependencies

library(pipelearner)

library(dplyr)

iris %>% # Use iris dataset

pipelearner() %>% # Initialize a blank pipelearner object

learn_cvpairs(crossv_mc, n = 50) %>% # Creating 50 random cross-validation pairs

learn_curves(seq(.5, 1, by = .1)) %>% # Copy each cv-pair to be fitted in sample size proportions of .5 to 1 in increments of .1.

learn_models(lm, Sepal.Width ~ .*.) %>% # Use regression modell

learn_models(rpart::rpart, Sepal.Width ~ .) %>% # Use decision tree modell

learn() # Fit all models on all partitions and return the results

~~==== pipelearner ====~~Пакет предоставляет базовые возможности для разбиения набора данных на блоки для обучения моделей. В основе пакета лежит концепция конвейеров и аккуратных данных. Пакет хорошо документирован, все непонятные моменты можно прояснить, просто изучив структуру объекта ~~с моделями~~ на каждом этапеработы алгоритма.

==== MICE ====

Пакет <code>MICE </code><ref>[https://cran.r-project.org/web/packages/mice/mice.pdf MICE package documentation]</ref> используется для заполнения пропущенных значений в данных. При этом нет необходимости думать о типах значений: для каждого из них в пакете предусмотрено заполнение по умолчанию.

~~===Пакеты с реализованными алгоритмами машинного обучения===~~ Принцип работы основан на методе множественного восстановления<ref>[https://en.wikipedia.org/wiki/Imputation_(statistics)#Multiple_imputation Multiple Imputation]</ref>. Пропущенные данные заполняются не один, а несколько раз. После этого, каждый из полученных наборов обучается на определенной модели. Затем, результаты агрегируются и выдаются итоговые параметры модели.

Стандартный процесс работы выглядит так:

# Load the dependencies

library(mice)

# Impute the missing data m times

imp <- mice(nhanes, m = 5)

# Analize completed datasets using linear model

fit <- with(imp, lm(chl ~ bmi + age))

# Combine parameter estimates

est <- pool(fit)

# Print summary of estimation

summary(est)

==== Ggplot2 ====

Данный пакет<ref>[https://cran.r-project.org/web/packages/ggplot2/index.html Ggplot2 main info page]</ref> используется для отрисовки данных и графиков.

=== Пакеты с реализованными алгоритмами машинного обучения ===

==== Caret ====

В данном пакете <ref>[http://topepo.github.io/caret/index.html Caret guide book]</ref> представлены модели для регрессии и классификации, ~~реализовано достаточно много~~ а также большая часть популярных метрик. В настоящее время имеется возможность использовать более 180 различных алгоритмов. Основная функция в составе <code>Caret</code> — функция <code>train()</code>. Параметры обучения в ней задаются аргументом <code>trControl</code>, а оценка качества модели — аргументом <code>metric</code>.Отличительными особенностями <code>Caret</code> является универсальность используемых команд, наличие автоматического подбора гиперпараметров для алгоритмов, в также наличие параллельных вычислений.==== Party ====Пакет <code>Party</code> <ref>[https://cran.r-project.org/web/packages/party/index.html party package main info page]</ref> содержит в себе инструменты для рекурсивного разбиения данных на классы. В пакета также доступна расширяемая функциональность для визуализации древовидных регрессионных моделей. Основная функция пакета — <code>ctree()</code>, которая используется для создания деревьев решения для таких задач регрессии как номинальные, порядковые, числовые а также многовариантные переменные отклика. На основе деревьев условного вывода <code>cforest()</code> предоставляет реализацию ''случайных лесов Бреймана''. Функция <code>mob()</code> реализует алгоритм рекурсивного разделения на основе параметрических моделей (например, ''линейных моделей'', ''GLM'' или ''регрессии выживания''), использующих тесты нестабильности параметров для выбора разделения.

~~Пакет caret обладает следующими отличительными особенностями~~==== RandomForest ====<code>RandomForest</code> <ref>[https:использование универсального синтаксиса команд, вне зависимости от синтаксиса исходной функции, реализующей тот или иной алгоритм;автоматизированное нахождение оптимальных значений гиперпараметров моделей ("tuning parameters"), которые обычно невозможно вычислить аналитически;~~возможность организации параллельных вычислений~~//cran.r-project.org/web/packages/randomForest/index.html RandomForest package main info]</ref> — пакет с реализацией алгоритма ''[[Дерево решений и случайный лес | случайного леса]]''. Используется для решения задач регрессии и классификации, ~~значительно ускоряющих процесс обучения моделей~~а также для поиска аномалий и отбора предикторов.

В состав caret входят функции, способствующие реализации полного цикла разработки предсказательных моделей. основные из них==== ClusterR ====Пакет <code>ClusterR</code> <ref>[https:~~featurePlot, findCorrelation, preProcess~~//cran.train(): главная "рабочая лошадка" пакета caret, одновременно выполняющая обучение моделей, нахождение оптимальных гиперпараметров и оценку предсказательной силы моделейr-project. Последние две задачи реализуются с использованием разнообразных методов создания повторных выборок (бутстреп, многократный бутстреп, несколько видов перекрестной проверки)org/web/packages/ClusterR/vignettes/the_clusterR_package. ~~Параметры процесса обучения задаются аргументом trControl,~~ html ClusterR documentation]</ref> состоит из алгоритмов кластеризации на ~~который подается список с параметрами, предварительно созданный при помощи функции trainControl~~основе центроидов (''[[Кластеризация#Метод K-средних (Алгоритм Ллойда)~~. Оценка качества модели выполняется на основе критерия, задаваемого аргументом metric~~ |метод K-средних]]'' (~~в частности, общая верность классификации~~ k- ~~"Accuracy"~~means), ~~каппа~~''mini-~~статистика~~ batch- ~~"Kappa"~~kmeans'', ~~квадратный корень из среднеквадратичной ошибки~~ ''k- ~~"RMSE"~~ medoids'') и ~~коэффициент детерминации - "Rsquared"~~распределений (''GMM''). ~~Алгоритм~~Кроме того, пакет предлагает функции для:* проверки результатов, ~~при помощи которого происходит обучение модели~~* построения графика результатов, указывается с помощью аргумента method. В настоящее время имеется возможность использовать более 180 различных алгоритмов. используя ''[[Оценка качества в задаче кластеризации |метрики]]''* прогнозирования новых наблюдения,* оценки оптимального количества кластеров для каждого алгоритма

==== E1071 ====

Пакет <ref>[https://www.rdocumentation.org/packages/e1071/versions/1.7-3 1071 package documentation]</ref> содержит в себя функции для анализа классов, ''кратковременного преобразование Фурье'', ''нечеткой кластеризации'', реализации ''[[Метод опорных векторов (SVM) | метода опорных векторов]]'', ''вычисления кратчайшего пути'', а также реализации ''[[Байесовская_классификация#Наивный байесовский классификатор | наивного байесовского классификатора]]''.

==== Mlr ====

~~Пакет более новый, материалов и примеров по нему меньше~~В пакете <code>Mlr</code> <ref>[https://cran.r-project. ~~Документирован хорошо, разобраться в любом вопросе можно без проблем~~org/web/packages/mlr/mlr.~~Количество моделей меньше, чем~~ pdf Mlr package documentation]</ref> представлены модели для ~~caret~~регрессии, ~~но список более разнообразен. В частности~~классификации, ~~можно использовать модели для~~ кластеризации и анализа выживаемости, ~~чего нет в caret. Более~~ а также широкие возможности для оценки качества, (в том числе функции для анализа ''[https://en.wikipedia.org/wiki/Receiver_operating_characteristic ROC-кривых.Широчайшие возможности по кастомизации: можно легко добавлять новые модели, метрики, способы импутации и методы отбора признаков.Все этапы можно объединять в цепочки (суть в том, чтобы операции предобработки выполнялись на каждой итерации перекрестной проверки, а не один раз для всего набора данных – это более корректный подход). Более того, можно использовать функцию preProcess() из caret. Отдельно хочу отметить наличие Nested Resampling.Есть возможность обучать метамодели при помощи makeStackedLearner (как просто на предсказаниях по всем данным, так и реализуя полноценный стекинг]'').Есть поддержка параллельных вычислений~~, см. Parallelization~~и конвейерных операций.

==== H2O ====

~~Есть~~ В пакете <code>H20</code> <ref>[https://cran.r-project.org/web/packages/h2o/index.html H20 main info page]</ref> представлены линейные модели, ~~"случайный лес"~~такие как ''[[Бустинг, AdaBoost |градиентный бустинг]]'', ~~нейросети прямого распространения~~ ''[[Метод главных компонент (~~включая автокодировщики~~PCA), |метод главных компонент]]'' (PCA), ''GLRM'', ~~KNN~~''[[Метрический классификатор и метод ближайших соседей|метод k ближайших соседей]]'', ''[[Дерево решений и случайный лес|случайный лес]]'', ''[[Байесовская_классификация#Наивный байесовский классификатор | наивный байесовский классификатор ]]''. Сильная сторона этой библиотеки {{---}} работа с большими объемами данных и ~~Word2vec~~поддержка многопоточных вычислений. Однако в ней нет возможности задавать параметры используемых алгоритмов == Примеры алгоритмов ==В интернете много хороших примеров реализации алгоритмов на <code>R</code>, но среди них хотелось бы особо отметить один учебник<ref>[https://coderlessons.com/tutorials/kompiuternoe-programmirovanie/learn-r-programmirovanie/uchebnik-po-r Учебник по R]</ref> c портала coderlessons. ~~Также существует отдельная~~ com. В нем представлена реализация основных алгоритмов в порядке, удобном для изучения. === Задачи регрессии ======= Линейная регрессия ===={{Main|Линейная регрессия|ll=Линейная регрессия}} # reading data data <-~~библиотек~~read.csv("input.csv", sep = ', ~~в т~~', header = FALSE) # evaluating linear regression model model <- lm(data$x ~ data$y) # getting summary print(summary(model)) # visualizing data plot(data$y, data$x) lines(data$y, predict(fit), col = 'red') ==== Множественная регрессия ==== # reading data rdata <- read.~~ч. mxnet~~csv("input. csv", sep = ',', header = FALSE) # evaluating regression model model <- lm(target ~ x + y + z, data = rdata) # getting summary~~Недостатком пакета можно считать невозможность задать параметры для используемых алгоритмов.~~ print(summary(model))

~~Сильная сторона этой библиотеки~~ ==== Логистическая регрессия ===={{Main|Логистическая регрессия|ll=Логистическая регрессия}}Логистическая регрессия – ~~работа с большими объемами данных~~это модель регрессии, ~~есть поддержка многопоточных вычислений~~в которой переменная ответа принимает значения 0 или 1 (True или False).Реализация на языке <code>R</code> представлена в следующем фрагменте: # reading data rdata <- read.csv("input.csv", sep = ',', header = FALSE) # evaluating model model = glm(formula = target ~ x + y + z, data = rdata, family = binomial) # printing summary print(summary(model)) === Метод главных компонент ==={{Main|Метод главных компонент (PCA)|ll=PCA}} # importing library and its' dependencies library(h2o) h2o.init() path <- system.file("extdata", "data.csv", package = "h2o") data <- h2o.uploadFile(path = data) # evaluating h2o.prcomp(training_frame = data, k = 8, transform = "STANDARDIZE") === Деревья решений, случайный лес ==={{Main|Дерево решений и случайный лес |ll=деревьев решений}}==== Деревья решений ====Для создания ''[[Дерево решений и случайный лес |деревьев решений]]'' в <code>R</code> используется функция <code>ctree()</code> из пакета <code>party</code>. # importing package install.packages("party") # reading data rdata <- read.csv("input.csv", sep = ',', header = FALSE) # evaluating model output.tree <- ctree(target ~ x + y + z, data = rdata) # plotting results plot(output.tree) ==== Случайный лес ====Для создания ''[[Дерево решений и случайный лес|случайного леса]]'' необходимо импортировать пакет <code>randomForest</code> # importing packages install.packages("party") install.packages("randomForest") # reading data rdata <- read.csv("input.csv", sep = ',', header = FALSE) # creating the forest output.forest <- randomForest(target ~ x + y + z, data = rdata) # getting results print(output.forest) === Наивный Бейесовский классификатор ==={{Main|Байесовская классификация|ll=Байесовская классификация}} # importing package and it's dependencies library(e1071) # reading data data <- read.csv("input.csv", sep = ',', header = FALSE) # splitting data into training and test data sets index <- createDataPartition(y = data$target, p = 0.8, list = FALSE) training <- data[index,] testing <- data[-index,] # create objects x and y for predictor and response variables x <- training[, -9] y <- training$target # training model model <- train(x, y, 'nb', trControl = trainControl(method = 'cv', number = 10)) # predicting results predictions <- predict(model, newdata = testing) === Метод опорных векторов ==={{Main|Метод опорных векторов (SVM)|ll=SVM}} # importing package and its' dependencies library(caret) #reading data data <- read.csv("input.csv", sep = ',', header = FALSE) # splitting data into train and test sets index <- createDataPartition(y = data$target, p = 0.8, list = FALSE) training <- data[index,] testing <- data[-index,] # evaluating model fit <- train(target ~ x + y + z, data = train_flats, method = "svmRadial", trControl = trainControl(method = "repeatedcv", number = 10, repeats = 3)) # printing parameters print(fit) === Бустинг ==={{Main|Бустинг, AdaBoost|ll=Бустинг}} # loading libraries install.packages("mlr") library(mlr) # loading data train <- read.csv("input.csv") test <- read.csv("testInput.csv") # loading GBM getParamSet("classif.gbm") baseLearner <- makeLearner("classif.gbm", predict.type = "response") # specifying parameters controlFunction <- makeTuneControlRandom(maxit = 50000) # specifying tuning method cvFunction <- makeResampleDesc("CV", iters = 100000) # definig cross-validation function gbmParameters<- makeParamSet( makeDiscreteParam("distribution", values = "bernoulli"), makeIntegerParam("n.trees", lower = 100, upper = 1000), # number of trees makeIntegerParam("interaction.depth", lower = 2, upper = 10), # depth of tree makeIntegerParam("n.minobsinnode", lower = 10, upper = 80), makeNumericParam("shrinkage", lower = 0.01, upper = 1) ) # tunning parameters gbmTuningParameters <- tuneParams(learner = baseLearner, task = trainTask, resampling = cvFunction, measures = acc, par.set = gbmParameters, control = controlFunction) # creating model parameters model <- setHyperPars(learner = baseLearner, par.vals = gbmTuningParameters) # evaluating model fit <- train(model, train) predictions <- predict(fit, test)

~~== Примеры алгоритмов ==~~

~~=== Регрессия ===~~

=== Кластеризация ===

Для реализации алгоритма кластеризации ''k-средних'' используется пакет <code>ClusterR</code>. В нем реализовано 2 функции: <code>KMeans_arma()</code> и <code>KMeans_rcpp()</code>. В примере далее рассмотрена реализация с использованием функции <code>KMeans_arma()</code>.

# importing package and its' dependencies

library(ClusterR)

# reading data

data <- read.csv("data.csv")

# evaluating model

model <- KMeans_arma(data, clusters = 2, n_iter = 10, seed_mode = "random_subset",

verbose = T, CENTROIDS = NULL)

# predicting results

predictions <- predict_KMeans(test_data, model)

==См. также==

*[[:Примеры кода на Scala|Примеры кода на Scala]]

*[[:Примеры кода на Java|Примеры кода на Java]]

*[[:Примеры кода на Kotlin|Примеры кода на Kotlin]]

*[[:Обзор библиотек для машинного обучения на Python|Обзор библиотек для машинного обучения на Python]]

== Примечания ==

[[Категория: Машинное обучение]] [[Категория: Примеры кода]]

Maintenance script

1632

правки

Изменения

Примеры кода на R

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты