Изменения

Примеры кода на R

16 429 байт добавлено, 00:00, 16 декабря 2020

Небольшие правки + замена англоязычных терминов

== Особенности написания кода на R ==

<code>Язык R </code> изначально создавался как язык программирования для работы с графикой и статистической обработки данных. Поэтому он отличается большим количеством реализованных статистических алгоритмов, на основе которых можно создавать модели и алгоритмы машинного обучения.

Язык постоянно расширяется за счёт новых библиотек (пакетов). Для импорта одного пакета необходимо прописать в файле следующие строки:

~~<pre>~~ install.packages("packageName") require("packageName")</~~pre~~font>)

Для того чтобы импортировать пакет с его зависимостями в код следует включить следующие строки:

~~<pre>~~ library("packageName")</~~pre~~font>)

== Описание известных пакетов ==

Для языка <code>R </code> написано много пакетов, каждый из которых предназначен для решения определенного круга проблем. Например, для обработки данных или реализации основных алгоритмов. В статье представлено несколько наиболее часто используемых пакетов.

===Пакеты для обработки данных===

==== Pipelearner ====

Пакет <code>Pipelearner</code><ref>[https://github.com/drsimonj/pipelearner Pipelearner github repository]</ref> предоставляет базовые возможности для разбиения набора данных на блоки для обучения моделей. В основе пакета лежит концепция работы конвейера. Принцип работы очень прост и описывается 3 шагами: # '''Инициализация'''#: Функция <code>pipelearner()</code> инициализирует новый объект, который используется в следующих функциях обработки. На этом этапе необходимо указать датасет, с которым производится работа. Также можно указать набор обучающих моделей и предсказываемую модель данных.# '''Настройка'''#: Для настройки есть 3 основных функции:#* <code>learn_cvpairs()</code> отвечает за [[Кросс-валидация|кросс-валидацию]]. Функция генерирует набор пар из тестовой и обучающей выборки на основе входного датасета. #: В качестве ядра разделения можно использовать <code>crossv_mc</code> ([[Кросс-валидация#Случайные разбиения (Random subsampling)|случайные разбиения]]), <code>crossv_kfold</code> ([[Кросс-валидация#k-fold кросс-валидация|k-fold кросс-валидация]]) или <code>crossv_loo</code> ([[Кросс-валидация#Кросс-валидация по отдельным объектам (Leave-One-Out)|leave-one-out разбиения]]) из пакета <code>modelr</code><ref>[https://github.com/tidyverse/modelr Modelr github repository]</ref>. Но если данных способов недостаточно, можно написать свою функцию разбиения.#* <code>learn_curves()</code> служит для настройки [[Переобучение#Кривые обучения|кривых обучения]]. Используется метод увеличивающихся пропорций относительно начала датасета.#: Например, вызов <code>learn_curves(.5, .75, 1)</code> создаст <tex>3</tex> сценария работы: в первом будет взята первая половина выбоки, во втором {{---}} первые <tex>\frac{3}{4}</tex> объектов, и в третьем {{---}} вся выборка. Авторы пакета утверждают, что брать случайные объекты выборки не имеет смысла, потому что выборка уже случайно разбита с помощью <code>learn_cvpairs()</code>.#* <code>learn_models()</code> предназначен для добавления новых обучающих моделей. # '''Обучение'''#: С помощью функции <code>learn()</code> все сконструированные ранее модели обучаются и выдается таблица результатов работы В итоге работа с пакетом выглядит приблизительно следующим образом: # Load the dependencies library(pipelearner) library(dplyr) iris %>% # Use iris dataset pipelearner() %>% # Initialize a blank pipelearner object learn_cvpairs(crossv_mc, n = 50) %>% # Creating 50 random cross-validation pairs learn_curves(seq(.5, 1, by = .1)) %>% # Copy each cv-pair to be fitted in sample size proportions of .5 to 1 in increments of .1. learn_models(lm, Sepal.Width ~ .*.) %>% # Use regression modell learn_models(rpart::rpart, Sepal.Width ~ .) %>% # Use decision tree modell learn() # Fit all models on all partitions and return the results Пакет хорошо документирован, все непонятные моменты можно прояснить, просто изучив структуру объекта на каждом этапе работы алгоритма.

==== MICE ====

Пакет <code>MICE</code><ref>[https://cran.r-project.org/web/packages/mice/mice.pdf MICE package documentation]</ref> используется для заполнения пропущенных значений в данных. При этом нет необходимости думать о типах значений: для каждого из них в пакете предусмотрено заполнение по умолчанию. Принцип работы основан на методе множественного восстановления<ref>[https://en.wikipedia.org/wiki/Imputation_(statistics)#Multiple_imputation Multiple Imputation]</ref>. Пропущенные данные заполняются не один, а несколько раз. После этого, каждый из полученных наборов обучается на определенной модели. Затем, результаты агрегируются и выдаются итоговые параметры модели. Стандартный процесс работы выглядит так: # Load the dependencies library(mice) # Impute the missing data m times imp <- mice(nhanes, m = 5) # Analize completed datasets using linear model fit <- with(imp, lm(chl ~ bmi + age)) # Combine parameter estimates est <- pool(fit) # Print summary of estimation summary(est)

==== Ggplot2 ====

Данный пакет<ref>[https://cran.r-project.org/web/packages/ggplot2/index.html Ggplot2 main info page]</ref> используется для отрисовки данных и графиков.

=== Пакеты с реализованными алгоритмами машинного обучения ===

==== Caret ====

В данном пакете <ref>[http://topepo.github.io/caret/index.html Caret guide book]</ref> представлены модели для регрессии и классификации, а также большая часть популярных метрик. В настоящее время имеется возможность использовать более 180 различных алгоритмов.

Основная функция в составе <code>Caret - </code> — функция <code>train()</code>. Параметры обучения в ней задаются аргументом <code>trControl</code>, а оценка качества модели - — аргументом <code>metric</code>.Отличительными особенностями <code>Caret </code> является универсальность используемых команд, наличие автоматического подбора гиперпараметров для алгоритмов, в также наличие параллельных вычислений.==== ~~party =~~Party ====Пакет <code>Party </code> <ref>[https://cran.r-project.org/web/packages/party/index.html party package main info page]</ref> содержит в себе инструменты для рекурсивного разбиенияданных на классы. В пакета также доступна расширяемая функциональность для визуализации древовидных регрессионных моделей. Основная функция пакета - — <code>ctree ()</code>, которая используется для создания деревьев решения для таких задач регрессии как номинальные, порядковые, числовые а также многовариантные переменные отклика. На основе деревьев условного вывода <code>cforest () </code> предоставляет реализацию ''случайных лесов Бреймана''. Функция <code>mob () </code> реализует алгоритм рекурсивного разделения на основе параметрических моделей (например, ''линейных моделей'', ''GLM '' или ''регрессии выживания''), использующих тесты нестабильности параметров для выбора разделения. ~~Доступна расширяемая функциональность~~ ==== RandomForest ====<code>RandomForest</code> <ref>[https://cran.r-project.org/web/packages/randomForest/index.html RandomForest package main info]</ref> — пакет с реализацией алгоритма ''[[Дерево решений и случайный лес | случайного леса]]''. Используется для решения задач регрессии и классификации, а также для ~~визуализации древовидных регрессионных моделей~~поиска аномалий и отбора предикторов. ==== ~~randomForest =~~ClusterR ====Пакет <code>ClusterR</code> <ref>[https://cran.r-project.org/web/packages/ClusterR/vignettes/the_clusterR_package.html ClusterR documentation]</ref> состоит из алгоритмов кластеризации на основе центроидов (''[[Кластеризация#Метод K-средних (Алгоритм Ллойда) |метод K-средних]]'' (k-means), ''mini-batch-kmeans'', ''k-medoids'') и распределений (''GMM''). Кроме того, пакет предлагает функции для:* проверки результатов,* построения графика результатов, используя ''[[Оценка качества в задаче кластеризации |метрики]]''* прогнозирования новых наблюдения,* оценки оптимального количества кластеров для каждого алгоритма

==== ~~ClusterR =~~E1071 ====Пакет <ref>[https://www.rdocumentation.org/packages/e1071/versions/1.7-3 1071 package documentation]</ref> содержит в себя функции для анализа классов, ''кратковременного преобразование Фурье'', ''нечеткой кластеризации'', реализации ''[[Метод опорных векторов (SVM) | метода опорных векторов]]'', ''вычисления кратчайшего пути'', а также реализации ''[[Байесовская_классификация#Наивный байесовский классификатор | наивного байесовского классификатора]]''.

==== Mlr ====

В пакете <code>Mlr </code> <ref>[https://cran.r-project.org/web/packages/mlr/mlr.pdf Mlr package documentation]</ref> представлены модели для регрессии, классификации, кластеризации и анализа выживаемости, а также широкие возможности для оценки качества (в том числе функции для анализа ''[https://en.wikipedia.org/wiki/Receiver_operating_characteristic ROC-кривых]'').

Есть поддержка параллельных вычислений и конвейерных операций.

==== H2O ====

В пакете <code>H20 </code> <ref>[https://cran.r-project.org/web/packages/h2o/index.html H20 main info page]</ref> представлены линейные модели, такие как ''[[Бустинг, AdaBoost |градиентный бустинг]]'', ''[[Метод главных компонент (PCA)|метод главных компонент]]'' (PCA), ''GLRM'', ~~KNN~~''[[Метрический классификатор и метод ближайших соседей|метод k ближайших соседей]]'', ~~Radom forest~~''[[Дерево решений и случайный лес|случайный лес]]'', ''[[Байесовская_классификация#Наивный байесовский классификатор | наивный ~~Байесовский~~ байесовский классификатор]]''. Сильная сторона этой библиотеки – {{---}} работа с большими объемами данных и поддержка многопоточных вычислений.Однако в ней нет возможности задавать параметры используемых алгоритмов

== Примеры алгоритмов ==

В интернете много хороших примеров реализации алгоритмов на <code>R</code>, но среди них хотелось бы особо отметить один учебник<ref>[https://coderlessons.com/tutorials/kompiuternoe-programmirovanie/learn-r-programmirovanie/uchebnik-po-r Учебник по R]</ref> c портала coderlessons.com. В нем представлена реализация основных алгоритмов в порядке, удобном для изучения.

=== Задачи регрессии ===

==== Линейная регрессия ====

~~<pre>#$$reading datadata <- read.csv("input.csv", sep~~ {{Main|Линейная регрессия|ll= ~~',', header = FALSE)~~ ~~#evaluating linear regression modelmodel <- lm(data$x ~ data$y)~~ ~~#getting summary~~ ~~print(summary(model))~~Линейная регрессия}}

# reading data data <- read.csv("input.csv", sep = ',', header = FALSE) # evaluating linear regression model model <- lm(data$x ~ data$y) # getting summary print(summary(model)) #visualizing data plot(data$y, data$x) lines(data$y, predict(fit), col = 'red')</~~pre~~font>)

==== Множественная регрессия ====

~~<pre>~~

~~#$$reading data~~

~~rdata <- read.csv("input.csv", sep = ',', header = FALSE)~~

~~#evaluating regression model~~

~~model <- lm(target ~ x + y + z, data = rdata)~~

# reading data rdata <- read.csv("input.csv", sep = ',', header = FALSE) # evaluating regression model model <- lm(target ~ x + y + z, data = rdata) #getting summary print(summary(model))~~</pre>~~

==== Логистическая регрессия ====

{{Main|Логистическая регрессия|ll=Логистическая регрессия}}Логистическая регрессия – это модель регрессии, в которой переменная ответа принимает значения 0 или 1 (True или False). Реализация на языке <code>R </code> представлена в следующем фрагменте:

<~~pre~~font color="gray">#$$reading data rdata <- read.csv("input.csv", sep = ',', header = FALSE) # evaluating model model = glm(formula = target ~ x + y + z, data = rdata, family = binomial) # printing summary print(summary(model))

~~#evaluating modelmodel~~ = ~~glm(formula~~ = ~~target ~ x + y + z, data~~ = ~~rdata, family~~ Метод главных компонент === ~~binomial~~{{Main|Метод главных компонент (PCA)|ll=PCA}}

#~~printing summary~~importing library and its' dependencies~~print~~ library(~~summary~~h2o) h2o.init(~~model~~) path <- system.file("extdata", "data.csv", package = "h2o") data <- h2o.uploadFile(path</~~pre~~font>= data) # evaluating h2o.prcomp(training_frame = data, k = 8, transform = "STANDARDIZE")

=== Деревья решений, случайный лес ===

==== Деревья решений ====

Для создания ''[[Дерево решений и случайный лес |деревьев решений ]]'' в <code>R </code> используется функция <code>ctree ()</code> из пакета <code>party</code>.

<~~pre~~font color="gray">#importing package install.packages("party") #reading data rdata <- read.csv("input.csv", sep = ',', header = FALSE) #evaluating model output.tree <- ctree(target ~ x + y + z, data = rdata) #plotting results plot(output.tree)~~</pre>~~

==== Случайный лес ====

Для создания ''[[Дерево решений и случайный лес|случайного леса ]]'' необходимо импортировать пакет ~~randomForest~~ <~~pre~~code>~~#importing packages~~ ~~install.packages("party")install.packages("~~randomForest") ~~#reading datardata~~ <~~- read.csv("input.csv", sep = ',', header = FALSE)~~ ~~#creating the forestoutput.forest <- randomForest(target ~ x + y + z,~~ ~~data = rdata)~~/code>

# importing packages install.packages("party") install.packages("randomForest") #~~getting results~~reading data~~print~~ rdata <- read.csv("input.csv", sep = ',', header = FALSE) # creating the forest output.forest<- randomForest(target ~ x + y + z, data = rdata) # getting results</~~pre~~font> print(output.forest)

=== Наивный Бейесовский классификатор ===

<~~pre~~font color="gray">#$$importing package and it's dependencies library(e1071) #reading data data <- read.csv("input.csv", sep = ',', header = FALSE) #splitting data into training and test data sets index <- createDataPartition(y = data$target, p = 0.8,list = FALSE) training <- data[index,] testing <- data[-index,] # create objects x and y for predictor and response variables x <- training[, -9] y <- training$target # training model model <- train(x, y, 'nb', trControl = trainControl(method = 'cv', number = 10)) # predicting results predictions <- predict(model, newdata = testing)

~~#create objects x and y for predictor and response variables~~x = ~~training[,-9]~~== Метод опорных векторов ===y {{Main|Метод опорных векторов (SVM)|ll= ~~training$target~~SVM}}

# importing package and its' dependencies library(caret) #reading data data <- read.csv("input.csv", sep = ',', header = FALSE) # splitting data into train and test sets index <- createDataPartition(y = data$target, p = 0.8, list = FALSE) training <- data[index,] testing <- data[-index,] # evaluating model~~model =~~ fit <- train(target ~ x+ y + z,y data = train_flats,~~'nb'~~ method = "svmRadial", trControl =trainControl(method = "repeatedcv",number =10, repeats = 3)) # printing parameters print(fit)

~~#predicting results~~=== Бустинг ===~~predictions <- predict(model~~{{Main|Бустинг, ~~newdata~~ AdaBoost|ll= ~~testing)</pre>~~Бустинг}}

# loading libraries install.packages("mlr"<~~pre~~/font>)~~#$$ importing package and its' dependencies~~ library(~~caret~~mlr) #~~reading~~ loading data~~data~~ train <- read.csv("input.csv") test <- read.csv("testInput.csv") # loading GBM getParamSet("classif.gbm") baseLearner <- makeLearner("classif.gbm", ~~sep~~ predict.type = "response") # specifying parameters controlFunction <- makeTuneControlRandom(maxit = 50000) # specifying tuning method cvFunction <- makeResampleDesc("CV", iters = 100000) # definig cross-validation function ~~index~~ gbmParameters<- ~~createDataPartition~~makeParamSet( makeDiscreteParam("distribution", values = "bernoulli"), makeIntegerParam(y "n.trees", lower = 100, upper = 1000), p# number of trees makeIntegerParam("interaction.8depth", ~~list~~ lower = 2, upper = ~~FALSE~~10), # depth of tree~~training~~ makeIntegerParam(<~~- data[index~~font color="green">"n.minobsinnode", lower = 10, upper = 80),]~~testing~~ makeNumericParam("shrinkage", lower = 0.01<~~- data[-index~~/font>,]upper = 1) ) #~~evaluating model~~ tunning parameters~~fit~~ gbmTuningParameters <- ~~train~~tuneParams(~~target ~ x + y + z~~learner = baseLearner, ~~data~~ task = ~~train_flats~~trainTask, ~~method~~ resampling = cvFunction, ~~trControl~~ measures = ~~trainControl(method~~ acc, par.set = gbmParameters, ~~number~~ control = 3)controlFunction) #~~printing~~ creating model parameters~~print~~ model <- setHyperPars(~~fit~~learner = baseLearner, par.vals = gbmTuningParameters) # evaluating model</~~pre~~font> fit <- train(model, train) predictions <- predict(fit, test)

=== Кластеризация ===

{{Main|Кластеризация}}Для реализации алгоритма кластеризации ''k-средних '' используется пакет <code>ClusterR</code>. В нем реализовано 2 функции: <code>KMeans_arma ()</code> и <code>KMeans_rcpp()</code>. В примере далее рассмотрена реализация с использованием функции ~~KMeans_arma.~~ <~~pre~~code>~~#$$ importing package and its' dependencieslibrary~~KMeans_arma(~~ClusterR~~) ~~#reading datadata~~ <~~- read.csv("data~~/code>.~~csv")~~ ~~#evaluating modelmodel = KMeans_arma(data, clusters = 2, n_iter = 10, seed_mode = "random_subset",~~ ~~verbose = T, CENTROIDS = NULL)~~ ~~#predicting resultspredictions = predict_KMeans(test_data, model)~~

# importing package and its' dependencies</~~pre~~font> library(ClusterR) # reading data data <- read.csv("data.csv") # evaluating model model <- KMeans_arma(data, clusters = 2, n_iter = 10, seed_mode = "random_subset", verbose = T, CENTROIDS = NULL) # predicting results predictions <- predict_KMeans(test_data, model)

==См. также==

*[[:Примеры кода на Scala|Примеры кода на Scala]]

*[[:Примеры кода на Java|Примеры кода на Java]]

*[[:Примеры кода на Kotlin|Примеры кода на Kotlin]]

*[[:Обзор библиотек для машинного обучения на Python|Обзор библиотек для машинного обучения на Python]]

Mervap

286

правок

Изменения

Примеры кода на R

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты