Примеры кода на R

Материал из Викиконспекты
Версия от 18:13, 23 апреля 2020; KristinaSharaeva (обсуждение | вклад) (GBM)
(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)
Перейти к: навигация, поиск

Особенности написания кода на R[править]

Язык R изначально создавался как язык программирования для работы с графикой и статистической обработки данных. Поэтому он отличается большим количеством реализованных статистических алгоритмов, на основе которых можно создавать модели и алгоритмы машинного обучения.

Язык постоянно расширяется за счёт новых библиотек (пакетов). Для импорта одного пакета необходимо прописать в файле следующие строки:

install.packages("packageName")
require("packageName")

Для того чтобы импортировать пакет с его зависимостями в код следует включить следующие строки:

library("packageName")

Описание известных пакетов[править]

Для языка R написано много пакетов, каждый из которых предназначен для решения определенного круга проблем. Например, для обработки данных или реализации основных алгоритмов. В статье представлено несколько наиболее часто используемых пакетов.

Пакеты для обработки данных[править]

Pipelearner[править]

Пакет Pipelearner[1] предоставляет базовые возможности для разбиения набора данных на блоки для обучения моделей. В основе пакета лежит концепция работы конвейера. Пакет хорошо документирован, все непонятные моменты можно прояснить, просто изучив структуру объекта на каждом этапе работы алгоритма.

MICE[править]

Пакет MICE[2] используется для заполнения пропущенных значений в данных. При этом нет необходимости думать о типах значений: для каждого из них в пакете предусмотрено заполнение по умолчанию.

Ggplot2[править]

Данный пакет[3] используется для отрисовки данных и графиков.

Пакеты с реализованными алгоритмами машинного обучения[править]

Caret[править]

В данном пакете [4] представлены модели для регрессии и классификации, а также большая часть популярных метрик. В настоящее время имеется возможность использовать более 180 различных алгоритмов. Основная функция в составе Caret — функция train(). Параметры обучения в ней задаются аргументом trControl, а оценка качества модели — аргументом metric. Отличительными особенностями Caret является универсальность используемых команд, наличие автоматического подбора гиперпараметров для алгоритмов, в также наличие параллельных вычислений.

Party[править]

Пакет Party [5] содержит в себе инструменты для рекурсивного разбиения данных на классы. В пакета также доступна расширяемая функциональность для визуализации древовидных регрессионных моделей. Основная функция пакета — ctree(), которая используется для создания деревьев решения для таких задач регрессии как номинальные, порядковые, числовые а также многовариантные переменные отклика. На основе деревьев условного вывода cforest() предоставляет реализацию случайных лесов Бреймана. Функция mob() реализует алгоритм рекурсивного разделения на основе параметрических моделей (например, линейных моделей, GLM или регрессии выживания), использующих тесты нестабильности параметров для выбора разделения.

RandomForest[править]

RandomForest [6] — пакет с реализацией алгоритма randomForest. Используется для решения задач регрессии и классификации, а также для поиска аномалий и отбора предикторов.

ClusterR[править]

Пакет ClusterR [7] состоит из алгоритмов кластеризации на основе центроидов (k-means, mini-batch-kmeans, k-medoids) и распределений (GMM). Кроме того, пакет предлагает функции для:

  • проверки результатов,
  • построения графика результатов, используя метрики
  • прогнозирования новых наблюдения,
  • оценки оптимального количества кластеров для каждого алгоритма

E1071[править]

Пакет [8] содержит в себя функции для анализа классов, кратковременного преобразование Фурье, нечеткой кластеризации, реализации SVM, вычисления кратчайшего пути, а также реализации наивного байесовского классификатора.

Mlr[править]

В пакете Mlr [9] представлены модели для регрессии, классификации, кластеризации и анализа выживаемости, а также широкие возможности для оценки качества (в том числе функции для анализа ROC-кривых). Есть поддержка параллельных вычислений и конвейерных операций.

H2O[править]

В пакете H20 [10] представлены линейные модели, такие как градиентный бустинг, PCA, GLRM, KNN, RadomForest, наивный Байесовский классификатор. Сильная сторона этой библиотеки – работа с большими объемами данных и поддержка многопоточных вычислений. Однако в ней нет возможности задавать параметры используемых алгоритмов

Примеры алгоритмов[править]

В интернете много хороших примеров реализации алгоритмов на R, но среди них хотелось бы особо отметить один учебник[11] c портала coderlessons.com. В нем представлена реализация основных алгоритмов в порядке, удобном для изучения.

Задачи регрессии[править]

Линейная регрессия[править]

Основная статья: Линейная регрессия
#$$reading data
data <- read.csv("input.csv", sep = ',', header = FALSE)

#evaluating linear regression model
model <- lm(data$x ~ data$y)

#getting summary 
print(summary(model))

#visualizing data 
plot(data$y, data$x)
lines(data$y, predict(fit), col = 'red')

Множественная регрессия[править]

#$$reading data
rdata <- read.csv("input.csv", sep = ',', header = FALSE)

#evaluating regression model
model <- lm(target ~ x + y + z, data = rdata)

#getting summary 
print(summary(model))

Логистическая регрессия[править]

Основная статья: Логистическая регрессия

Логистическая регрессия – это модель регрессии, в которой переменная ответа принимает значения 0 или 1 (True или False). Реализация на языке R представлена в следующем фрагменте:

#$$reading data
rdata <- read.csv("input.csv", sep = ',', header = FALSE)

#evaluating model
model = glm(formula = target ~ x + y + z, data = rdata, family = binomial)

#printing summary
print(summary(model))

PCA[править]

#importing library and its' dependencies
library(h2o)
h2o.init()

path <- system.file("extdata", "data.csv", package = "h2o")
data <- h2o.uploadFile(path = data)

#evaluating
h2o.prcomp(training_frame = data, k = 8, transform = "STANDARDIZE")

Деревья решений, случайный лес[править]

Деревья решений[править]

Для создания деревьев решений в R используется функция ctree() из пакета party.

#importing package 
install.packages("party")

#reading data
rdata <- read.csv("input.csv", sep = ',', header = FALSE)

#evaluating model
  output.tree <- ctree(target ~ x + y + z, data = rdata)

#plotting results
plot(output.tree)

Случайный лес[править]

Для создания случайного леса необходимо импортировать пакет randomForest

#importing packages 
install.packages("party")
install.packages("randomForest")

#reading data
rdata <- read.csv("input.csv", sep = ',', header = FALSE)

#creating the forest
output.forest <- randomForest(target ~ x + y + z, 
           data = rdata)

#getting results
print(output.forest) 

Наивный Бейесовский классификатор[править]

#$$importing package and it's dependencies
library(e1071)

#reading data
data <- read.csv("input.csv", sep = ',', header = FALSE)

#splitting data into training and test data sets
index <- createDataPartition(y = data$target, p = 0.8,list = FALSE)
training <- data[index,]
testing <- data[-index,]

#create objects x and y for predictor and response variables
x = training[,-9]
y = training$target

#training model
model = train(x,y,'nb',trControl=trainControl(method='cv',number=10))

#predicting results
predictions <- predict(model, newdata = testing)

SVM[править]

#$$ importing package and its' dependencies
library(caret)

#reading data
data <- read.csv("input.csv", sep = ',', header = FALSE)

#splitting data into train and test sets
index <- createDataPartition(y = data$target, p=0.8, list = FALSE)
training <- data[index,]
testing <- data[-index,]

#evaluating model 
fit <- train(target ~ x + y + z,
             data = train_flats,
             method = "svmRadial",
             trControl = trainControl(method = "repeatedcv", number = 10, repeats = 3))

#printing parameters
print(fit)

GBM[править]

Основная статья: Бустинг, AdaBoost
#loading libraries
install.packages("mlr")
library(mlr)

#loading data
train <- read.csv("input.csv")
test <- read.csv("testInput.csv")

#loading GBM
getParamSet("classif.gbm")
baseLearner <- makeLearner("classif.gbm", predict.type = "response")

#specifying parameters
controlFunction <- makeTuneControlRandom(maxit = 50000)#specifying tuning method
cvFunction <- makeResampleDesc("CV",iters = 100000) #definig cross-validation function

gbmParameters<- makeParamSet(
makeDiscreteParam("distribution", values = "bernoulli"),
makeIntegerParam("n.trees", lower = 100, upper = 1000), #number of trees
makeIntegerParam("interaction.depth", lower = 2, upper = 10), #depth of tree
makeIntegerParam("n.minobsinnode", lower = 10, upper = 80),
makeNumericParam("shrinkage",lower = 0.01, upper = 1)
)

#tunning parameters
gbmTuningParameters <- tuneParams(learner = baseLearner, task = trainTask,resampling = cvFunction,measures = acc,par.set = gbmParameters,control = controlFunction)

#creating model parameters
model <- setHyperPars(learner = baseLearner, par.vals = gbmTuningParameters)

#evaluating model
fit <- train(model, train)
predictions <- predict(fit, test)

Кластеризация[править]

Для реализации алгоритма кластеризации k-средних используется пакет ClusterR. В нем реализовано 2 функции: KMeans_arma() и KMeans_rcpp(). В примере далее рассмотрена реализация с использованием функции KMeans_arma().

#$$ importing package and its' dependencies
library(ClusterR)

#reading data
data <- read.csv("data.csv")

#evaluating model
model = KMeans_arma(data, clusters = 2, n_iter = 10, seed_mode = "random_subset", 
                 verbose = T, CENTROIDS = NULL)

#predicting results
predictions = predict_KMeans(test_data, model)

См. также[править]

Примечания[править]