67
правок
Изменения
Рефакторинг информации об основных билиотеках
== Особенности написания кода на R ==
R изначально создавался как интерпретируемый мультипарадигменный язык программирования для работы с графикой и статистической обработки данных и работы с графикой. R поддерживает широкий спектр Поэтому он отличается большим количеством реализованных статистических алгоритмов, на основе которых можно создавать модели и численных методов, а также алгоритмы машинного обучения. Язык постоянно расширяется за счёт новых библиотек (пакетов).Для их использования необходимо в начале файла прописать строки
install.packages("packageName")
require("packageName)
== Описание основных пакетов ==
===Пакеты для обработки данных===
==== pipelearner Pipelearner ====Пакет предоставляет базовые возможности для разбиения набора данных на блоки для обучения моделей. В основе пакета лежит концепция конвейеров и аккуратных данныхработы конвейера. Пакет хорошо документирован, все непонятные моменты можно прояснить, просто изучив структуру объекта с моделями на каждом этапеработы алгоритма.
==== MICE ====
Пакет MICE используется для заполнения пропущенных значений в данных. При этом нет необходимости думать о типах значений: для каждого из них в пакете предусмотрено заполнение по умолчанию.
===Пакеты с реализованными алгоритмами машинного обучения===
==== Caret ====
В данном пакете представлены модели для регрессии и классификации, реализовано достаточно много а также большая часть популярных метрик. Пакет caret обладает следующими отличительными особенностями:использование универсального синтаксиса команд, вне зависимости от синтаксиса исходной функции, реализующей тот или иной алгоритм;автоматизированное нахождение оптимальных значений гиперпараметров моделей ("tuning parameters"), которые обычно невозможно вычислить аналитически;В настоящее время имеется возможность организации параллельных вычислений, значительно ускоряющих процесс обучения моделей. В состав caret входят функции, способствующие реализации полного цикла разработки предсказательных моделей. основные из них:featurePlot, findCorrelation, preProcessиспользовать более 180 различных алгоритмов.Основная функция в составе Caret - функция train(): главная "рабочая лошадка" пакета caret, одновременно выполняющая обучение моделей, нахождение оптимальных гиперпараметров и оценку предсказательной силы моделей. Последние две задачи реализуются с использованием разнообразных методов создания повторных выборок (бутстреп, многократный бутстреп, несколько видов перекрестной проверки). Параметры процесса обучения в ней задаются аргументом trControl, на который подается список с параметрами, предварительно созданный при помощи функции trainControl(). Оценка а оценка качества модели выполняется на основе критерия, задаваемого - аргументом metric (в частности, общая верность классификации - "Accuracy", каппа-статистика - "Kappa", квадратный корень из среднеквадратичной ошибки - "RMSE" и коэффициент детерминации - "Rsquared"). АлгоритмОтличительными особенностями Caret является универсальность используемых команд, при помощи которого происходит обучение моделиналичие автоматического подбора гиперпараметров для алгоритмов, указывается с помощью аргумента methodв также наличие параллельных вычислений. В настоящее время имеется возможность использовать более 180 различных алгоритмов.
==== Mlr ====
==== H2O ====
== Примеры алгоритмов ==
=== Регрессия ===
=== Кластеризация ===