Изменения

Перейти к: навигация, поиск

Примеры кода на R

2881 байт добавлено, 03:33, 29 ноября 2020
Подробнее про Pipelearner (набросок)
===Пакеты для обработки данных===
==== Pipelearner ====
Пакет <code>Pipelearner</code><ref>[https://github.com/drsimonj/pipelearner Pipelearner github repository]</ref> предоставляет базовые возможности для разбиения набора данных на блоки для обучения моделей. В основе пакета лежит концепция работы конвейера. Принцип работы очень прост и описывается 3 шагами: # '''Инициализация'''#: Функция <code>pipelearner()</code> инициализирует новый объект, который используется в следующих функциях обработки. На этом этапе необходимо указать датасет, с которым мы работаем. Также можно сразу указать обучающие модели, которые мы планируем использовать, и модель данных, которую собираемся предсказывать.# '''Настройка'''#: Для настройки есть 3 основных функции:#* <code>learn_cvpairs()</code> отвечает за [[Кросс-валидация|кросс-валидацию]]. Функция генерирует набор пар из тестовой и обучающей выборки на основе входного датасета. #: В качестве ядра можно использовать <code>crossv_mc</code> ([[Кросс-валидация#Случайные разбиения (Random subsampling)|случайные разбиения]]), <code>crossv_kfold</code> ([[Кросс-валидация#k-fold кросс-валидация|k-fold кросс-валидация]]) или crossv_loo ([[Кросс-валидация#Кросс-валидация по отдельным объектам (Leave-One-Out)|leave-one-out разбиения]]) из пакета <code>modelr</code><ref>[https://github.com/tidyverse/modelr Modelr github repository]</ref>. Если данных способов недостаточно можно написать и свою функцию разбиения.#* <code>learn_curves()</code> служит для настройки [[Переобучение#Кривые обучения|кривых обучения]]. Для настройки используются увеличивающиеся пропорции от начала датасета. #: Например, вызов <code>learn_curves(.5, .75, 1)</code> создаст $3$ сценария работы: в первом будет взята первая половина выбоки, во втором {{---}} первые $\frac{3}{4}$ объектов, и в третьем {{---}} вся выборка. Авторы пакета утрверждают, что брать случайные объекты выборки не имеет смысла, потому что выборка уже случайно разбита с помощью <code>learn_cvpairs()</code>.#* <code>learn_models()</code> предназначен для добавления новых обучающих моделей.  Пакет хорошо документирован, все непонятные моменты можно прояснить, просто изучив структуру объекта на каждом этапе работы алгоритма.
==== MICE ====
286
правок

Навигация