Изменения

Активное обучение

2175 байт добавлено, 21:57, 2 февраля 2020

Нет описания правки

Для вызова оракула обычно требуется привлечение человеческих ресурсов. В роли оракула может выступать эксперт, размечающий текстовые документы, изображения или видеозаписи. Помимо временных затрат могут быть и значительные финансовые, например, исследование химического соединения или реакции.

В связи с этим одной из центральных задач активного обучения становится '''сэмплирование''' (англ. ''Sampling'') - выбор объектов, которые следует отправить оракулу для получения достоверной информации об их классификации. От грамотности сэмплирования зависит время работы алгоритма, качество классификации и затраты на внешние ресурсы.

* '''Синтез объектов''' (англ. ''Query synthesis''). Вместо использования заранее заданных объектов, алгоритм сам конструирует объекты и подает их на вход оракулу. Например, если объекты - это вектора в n-мерном пространстве, разделенные гиперплоскостью и решается задача бинарной классикации, имеет смысл давать оракулу на вход синтезированные вектора, близкие к границе.

== Методы выбора ~~объектов для запросов~~ сэмплирования ==

=== Выбор по степени неуверенности ===

Здесь $P(y | x) = \dfrac{1}{T} \sum\limits_{a \in A^T}{[a(x) = y]}$

=== Сокращение размерности пространства решений === Сокращение размерности пространства решений (англ. Version Space Reduction ~~===~~) подразумевает выбор объектов, которые максимально сокращают пространство корректных возможных решений.

Рассмотрим простой частный случай: пусть имеется выборка точек на отрезке длины $l$, для которых требуется найти пороговый классификатор. Это означает, что заранее известна линейная раздедимость выборки - то есть существует точка $t$, такая что точки $x < t$ принадлежат одному классу, а $x > t$ {{---}} другому. Наивным решением было бы разбиение отрезка на $k$ равных подотрезков, чтобы отправить оракулу по одной точке из каждого подотрезка и получить верный ответ с точностью $l / k$. Гораздо лучшим решением является бинарный поиск, который на каждой итерации сокращает пространство возможных решений вдвое, и необходимая точность $d$ достигается за $\log{\dfrac{l}{d}}$ запросов.

== См. также ==

Mkryuchkov

52

правки

Изменения

Активное обучение

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты