Активное обучение — различия между версиями

Материал из Викиконспекты
Перейти к: навигация, поиск
м
Строка 1: Строка 1:
'''Активное обучение''' (англ. ''Active learning'') - область машинного обучения, где в отличие от обучения с учителем имеется набор неразмеченных данных и оракул, способный размечать данные. Требуется решить задачу, минимизируя количество обращений к оракулу.
+
'''Активное обучение''' (англ. ''Active learning'') - область машинного обучения, где в отличие от обучения с учителем имеется набор неразмеченных данных и оракул, способный размечать данные. Зачастую обращение к оракулу затратно по времени или другим ресурсам. Требуется решить задачу, минимизируя количество обращений к оракулу.
 +
 
 +
 
 +
== Постановка задачи классификации для активного обучения ==
 +
 
 +
Дано множество неразмеченных данных:
 +
 
 +
$X = \{x_1, ..., x_n\}$
 +
 
 +
Множество меток:
 +
 
 +
$Y = \{y_1, ..., y_m\}$
 +
 
 +
Оракул:
 +
 
 +
$O : X \rightarrow Y$ - функция, которая по объекту возвращает его метку.
 +
 
 +
Требуется восстановить функцию $a : X \rightarrow Y$, минимизируя количество обращений к оракулу.
 +
 
 +
== Основные стратегии ==
 +
 
 +
* '''Отбор объектов из выборки''' (англ. ''Pool-based active learning''). Имеется некоторая выборка, и алгоритм использует объекты из нее в качестве запросов к оракулу. В данной стратегии каждому объекту присваивается степень информативности - то есть сколько выгоды принесет информация об истинной метке объекта, и оракулу отправляются самые информативные объекты.
 +
* '''Отбор объектов из потока''' (англ. ''Selective sampling''). Алгоритм пользуется не статической выборкой, а потоком данных, и для каждого объекта из потока принимается решение, запрашивать оракула на этом объекте или самому присваивать метку согласно текущему классификатору.
 +
* '''Синтез объектов''' (англ. ''Query synthesis''). Вместо использования заранее заданных объектов, алгоритм сам конструирует объекты и подает их на вход оракулу. Например, если объекты - это вектора в n-мерном пространстве, разделенные гиперплоскостью и решается задача бинарной классикации, имеет смысл давать оракулу на вход синтезированные вектора, близкие к границе.
 +
 
 +
== Uncertainty Sampling ==

Версия 13:15, 2 февраля 2020

Активное обучение (англ. Active learning) - область машинного обучения, где в отличие от обучения с учителем имеется набор неразмеченных данных и оракул, способный размечать данные. Зачастую обращение к оракулу затратно по времени или другим ресурсам. Требуется решить задачу, минимизируя количество обращений к оракулу.


Постановка задачи классификации для активного обучения

Дано множество неразмеченных данных:

$X = \{x_1, ..., x_n\}$

Множество меток:

$Y = \{y_1, ..., y_m\}$

Оракул:

$O : X \rightarrow Y$ - функция, которая по объекту возвращает его метку.

Требуется восстановить функцию $a : X \rightarrow Y$, минимизируя количество обращений к оракулу.

Основные стратегии

  • Отбор объектов из выборки (англ. Pool-based active learning). Имеется некоторая выборка, и алгоритм использует объекты из нее в качестве запросов к оракулу. В данной стратегии каждому объекту присваивается степень информативности - то есть сколько выгоды принесет информация об истинной метке объекта, и оракулу отправляются самые информативные объекты.
  • Отбор объектов из потока (англ. Selective sampling). Алгоритм пользуется не статической выборкой, а потоком данных, и для каждого объекта из потока принимается решение, запрашивать оракула на этом объекте или самому присваивать метку согласно текущему классификатору.
  • Синтез объектов (англ. Query synthesis). Вместо использования заранее заданных объектов, алгоритм сам конструирует объекты и подает их на вход оракулу. Например, если объекты - это вектора в n-мерном пространстве, разделенные гиперплоскостью и решается задача бинарной классикации, имеет смысл давать оракулу на вход синтезированные вектора, близкие к границе.

Uncertainty Sampling