52
правки
Изменения
→Выбор по степени неуверенности
Зафиксируем модель на некотором этапе обучения и обозначим за $P(y | x)$ вероятность того, что объект $x$ принадлежит классу $y$. Приведем основные меры неуверенности для текущей классификации:
* '''Максимальная энтропия ''' (англ. ''Maximum Entropy'')
* Минимальная уверенность '''Минимальный отступ''' (англ. ''Least ConfidenceSmallest Margin'')
Отступ (англ. ''margin'') от $y_1$ {{---}} самого вероятного класса до $y_2$ {{---}} второго по вероятности класса: $\Phi_{M}(x) = P(y_1 | x) - P(y_2 | x)$. Очевидно, что если отступ велик, то велика и уверенность, потому что один класс заметно выигрывает у всех остальных. Поэтому имеет смысл запрашивать оракула на объектах с минимальным отступом. * '''Минимальная уверенность''' (англ. ''Least Confidence'') Функция неуверенности: $\Phi_{LC}(x) = 1 - P(y_1 | x)$, где $y_1$ {{---}} наиболее вероятный класс. Интересующие нас объекты {{---}} объекты с минимальной уверенностью, то есть с максимальным $\Phi_{LC}$.
Заметим, что в случае бинарной классификации эти методы эквивалентны.
Таким образом, наиболее информативными объектами будут считаться:
$x_{informative} = arg \max\limits_x{\Phi(x) p(x)}$, где $\Phi(x)$ {{---}} мера неуверенности, а $p(x)$ {{---}} эмпирическая плотность в точке $x$.
=== Сэмплирование по несогласию в комитете ===