52
правки
Изменения
→Uncertainty Sampling
* '''Синтез объектов''' (англ. ''Query synthesis''). Вместо использования заранее заданных объектов, алгоритм сам конструирует объекты и подает их на вход оракулу. Например, если объекты - это вектора в n-мерном пространстве, разделенные гиперплоскостью и решается задача бинарной классикации, имеет смысл давать оракулу на вход синтезированные вектора, близкие к границе.
== Метод Uncertainty Sampling == Uncertainty Sampling - метод отбора объектов из выборки, где самыми информативными объектами считаются те, на которых текущий алгоритм меньше всего уверен в верности классификации. Для этого необходимо задать меру неуверенности в классификации на каждом объекте. Зафиксируем модель на некотором этапе обучения и обозначим за $P(y | x)$ вероятность того, что объект x принадлежит классу y. Приведем основные меры неуверенности для текущей классификации: * Максимальная энтропия $\Phi_{ent}(x) = - \sum\limits_y{P(y | x) \log{P(y | x)}}$ - энтропия классификации на объекте x. Чем больше энтропия - тем больше неуверенность в классификации. * Минимальный отступ $\Phi_{M}(x) = P(y_1 | x) - P(y_2 | x)$ - отступ (англ. ''margin'') от $y_1$ - самого вероятного класса до $y_2$ - второго по вероятности класса. Очевидно, что если отступ велик, то велика и уверенность, потому что один класс заметно выигрывает у всех остальных. Поэтому имеет смысл запрашивать оракула на объектах с минимальным отступом. * Минимальная уверенность $\Phi(x) = 1 - P(y_1 | x)$, где $y_1$ - наиболее вероятный класс. Интересующие нас объекты - объекты с минимальной уверенностью.