52
правки
Изменения
→Выбор по степени неуверенности
Заметим, что в случае бинарной классификации эти методы эквивалентны.
==== Взвешивание по плотности ====
Одной из проблем описанного выше метода может являться то, что алгоритм часто будет отдавать оракулу шумы {{---}} те объекты, которые не соответствуют основному распределению в выборке. Так как шумы являются нетипичными в контексте выборки объектами, модель может быть неуверена в их классификации, в то время как для решения основной задачи их классификация не очень полезна. Вокруг шумов плотность распределения мала, и вследствие этого применяется эвристика '''взвешивание по плотности''' где предпочтение отдается тем объектам, в которых плотность больше.
Таким образом, наиболее информативными объектами будут считаться:
$x_{informative} = arg \max\limits_x{\Phi(x) p(x)}$, где $\Phi(x)$ - мера неуверенности, а $p(x)$ - эмпирическая плотность в точке $x$
=== Сэмплирование по несогласию в комитете ===