192
правки
Изменения
→Самообучение
== Подходы к решению задачи ==
=== Самообучение (Self Training) === '''Алгоритм''' <br> 1. Обучить $f$ с помощью $(X_l, Y_l)$ <br>2. Спрогнозировать $x X_u$ <br>3. Добавить $(x, f(x))$ к размеченным данным <br>4. Повторить <br> Алгоритм основан на предположении, что ''достоверные прогнозы'', формируемые на шаге 2 {{---}} ''верны''. '''Вариации самообучения''' * Добавление нескольких наиболее достоверных $(x, f(x))$ к размеченным данным* Добавление всех $(x, f(x))$ к размеченным данным* Добавление всех $(x, f(x))$ к размеченным данным, взвешивание достоверности каждого $x$ '''Достоинства метода''' * Наиболее простой метод semi-supervised обучения* Метод может быть обёрткой для более сложных алгоритмов классификации* Часто используется в прикладных задачах, таких как процессинг естественного языка '''Недостатки''' * Негативное влияние ошибочных прогнозов усиливается с обучением. В таком случае существуют эвристические решения, например "удаление" метки с объекта, достоверность которого оказалась ниже определённого порога.* Трудно достичь сходимости алгоритма. Однако, существуют частные случаи, когда самообучение эквивалентно EM-алгоритму, а также при использовании функций (например, линейных), где известно решение в виде сходящегося алгоритма.
=== Генеративные модели ===
=== Полуавтоматические SVM ===