192
правки
Изменения
→Подходы к решению задачи
'''Недостатки'''
* Негативное влияние ошибочных прогнозов усиливается с обучением. В таком случае существуют эвристические решения, например "удаление" метки с объекта, достоверность которого оказалась ниже определённого порога.* Трудно достичь сходимости алгоритма. Однако, существуют частные случаи, когда самообучение эквивалентно EM-алгоритму, а также при использовании функций (например, линейных), где известно решение в виде сходящегося алгоритма.
=== Совместное обучение (Co-training)=== Совместное обучение является расширением самообучения, при котором несколько классификаторов прорабатывают разные (в идеале, непересекающиеся) множества признаков и генерируют размеченные примеры друг для друга.
'''Алгоритм''' <br>
4. Добавить $k$ наиболее достоверных прогнозов $(x, f^{(2)}(x))$ из $f^{(2)}$ к данным, размеченным с помощью $f^{(1)}$ <br>
5. Повторить <br>
'''Преимущества'''
* Подходит почти ко всем известным классификаторам в качестве обёртки
* Не так сильна чувствительность к ошибочным прогнозам, по-сравнению с self-training
'''Недостатки'''
* Естественное разделение признаков не всегда существует. В таком случае можно использовать ''fake feature split'' {{---}} случайное искуственное разделение
* Необхоимо искать эффективные модели, когда приходится использовать признаки из нескольких множеств
=== Генеративные модели ===