Изменения

Перейти к: навигация, поиск

Переобучение

714 байт убрано, 19:13, 4 сентября 2022
м
rollbackEdits.php mass rollback
== Примеры ==
 
 
=== На примере [[Линейная регрессия | линейной регрессии]] ===
Представьте задачу линейной регрессии. Красные точки представляют исходные данные. Синии Синие линии являются графиками полиномов различной степени M, аппроксимирующих исходные данные.
{|align="center"
Как видно из Рис. 1, данные не поддаются линейной зависимости при небольшой степени полинома и по этой причине модель, представленная на данном рисунке, не очень хороша.
На Рис. 2 представленна представлена ситуация, когда выбранная полиномиальная функция подходит для описания исходных данных.
Рис. 3 иллюстрирует случай, когда высокая степень полинома ведет к тому, что модель слишком заточена на данные обучающего датасета.
=== На примере [[Логистическая регрессия | логистической регрессии]] ===
  Представьте задачу классификации размеченых размеченных точек. Красные точки представляют данные класса 1. Голубые круглые точки {{---}} класса 2. Синии Синие линии являются представлением различных моделей, которыми производится классификация данных.
{|align="center"
|[[Файл:High_variance_cla.png|200px|thumb|Рис 6. Переобучение]]
|}
Рис. 4 показывает результат использования слишком простой модели для представленного датасета. Как видно из рисунка, данные плохо классифицируются такой моделью. При выявлении недообучения следует выбрать более сложную модель (Рис. 5), которая бы смогла лучше описать представленные данные. Выбор слишком сложной модели приводит к ситуации, когда модель максимально точно классифицирует обучающую выборку, но сильно ошибается на новых измерениях. Данная ситуация представлена на Рис. 6.
== Кривые обучения ==
===Дилемма bias–variance ===
 
 
 
'''Дилемма bias–variance''' {{---}} конфликт в попытке одновременно минимизировать '''bias''' и '''variance''', тогда как уменьшение одного из негативных эффектов, приводит к увеличению другого. Данная дилемма проиллюстрирована на Рис 10.
* [[Оценка качества в задачах классификации и регрессии]]<sup>[на 28.01.19 не создан]</sup>
* [[Оценка качества в задаче кластеризации]]
* [https://www.coursera.org/lecture/machine-learning/the-problem-of-overfitting-ACpTQ The Problem of Overfitting on Coursera, Andrew Ng]
== Примечания ==
== Источники информации ==
* [https://www.coursera.org/lecture/machine-learning/the-problem-of-overfitting-ACpTQ The Problem of Overfitting on Coursera, Andrew Ng]
* [http://blog.lokad.com/journal/2009/4/22/overfitting-when-accuracy-measure-goes-wrong.html Overfitting: when accuracy measure goes wrong]
* [http://www3.cs.stonybrook.edu/~skiena/jaialai/excerpts/node16.html The Problem of Overfitting Data]
1632
правки

Навигация