Изменения
→Источники информации
== Примеры ==
=== На примере [[Линейная регрессия | линейной регрессии]] ===
Представьте задачу [[Линейная регрессия | линейной регрессии]]. Красные точки представляют исходные данные. Синии Синие линии являются графиками полиномов различной степени M, аппроксимирующих исходные данные.
{|align="center"
Как видно из Рис. 1, данные не поддаются линейной зависимости при небольшой степени полинома и по этой причине модель, представленная на данном рисунке, не очень хороша.
На Рис. 2 представленна представлена ситуация, когда выбранная полиномиальная функция подходит для описания исходных данных.
Рис. 3 иллюстрирует случай, когда высокая степень полинома ведет к тому, что модель слишком заточена на данные обучающего датасета.
=== На примере [[Логистическая регрессия | логистической регрессии]] ===
Представьте задачу классификации размеченых размеченных точек. Красные точки представляют данные класса 1. Голубые круглые точки {{---}} класса 2. Синии Синие линии являются представлением различных моделей, которыми производится классификация данных.
{|align="center"
|[[Файл:High_variance_cla.png|200px|thumb|Рис 6. Переобучение]]
|}
Рис. 4 показывает результат использования слишком простой модели для представленного датасета. Как видно из рисунка, данные плохо классифицируются такой моделью. При выявлении недообучения следует выбрать более сложную модель (Рис. 5), которая бы смогла лучше описать представленные данные. Выбор слишком сложной модели приводит к ситуации, когда модель максимально точно классифицирует обучающую выборку, но сильно ошибается на новых измерениях. Данная ситуация представлена на Рис. 6.
== Кривые обучения ==
'''Кривая обучения''' {{---}} графическое представление того, как изменение меры обученности (по вертикальной оси) зависит от определенной единицы измерения опыта (по горизонтальной оси)<ref>[https://en.wikipedia.org/wiki/Learning_curve Wikipedia {{---}} Learning curve, Wikipedia]</ref>. Например, в примерах ниже представлена зависимость средней ошибки от объема датасета.
=== Кривые обучения при переобучении ===
===Дилемма bias–variance ===
'''Дилемма bias–variance''' {{---}} конфликт в попытке одновременно минимизировать '''bias''' и '''variance''', тогда как уменьшение одного из негативных эффектов, приводит к увеличению другого. Данная дилемма проиллюстрирована на Рис 10.
* [[Оценка качества в задачах классификации и регрессии]]<sup>[на 28.01.19 не создан]</sup>
* [[Оценка качества в задаче кластеризации]]
== Примечания ==
<references/>
== Источники информации ==
* [https://www.coursera.org/lecture/machine-learning/the-problem-of-overfitting-ACpTQ The Problem of Overfitting on Coursera, Andrew Ng]
* [http://blog.lokad.com/journal/2009/4/22/overfitting-when-accuracy-measure-goes-wrong.html Overfitting: when accuracy measure goes wrong]
* [http://www3.cs.stonybrook.edu/~skiena/jaialai/excerpts/node16.html The Problem of Overfitting Data]
* [https://elitedatascience.com/overfitting-in-machine-learning Overfitting in Machine Learning]