Изменения

Перейти к: навигация, поиск

Переобучение

715 байт убрано, 19:13, 4 сентября 2022
м
rollbackEdits.php mass rollback
== Примеры ==
 
 
=== На примере [[Линейная регрессия | линейной регрессии]] ===
Представьте задачу линейной регрессии. Красные точки представляют исходные данные. Синии Синие линии являются графиками полиномов различной степени M, аппроксимирующих исходные данные.
{|align="center"
Как видно из Рис. 1, данные не поддаются линейной зависимости при небольшой степени полинома и по этой причине модель, представленная на данном рисунке, не очень хороша.
На Рис. 2 представленна представлена ситуация, когда выбранная полиномиальная функция подходит для описания исходных данных.
Рис. 3 иллюстрирует случай, когда высокая степень полинома ведет к тому, что модель слишком заточена на данные обучающего датасета.
=== На примере [[Логистическая регрессия | логистической регрессии]] ===
  Представьте задачу классификации размеченых размеченных точек. Красные точки представляют данные класса 1. Голубые круглые точки {{---}} класса 2. Синии Синие линии являются представлением различных моделей, которыми производится классификация данных.
{|align="center"
|[[Файл:High_variance_cla.png|200px|thumb|Рис 6. Переобучение]]
|}
Рис. 4 показывает результат использования слишком простой модели для представленного датасета. Как видно из рисунка, данные плохо классифицируются такой моделью. При выявлении недообучения следует выбрать более сложную модель (Рис. 5), которая бы смогла лучше описать представленные данные. Выбор слишком сложной модели приводит к ситуации, когда модель максимально точно классифицирует обучающую выборку, но сильно ошибается на новых измерениях. Данная ситуация представлена на Рис. 6.
== Кривые обучения ==
===Дилемма bias–variance ===
 
 
 
'''Дилемма bias–variance''' {{---}} конфликт в попытке одновременно минимизировать '''bias''' и '''variance''', тогда как уменьшение одного из негативных эффектов, приводит к увеличению другого. Данная дилемма проиллюстрирована на Рис 10.
* [[Оценка качества в задачах классификации и регрессии]]<sup>[на 28.01.19 не создан]</sup>
* [[Оценка качества в задаче кластеризации]]
* [https://www.coursera.org/lecture/machine-learning/the-problem-of-overfitting-ACpTQ The Problem of Overfitting on Coursera, Andrew Ng]
== Примечания ==
<references/>
== Источники информации ==
* [https://www.coursera.org/lecture/machine-learning/the-problem-of-overfitting-ACpTQ The Problem of Overfitting on Coursera, Andrew Ng]
* [http://blog.lokad.com/journal/2009/4/22/overfitting-when-accuracy-measure-goes-wrong.html Overfitting: when accuracy measure goes wrong]
* [http://www3.cs.stonybrook.edu/~skiena/jaialai/excerpts/node16.html The Problem of Overfitting Data]
* [https://elitedatascience.com/overfitting-in-machine-learning Overfitting in Machine Learning]
 == Источники информации ==# * [https://en.wikipedia.org/wiki/Overfitting Overfitting] - статься на Википедии# * [http://www.machinelearning.ru/wiki/index.php?title=Переобучение Переобучение] - вводная статься на MachineLearning.ru# * [https://www.coursera.org/lecture/machine-learning/the-problem-of-overfitting-ACpTQ The Problem of Overfitting] - курс Andrew Ng# * ''Hastie, T., Tibshirani, R., Friedman, J. '' [http://www-stat.stanford.edu/~tibs/ElemStatLearn The Elements of Statistical Learning, 2nd edition.] — Springer, 2009. — 533 p.# * ''Vapnik V.N. '' [http://lib.mexmat.ru/books/9220 Statistical learning theory.] — N.Y.: John Wiley & Sons, Inc., 1998. # * ''Воронцов, К. В. '' [http://www.machinelearning.ru/wiki/images/b/b6/Voron10doct.pdf Комбинаторная теория надёжности обучения по прецедентам]: Дис. док. физ.-мат. наук: 05-13-17. — Вычислительный центр РАН, 2010. — 271 с.
1632
правки

Навигация