Изменения

← Предыдущая правка

Переобучение

715 байт убрано, 19:13, 4 сентября 2022

м

rollbackEdits.php mass rollback

== Примеры ==

=== На примере [[Линейная регрессия | линейной регрессии]] ===

Представьте задачу линейной регрессии. Красные точки представляют исходные данные. ~~Синии~~ Синие линии являются графиками полиномов различной степени M, аппроксимирующих исходные данные.

{|align="center"

Как видно из Рис. 1, данные не поддаются линейной зависимости при небольшой степени полинома и по этой причине модель, представленная на данном рисунке, не очень хороша.

На Рис. 2 ~~представленна~~ представлена ситуация, когда выбранная полиномиальная функция подходит для описания исходных данных.

Рис. 3 иллюстрирует случай, когда высокая степень полинома ведет к тому, что модель слишком заточена на данные обучающего датасета.

=== На примере [[Логистическая регрессия | логистической регрессии]] ===

Представьте задачу классификации ~~размеченых~~ размеченных точек. Красные точки представляют данные класса 1. Голубые круглые точки {{---}} класса 2. ~~Синии~~ Синие линии являются представлением различных моделей, которыми производится классификация данных.

{|align="center"

|[[Файл:High_variance_cla.png|200px|thumb|Рис 6. Переобучение]]

|}

Рис. 4 показывает результат использования слишком простой модели для представленного датасета~~. Как видно из рисунка, данные плохо классифицируются такой моделью.~~ При выявлении недообучения следует выбрать более сложную модель (Рис. 5), которая бы смогла лучше описать представленные данные. Выбор слишком сложной модели приводит к ситуации, когда модель максимально точно классифицирует обучающую выборку, но сильно ошибается на новых измерениях. Данная ситуация представлена на Рис. 6.

== Кривые обучения ==

===Дилемма bias–variance ===

'''Дилемма bias–variance''' {{---}} конфликт в попытке одновременно минимизировать '''bias''' и '''variance''', тогда как уменьшение одного из негативных эффектов, приводит к увеличению другого. Данная дилемма проиллюстрирована на Рис 10.

* [[Оценка качества в задачах классификации и регрессии]]<sup>[на 28.01.19 не создан]</sup>

* [[Оценка качества в задаче кластеризации]]

* [https://www.coursera.org/lecture/machine-learning/the-problem-of-overfitting-ACpTQ The Problem of Overfitting on Coursera, Andrew Ng]

== Примечания ==

== Источники информации ==

* [https://www.coursera.org/lecture/machine-learning/the-problem-of-overfitting-ACpTQ The Problem of Overfitting on Coursera, Andrew Ng]

* [http://blog.lokad.com/journal/2009/4/22/overfitting-when-accuracy-measure-goes-wrong.html Overfitting: when accuracy measure goes wrong]

* [http://www3.cs.stonybrook.edu/~skiena/jaialai/excerpts/node16.html The Problem of Overfitting Data]

* [https://elitedatascience.com/overfitting-in-machine-learning Overfitting in Machine Learning]

~~== Источники информации ==~~# * [https://en.wikipedia.org/wiki/Overfitting Overfitting] - статься на Википедии# * [http://www.machinelearning.ru/wiki/index.php?title=Переобучение Переобучение] - вводная статься на MachineLearning.ru# * [https://www.coursera.org/lecture/machine-learning/the-problem-of-overfitting-ACpTQ The Problem of Overfitting] - курс Andrew Ng# * ''Hastie, T., Tibshirani, R., Friedman, J. '' [http://www-stat.stanford.edu/~tibs/ElemStatLearn The Elements of Statistical Learning, 2nd edition.] — Springer, 2009. — 533 p.# * ''Vapnik V.N. '' [http://lib.mexmat.ru/books/9220 Statistical learning theory.] — N.Y.: John Wiley & Sons, Inc., 1998. # * ''Воронцов, К. В. '' [http://www.machinelearning.ru/wiki/images/b/b6/Voron10doct.pdf Комбинаторная теория надёжности обучения по прецедентам]: Дис. док. физ.-мат. наук: 05-13-17. — Вычислительный центр РАН, 2010. — 271 с.

Maintenance script

1632

правки

Изменения

Переобучение

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты