Викиконспекты - Вклад участника [ru]

Переобучение

2018-12-02T20:36:10Z

93.185.28.101:

'''Переобучение''' (англ. overfitting) {{---}} негативное явление, возникающее, когда алгоритм обучения вырабатывает предсказания, которые слишком близко или точно соответствуют конкретному набору данных, и поэтому не подходят для применения алгоритма к дополнительным данным или будущим наблюдениям.

'''Недообучение''' (англ. underfitting) {{---}} негативное явление, возникающее, когда выбранная статистическая модель не может адекватно описать базовую структуру данных.

== Примеры ==
=== На примере линейной регрессии ===
Представьте задачу предсказания <math>y</math> по <math>x \in R</math>. Рис 1 показывает результат использования модели <math>y=θ_0+θ_1*x</math> для представленного датасета. Как видно из Рис 1 данные не поддаются линейной зависимости, и по этой причине модель не очень хороша.
{|align="center"
|-valign="top"
|[[Файл:High_bias_reg.png|200px|thumb|Рис 1. Недообучение]]
|[[Файл:Normal_bias_reg.png|200px|thumb|Рис 2. Модель подходит]]
|[[Файл:High_variance_reg.png|200px|thumb|Рис 3. Переобучение]]
|}
Если же добавить дополнительный параметр <math>x^2</math>, и использовать модель <math>y=θ_0+θ_1*x+θ_2*x^2</math>, как представлено на Рис 2, то модель значительно лучше подходит для представленного датасета. Рис 3 показывает результат использования модели <math>y=θ_0+θ_1*x+θ_2*x^2+θ_3*x^3+θ_4*x^4</math> для представленного датасета. Как видно из Рис 3 данная модель слишком заточена для обучающего датасета и, веротяно, покажет плохой результат на тестовой.

=== На примере логистической регрессии ===
Представьте задачу классификации размеченых точек. Рис 4 показывает результат использования модели <math>g(θ_0+θ_1*x_1+θ_2*x_2)</math> для представленного датасета. Как и в предыдущем примере, данные не поддаются классификации по линейной зависимости.
{|align="center"
|-valign="top"
|[[Файл:High_bias_cla.png|200px|thumb|Рис 4. Недообучение]]
|[[Файл:Normal_bias_cla.png|200px|thumb|Рис 5. Модель подходит]]
|[[Файл:High_variance_cla.png|200px|thumb|Рис 6. Переобучение]]
|}
В случае же выбора модели <math>g(θ_0+θ_1*x_1+θ_2*x_2+θ_3*x_1^2+θ_4*x_2^2+θ_5*x_1*x_2)</math>, представленой на Рис 5, данные значительно лучше соответствуют модели. Рис 6 показывает результат использования модели <math>g(θ_0+θ_1*x_1+θ_2*x_1^2+θ_3*x_2*x_1^2+θ_4*x_1^2*x_2^2 + ...)</math> для представленного датасета {{---}} это яркий пример явления переобучения.

== Кривые обучения ==
=== Кривые обучения при переобучении ===
[[Файл:High_variance_learning_curve.png|border|500px|Кривые обучения при переобучении]]
=== Кривые обучения при недообучении ===
[[Файл:High_bias_learning_curve.png|border|500px|Кривые обучения при недообучении]]

== High variance и high bias ==
...

== Возможные решения ==
=== Возможные решения при переобучении ===
* Увеличение количества данных в наборе
* Уменьшение количества параметров модели
* Добавление регуляризации / увеличение коэффициента регуляризации

=== Возможные решения при недообучении ===
* Добавление новых параметров модели
* Использование для описания модели функций с более высокой степенью
* Уменьшение коэффициента регуляризации

== См. также ==
* [http://neerc.ifmo.ru/wiki/index.php?title=Модель_алгоритма_и_ее_выбор Модель алгоритма и ее выбор][на 01.12.18 не создан]
* [http://neerc.ifmo.ru/wiki/index.php?title=Оценка_качества_в_задачах_классификации_и_регрессии Оценка качества в задачах классификации и регрессии ][на 01.12.18 не создан]
* [http://neerc.ifmo.ru/wiki/index.php?title=Оценка_качества_в_задаче_кластеризации Оценка качества в задаче кластеризации ][на 01.12.18 не создан]

== Примечания ==
* [http://blog.lokad.com/journal/2009/4/22/overfitting-when-accuracy-measure-goes-wrong.html Overfitting: when accuracy measure goes wrong]
* [http://www3.cs.stonybrook.edu/~skiena/jaialai/excerpts/node16.html The Problem of Overfitting Data]
* [https://elitedatascience.com/overfitting-in-machine-learning Overfitting in Machine Learning]

== Источники информации ==
# [https://en.wikipedia.org/wiki/Overfitting Overfitting] - статься на Википедии
# [http://www.machinelearning.ru/wiki/index.php?title=Переобучение Переобучение] - вводная статься на MachineLearning.ru
# [https://www.coursera.org/lecture/machine-learning/the-problem-of-overfitting-ACpTQ The Problem of Overfitting] - курс Andrew Ng
# ''Hastie, T., Tibshirani, R., Friedman, J. '' [http://www-stat.stanford.edu/~tibs/ElemStatLearn The Elements of Statistical Learning, 2nd edition.] — Springer, 2009. — 533 p.
# ''Vapnik V.N. '' [http://lib.mexmat.ru/books/9220 Statistical learning theory.] — N.Y.: John Wiley & Sons, Inc., 1998.
# ''Воронцов, К. В. '' [http://www.machinelearning.ru/wiki/images/b/b6/Voron10doct.pdf Комбинаторная теория надёжности обучения по прецедентам]: Дис. док. физ.-мат. наук: 05-13-17. — Вычислительный центр РАН, 2010. — 271 с.

Переобучение

2018-12-02T20:35:32Z

93.185.28.101: Обновление определений

'''Переобучение''' (англ. overfitting) {{---}} негативное явление, возникающее, когда алгоритм обучения вырабатывает предсказания, которые слишком близко или точно соответствуют конкретному набору данных, и поэтому не подходят для применения алгоритма к дополнительным данным или будущим наблюдениям.
негативное явление, возникающее, когда величина средней ошибки обученного алгоритма на объектах тестовой выборки оказывается существенно выше, чем величина средней ошибки на обучающей выборке. Переобучение возникает при использовании избыточно сложных моделей. 
'''Недообучение''' (англ. underfitting) {{---}} негативное явление, возникающее, когда выбранная статистическая модель не может адекватно описать базовую структуру данных.

== Примеры ==
=== На примере линейной регрессии ===
Представьте задачу предсказания <math>y</math> по <math>x \in R</math>. Рис 1 показывает результат использования модели <math>y=θ_0+θ_1*x</math> для представленного датасета. Как видно из Рис 1 данные не поддаются линейной зависимости, и по этой причине модель не очень хороша.
{|align="center"
|-valign="top"
|[[Файл:High_bias_reg.png|200px|thumb|Рис 1. Недообучение]]
|[[Файл:Normal_bias_reg.png|200px|thumb|Рис 2. Модель подходит]]
|[[Файл:High_variance_reg.png|200px|thumb|Рис 3. Переобучение]]
|}
Если же добавить дополнительный параметр <math>x^2</math>, и использовать модель <math>y=θ_0+θ_1*x+θ_2*x^2</math>, как представлено на Рис 2, то модель значительно лучше подходит для представленного датасета. Рис 3 показывает результат использования модели <math>y=θ_0+θ_1*x+θ_2*x^2+θ_3*x^3+θ_4*x^4</math> для представленного датасета. Как видно из Рис 3 данная модель слишком заточена для обучающего датасета и, веротяно, покажет плохой результат на тестовой.

=== На примере логистической регрессии ===
Представьте задачу классификации размеченых точек. Рис 4 показывает результат использования модели <math>g(θ_0+θ_1*x_1+θ_2*x_2)</math> для представленного датасета. Как и в предыдущем примере, данные не поддаются классификации по линейной зависимости.
{|align="center"
|-valign="top"
|[[Файл:High_bias_cla.png|200px|thumb|Рис 4. Недообучение]]
|[[Файл:Normal_bias_cla.png|200px|thumb|Рис 5. Модель подходит]]
|[[Файл:High_variance_cla.png|200px|thumb|Рис 6. Переобучение]]
|}
В случае же выбора модели <math>g(θ_0+θ_1*x_1+θ_2*x_2+θ_3*x_1^2+θ_4*x_2^2+θ_5*x_1*x_2)</math>, представленой на Рис 5, данные значительно лучше соответствуют модели. Рис 6 показывает результат использования модели <math>g(θ_0+θ_1*x_1+θ_2*x_1^2+θ_3*x_2*x_1^2+θ_4*x_1^2*x_2^2 + ...)</math> для представленного датасета {{---}} это яркий пример явления переобучения.

== Кривые обучения ==
=== Кривые обучения при переобучении ===
[[Файл:High_variance_learning_curve.png|border|500px|Кривые обучения при переобучении]]
=== Кривые обучения при недообучении ===
[[Файл:High_bias_learning_curve.png|border|500px|Кривые обучения при недообучении]]

== High variance и high bias ==
...

== Возможные решения ==
=== Возможные решения при переобучении ===
* Увеличение количества данных в наборе
* Уменьшение количества параметров модели
* Добавление регуляризации / увеличение коэффициента регуляризации

=== Возможные решения при недообучении ===
* Добавление новых параметров модели
* Использование для описания модели функций с более высокой степенью
* Уменьшение коэффициента регуляризации

== См. также ==
* [http://neerc.ifmo.ru/wiki/index.php?title=Модель_алгоритма_и_ее_выбор Модель алгоритма и ее выбор][на 01.12.18 не создан]
* [http://neerc.ifmo.ru/wiki/index.php?title=Оценка_качества_в_задачах_классификации_и_регрессии Оценка качества в задачах классификации и регрессии ][на 01.12.18 не создан]
* [http://neerc.ifmo.ru/wiki/index.php?title=Оценка_качества_в_задаче_кластеризации Оценка качества в задаче кластеризации ][на 01.12.18 не создан]

== Примечания ==
* [http://blog.lokad.com/journal/2009/4/22/overfitting-when-accuracy-measure-goes-wrong.html Overfitting: when accuracy measure goes wrong]
* [http://www3.cs.stonybrook.edu/~skiena/jaialai/excerpts/node16.html The Problem of Overfitting Data]
* [https://elitedatascience.com/overfitting-in-machine-learning Overfitting in Machine Learning]

== Источники информации ==
# [https://en.wikipedia.org/wiki/Overfitting Overfitting] - статься на Википедии
# [http://www.machinelearning.ru/wiki/index.php?title=Переобучение Переобучение] - вводная статься на MachineLearning.ru
# [https://www.coursera.org/lecture/machine-learning/the-problem-of-overfitting-ACpTQ The Problem of Overfitting] - курс Andrew Ng
# ''Hastie, T., Tibshirani, R., Friedman, J. '' [http://www-stat.stanford.edu/~tibs/ElemStatLearn The Elements of Statistical Learning, 2nd edition.] — Springer, 2009. — 533 p.
# ''Vapnik V.N. '' [http://lib.mexmat.ru/books/9220 Statistical learning theory.] — N.Y.: John Wiley & Sons, Inc., 1998.
# ''Воронцов, К. В. '' [http://www.machinelearning.ru/wiki/images/b/b6/Voron10doct.pdf Комбинаторная теория надёжности обучения по прецедентам]: Дис. док. физ.-мат. наук: 05-13-17. — Вычислительный центр РАН, 2010. — 271 с.