Изменения
fix styling
[[Файл:GAN_DIAGRAM.png|420px|thumb|right|Диаграмма ''generative adversarial network''.]]
'''Задача генерации объектов''' (англ. ''object generation problem'') {{---}} Среди задач, связанных с машинным обучением, выделяют задачу генерации объектов. Эта задача заключается в создании новых правдоподобных объектов на основании заданной выборки. Полученные объекты могут как быть использованы независимо для прикладных целей (в таком случае, это чаще всего изображения), так и для устранения несбалансированности классов ('''оверсэмплинг''') и дальнейшей обработки данных (обычно ''классификации''). В зависимости от того, для какой из этих целей используется генерация объектов, постановка задачи и методы её решения несколько отличаются..
== Генерация объектов для прикладных целей ==
Основная причина применения расширения выборки за счёт создания объектов – ''дисбаланс'' классов в уже имеющейся выборке. Этот дисбаланс может быть двух типов:
<ul>
<li> Недостаточное представление класса в одной или нескольких ''входных переменных''. Это явление широко распространено в реальных данных и возникает естественным образом, например, при социологических исследованиях. Так, при случайном нестратифицированном опросе программистов-женщин будет опрошено в несколько раз меньше, чем мужчин, так как мужчины больше представлены в данной профессии, что может оказаться важным при установлении связи с такой переменной, как стаж работы.
</li>
<li> Недостаточное представление класса в ''выходной переменной''. Это явление так же широко также распространено в реальных данных. Особенно часто этот эффект проявляется в медицине, где процент заболевших обычно много меньше процента здоровых обследуемых. Адекватность оценки предсказания в таких случаях помогает сохранять использование точности, полноты и F-меры.
</li>
</ul>
Дисбаланс данных является проблемой потому, что, хотя некоторые аналитические методы (''линейная и логистическая регрессия'') устойчивы к дисбалансу данных, многие другие (например, ''нейронные сети'') уязвимы к нему и снижают качество предсказания. В связи с этим возникает задача балансировки данных, которая может быть решена двумя способами: '''оверсэмплинг ''' (генерация новых объектов выборки '''миноритарного''' или менее представленного класса) и '''андерсэмплинг''' (удаление из выборки объектов '''мажоритарного''' или более представленного класса). В рамках данной статьи будет рассмотрен только оверсэмплинг, так как именно он связан с генерацией объектов.