Изменения
fix styling
Стоит отметить, что простые порождающие модели, такие как наивный байесовский классификатор, не показывают достаточное качество результата, чтобы на их основе можно было сгенерировать полноценные мультимедиа объекты. Из класса порождающих моделей при генерации именно изображений особенно хорошо показали себя модели [http://neerc.ifmo.ru/wiki/index.php?title=Generative_Adversarial_Nets_(GAN) состязательных сетей], [http://neerc.ifmo.ru/wiki/index.php?title=PixelRNN_%D0%B8_PixelCNN PixelRNN и PixelCNN], а также DRAW (рисуют изображение с помощью сочетания [http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%BA%D1%83%D1%80%D1%80%D0%B5%D0%BD%D1%82%D0%BD%D1%8B%D0%B5_%D0%BD%D0%B5%D0%B9%D1%80%D0%BE%D0%BD%D0%BD%D1%8B%D0%B5_%D1%81%D0%B5%D1%82%D0%B8 реккурентных НС] и [http://neerc.ifmo.ru/wiki/index.php?title=%D0%9C%D0%B5%D1%85%D0%B0%D0%BD%D0%B8%D0%B7%D0%BC_%D0%B2%D0%BD%D0%B8%D0%BC%D0%B0%D0%BD%D0%B8%D1%8F механизма внимания]). Также стоит отметить модель [https://en.wikipedia.org/wiki/WaveNet WaveNet], используемую для создания звуковых записей. Эта модель создана в 2016 году, а к 2018 году, после нескольких оптимизаций вычислительной сложности, она нашла применение в Google при создании образцов речи на различных языках.
Основной причиной применения расширения выборки за счёт создания объектов – дисбаланс классов в уже имеющейся выборке. Этот дисбаланс может быть двух типов:
=== Используемые методы ===
==== Случайный оверсэмплинг ====
Случайный оверсэмплинг – создание копий нескольких объектов миноритарного класса. Этот метод включает несколько вариаций, так как могут различаться количество копий <tex>(2, 5, 10)</tex> и более для каждого объекта и доля объектов миноритарного класса, для которой создаются копии. Этот метод – один из самых ранних, для него доказана выбросоустойчивость (''robustness''). Однако его эффективность часто недостаточна.
==== SMOTE ====
[[File:SMOTE_GEN_DISS.gif|frameless|Недостаток подхода SMOTE]]
==== ASMO ====
ASMO (''Adaptive Synthetic Minority Oversampling'') – алгоритм адаптивного искусственного увеличения числа примеров миноритарного класса, модифицирующий SMOTE. В случае, если миноритарные примеры равномерно распределены среди мажоритарных и имеют низкую плотность, алгоритм SMOTE только сильнее перемешает классы. В качестве решения данной проблемы был предложен алгоритм ASMO. Он применяется, если для каждого i-ого примера миноритарного класса из k ближайших соседей <tex>g (g≤k)</tex> принадлежит к мажоритарному. В этом случае на основании примеров миноритарного класса выделяется несколько кластеров и для примеров каждого кластера применяют SMOTE.
==== ADASYN ====
ADASYN (''Adaptive synthetic sampling'') – семейство методов, являющихся попыткой «адаптации» SMOTE, то есть создания объектов, с которыми на выборке будет показан лучший результат классификации. Такие методы могут: создавать больше данных на миноритарных классах, на которых обучение сложнее; искажать пространство объектов в сторону точек, у которых соседи неоднородны; просто добавлять случайное искажение к генерируемым точкам для создания естественного шума.