Изменения
+ Достоинства и недостатки
* Взять что-то из [[wikipedia:Oversampling_and_undersampling_in_data_analysis]].
* Можно картинку из https://habr.com/ru/company/smartengines/blog/264677/
== Достоинства ==
* Возможность генерации датасетов практически любого размера;
* Известность параметров генерации, а значит, и генеральной совокупности -- можно судить о качестве выборочных оценок модели на параметры распределений, путём сравнения их с истинными параметрами;
* Ускорение и удешевление процесса разработки -- не нужно ждать, пока будет собран и/или размечен достаточный объём реальных данных.
== Недостатки ==
* Отсутствие универсального способа генерации, применимого для любых задач -- в каждом конкретном случае необходимо дополнительное исследование того, какие требования накладываются на генерируемые данные;
* Отсутствие универсальных метрик качества и применимости генерируемых данных;
* Возможна излишняя "стерильность" получаемых данных, так как в общем случае неизвестно, какими могут быть выбросы в реальных данных. Если же это известно, то проблема может быть решена путём настройки параметров генератора.
== Примеры ==