Изменения

Перейти к: навигация, поиск

Синтетические наборы данных

1719 байт добавлено, 23:30, 5 января 2021
+ Достоинства и недостатки
* Взять что-то из [[wikipedia:Oversampling_and_undersampling_in_data_analysis]].
* Можно картинку из https://habr.com/ru/company/smartengines/blog/264677/
 
== Достоинства ==
 
* Возможность генерации датасетов практически любого размера;
 
* Известность параметров генерации, а значит, и генеральной совокупности -- можно судить о качестве выборочных оценок модели на параметры распределений, путём сравнения их с истинными параметрами;
 
* Ускорение и удешевление процесса разработки -- не нужно ждать, пока будет собран и/или размечен достаточный объём реальных данных.
 
 
== Недостатки ==
 
* Отсутствие универсального способа генерации, применимого для любых задач -- в каждом конкретном случае необходимо дополнительное исследование того, какие требования накладываются на генерируемые данные;
 
* Отсутствие универсальных метрик качества и применимости генерируемых данных;
 
* Возможна излишняя "стерильность" получаемых данных, так как в общем случае неизвестно, какими могут быть выбросы в реальных данных. Если же это известно, то проблема может быть решена путём настройки параметров генератора.
== Примеры ==
Анонимный участник

Навигация