Изменения

Перейти к: навигация, поиск

Синтетические наборы данных

1449 байт добавлено, 02:11, 8 января 2021
м
Нет описания правки
{{Определение|definition='''Синтетические данные''' — это наборы данных для применения в прикладных задачах (в том числе в машинном обучении), которые не были получены исключительно путём прямого сбора и измерений.<ref name="mcgrawhilldict">McGraw - Hill dictionary of scientific and technical terms / Под ред. Sybil P. Parker. - 3-е изд. - New York: McGraw - Hill book co., 1984</ref>.}}
Нередко возникают ситуации, когда получение реальных данных сложно или дорого, но при этом известны требования к таким объектам, правила их генерации и законы распределения. Как правило, это происходит, когда речь идёт о чувствительных персональных данных — например, информации о банковских счетах. В таких случаях необходимые наборы данных можно программно сгенерировать.
В случае, когда реальные данные отсутствуют, наборы генерируются полностью случайным образом на основе некой статистической модели, которая учитывает законы распределения реальных данных. Однако, такой подход не всегда оправдывает себя из-за того, что синтетические данные могут не учитывать весь спектр возможных случаев, и полученная с помощью такого набора модель может давать непредсказуемые результаты в крайних случаях.
Также применяется [[wikipedia:Data_augmentation|аугментация]] — генерация наборов на основе имеющихся реальных данных. К имеющимся данным применяются различные способы искажения: например, для изображений могут использоваться различные геометрические преобразования, искажения цвета, кадрирование, поворот, добавление шума и иные; для . Для числовых данных -- могут использоваться такие искажения, как добавление объектов с усреднёнными значениями, смешивание с объектами из другого распределения, добавление случайных выбросов, и прочие
* Взять что-то из [[wikipedia:Oversampling_and_undersampling_in_data_analysis]].
== Достоинства ==
* Возможность генерации наборов данных практически любого размера.
* Известность параметров генерации, а значит, и генеральной совокупности: можно судить о качестве выборочных оценок модели на параметры распределений, путём сравнения их с истинными параметрами.
* Ускорение и удешевление процесса разработки: не нужно ждать, пока будет собран и размечен достаточный объём реальных данных.
* Повышение доступности больших объёмов данных.
== Недостатки ==
* Отсутствие универсального способа генерации, применимого для любых задач: в каждом конкретном случае необходимо дополнительное исследование требований, накладываемых на генерируемые данные.
* Отсутствие универсальных метрик качества и применимости генерируемых данных.
* Излишняя «стерильность» получаемых данных: в общем случае неизвестно, какими могут быть выбросы в реальных данных<ref>Если выбросы известны, то проблема может быть решена путём настройки параметров генератора.</ref>.
== Примеры ==
=== NVIDIA и миниатюрные миры Автономный транспорт ===
* NVidia использует синтетические данные для генерации "миниатюрных миров"'''Автономный транспорт''' — это вид транспорта, управление которым осуществляется без участия человека при помощи оптических датчиков, которые затем применяются для обучения систем геолокации и иногда для тестирования компьютерных алгоритмов<ref>Self-driving car — https://en.wikipedia.org/wiki/Self-driving_car — Retrieved January 8, 2020</ref>. При реализации алгоритмов управления беспилотными транспортными средствами (вот источникавтономным транспортом наиболее важно поведение транспортного средства в критических ситуациях, книга таких как помехи на дороге или некорректные показания сенсоров — от NVidia: этого могут зависеть жизни людей. В реальных данных же, наоборот, в основном присутствуют штатные ситуации. Для решения этой проблемы компания nVidia разработала платформу NVIDIA DRIVE Constellation<ref>[https://www.nvidia.com/content/dam/en-zz/Solutions/deep-learning/resources/accelerating-ai-with-synthetic-data-ebook/accelerating-ai-with-synthetic-data-nvidia_web.pdf)El Emam, K. Accelerating AI with Synthetic Data] — Beijing, Boston, Farnham, Sebastopol, Tokyo: O'Reilly Media, Inc., 2020.</ref>, которая состоит из двух серверов. Один из них исполняет роль обучаемого транспортного средства, а второй непрерывно генерирует для первого различные «миниатюрные миры», включающие в себя симуляцию вывода с камеры, радара и лидаров. * Postperception simulation* E2E simulation
=== TextSharpener ===
Один из известных алгоритмов такого рода — TextSharpener<ref name="TextSharpener">Unblurring images of text with convolutional neural networks — https://gardarandri.github.io/TextSharpener/ — Retrieved January 8, 2020</ref>. Этот алгоритм, разработанный в Университете Исландии и основанный на [[Сверточные нейронные сети|свёрточной нейронной сети]], позволяет убирать размытие текста на изображениях.
 
 

Навигация