Синтетические наборы данных — различия между версиями

Версия 23:43, 11 января 2021

Определение:

Синтетические данные — это наборы данных для применения в прикладных задачах (в том числе в машинном обучении), которые не были получены исключительно путём прямого сбора и измерений.^[1].

Нередко возникают ситуации, когда получение реальных данных сложно или дорого, но при этом известны требования к таким объектам, правила их генерации и законы распределения. Как правило, это происходит, когда речь идёт о чувствительных персональных данных — например, информации о банковских счетах. В таких случаях необходимые наборы данных можно программно сгенерировать.

Применение

Сгенерированные объекты можно использовать в задаче обучения с учителем для расширения обучающего множества, сведя её к задачам частичного обучения и самообучения. В тестовых множествах использовать синтетические наборы данных нельзя: в них должны быть только реальные объекты.

Синтетические данные используют не только при недоступности реальных, но и для того, чтобы изменить распределение классов в уже имеющихся данных, дополнив их по определённому алгоритму^[2].

При генерации синтетических наборов данных необходимо учитывать специфику каждого конкретного случая, общего алгоритма, подходящего для всех случаев не существует. Как правило, общие алгоритмы наподобие добавления средних значений оказываются нерепрезентативными.

Виды генерации

Существует два основных подхода к генерации синтетических наборов данных.

В случае, когда реальные данные отсутствуют, наборы генерируются полностью случайным образом на основе некой статистической модели, которая учитывает законы распределения реальных данных. Однако, такой подход не всегда оправдывает себя из-за того, что синтетические данные могут не учитывать весь спектр возможных случаев, и полученная с помощью такого набора модель может давать непредсказуемые результаты в крайних случаях.

Также применяется аугментация — генерация наборов на основе имеющихся реальных данных. К имеющимся данным применяются различные способы искажения: например, для изображений могут использоваться различные геометрические преобразования, искажения цвета, кадрирование, поворот, добавление шума и иные. Для числовых данных могут использоваться такие искажения, как добавление объектов с усреднёнными значениями, смешивание с объектами из другого распределения, добавление случайных выбросов.

Достоинства

Возможность генерации наборов данных практически любого размера.

Известность параметров генерации, а значит, и генеральной совокупности: можно судить о качестве выборочных оценок модели на параметры распределений путём сравнения их с истинными параметрами.

Ускорение и удешевление процесса разработки: не нужно ждать, пока будет собран и размечен достаточный объём реальных данных.

Повышение доступности больших объёмов данных.

Недостатки

Отсутствие универсального способа генерации, применимого для любых задач: в каждом конкретном случае необходимо дополнительное исследование требований, накладываемых на генерируемые данные.

Отсутствие универсальных метрик качества и применимости генерируемых данных.

Излишняя «стерильность» получаемых данных: в общем случае неизвестно, какими могут быть выбросы в реальных данных^[3].

Примеры

Автономный транспорт

Автономный транспорт — это вид транспорта, управление которым осуществляется без участия человека при помощи оптических датчиков, систем геолокации и компьютерных алгоритмов^[4]. При реализации алгоритмов управления автономным транспортом наиболее важно поведение транспортного средства в критических ситуациях, таких как помехи на дороге или некорректные показания сенсоров — от этого могут зависеть жизни людей. В реальных данных же, наоборот, в основном присутствуют штатные ситуации.

Для решения этой проблемы компания nVidia разработала платформу NVIDIA DRIVE Constellation^[5], которая состоит из двух серверов. Один из них исполняет роль обучаемого транспортного средства, а второй непрерывно генерирует для первого различные «миниатюрные миры», включающие в себя симуляцию вывода с камеры, радара и лидаров.

В обучении компания использует два режима — симуляция объектов (англ. postperception simulation) и симуляция мира (англ. end-to-end simulation). В режиме симуляции объектов из сгенерированных миров обучаемому алгоритму передаётся список объектов и их подробное описание, в свою очередь алгоритм должен выбрать дальнейшие действия автомобиля. В режиме симуляции мира на вход алгоритму подаются показания датчиков из сгенерированного мира, и алгоритм должен также распознать с помощью этих показаний присутствующие вокруг объекты и их характеристики. Этот режим полезен тем, что он более похож на реальный мир и учитывает помехи, возникающие на сенсорах.

TextSharpener

Пример работы TextSharpener. Слева — исходное изображение, посередине — размытое, справа — результат работы алгоритма.

Одно из самых наглядных применений аугментации данных — алгоритмы восстановления изображений. Для работы таких алгоритмов исходный набор изображений расширяется их копиями, к которым применяются некие преобразования из фиксированного набора. На основе полученных изображений генерируется датасет, в котором входными данными считаются полученные изображения, а целевыми — исходные.

В самом деле, получить реальные данные для такой задачи — фотографию и её же нечеткую копию — довольно затруднительно, а применение таких преобразований довольно легко автоматизируется. Таким образом, если исходные изображения достаточно хорошо описывали источник данных, то полученный датасет можно применять для обучения алгоритма восстановления изображений, устраняющего применённые преобразования.

Один из известных алгоритмов такого рода — TextSharpener^[6]. Этот алгоритм, разработанный в Университете Исландии и основанный на свёрточной нейронной сети, позволяет убирать размытие текста на изображениях.

OmniSCV

Фотография, сделанная широкоугольной камерой

Нередко различные устройства оснащаются широкоугольными и панорамными камерами с углом обзора до 360°. Изображения, получаемые с таких камер, обладают довольно сильными искажениями. Генератор изображений комнат OmniSCV^[7] используется при разработке роботов для обучения алгоритмов компьютерного зрения для устранения искажений широкоугольных объективов и неидеальных условий освещённости.

FlyingChairs

Датасет FlyingChairs^[8] и его производные представляют из себя наборы изображений, на которые искусственно добавлены предметы в движении (например, стулья). Эти наборы данных применяются при решении таких задач компьютерного зрения, как семантическая сегментация, поиск и локализация объекта, а также более сложных, например, для поиска движения.

VC-Clothes

Датасет VC-Clothes^[9] создан для разработки алгоритмов реидентификации — определения, действительно ли на двух изображениях один и тот же человек. Эти алгоритмы могут использоваться для нахождения людей на записях с камер, на пограничных пунктах и так далее. VC-Clothes представляет из себя сгенерированные изображения одинаковых людей в разной одежде и на разном фоне. Помимо реидентификации, этот датасет также может быть использован для решения задачи семантической сегментации, для отделения пикселей, соответствующих одежде, от пикселей, соответствующих лицу персонажа.

Примечания

↑ McGraw - Hill dictionary of scientific and technical terms / Под ред. Sybil P. Parker. - 3-е изд. - New York: McGraw - Hill book co., 1984
↑ Oversampling and undersampling in data analysis — https://en.wikipedia.org/wiki/Oversampling_and_undersampling_in_data_analysis — Retrieved January 11, 2021
↑ Если выбросы известны, то проблема может быть решена путём настройки параметров генератора.
↑ Self-driving car — https://en.wikipedia.org/wiki/Self-driving_car — Retrieved January 8, 2021
↑ El Emam, K. Accelerating AI with Synthetic Data — Beijing, Boston, Farnham, Sebastopol, Tokyo: O'Reilly Media, Inc., 2020.
↑ Unblurring images of text with convolutional neural networks — https://gardarandri.github.io/TextSharpener/ — Retrieved January 8, 2021
↑ https://www.mdpi.com/1424-8220/20/7/2066/htm
↑ Computer Vision Group, Freiburg — https://lmb.informatik.uni-freiburg.de/resources/datasets/FlyingChairs.en.html — Retrieved January 11, 2021
↑ VC-Clothes — https://wanfb.github.io/dataset.html — Retrieved January 11, 2020

[mcgrawhilldict-1] McGraw - Hill dictionary of scientific and technical terms / Под ред. Sybil P. Parker. - 3-е изд. - New York: McGraw - Hill book co., 1984

[wiki:oversampling-2] Oversampling and undersampling in data analysis — https://en.wikipedia.org/wiki/Oversampling_and_undersampling_in_data_analysis — Retrieved January 11, 2021

[3] Если выбросы известны, то проблема может быть решена путём настройки параметров генератора.

[4] Self-driving car — https://en.wikipedia.org/wiki/Self-driving_car — Retrieved January 8, 2021

[5] El Emam, K. Accelerating AI with Synthetic Data — Beijing, Boston, Farnham, Sebastopol, Tokyo: O'Reilly Media, Inc., 2020.

[TextSharpener-6] Unblurring images of text with convolutional neural networks — https://gardarandri.github.io/TextSharpener/ — Retrieved January 8, 2021

[OmniSCV-7] ttps://www.mdpi.com/1424-8220/20/7/2066/htm

[FlyingChairs-8] Computer Vision Group, Freiburg — https://lmb.informatik.uni-freiburg.de/resources/datasets/FlyingChairs.en.html — Retrieved January 11, 2021

[VC-Clothes-9] VC-Clothes — https://wanfb.github.io/dataset.html — Retrieved January 11, 2020

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

@@ Строка 9: / Строка 9: @@
 Сгенерированные объекты можно использовать в задаче обучения с учителем для расширения обучающего множества, сведя её к задачам частичного обучения и самообучения. В тестовых множествах использовать синтетические наборы данных нельзя: в них должны быть только реальные объекты.
-Синтетические данные используют не только при недоступности реальных, но и для того, чтобы изменить распределение классов в уже имеющихся данных, дополнив их по определённому алгоритму<ref name="wiki:oversampling">Oversampling and undersampling in data analysis — https://en.wikipedia.org/wiki/Oversampling_and_undersampling_in_data_analysis — Retrieved January 11, 2020</ref>.
+Синтетические данные используют не только при недоступности реальных, но и для того, чтобы изменить распределение классов в уже имеющихся данных, дополнив их по определённому алгоритму<ref name="wiki:oversampling">Oversampling and undersampling in data analysis — https://en.wikipedia.org/wiki/Oversampling_and_undersampling_in_data_analysis — Retrieved January 11, 2021</ref>.
 При генерации синтетических наборов данных необходимо учитывать специфику каждого конкретного случая, общего алгоритма, подходящего для всех случаев не существует.  Как правило, общие алгоритмы наподобие добавления средних значений оказываются нерепрезентативными.
@@ Строка 43: / Строка 43: @@
 === Автономный транспорт ===
-Автономный транспорт — это вид транспорта, управление которым осуществляется без участия человека при помощи оптических датчиков, систем геолокации и компьютерных алгоритмов<ref>Self-driving car — https://en.wikipedia.org/wiki/Self-driving_car — Retrieved January 8, 2020</ref>. При реализации алгоритмов управления автономным транспортом наиболее важно поведение транспортного средства в критических ситуациях, таких как помехи на дороге или некорректные показания сенсоров — от этого могут зависеть жизни людей. В реальных данных же, наоборот, в основном присутствуют штатные ситуации.
+Автономный транспорт — это вид транспорта, управление которым осуществляется без участия человека при помощи оптических датчиков, систем геолокации и компьютерных алгоритмов<ref>Self-driving car — https://en.wikipedia.org/wiki/Self-driving_car — Retrieved January 8, 2021</ref>. При реализации алгоритмов управления автономным транспортом наиболее важно поведение транспортного средства в критических ситуациях, таких как помехи на дороге или некорректные показания сенсоров — от этого могут зависеть жизни людей. В реальных данных же, наоборот, в основном присутствуют штатные ситуации.
 Для решения этой проблемы компания nVidia разработала платформу NVIDIA DRIVE Constellation<ref>[https://www.nvidia.com/content/dam/en-zz/Solutions/deep-learning/resources/accelerating-ai-with-synthetic-data-ebook/accelerating-ai-with-synthetic-data-nvidia_web.pdf El Emam, K. Accelerating AI with Synthetic Data] — Beijing, Boston, Farnham, Sebastopol, Tokyo: O'Reilly Media, Inc., 2020.</ref>, которая состоит из двух серверов. Один из них исполняет роль обучаемого транспортного средства, а второй непрерывно генерирует для первого различные «миниатюрные миры», включающие в себя симуляцию вывода с камеры, радара и лидаров.
@@ Строка 57: / Строка 57: @@
 В самом деле, получить реальные данные для такой задачи — фотографию и её же нечеткую копию — довольно затруднительно, а применение таких преобразований довольно легко автоматизируется. Таким образом, если исходные изображения достаточно хорошо описывали источник данных, то полученный датасет можно применять для обучения алгоритма восстановления изображений, устраняющего применённые преобразования.
-Один из известных алгоритмов такого рода — TextSharpener<ref name="TextSharpener">Unblurring images of text with convolutional neural networks — https://gardarandri.github.io/TextSharpener/ — Retrieved January 8, 2020</ref>. Этот алгоритм, разработанный в Университете Исландии и основанный на [[Сверточные нейронные сети|свёрточной нейронной сети]], позволяет убирать размытие текста на изображениях.
+Один из известных алгоритмов такого рода — TextSharpener<ref name="TextSharpener">Unblurring images of text with convolutional neural networks — https://gardarandri.github.io/TextSharpener/ — Retrieved January 8, 2021</ref>. Этот алгоритм, разработанный в Университете Исландии и основанный на [[Сверточные нейронные сети|свёрточной нейронной сети]], позволяет убирать размытие текста на изображениях.
 === OmniSCV ===
@@ Строка 68: / Строка 68: @@
 === FlyingChairs ===
-Датасет '''FlyingChairs''' <ref name="FlyingChairs">https://lmb.informatik.uni-freiburg.de/resources/datasets/FlyingChairs.en.html</ref> и его производные представляют из себя наборы изображений, на которые искусственно добавлены предметы в движении (например, стулья). Эти наборы данных применяются при решении таких задач компьютерного зрения, как [[Сегментация изображений|семантическая сегментация]], [[Компьютерное зрение#Идентификация|поиск]] и [[Компьютерное зрение#Распознавание объектов|локализация ]] объекта, а так же более сложных, таких как поиск движения и связанные с ним задачи.
+Датасет FlyingChairs<ref name="FlyingChairs">Computer Vision Group, Freiburg — https://lmb.informatik.uni-freiburg.de/resources/datasets/FlyingChairs.en.html — Retrieved January 11, 2021</ref> и его производные представляют из себя наборы изображений, на которые искусственно добавлены предметы в движении (например, стулья). Эти наборы данных применяются при решении таких задач компьютерного зрения, как [[Сегментация изображений|семантическая сегментация]], [[Компьютерное зрение#Идентификация|поиск]] и [[Компьютерное зрение#Распознавание объектов|локализация]] объекта, а также более сложных, например, для поиска движения.
 === VC-Clothes ===
-Датасет '''VC-Clothes''' <ref name="VC-Clothes">https://wanfb.github.io/dataset.html</ref> создан для разработки алгоритмов реидентификации <ref>Определения, находится ли один и тот же человек на двух изображениях, или это разные люди.</ref> людей на записях с камер. Этот набор данных представляет из себя сгенерированные изображения одинаковых людей, одетых по-разному и на разном фоне. Помимо реидентификации, этот датасет также может быть использован для решения задачи семантической сегментации, для отделения пикселей, соответствующих одежде, от пикселей, соответствующих лицу персонажа.
+Датасет VC-Clothes<ref name="VC-Clothes">VC-Clothes — https://wanfb.github.io/dataset.html — Retrieved January 11, 2020</ref> создан для разработки алгоритмов '''реидентификации''' — определения, действительно ли на двух изображениях один и тот же человек. Эти алгоритмы могут использоваться для нахождения людей на записях с камер, на пограничных пунктах и так далее. VC-Clothes представляет из себя сгенерированные изображения одинаковых людей в разной одежде и на разном фоне. Помимо реидентификации, этот датасет также может быть использован для решения задачи семантической [[Сегментация изображений|сегментации]], для отделения пикселей, соответствующих одежде, от пикселей, соответствующих лицу персонажа.
 == Примечания ==
 <references/>

Синтетические наборы данных — различия между версиями

Версия 23:43, 11 января 2021

Содержание

Применение

Виды генерации

Достоинства

Недостатки

Примеры

Автономный транспорт

TextSharpener

OmniSCV

FlyingChairs

VC-Clothes

Примечания

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты