Изменения

Синтетические наборы данных

965 байт добавлено, 11:35, 20 января 2021

м

Нет описания правки

{{Определение

|definition='''Синтетические данные''' — это ~~наборы данных для применения~~ программно сгенерированные данные, используемые в прикладных задачах (в том числе в машинном обучении)~~, которые не были получены исключительно путём прямого сбора и измерений~~.

}}

* Возможность генерации наборов данных практически любого размера.

* Известность параметров генерации, а значит, и генеральной совокупности: можно сравнить оценки модели и истинные параметры, и исходя их этого судить о качестве полученных выборочных оценок ~~модели на параметры распределений путём сравнения их с истинными параметрами~~параметров.

* Ускорение и удешевление процесса разработки: не нужно ждать, пока будет собран и размечен достаточный объём реальных данных.

Для решения этой проблемы компания NVIDIA разработала платформу NVIDIA DRIVE Constellation<ref>[https://www.nvidia.com/content/dam/en-zz/Solutions/deep-learning/resources/accelerating-ai-with-synthetic-data-ebook/accelerating-ai-with-synthetic-data-nvidia_web.pdf El Emam, K. Accelerating AI with Synthetic Data] — Beijing, Boston, Farnham, Sebastopol, Tokyo: O'Reilly Media, Inc., 2020.</ref>, которая состоит из двух серверов. Один из них исполняет роль обучаемого транспортного средства, а второй непрерывно генерирует для первого различные «миниатюрные миры», включающие в себя симуляцию вывода с камеры, радара и лидаров.

В обучении компания использует два режима — симуляция ~~объектов~~ после восприятия (англ. ''postperception simulation'') и сквозная симуляция ~~мира~~ (англ. ''end-to-end simulation''). В режиме симуляции объектов из сгенерированных миров обучаемому алгоритму передаётся список объектов и их подробное описание, в свою очередь алгоритм должен выбрать дальнейшие действия автомобиля. В режиме симуляции мира на вход алгоритму подаются показания датчиков из сгенерированного мира, и алгоритм должен также распознать с помощью этих показаний присутствующие вокруг объекты и их характеристики. Этот режим полезен тем, что он более похож на реальный мир и учитывает помехи, возникающие на сенсорах.

=== TextSharpener ===

[[Файл:TextSharpener-Identity.png|200px|thumb|right|~~Изображение~~ Рис 1. Пример работы TextSharpener. Слева — ~~исходное~~ размытое изображение, посередине — ~~размытое~~исходное, справа — результат работы алгоритма.]]

Одно из самых наглядных применений аугментации данных — алгоритмы восстановления изображений. Для работы таких алгоритмов исходный набор изображений расширяется их копиями, к которым применяются некие преобразования из фиксированного набора. На основе полученных изображений генерируется датасет, в котором входными данными считаются полученные изображения, а целевыми — исходные.

=== FlyingChairs ===

~~Датасет~~ Набор данных FlyingChairs<ref name="FlyingChairs">Computer Vision Group, Freiburg — https://lmb.informatik.uni-freiburg.de/resources/datasets/FlyingChairs.en.html — Retrieved January 11, 2021</ref> и его производные представляют из себя наборы изображений, на которые искусственно добавлены предметы в движении (например, стулья). Эти наборы данных применяются при решении таких задач компьютерного зрения, как [[Сегментация изображений|семантическая сегментация]], [[Компьютерное зрение#Идентификация|поиск]] и [[Компьютерное зрение#Распознавание объектов|локализация]] объекта, а также более сложных, например, для поиска движения.

=== VC-Clothes ===

~~Датасет~~ Набор данных VC-Clothes<ref name="VC-Clothes">VC-Clothes — https://wanfb.github.io/dataset.html — Retrieved January 11, 2020</ref> создан для разработки алгоритмов '''реидентификации''' — определения, действительно ли на двух изображениях один и тот же человек. Эти алгоритмы могут использоваться для нахождения людей на записях с камер, на пограничных пунктах и так далее. VC-Clothes представляет из себя сгенерированные изображения одинаковых людей в разной одежде и на разном фоне. Помимо реидентификации, этот датасет также может быть использован для решения задачи семантической [[Сегментация изображений|сегментации]], для отделения пикселей, соответствующих одежде, от пикселей, соответствующих лицу персонажа. === SynthText in the Wild === [[Файл:SynthText-in-the-Wild.png|200px|thumb|right|Рис. 3. Пример изображения из набора SynthText in the Wild]] Набор данных SynthText in the Wild<ref name="SynthText">Visual Geometry Group - University of Oxford — https://www.robots.ox.ac.uk/~vgg/data/scenetext/ — Retrieved January 19, 2020</ref> разработан для обучения алгоритмов [[Распознавание текста на изображении|распознавания текста на изображении]]. Он берёт обычные изображения и накладывает на них тексты из определённого набора. Набор сопровождается подробной аннотацией: для каждого изображения указаны используемые фразы, а также координаты каждого слова и символа на изображении.

== См. также ==

Nsychev

Администраторы

91

правка

Изменения

Синтетические наборы данных

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты