Изменения

Перейти к: навигация, поиск

Синтетические наборы данных

5 байт добавлено, 12:29, 21 января 2021
м
Нет описания правки
Один из известных алгоритмов такого рода — TextSharpener<ref name="TextSharpener">Unblurring images of text with convolutional neural networks — https://gardarandri.github.io/TextSharpener/ — Retrieved January 8, 2021</ref>. Этот алгоритм, разработанный в Университете Исландии и основанный на [[Сверточные нейронные сети|свёрточной нейронной сети]], позволяет убирать размытие текста на изображениях (см. рис. 1). Для подготовки набора данных, который подошёл для обучения такого алгоритма, хватило [https://github.com/gardarandri/TextSharpener/blob/master/generator/GenImages.py тривиального скрипта] на Python, генерирующего случайные прямоугольники и надписи на них, а затем размывавшего их.
[[Файл:Jefferson_Graham_on_Manhattan_Beach_Pier.jpeg|200px|thumb|left|Рис. 2. Фотография, сделанная широкоугольной камерой.]]
=== OmniSCV ===
(\theta, \phi) = ((\frac{2x}{x_{max}}-1)\pi, (1/2 - \frac{y}{y_{max}})\pi)</tex>, где <tex>(x, y)</tex> — координаты пикселя, а <tex>(x_{max}, y_{max})</tex> — разрешение изображения.
{{wide image|Omniscv-example.png|1580px|Рис 3. Примеры полученных панорам. Слева направо: равноугольная, цилиндрическая и нецентральная (non-central) проекция.}}
[[Файл:Flyingchairs.png|200px|thumb|right|Рис 4. Пример из набора FlyingChairs.]]
Для создания набора была использована известная компьютерная игра Grand Theft Auto V. Эта игра поддерживает детальную настройку внешнего вида персонажей, произвольные параметры окружающей среды (освещение, угол обзора) и большое количество встроенных сцен — множество улиц, зданий и других мест. При генерации фиксируется маршрут каждого персонажа и позиции камер. Не со всех ракурсов распознаётся непосредственно лицо (см. рис. 5), но человек вполне может быть распознан по полу, возрасту, фигуре, причёске и другим характеристикам. В итоге датасет включает 512 персонажей, 4 сцены и в среднем 9 изображений для каждого персонажа и каждой сцены.
[[Файл:SynthText-in-the-Wild.png|200px|thumb|right|Рис. 6. Пример изображения из набора SynthText in the Wild.]]
=== SynthText in the Wild ===
Чтобы полученный набор выглядел натурально, применяется следующий подход<ref name="SynthText-paper">Gupta A., Vedaldi A., Zisseman A. Synthetic Data for Text Localisation in Natural Images // IEEE Conference on Computer Vision and Pattern Recognition — 2016</ref>. Сначала изображение делится на несколько областей в зависимости от значений соседних цветов и текстуры. Затем с помощью [[Сверточные нейронные сети|CNN]] строится карта глубины — определяется, какая точка ближе к камере, а какая дальше (рис. 7). После этого можно по каждой области определить нормаль к поверхности. Наконец, на основе цвета области выбирается цвет текста (и иногда — контура), случайным образом выбирается шрифт, после чего текст «накладывается» на изображение с помощью геометрических трансформаций и преобразования Пуассона. Этот процесс повторяется несколько раз, чтобы наложить сразу несколько текстовых объектов на изображение.
{{wide image|Synthtext-Generation-Process.png|1580px|Рис 7. Процесс подготовки фонового изображения. Слева направо: исходное изображение; карта глубины (светлее — дальше); разбиение на поверхности; области для нанесения текста и случайно выбранный для них цвет.}}
[[Файл:UnityEyes.png|200px|thumb|left|Рис. 8. Образцы глаз, смотрящие в различных направлениях.]]
=== UnityEyes ===

Навигация