Изменения

Перейти к: навигация, поиск

Известные наборы данных

11 971 байт добавлено, 04:46, 16 января 2021
м
Структура датасета и примеры изображений
| 30
| не описано
|-
| ICDAR 2017 "COCO Text"
| набор данных, основанный на датасете "MS COCO"<ref>https://vision.cornell.edu/se3/wp-content/uploads/2019/01/ICDAR2017b.pdf</ref>, где собраны обычные изображения ежедневных сцен, на которых, возможно, присутствует текст
| 63686 изображений, 43686 {{---}} обучающая выборка,10000 {{---}} валидирующая выборка, 10000 {{---}} тестовая
| 173589 слов
| не описано
|-
| Pointing'04
| Изображения лиц людей с разными углами поворота и наклона
| 15 сетов по 186 изображений в каждом
| 93
| 7.9% <ref>https://www.researchgate.net/publication/221125207_Generalized_subspace_based_high_dimensional_density_estimation</ref>
|-
| FASSEG
| Изображения лиц людей с разными углами поворота, как в оригинале, так и в сегментированном виде
| Часть frontal01: 70, часть frontal02: 70, часть multipose01: 200
| frontal01 и frontal02 {{---}} разделяют изображение на 6 различных сегментов, multipose01 {{---}} 13 углов поворота
| 7.73% <ref>https://github.com/massimomauro/FASSEG-repository/blob/master/papers/multiclass_face_segmentation_ICIP2015.pdf</ref> для сегментации, 22.6% <ref>https://github.com/massimomauro/FASSEG-repository/blob/master/papers/pose_estimation_by_segmentation_ICME2017.pdf</ref> для определения поз
|-
| MPI
| Изображения повседневной деятельности людей в различных позах
| 25 тысяч
| 410
| ~10% <ref>http://human-pose.mpi-inf.mpg.de/#results</ref>
|}
[[Файл:cub_dataset_logo.jpg |мини|Пример изображений из CUB [http://www.vision.caltech.edu/visipedia/collage.jpg Оригинал]]]
===Описание===
Caltech-UCSD Birds 200 {{---}} это набор данных, содержащий изображения птиц. Данный набор включает в себя фотографии 200 видов птиц (. Большинство видов птиц, представленных в основном североамериканских)наборе данных, являются североамериканскими. Общее количество категорий птиц составляет 200, в набор данных 2010 года влючены 6033 изображения, а в набор данных 2011 года {{--- }} 11 788 изображений.
===Поиск и аннотация изображений===
Изображения для набора днанных были загружены получены с сайта Flickr и отфильтрованы сотрудниками с помощью Amazon Mechanical Turk. Каждое изображение аннотировано ограничивающей рамкойграницей области, содержащей птицу, грубой сегментацией птиц и , набором меток атрибутови текстовым описанием.
{|align="center"
===Описание===
[[Файл:flowers-examples.jpg|мини| Примеры изображений из Oxford Flowers 102]]
Oxford Flowers 102 {{---}} набор данных, состоящий из цветов, встречающихся в Соединенном Королевстве. Набор стоит состоит из 102 видов цветов. Каждый вид представлен изображениями в количестве и содержит от 40 до 258изображений каждого вида. Изображения Все изображения имеют крупный масштаб. Цветы представлены в различных ракурсах и вариациях освещения. Кроме того, в наборе присутствуют виды цветов очень похожие друг на друга.
Набор данных делится на обучающий набор, проверочный набор и тестовый наборы. Каждый обучающий и проверочный наборы состоят из 10 изображений на класс (всего 1020 изображений каждый). Тестовый набор состоит из оставшихся 6149 изображений (минимум 20 изображений на класс).
{|align="center"
[[Файл:Visual_Genome_учфьзду.png|мини| 600px|Результат визуализации]]
===Описание===
Visual Genome {{---}} это набор данных, связывающий изображения с словестным со словесным описанием их содержимого. Является черпывающим исчерпывающим набором данных для обучения и тестирования моделей компьютерного зрения, обеспечивает многослойное понимание картинокобширный анализ содержимого в изображениях с учетом зависимостей между объектами. Это позволяет многосторонне изучать изображениеиспользовать набор данных для решения большого количества различных задач: от информации на уровне пикселей, такой как объекты, поиска объектов до поиска отношений, требующих дальнейшего вывода, и даже более глубокие задачи, такие как ответы связанные с ответами на вопросы.
Набор Изображение часто представляет сложную картину, которую невозможно полностью раскрыть одним предложением. Существующие наборы данных содержит более 108К изображений, каждое из которых изображение имеет такие как Flickr 30K, ориентированы на высокоточное описание всего изображения в среднем 35 объектов, 26 атрибутов и 21 парное отношение между объектамицелом. Мы канонизируем объекты, атрибуты, отношения и словосочетания Вместо этого для каждого изображения в описаниях Visual Genome собираются более 50 описаний для разных регионов и пары вопрос-ответ в WordNet синсеты. Вместе эти аннотации представляют самый плотный и самый большой изображения, обеспечивая тем самым намного более полный набор данных с описаниями изображений, объекты, атрибуты, отношения и вопрос-ответ парыописаний.
Изображение часто представляет сложную картинуНабор данных содержит более 108К изображений, каждое из которых имеет в среднем 35 объектов, которую невозможно полностью раскрыть одним предложением26 атрибутов и 21 парное отношение между объектами. Существующие наборы В данном наборе данныхпроисходит канонизация объектов, такие как Flickr 30Kатрибутов, ориентированы на высокоточное описание изображенияотношений и словосочетаний в описаниях регионов и пар вопрос-ответ в синсеты из [https://ru. Вместо этого wikipedia.org/wiki/WordNet WordNet]. Cинсет {{---}} это набор даных, элементы в котором считаются семантически эквивалентными для каждого изображения в поиска или восстановления информации. Visual Genomeявляется самым большим набором данных с описаниями изображений, объектов, собираются более 50 описаний для разных регионов изображенияатрибутов, обеспечивая намного более полный набор описаний сценариевотношений и пар вопрос-ответ.
===Код===
</math>, где <math>iTP</math>, <math>FP</math> и <math>iFN</math> обозначают количество истинно положительных, ложноположительных и ложно отрицательных пикселей соответственно. Сейчас лучшей нейронной сетью для этого набора данных в задаче семантической сегментации данных является [https://www.cityscapes-dataset.com/benchmarks/#scene-labeling-task DAHUA-ARI], которая позволяет достичь индекс Жаккара 85.8% и iIoU 70.6% для классов, индекс Жаккара 93.2% и iIoU 85.4% для категорий, соответственно.
==См.также==
* [[Общие понятия]]
* [[Сегментация изображений]]
* [[Задача нахождения объектов на изображении]]
* [[Оценка качества в задачах классификации и регрессии]]
==ICDAR==
[[Файл:ICDAR2017.png|мини|Пример изображения из датасета ICDAR2017 Competition on Multi-lingual Scene Text Detection and Script Identification (MLT) [https://arxiv.org/pdf/1812.05219.pdf источник]]]
===Описание===
ICDAR<ref>https://rrc.cvc.uab.es/</ref> (англ. International Conference on Document Analysis and Recognition) {{---}} это международная конференция по анализу и распознаванию текста и одноименное семейство набора данных, состоящее из фотографий, на которых изображен текст на разных языках. Данные наборы создаются для соревнований ICDARRRC (англ.Robust Reading Competition), где требуется решить следующие задачи: обнаружение текста, сегментация текста, распознавание символов, сквозное распознавание, распознавание скриптов, ответы на вопросы, связанные с изображениями.Ниже приведен анализ наборов данных ICDAR2013, ICDAR2015, ICDAR2017, ICDAR2019.  ===ICDAR 2013=== {| class="wikitable"|-! Наименование датасета! Тип текста! Количество объектов! Количество обучающих объектов! Количество тестовых объектов! Количество слов! Количество обучающих слов! Количество тестовых слов! Язык текста на изображениях! Задачи|-| ICDAR 2013 "Born Digital Images"| изображения, извлеченные с веб-страниц и сообщений электронной почты| 561| 420 | 141 | 5003| 3564| 1439| Английский| обнаружение текста, сегментация текста, распознавание символов|-| ICDAR 2013 "Focused Scene Text" | изображения с текстом на вывесках, логотипах и т.д.| 462| 229 | 233 | 1943| 848 | 1095 | Английский| обнаружение текста, сегментация текста, распознавание символов|}
===ICDAR 20132015===
ICDAR 2013 {{| class="wikitable"|-! Наименование датасета! Тип текста! Количество объектов! Количество обучающих объектов! Количество тестовых объектов! Количество слов! Количество обучающих слов! Количество тестовых слов! Язык текста на изображениях! Задачи|--}} набор данных включает | ICDAR 2015 "Born Digital Images"| изображения, извлеченные с веб-страниц и сообщений электронной почты. В датасете содержится репрезентативная выборка веб-страниц различных категорий (новости| 561| 420 | 141 | 5003| 3564| 1439| Английский| обнаружение текста, личныесегментация текста, коммерческиераспознавание символов, социальныесквозное распознавание|-| ICDAR 2015 "Focused Scene Text" | изображения с текстом на вывесках, правительственные логотипах и т.д.)| 462| 229 | 233 | 1943| 848 | 1095 | Английский| обнаружение текста, сегментация текста, распознавание символов, а также электронные письма разного типа (спамсквозное распознавание|-| ICDAR 2015 "Incidental Scene Text" | изображения, информационные бюллетени и тна которых текст попал в поле зрения камеры Google Glass случайно<ref>https://rrc.cvc.дuab.es/?ch=4</ref>| 1670 (1500 публичных) на трех языках {{| 1000| 500| 17548| -| --}} | Английский| обнаружение текста, Испанскийсегментация текста, Французский, в пропорциях, которые отражают их использование в реальном мире. Размер набора данных составляет 561 изображение с минимальным размером 100x100 пикселей. Коллекция была разделена на обучающий набор из 420 изображений и тестовый набор из 141 изображения. Для задачи распознавания слов учитывались только слова длиной от 3 распознавание символов. Набор данных содержит 5003 таких слова, из которых 3564 составляют обучающий набор, а 1439 {{---}сквозное распознавание|} тестовый.
===Структура ICDAR 2017=== {| class="wikitable"|-! Наименование датасета! Тип текста! Количество объектов! Количество обучающих объектов! Количество тестовых объектов! Количество слов! Количество обучающих слов! Количество тестовых слов! Язык текста на изображениях! Задачи|-| ICDAR 2017 "COCO-Text"| набор данных , основанный на датасете "MS COCO"<ref>https://wwwvision.cityscapes-datasetcornell.comedu/se3/datasetwp-overviewcontent/#featuresuploads/2019/01/ICDAR2017b.pdf</ref>, где собраны обычные изображения ежедневных сцен, на которых, возможно, есть текст| 63686| 43686 | 10000 {{---}} валидирующая выборка, 10000 {{---}} тестовая| 173589| -| -| Французский| сквозное распознавание|-| ICDAR 2017 "Multi-lingual Scene Text" | изображения с текстом на 9 различных языках| 18 000| - | - | 107 547(тренировочные + валидирующие слова)| - | -| Английский, Арабский, Бенгальский, Китайский, Французский, Немецкий, Японский, Корейский| обнаружение текста, сегментация текста|-| ICDAR 2017 "French Street Name Signs" | изображения, на которых есть названия француззских улиц| 1 081 422, где каждое изображение содержит до 4 объектов с названией улицы| -| -| -| - | - | Английский| обнаружение текста, сегментация текста, распознавание символов, сквозное распознавание|} ===ICDAR 2019=== {| class="wikitable"|-! Наименование датасета! Тип текста! Количество объектов! Количество обучающих объектов! Количество тестовых объектов! Количество слов! Количество обучающих слов! Количество тестовых слов! Язык текста на изображениях! Задачи|-| ICDAR 2019 "COCO-Text"Всего в наборе | набор данных находится 25 , основанный на датасете "MS COCO"<ref>https://vision.cornell.edu/se3/wp-content/uploads/2019/01/ICDAR2017b.pdf</ref>, где собраны обычные изображения ежедневных сцен, на которых, возможно, есть текст| 63686| 43686 | 10000 {{---}} валидирующая выборка, 10000 {{---}} тестовая| 173589| -| -| Французский| сквозное распознавание|-| ICDAR 2019 "Multi-lingual Scene Text"<ref>https://arxiv.org/pdf/1907.00945.pdf</ref>| изображения с текстом на 10 различных языках| 20 000 (2 000 для каждого языка) + 277 000 сгенерированных изображения| 10 000| 10 000 изображений| -| - | -| Английский, Арабский, Бенгальский, Деванагари, Китайский, Французский, Немецкий, Японский, Корейский| обнаружение текста, идентификация скрипта, из них 5000 составляют сквозное распознавание|-| ICDAR 2019 "Scene Text Visual Question Answering" | набор с более детальными аннотациями данных, включающий23 038 изображений с разрешением 1024 * 204831 791 парой вопросов и ответов, предварительно разделенных где ответ всегда основан на наборы для обучения присутствующих текстовых экземплярахна изображении.| -| -| -| -| - | - | Английский| ответ на вопрос, связанный с изображением|} {|align="center" |-valign="top" |[[Файл:ICDARSamples.png |600px|thumb|Сэмплы из датасетов ICDAR 2011, ICDAR 2015, ICDAR 2017]] |} {|align="center" |-valign="top" |[[Файл:ICDAR2019Sample.png |600px|thumb|Сэмпл из датасета ICDAR 2019 "Scene Text Visual Question Answering"]] |}  ==Pointing'04== ===Описание=== Pointing'04 <ref>http://crowley-coutaz.fr/FGnet/reports/Pointing04-Proceedings.pdf</ref> {{---}} 2975база данных изображений лиц в разных позах 15-ти человек. Для каждого человека представлено 93 позы, при этом каждая фотография предложена в двух вариантах освещения и масштаба (две разные сессии). Снимки, проверки сделанные во время первого сеанса, используются в качестве обучающих данных, а изображения из второго сеанса используются в качестве данных тестирования. 93 позы включают комбинации 13-и поз поворота и 7-и поз наклона вместе с двумя крайними случаями наклона при отсутствии поворота. ===Пример сета изображений=== {|align="center" |-valign="top" |[[Файл:Pointing.png|600px|thumb|Пример сета изображений Pointing'04[https://www.researchgate.net/publication/221545772_Evaluation_of_Head_Pose_Estimation_for_Studio_Data Источник]]] |} ==FASSEG== ===Описание=== Репозиторий FASSEG <ref>http://massimomauro.github.io/FASSEG-repository/</ref> (англ. FAce Semantic SEGmentation ) состоит из двух наборов данных (Frontal01 и Frontal02) для сегментации лиц в фронтальном положении и одного набора данных (Multipose01) с лицами в нескольких позах. Frontal01 содержит 70 сегментированных изображений лиц и исходные изображения RGB. Исходные лица в основном взяты из наборов данных [http://cbcl.mit.edu/software-datasets/FaceData2.html MIT-CBCL] и [http://www.fei.edu.br/~cet/facedatabase.html FEI]. Frontal02 {{---}} 500 это «высокоточный» Frontal01. Он содержит те же изображения, что и Frontal01, но с гораздо более точной сегментацией. Multipose01 содержит более 200 размеченных лиц в 13-ти позах (от -90 градусов до 90 градусов). Исходные лица взяты из базы данных [http://crowley-coutaz.fr/FGnet/reports/Pointing04-Proceedings.pdf Pointing'04]. ===Сегментация=== {|align="right" |-valign="top" |[[Файл:FASSEG3.png|300px|thumb|Сегментация изображения [https://github.com/massimomauro/FASSEG-repository/blob/master/papers/multiclass_face_segmentation_ICIP2015.pdf Источник]]] |} Изображение размечается на 6 сегментов:*Глаза*Нос*Рот*Волосы (вместе с бровями)*Фон изображения*Кожа ===Примеры изображений===  {|align="center" |-valign="top" |[[Файл:FASSEG1.png|300px|thumb|Пример изображений из датасетов Frontal01 и тестирования Frontal02 [https://raw.githubusercontent.com/massimomauro/FASSEG-dataset/master/other/V1V2_diff.png Оригинал]]] |[[Файл:FASSEG2.png|400px|thumb|Пример изображений из датасета Multipose01 [https://github.com/massimomauro/FASSEG-repository/blob/master/papers/pose_estimation_by_segmentation_ICME2017.pdf Источник]]] |}  ==MPI== ===Описание=== MPI Human Pose <ref>http://human-pose.mpi-inf.mpg.de/</ref> (англ. Max Planck Institute) {{---}} 1525это набор данных, позволяющий определять различные виды активности человека по позам на изображениях и аннотациям к ним. Оставшиеся 20 000 Набор данных включает около 25 тысяч изображений имеют грубые , содержащих более 40 тысяч людей с указанным положением отдельных частей тела. Изображения систематически собирались с использованием установленной таксономии повседневной деятельности человека. В целом набор данных охватывает 410 видов деятельности человека, каждое изображение снабжено меткой активности. Каждое изображение было извлечено из видео с YouTube и снабжено предшествующими и последующими кадрами без аннотации. Кроме того, позволяющие применять методыдля тестового набора приложены более детальные аннотации, использующие большие объемы данных со слабой маркировкойвключая сгибы частей тела и ориентации туловища и головы. ===Структура датасета и примеры изображений=== {|align="right" |-valign="top" |[[Файл: MPI1.jpg|500px|thumb|Пример изображений из подкласса датасета MPI [http://human-pose.mpi-inf.mpg.de/#dataset Источник]]] |} Датасет представлен двадцатью различными классами активности: езда на велосипеде, упражнения, танцы, рыбалка и охота, домашняя активность, ремонт, отдых, активность на природе, игра на музыкальных инструментах, религиозная деятельность, бег, самоуход, спорт, передвижение на транспорте, волонтерство, прогулки, активность на воде, зимние виды активности, разное.
===Результаты===Каждый класс также разделен на уникальные подклассы.
Основной метрикой для этого набора данных является [[Оценка качества в задаче кластеризации#Индекс Жаккара (англ. Jaccard Index)|индекс Жаккара]]. Также, хорошо известно, что глобальная мера [[Оценка качества в задаче кластеризации#Индекс Жаккара (англ. Jaccard Index)|индекс Жаккара]] смещена в сторону экземпляров Датасет снабжен документацией с описанием структуры объектов, которые покрывают большую область изображения. В уличных сценах и методами взаимодействия с их сильным изменением масштаба это может быть проблематично.Чтобы решить эту проблемуними, создатели датасета дополнительно оценивают семантическую маркировку, используя метрику пересечения всю необходимую информацию по объединению на уровне экземпляра {{---}}<math>iIoU = \dfrac{iTP}{iTP + FP + iFN}</math>датасету, где <math>iTP</math>, <math>FP</math> как и <math>iFN</math> обозначают количество истинно положительныхсами исходники, ложноположительных и ложно отрицательных пикселей соответственно. Сейчас лучшей нейронной сетью для этого набора данных в задаче семантической сегментации данных является можно получить по [httpshttp://wwwhuman-pose.cityscapesmpi-datasetinf.commpg.de/benchmarks/#scene-labeling-task DAHUA-ARIссылке], которая позволяет достичь индекс Жаккара 85.8% и iIoU 70.6% для классов, индекс Жаккара 93.2% и iIoU 85.4% для категорий, соответственно.
==См.также==
27
правок

Навигация