Изменения

Известные наборы данных

11 971 байт добавлено, 04:46, 16 января 2021

м

→‎Структура датасета и примеры изображений

| 30

| не описано

|-

| ICDAR 2017 "COCO Text"

| набор данных, основанный на датасете "MS COCO"<ref>https://vision.cornell.edu/se3/wp-content/uploads/2019/01/ICDAR2017b.pdf</ref>, где собраны обычные изображения ежедневных сцен, на которых, возможно, присутствует текст

| 63686 изображений, 43686 {{---}} обучающая выборка,10000 {{---}} валидирующая выборка, 10000 {{---}} тестовая

| 173589 слов

| не описано

|-

| Pointing'04

| Изображения лиц людей с разными углами поворота и наклона

| 15 сетов по 186 изображений в каждом

| 93

| 7.9% <ref>https://www.researchgate.net/publication/221125207_Generalized_subspace_based_high_dimensional_density_estimation</ref>

|-

| FASSEG

| Изображения лиц людей с разными углами поворота, как в оригинале, так и в сегментированном виде

| Часть frontal01: 70, часть frontal02: 70, часть multipose01: 200

| frontal01 и frontal02 {{---}} разделяют изображение на 6 различных сегментов, multipose01 {{---}} 13 углов поворота

| 7.73% <ref>https://github.com/massimomauro/FASSEG-repository/blob/master/papers/multiclass_face_segmentation_ICIP2015.pdf</ref> для сегментации, 22.6% <ref>https://github.com/massimomauro/FASSEG-repository/blob/master/papers/pose_estimation_by_segmentation_ICME2017.pdf</ref> для определения поз

|-

| MPI

| Изображения повседневной деятельности людей в различных позах

| 25 тысяч

| 410

| ~10% <ref>http://human-pose.mpi-inf.mpg.de/#results</ref>

|}

[[Файл:cub_dataset_logo.jpg |мини|Пример изображений из CUB [http://www.vision.caltech.edu/visipedia/collage.jpg Оригинал]]]

===Описание===

Caltech-UCSD Birds 200 {{---}} это набор данных, содержащий изображения птиц. Данный набор включает в себя фотографии 200 видов птиц (. Большинство видов птиц, представленных в ~~основном североамериканских)~~наборе данных, являются североамериканскими. Общее количество категорий птиц составляет 200, в набор данных 2010 года влючены 6033 изображения, а в набор данных 2011 года {{--- }} 11 788 изображений.

===Поиск и аннотация изображений===

Изображения для набора днанных были ~~загружены~~ получены с сайта Flickr и отфильтрованы ~~сотрудниками~~ с помощью Amazon Mechanical Turk. Каждое изображение аннотировано ~~ограничивающей рамкой~~границей области, содержащей птицу, грубой сегментацией птиц и , набором меток атрибутови текстовым описанием.

{|align="center"

===Описание===

[[Файл:flowers-examples.jpg|мини| Примеры изображений из Oxford Flowers 102]]

Oxford Flowers 102 {{---}} набор данных, состоящий из цветов, встречающихся в Соединенном Королевстве. Набор стоит состоит из 102 видов цветов~~. Каждый вид представлен изображениями в количестве~~ и содержит от 40 до 258изображений каждого вида. ~~Изображения~~ Все изображения имеют крупный масштаб. Цветы представлены в различных ракурсах и вариациях освещения. Кроме того, в наборе присутствуют виды цветов очень похожие друг на друга.

Набор данных делится на обучающий набор, проверочный набор и тестовый наборы. Каждый обучающий и проверочный наборы состоят из 10 изображений на класс (всего 1020 изображений ~~каждый~~). Тестовый набор состоит из оставшихся 6149 изображений (минимум 20 изображений на класс).

{|align="center"

[[Файл:Visual_Genome_учфьзду.png|мини| 600px|Результат визуализации]]

===Описание===

Visual Genome {{---}} это набор данных, связывающий изображения ~~с словестным~~ со словесным описанием их содержимого. Является ~~черпывающим~~ исчерпывающим набором данных для обучения и тестирования моделей компьютерного зрения, обеспечивает ~~многослойное понимание картинок~~обширный анализ содержимого в изображениях с учетом зависимостей между объектами. Это позволяет ~~многосторонне изучать изображение~~использовать набор данных для решения большого количества различных задач: от ~~информации на уровне пикселей, такой как объекты,~~ поиска объектов до поиска отношений, требующих дальнейшего вывода, и даже ~~более глубокие~~ задачи, ~~такие как ответы~~ связанные с ответами на вопросы.

~~Набор~~ Изображение часто представляет сложную картину, которую невозможно полностью раскрыть одним предложением. Существующие наборы данных ~~содержит более 108К изображений~~, ~~каждое из которых изображение имеет~~ такие как Flickr 30K, ориентированы на высокоточное описание всего изображения в ~~среднем 35 объектов, 26 атрибутов и 21 парное отношение между объектами~~целом. ~~Мы канонизируем объекты, атрибуты, отношения и словосочетания~~ Вместо этого для каждого изображения в ~~описаниях~~ Visual Genome собираются более 50 описаний для разных регионов ~~и пары вопрос-ответ в WordNet синсеты. Вместе эти аннотации представляют самый плотный и самый большой~~ изображения, обеспечивая тем самым намного более полный набор ~~данных с описаниями изображений, объекты, атрибуты, отношения и вопрос-ответ пары~~описаний.

~~Изображение часто представляет сложную картину~~Набор данных содержит более 108К изображений, каждое из которых имеет в среднем 35 объектов, ~~которую невозможно полностью раскрыть одним предложением~~26 атрибутов и 21 парное отношение между объектами. ~~Существующие наборы~~ В данном наборе данныхпроисходит канонизация объектов, ~~такие как Flickr 30K~~атрибутов, ~~ориентированы на высокоточное описание изображения~~отношений и словосочетаний в описаниях регионов и пар вопрос-ответ в синсеты из [https://ru. ~~Вместо этого~~ wikipedia.org/wiki/WordNet WordNet]. Cинсет {{---}} это набор даных, элементы в котором считаются семантически эквивалентными для ~~каждого изображения в~~ поиска или восстановления информации. Visual Genomeявляется самым большим набором данных с описаниями изображений, объектов, ~~собираются более 50 описаний для разных регионов изображения~~атрибутов, ~~обеспечивая намного более полный набор описаний сценариев~~отношений и пар вопрос-ответ.

===Код===

</math>, где <math>iTP</math>, <math>FP</math> и <math>iFN</math> обозначают количество истинно положительных, ложноположительных и ложно отрицательных пикселей соответственно. Сейчас лучшей нейронной сетью для этого набора данных в задаче семантической сегментации данных является [https://www.cityscapes-dataset.com/benchmarks/#scene-labeling-task DAHUA-ARI], которая позволяет достичь индекс Жаккара 85.8% и iIoU 70.6% для классов, индекс Жаккара 93.2% и iIoU 85.4% для категорий, соответственно.

~~==См.также==~~

* [[Общие понятия]]

* [[Сегментация изображений]]

* [[Задача нахождения объектов на изображении]]

* [[Оценка качества в задачах классификации и регрессии]]

==ICDAR==

[[Файл:ICDAR2017.png|мини|Пример изображения из датасета ICDAR2017 Competition on Multi-lingual Scene Text Detection and Script Identification (MLT) [https://arxiv.org/pdf/1812.05219.pdf источник]]]

===Описание===

ICDAR<ref>https://rrc.cvc.uab.es/</ref> (англ. International Conference on Document Analysis and Recognition) {{---}} это международная конференция по анализу и распознаванию текста и одноименное семейство набора данных, состоящее из фотографий, на которых изображен текст на разных языках. Данные наборы создаются для соревнований ~~ICDAR~~RRC (англ.Robust Reading Competition), где требуется решить следующие задачи: обнаружение текста, сегментация текста, распознавание символов, сквозное распознавание, распознавание скриптов, ответы на вопросы, связанные с изображениями.Ниже приведен анализ наборов данных ICDAR2013, ICDAR2015, ICDAR2017, ICDAR2019. ===ICDAR 2013=== {| class="wikitable"|-! Наименование датасета! Тип текста! Количество объектов! Количество обучающих объектов! Количество тестовых объектов! Количество слов! Количество обучающих слов! Количество тестовых слов! Язык текста на изображениях! Задачи|-| ICDAR 2013 "Born Digital Images"| изображения, извлеченные с веб-страниц и сообщений электронной почты| 561| 420 | 141 | 5003| 3564| 1439| Английский| обнаружение текста, сегментация текста, распознавание символов|-| ICDAR 2013 "Focused Scene Text" | изображения с текстом на вывесках, логотипах и т.д.| 462| 229 | 233 | 1943| 848 | 1095 | Английский| обнаружение текста, сегментация текста, распознавание символов|}

===ICDAR ~~2013~~2015===

~~ICDAR 2013 {~~{| class="wikitable"|-! Наименование датасета! Тип текста! Количество объектов! Количество обучающих объектов! Количество тестовых объектов! Количество слов! Количество обучающих слов! Количество тестовых слов! Язык текста на изображениях! Задачи|-~~-}} набор данных включает~~ | ICDAR 2015 "Born Digital Images"| изображения, извлеченные с веб-страниц и сообщений электронной почты~~. В датасете содержится репрезентативная выборка веб-страниц различных категорий (новости~~| 561| 420 | 141 | 5003| 3564| 1439| Английский| обнаружение текста, ~~личные~~сегментация текста, ~~коммерческие~~распознавание символов, ~~социальные~~сквозное распознавание|-| ICDAR 2015 "Focused Scene Text" | изображения с текстом на вывесках, ~~правительственные~~ логотипах и т.д.)| 462| 229 | 233 | 1943| 848 | 1095 | Английский| обнаружение текста, сегментация текста, распознавание символов, ~~а также электронные письма разного типа (спам~~сквозное распознавание|-| ICDAR 2015 "Incidental Scene Text" | изображения, ~~информационные бюллетени и т~~на которых текст попал в поле зрения камеры Google Glass случайно<ref>https://rrc.cvc.дuab.es/?ch=4</ref>| 1670 (1500 публичных) ~~на трех языках {{~~| 1000| 500| 17548| -| -~~-}}~~ | Английский| обнаружение текста, ~~Испанский~~сегментация текста, Французский, в пропорциях, которые отражают их использование в реальном мире. Размер набора данных составляет 561 изображение с минимальным размером 100x100 пикселей. Коллекция была разделена на обучающий набор из 420 изображений и тестовый набор из 141 изображения. Для задачи распознавания слов учитывались только слова длиной от 3 распознавание символов~~. Набор данных содержит 5003 таких слова~~, ~~из которых 3564 составляют обучающий набор, а 1439 {{---}~~сквозное распознавание|} ~~тестовый.~~

===~~Структура~~ ICDAR 2017=== {| class="wikitable"|-! Наименование датасета! Тип текста! Количество объектов! Количество обучающих объектов! Количество тестовых объектов! Количество слов! Количество обучающих слов! Количество тестовых слов! Язык текста на изображениях! Задачи|-| ICDAR 2017 "COCO-Text"| набор данных , основанный на датасете "MS COCO"<ref>https://~~www~~vision.~~cityscapes-dataset~~cornell.~~com~~edu/se3/~~dataset~~wp-~~overview~~content/~~#features~~uploads/2019/01/ICDAR2017b.pdf</ref>, где собраны обычные изображения ежедневных сцен, на которых, возможно, есть текст| 63686| 43686 | 10000 {{---}} валидирующая выборка, 10000 {{---}} тестовая| 173589| -| -| Французский| сквозное распознавание|-| ICDAR 2017 "Multi-lingual Scene Text" | изображения с текстом на 9 различных языках| 18 000| - | - | 107 547(тренировочные + валидирующие слова)| - | -| Английский, Арабский, Бенгальский, Китайский, Французский, Немецкий, Японский, Корейский| обнаружение текста, сегментация текста|-| ICDAR 2017 "French Street Name Signs" | изображения, на которых есть названия француззских улиц| 1 081 422, где каждое изображение содержит до 4 объектов с названией улицы| -| -| -| - | - | Английский| обнаружение текста, сегментация текста, распознавание символов, сквозное распознавание|} ===ICDAR 2019=== {| class="wikitable"|-! Наименование датасета! Тип текста! Количество объектов! Количество обучающих объектов! Количество тестовых объектов! Количество слов! Количество обучающих слов! Количество тестовых слов! Язык текста на изображениях! Задачи|-| ICDAR 2019 "COCO-Text"~~Всего в наборе~~ | набор данных ~~находится 25~~ , основанный на датасете "MS COCO"<ref>https://vision.cornell.edu/se3/wp-content/uploads/2019/01/ICDAR2017b.pdf</ref>, где собраны обычные изображения ежедневных сцен, на которых, возможно, есть текст| 63686| 43686 | 10000 {{---}} валидирующая выборка, 10000 {{---}} тестовая| 173589| -| -| Французский| сквозное распознавание|-| ICDAR 2019 "Multi-lingual Scene Text"<ref>https://arxiv.org/pdf/1907.00945.pdf</ref>| изображения с текстом на 10 различных языках| 20 000 (2 000 для каждого языка) + 277 000 сгенерированных изображения| 10 000| 10 000 ~~изображений~~| -| - | -| Английский, Арабский, Бенгальский, Деванагари, Китайский, Французский, Немецкий, Японский, Корейский| обнаружение текста, идентификация скрипта, ~~из них 5000 составляют~~ сквозное распознавание|-| ICDAR 2019 "Scene Text Visual Question Answering" | набор ~~с более детальными аннотациями~~ данных, включающий23 038 изображений с ~~разрешением 1024 * 2048~~31 791 парой вопросов и ответов, ~~предварительно разделенных~~ где ответ всегда основан на ~~наборы для обучения~~ присутствующих текстовых экземплярахна изображении.| -| -| -| -| - | - | Английский| ответ на вопрос, связанный с изображением|} {|align="center" |-valign="top" |[[Файл:ICDARSamples.png |600px|thumb|Сэмплы из датасетов ICDAR 2011, ICDAR 2015, ICDAR 2017]] |} {|align="center" |-valign="top" |[[Файл:ICDAR2019Sample.png |600px|thumb|Сэмпл из датасета ICDAR 2019 "Scene Text Visual Question Answering"]] |} ==Pointing'04== ===Описание=== Pointing'04 <ref>http://crowley-coutaz.fr/FGnet/reports/Pointing04-Proceedings.pdf</ref> {{---}} ~~2975~~база данных изображений лиц в разных позах 15-ти человек. Для каждого человека представлено 93 позы, при этом каждая фотография предложена в двух вариантах освещения и масштаба (две разные сессии). Снимки, ~~проверки~~ сделанные во время первого сеанса, используются в качестве обучающих данных, а изображения из второго сеанса используются в качестве данных тестирования. 93 позы включают комбинации 13-и поз поворота и 7-и поз наклона вместе с двумя крайними случаями наклона при отсутствии поворота. ===Пример сета изображений=== {|align="center" |-valign="top" |[[Файл:Pointing.png|600px|thumb|Пример сета изображений Pointing'04[https://www.researchgate.net/publication/221545772_Evaluation_of_Head_Pose_Estimation_for_Studio_Data Источник]]] |} ==FASSEG== ===Описание=== Репозиторий FASSEG <ref>http://massimomauro.github.io/FASSEG-repository/</ref> (англ. FAce Semantic SEGmentation ) состоит из двух наборов данных (Frontal01 и Frontal02) для сегментации лиц в фронтальном положении и одного набора данных (Multipose01) с лицами в нескольких позах. Frontal01 содержит 70 сегментированных изображений лиц и исходные изображения RGB. Исходные лица в основном взяты из наборов данных [http://cbcl.mit.edu/software-datasets/FaceData2.html MIT-CBCL] и [http://www.fei.edu.br/~cet/facedatabase.html FEI]. Frontal02 {{---}} ~~500~~ это «высокоточный» Frontal01. Он содержит те же изображения, что и Frontal01, но с гораздо более точной сегментацией. Multipose01 содержит более 200 размеченных лиц в 13-ти позах (от -90 градусов до 90 градусов). Исходные лица взяты из базы данных [http://crowley-coutaz.fr/FGnet/reports/Pointing04-Proceedings.pdf Pointing'04]. ===Сегментация=== {|align="right" |-valign="top" |[[Файл:FASSEG3.png|300px|thumb|Сегментация изображения [https://github.com/massimomauro/FASSEG-repository/blob/master/papers/multiclass_face_segmentation_ICIP2015.pdf Источник]]] |} Изображение размечается на 6 сегментов:*Глаза*Нос*Рот*Волосы (вместе с бровями)*Фон изображения*Кожа ===Примеры изображений=== {|align="center" |-valign="top" |[[Файл:FASSEG1.png|300px|thumb|Пример изображений из датасетов Frontal01 и ~~тестирования~~ Frontal02 [https://raw.githubusercontent.com/massimomauro/FASSEG-dataset/master/other/V1V2_diff.png Оригинал]]] |[[Файл:FASSEG2.png|400px|thumb|Пример изображений из датасета Multipose01 [https://github.com/massimomauro/FASSEG-repository/blob/master/papers/pose_estimation_by_segmentation_ICME2017.pdf Источник]]] |} ==MPI== ===Описание=== MPI Human Pose <ref>http://human-pose.mpi-inf.mpg.de/</ref> (англ. Max Planck Institute) {{---}} ~~1525~~это набор данных, позволяющий определять различные виды активности человека по позам на изображениях и аннотациям к ним. ~~Оставшиеся 20 000~~ Набор данных включает около 25 тысяч изображений ~~имеют грубые~~ , содержащих более 40 тысяч людей с указанным положением отдельных частей тела. Изображения систематически собирались с использованием установленной таксономии повседневной деятельности человека. В целом набор данных охватывает 410 видов деятельности человека, каждое изображение снабжено меткой активности. Каждое изображение было извлечено из видео с YouTube и снабжено предшествующими и последующими кадрами без аннотации. Кроме того, ~~позволяющие применять методы~~для тестового набора приложены более детальные аннотации, ~~использующие большие объемы данных со слабой маркировкой~~включая сгибы частей тела и ориентации туловища и головы. ===Структура датасета и примеры изображений=== {|align="right" |-valign="top" |[[Файл: MPI1.jpg|500px|thumb|Пример изображений из подкласса датасета MPI [http://human-pose.mpi-inf.mpg.de/#dataset Источник]]] |} Датасет представлен двадцатью различными классами активности: езда на велосипеде, упражнения, танцы, рыбалка и охота, домашняя активность, ремонт, отдых, активность на природе, игра на музыкальных инструментах, религиозная деятельность, бег, самоуход, спорт, передвижение на транспорте, волонтерство, прогулки, активность на воде, зимние виды активности, разное.

~~===Результаты===~~Каждый класс также разделен на уникальные подклассы.

Основной метрикой для этого набора данных является [[Оценка качества в задаче кластеризации#Индекс Жаккара (англ. Jaccard Index)|индекс Жаккара]]. Также, хорошо известно, что глобальная мера [[Оценка качества в задаче кластеризации#Индекс Жаккара (англ. Jaccard Index)|индекс Жаккара]] смещена в сторону экземпляров Датасет снабжен документацией с описанием структуры объектов~~, которые покрывают большую область изображения. В уличных сценах~~ и методами взаимодействия с ~~их сильным изменением масштаба это может быть проблематично.Чтобы решить эту проблему~~ними, ~~создатели датасета дополнительно оценивают семантическую маркировку, используя метрику пересечения~~ всю необходимую информацию по ~~объединению на уровне экземпляра {{---}}<math>iIoU = \dfrac{iTP}{iTP + FP + iFN}</math>~~датасету, ~~где <math>iTP</math>, <math>FP</math>~~ как и ~~<math>iFN</math> обозначают количество истинно положительных~~сами исходники, ложноположительных и ложно отрицательных пикселей соответственно. Сейчас лучшей нейронной сетью для этого набора данных в задаче семантической сегментации данных является можно получить по [~~https~~http://~~www~~human-pose.~~cityscapes~~mpi-~~dataset~~inf.~~com~~mpg.de/~~benchmarks/#scene-labeling-task DAHUA-ARI~~ссылке], которая позволяет достичь индекс Жаккара 85.8% и iIoU 70.6% для классов, индекс Жаккара 93.2% и iIoU 85.4% для категорий, соответственно.

==См.также==

Vgrokhotov

27

правок

Изменения

Известные наборы данных

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты