Изменения

Перейти к: навигация, поиск

Известные наборы данных

8087 байт добавлено, 04:46, 16 января 2021
м
Структура датасета и примеры изображений
| 30
| не описано
|-
| ICDAR 2017 "COCO Text"
| набор данных, основанный на датасете "MS COCO"<ref>https://vision.cornell.edu/se3/wp-content/uploads/2019/01/ICDAR2017b.pdf</ref>, где собраны обычные изображения ежедневных сцен, на которых, возможно, присутствует текст
| 63686 изображений, 43686 {{---}} обучающая выборка,10000 {{---}} валидирующая выборка, 10000 {{---}} тестовая
| 173589 слов
| не описано
|-
| Pointing'04
| Изображения лиц людей с разными углами поворота и наклона
| 15 сетов по 186 изображений в каждом
| 93
| 7.9% <ref>https://www.researchgate.net/publication/221125207_Generalized_subspace_based_high_dimensional_density_estimation</ref>
|-
| FASSEG
| Изображения лиц людей с разными углами поворота, как в оригинале, так и в сегментированном виде
| Часть frontal01: 70, часть frontal02: 70, часть multipose01: 200
| frontal01 и frontal02 {{---}} разделяют изображение на 6 различных сегментов, multipose01 {{---}} 13 углов поворота
| 7.73% <ref>https://github.com/massimomauro/FASSEG-repository/blob/master/papers/multiclass_face_segmentation_ICIP2015.pdf</ref> для сегментации, 22.6% <ref>https://github.com/massimomauro/FASSEG-repository/blob/master/papers/pose_estimation_by_segmentation_ICME2017.pdf</ref> для определения поз
|-
| MPI
| Изображения повседневной деятельности людей в различных позах
| 25 тысяч
| 410
| ~10% <ref>http://human-pose.mpi-inf.mpg.de/#results</ref>
|}
</math>, где <math>iTP</math>, <math>FP</math> и <math>iFN</math> обозначают количество истинно положительных, ложноположительных и ложно отрицательных пикселей соответственно. Сейчас лучшей нейронной сетью для этого набора данных в задаче семантической сегментации данных является [https://www.cityscapes-dataset.com/benchmarks/#scene-labeling-task DAHUA-ARI], которая позволяет достичь индекс Жаккара 85.8% и iIoU 70.6% для классов, индекс Жаккара 93.2% и iIoU 85.4% для категорий, соответственно.
==См.также==
* [[Общие понятия]]
* [[Сегментация изображений]]
* [[Задача нахождения объектов на изображении]]
* [[Оценка качества в задачах классификации и регрессии]]
==ICDAR==
| 500
| 17548
| не описано -| не описано -
| Английский
| обнаружение текста, сегментация текста, распознавание символов, '''сквозное распознавание'''
|}
| 63686
| 43686
| 10000 {{---}} валидирующая выборка, 10000 {{---}} тестовая
| 173589
| не описано-| не описано-
| Французский
| сквозное распознавание
| изображения с текстом на 9 различных языках
| 18 000
| не описано - | не описано -
| 107 547(тренировочные + валидирующие слова)
| не описано - | не описано-
| Английский, Арабский, Бенгальский, Китайский, Французский, Немецкий, Японский, Корейский
| обнаружение текста, сегментация текста
| изображения, на которых есть названия француззских улиц
| 1 081 422, где каждое изображение содержит до 4 объектов с названией улицы
| не описано-| не описано-| не описано-| не описано - | не описано -
| Английский
| обнаружение текста, сегментация текста, распознавание символов, сквозное распознавание
|[[Файл:ICDARSamples.png |600px|thumb|Сэмплы из датасетов ICDAR 2011, ICDAR 2015, ICDAR 2017]]
|}
 
{|align="center"
|-valign="top"
|[[Файл:ICDAR2019Sample.png |600px|thumb|Сэмпл из датасета ICDAR 2019 "Scene Text Visual Question Answering"]]
|}
 
 
==Pointing'04==
 
===Описание===
 
Pointing'04 <ref>http://crowley-coutaz.fr/FGnet/reports/Pointing04-Proceedings.pdf</ref> {{---}} база данных изображений лиц в разных позах 15-ти человек. Для каждого человека представлено 93 позы, при этом каждая фотография предложена в двух вариантах освещения и масштаба (две разные сессии). Снимки, сделанные во время первого сеанса, используются в качестве обучающих данных, а изображения из второго сеанса используются в качестве данных тестирования. 93 позы включают комбинации 13-и поз поворота и 7-и поз наклона вместе с двумя крайними случаями наклона при отсутствии поворота.
 
===Пример сета изображений===
 
{|align="center"
|-valign="top"
|[[Файл:Pointing.png|600px|thumb|Пример сета изображений Pointing'04[https://www.researchgate.net/publication/221545772_Evaluation_of_Head_Pose_Estimation_for_Studio_Data Источник]]]
|}
 
==FASSEG==
 
===Описание===
 
Репозиторий FASSEG <ref>http://massimomauro.github.io/FASSEG-repository/</ref> (англ. FAce Semantic SEGmentation ) состоит из двух наборов данных (Frontal01 и Frontal02) для сегментации лиц в фронтальном положении и одного набора данных (Multipose01) с лицами в нескольких позах.
 
Frontal01 содержит 70 сегментированных изображений лиц и исходные изображения RGB. Исходные лица в основном взяты из наборов данных [http://cbcl.mit.edu/software-datasets/FaceData2.html MIT-CBCL] и [http://www.fei.edu.br/~cet/facedatabase.html FEI].
 
Frontal02 {{---}} это «высокоточный» Frontal01. Он содержит те же изображения, что и Frontal01, но с гораздо более точной сегментацией.
 
Multipose01 содержит более 200 размеченных лиц в 13-ти позах (от -90 градусов до 90 градусов). Исходные лица взяты из базы данных [http://crowley-coutaz.fr/FGnet/reports/Pointing04-Proceedings.pdf Pointing'04].
 
===Сегментация===
 
{|align="right"
|-valign="top"
|[[Файл:FASSEG3.png|300px|thumb|Сегментация изображения [https://github.com/massimomauro/FASSEG-repository/blob/master/papers/multiclass_face_segmentation_ICIP2015.pdf Источник]]]
|}
 
Изображение размечается на 6 сегментов:
*Глаза
*Нос
*Рот
*Волосы (вместе с бровями)
*Фон изображения
*Кожа
 
===Примеры изображений===
 
 
{|align="center"
|-valign="top"
|[[Файл:FASSEG1.png|300px|thumb|Пример изображений из датасетов Frontal01 и Frontal02 [https://raw.githubusercontent.com/massimomauro/FASSEG-dataset/master/other/V1V2_diff.png Оригинал]]]
|[[Файл:FASSEG2.png|400px|thumb|Пример изображений из датасета Multipose01 [https://github.com/massimomauro/FASSEG-repository/blob/master/papers/pose_estimation_by_segmentation_ICME2017.pdf Источник]]]
|}
 
 
==MPI==
 
===Описание===
 
MPI Human Pose <ref>http://human-pose.mpi-inf.mpg.de/</ref> (англ. Max Planck Institute) {{---}} это набор данных, позволяющий определять различные виды активности человека по позам на изображениях и аннотациям к ним. Набор данных включает около 25 тысяч изображений, содержащих более 40 тысяч людей с указанным положением отдельных частей тела. Изображения систематически собирались с использованием установленной таксономии повседневной деятельности человека. В целом набор данных охватывает 410 видов деятельности человека, каждое изображение снабжено меткой активности. Каждое изображение было извлечено из видео с YouTube и снабжено предшествующими и последующими кадрами без аннотации. Кроме того, для тестового набора приложены более детальные аннотации, включая сгибы частей тела и ориентации туловища и головы.
 
===Структура датасета и примеры изображений===
 
{|align="right"
|-valign="top"
|[[Файл: MPI1.jpg|500px|thumb|Пример изображений из подкласса датасета MPI [http://human-pose.mpi-inf.mpg.de/#dataset Источник]]]
|}
 
Датасет представлен двадцатью различными классами активности: езда на велосипеде, упражнения, танцы, рыбалка и охота, домашняя активность, ремонт, отдых, активность на природе, игра на музыкальных инструментах, религиозная деятельность, бег, самоуход, спорт, передвижение на транспорте, волонтерство, прогулки, активность на воде, зимние виды активности, разное.
 
Каждый класс также разделен на уникальные подклассы.
 
Датасет снабжен документацией с описанием структуры объектов и методами взаимодействия с ними, всю необходимую информацию по датасету, как и сами исходники, можно получить по [http://human-pose.mpi-inf.mpg.de/ ссылке].
==См.также==
27
правок

Навигация