10
правок
Изменения
Нет описания правки
| Больше 21 тысячи
| Большое количество различных метрик, см. ImageNet Competition. 1-5% на классификацию
|-
| ADE20K
| Фотографии с указанием семантической сегментации сущностей на них. Для каждого объекта также приведена его сегментация на части
| 22 210 (434 826 вхождений объектов)
| 3 169
| 17.93% <ref>https://arxiv.org/pdf/2004.08955v1.pdf</ref>
|-
| Coco
Вместе с публикацией набора данных стартовал конкурс ImageNet Large Scale Visual Recognition Challenge (ILSVRC<ref>http://www.image-net.org/challenges/LSVRC/[http://www.image-net.org/challenges/LSVRC/]</ref>). В его рамках участникам предлагается достигнуть наибольшей точности при классификации набора изображений. Организаторы использовали около тысячи различных категорий объектов, которые нужно классифицировать. На примере этого конкурса хорошо видно, как в 2010-е годы люди научились заметно лучше распознавать образы на изображениях, уже в 2017 году большинство участвующих команд преодолели порог в 95% правильных ответов. Эта задача, проблема компьютерного зрения, имеет огромное практическое значение во многих прикладных областях.
==ADE20K==
===Описание===
[[Файл:ADE20K.png|мини|Пример изображения из ADE20K. [https://groups.csail.mit.edu/vision/datasets/ADE20K/assets/images/frame_rjob6ak7h3ivflyt_seg.png Оригинал]]]
ADE20K {{---}} набор изображений с размеченными сущностями, который хорошо подходит для задачи семантической сегментации данных в компьютерном зрении. Особенность этого набора состоит в том, что кроме объектов приводится также информация об их составных частях: например, если на изображении находится человек, то в дополнение к местоположению его фигуры будет также приведено положение его глаз и носа.
Подобные наборы данных часто страдают от несогласованности меток при их разметке сообществом. Для ADE20K эта проблема была решена {{---}} все изображения размечал только один человек, что обусловило высокую согласованность меток.
===Структура данных <ref>https://groups.csail.mit.edu/vision/datasets/ADE20K/#Description</ref>===
Всего в наборе данных находится 22 210 изображений, из них 20 210 составляют набор для обучения, а 2 000 {{---}} набор для проверки. К каждому изображению прилагается его RGB-оригинал (*.jpg), сегментация на сущности (*_seg.png), несколько изображений с сегментацией на части (*_seg_N.png, где N {{---}} это число) и описание признаков на изображении (*.txt).
ADE20K также содержит дополнительный файл на языке MATLAB, который позволяет загрузить изображения и информацию об их признаках.
===Результаты===
Основными метриками для этого набора данных являются пиксельная точность (англ. Pixel accuracy), которая состоит из доли корректно классифицированных пикселей, и мера Жаккара<ref>https://en.wikipedia.org/wiki/Jaccard_index</ref> (англ Jaccard index, Intersection-over-Union, IoU). На момент создания ADE20K, лучшие алгоритмы машинного обучения давали пиксельную точность равную ~76% и меру Жаккара равную ~0.34 на проверочном множестве<ref>https://arxiv.org/pdf/1608.05442.pdf</ref>. Сейчас лучшей нейронной сетью для этого набора данных является [https://arxiv.org/pdf/1608.05442.pdf ResNeSt], который позволяет достичь 82.07% пиксельной точности и меру Жаккара 46.91%.
==COCO==