Изменения

Известные наборы данных

3753 байта добавлено, 16:42, 26 ноября 2020

Нет описания правки

| Больше 21 тысячи

| Большое количество различных метрик, см. ImageNet Competition. 1-5% на классификацию

|-

| ADE20K

| Фотографии с указанием семантической сегментации сущностей на них. Для каждого объекта также приведена его сегментация на части

| 22 210 (434 826 вхождений объектов)

| 3 169

| 17.93% <ref>https://arxiv.org/pdf/2004.08955v1.pdf</ref>

|-

| Coco

Вместе с публикацией набора данных стартовал конкурс ImageNet Large Scale Visual Recognition Challenge (ILSVRC<ref>http://www.image-net.org/challenges/LSVRC/[http://www.image-net.org/challenges/LSVRC/]</ref>). В его рамках участникам предлагается достигнуть наибольшей точности при классификации набора изображений. Организаторы использовали около тысячи различных категорий объектов, которые нужно классифицировать. На примере этого конкурса хорошо видно, как в 2010-е годы люди научились заметно лучше распознавать образы на изображениях, уже в 2017 году большинство участвующих команд преодолели порог в 95% правильных ответов. Эта задача, проблема компьютерного зрения, имеет огромное практическое значение во многих прикладных областях.

==ADE20K==

===Описание===

[[Файл:ADE20K.png|мини|Пример изображения из ADE20K. [https://groups.csail.mit.edu/vision/datasets/ADE20K/assets/images/frame_rjob6ak7h3ivflyt_seg.png Оригинал]]]

ADE20K {{---}} набор изображений с размеченными сущностями, который хорошо подходит для задачи семантической сегментации данных в компьютерном зрении. Особенность этого набора состоит в том, что кроме объектов приводится также информация об их составных частях: например, если на изображении находится человек, то в дополнение к местоположению его фигуры будет также приведено положение его глаз и носа.

Подобные наборы данных часто страдают от несогласованности меток при их разметке сообществом. Для ADE20K эта проблема была решена {{---}} все изображения размечал только один человек, что обусловило высокую согласованность меток.

===Структура данных <ref>https://groups.csail.mit.edu/vision/datasets/ADE20K/#Description</ref>===

Всего в наборе данных находится 22 210 изображений, из них 20 210 составляют набор для обучения, а 2 000 {{---}} набор для проверки. К каждому изображению прилагается его RGB-оригинал (*.jpg), сегментация на сущности (*_seg.png), несколько изображений с сегментацией на части (*_seg_N.png, где N {{---}} это число) и описание признаков на изображении (*.txt).

ADE20K также содержит дополнительный файл на языке MATLAB, который позволяет загрузить изображения и информацию об их признаках.

===Результаты===

Основными метриками для этого набора данных являются пиксельная точность (англ. Pixel accuracy), которая состоит из доли корректно классифицированных пикселей, и мера Жаккара<ref>https://en.wikipedia.org/wiki/Jaccard_index</ref> (англ Jaccard index, Intersection-over-Union, IoU). На момент создания ADE20K, лучшие алгоритмы машинного обучения давали пиксельную точность равную ~76% и меру Жаккара равную ~0.34 на проверочном множестве<ref>https://arxiv.org/pdf/1608.05442.pdf</ref>. Сейчас лучшей нейронной сетью для этого набора данных является [https://arxiv.org/pdf/1608.05442.pdf ResNeSt], который позволяет достичь 82.07% пиксельной точности и меру Жаккара 46.91%.

==COCO==

Knisht

10

правок

Изменения

Известные наборы данных

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты