Изменения

Перейти к: навигация, поиск

Известные наборы данных

413 байт добавлено, 02:47, 12 января 2021
Нет описания правки
[[Файл:cub_dataset_logo.jpg |мини|Пример изображений из CUB [http://www.vision.caltech.edu/visipedia/collage.jpg Оригинал]]]
===Описание===
Caltech-UCSD Birds 200 {{---}} это набор данных, содержащий изображения птиц. Данный набор включает в себя фотографии 200 видов птиц (в основном североамериканских). Общее количество категорий птиц составляет 200, в набор данных 2010 года влючены 6033 изображения, а в набор данных 2011 года {{- --}} 11 788 изображений.
===Поиск и аннотация изображений===
Изображения были загружены с сайта Flickr и отфильтрованы сотрудниками Amazon Mechanical Turk. Каждое изображение аннотировано ограничивающей рамкой, грубой сегментацией птиц и , набором меток атрибутови текстовым описанием.
{|align="center"
[[Файл:Visual_Genome_учфьзду.png|мини| 600px|Результат визуализации]]
===Описание===
Visual Genome {{---}} это набор данных, связывающий изображения с словестным описанием их содержимого. Является черпывающим исчерпывающим набором данных для обучения и тестирования моделей компьютерного зрения, обеспечивает многослойное понимание картинокобширный анализ содержимого в изображениях с учетом зависимостей между объектами. Это позволяет многосторонне изучать изображение: от информации на уровне пикселей, такой как объекты, до отношений, требующих дальнейшего вывода, и даже более глубокие задачи, такие как ответы на вопросы.
Набор данных содержит более 108К изображений, каждое из которых изображение имеет в среднем 35 объектов, 26 атрибутов и 21 парное отношение между объектами. Мы канонизируем объектыВ данном наборе данных происходит канонизация объектов, атрибутыатрибутов, отношения отношений и словосочетания словосочетаний в описаниях регионов и пары пар вопрос-ответ в синсеты из [https://ru.wikipedia.org/wiki/WordNet синсетыWordNet]. Cинсет {{---}} это набор даных, элементы в котором считаются семантически эквивалентными для поиска или восстановления информации. Вместе эти аннотации представляют самый плотный и самый большой набор данных с описаниями изображений, объекты, атрибуты, отношения и пары вопрос-ответ пары.
Изображение часто представляет сложную картину, которую невозможно полностью раскрыть одним предложением. Существующие наборы данных, такие как Flickr 30K, ориентированы на высокоточное описание изображения. Вместо этого для каждого изображения в Visual Genome, собираются более 50 описаний для разных регионов изображения, обеспечивая намного более полный набор описаний сценариев.
Анонимный участник

Навигация