Изменения

Перейти к: навигация, поиск

Известные наборы данных

30 байт убрано, 21:32, 5 января 2021
Visual Genome
Visual Genome {{---}} это набор данных, связывающий изображения с словестным описанием их содержимого. Является черпывающим набором данных для обучения и тестирования моделей компьютерного зрения, обеспечивает многослойное понимание картинок. Это позволяет многосторонне изучать изображение: от информации на уровне пикселей, такой как объекты, до отношений, требующих дальнейшего вывода, и даже более глубокие задачи, такие как ответы на вопросы.
Набор данных содержит более 108К изображений, каждое из которых изображение имеет в среднем 35 объектов, 26 атрибутов и 21 парное отношение между объектами. Мы канонизируем объекты, атрибуты, отношения и словосочетания в описаниях регионов и вопросах ответьте парами на пары вопрос-ответ в WordNet синхронизируетсинсеты. Вместе эти аннотации представляют самый плотный и самый большой набор данных с описаниями изображений, объекты, атрибуты, отношения и вопрос-ответ пары.
Изображение часто представляет сложную картину, которую невозможно полностью раскрыть одним предложением. Существующие наборы данных, такие как Flickr 30K, ориентированы на высокоточное описание изображения. Вместо этого для каждого изображения в Visual Genome, собираются более 50 описаний для разных регионов изображения, обеспечивая намного более полный набор описаний сценариев.
Анонимный участник

Навигация