Изменения
→Описание
Набор данных содержит более 108К изображений, каждое из которых изображение имеет в среднем 35 объектов, 26 атрибутов и 21 парное отношения между объектами. Мы канонизируем объекты, атрибуты, отношения и словосочетания в описаниях регионов и вопросах ответьте парами на WordNet синхронизирует. Вместе эти аннотации представляют самый плотный и самый большой набор данных с описаниями изображений, объекты, атрибуты, отношения и вопрос-ответ пары.
Visual Genome {{---}} это исчерпывающий набор данных для обучения и тестирования следующее поколение моделей компьютерного зрения. Он обеспечивает многослойное понимание картинок. Это позволяет многосторонне изучать изображение: от информации на уровне пикселей, такой как объекты, до отношений, требующих дальнейшего вывода, и даже более глубокие задачи, такие как ответы на вопросы. Изображение часто представляет сложную картину, которую невозможно полностью раскрыть одним предложением. Существующие наборы данных, такие как Flickr 30K, ориентированы на высокоточное описание изображения. Вместо этого для каждого изображения в Visual Genome, собираются более 50 описаний для разных регионов изображения, обеспечивая намного более плотный и полный набор описаний сцена.
===Код===