Изменения
→Описание
[[Файл:Visual_Genome_учфьзду.png|мини| 600px|Результат визуализации]]
===Описание===
Visual Genome {{---}} это набор данных, связывающий изображения с словестным описанием их содержимого. Является черпывающим набором данных для обучения и тестирования моделей компьютерного зрения, обеспечивает многослойное понимание картинок. Это позволяет многосторонне изучать изображение: от информации на уровне пикселей, такой как объекты, до отношений, требующих дальнейшего вывода, и даже более глубокие задачи, такие как ответы на вопросы.
Набор данных содержит более 108К изображений, каждое из которых изображение имеет в среднем 35 объектов, 26 атрибутов и 21 парное отношения отношение между объектами. Мы канонизируем объекты, атрибуты, отношения и словосочетания в описаниях регионов и вопросах ответьте парами на WordNet синхронизирует. Вместе эти аннотации представляют самый плотный и самый большой набор данных с описаниями изображений, объекты, атрибуты, отношения и вопрос-ответ пары. Visual Genome {{---}} это исчерпывающий набор данных для обучения и тестирования моделей компьютерного зрения. Он обеспечивает многослойное понимание картинок. Это позволяет многосторонне изучать изображение: от информации на уровне пикселей, такой как объекты, до отношений, требующих дальнейшего вывода, и даже более глубокие задачи, такие как ответы на вопросы.
Изображение часто представляет сложную картину, которую невозможно полностью раскрыть одним предложением. Существующие наборы данных, такие как Flickr 30K, ориентированы на высокоточное описание изображения. Вместо этого для каждого изображения в Visual Genome, собираются более 50 описаний для разных регионов изображения, обеспечивая намного более полный набор описаний сценариев.