89
правок
Изменения
м
→AttnGAN
=== AttnGAN ===
Общепринятый подход заключается в кодировании всего текстового описания в глобальное векторное пространство предложений (англ. ''global sentence vector''). Такой подход демонстрирует ряд впечатляющих результатов, но у него есть главные недостатки: отсутствие чёткой детализации на уровне слов и невозможность генерации изображений высокого разрешения. Эта проблема становится еще более серьезной при генерации сложных кадров, таких как в наборе данных [[Известные наборы данных#COCO<ref name="|COCO">[https://cocodataset.org COCO dataset (Common Objects in Context)]</ref>].
В качестве решения данной проблемы была предложена<ref name="AttnGan">[https://openaccess.thecvf.com/content_cvpr_2018/papers/Xu_AttnGAN_Fine-Grained_Text_CVPR_2018_paper.pdf Tao X., Pengchuan Z. {{---}} AttnGAN: Fine-Grained Text to Image Generationwith Attentional Generative Adversarial Networks, 2018] </ref> новая '''[[Generative Adversarial Nets (GAN)|генеративно-состязательная нейросеть]] с [[Механизм внимания|вниманием]]''' (англ. ''Attentional Generative Adversarial Network, AttnGAN''), которая относится к вниманию как к фактору обучения, что позволяет выделять слова для генерации фрагментов изображения.