Генерация объектов

Материал из Викиконспекты
Перейти к: навигация, поиск

Задача генерации объектов (англ. object generation problem) — задача, связанная с машинным обучением, заключающаяся в создании новых правдоподобных объектов на основании заданной выборки. Полученные объекты могут быть использованы как для прикладных целей (в таком случае, это чаще всего изображения), так и для генерации объектов для тренировочной выборки, когда размечать настоящие данные — долго и дорого, или их нужно анонимизировать. В зависимости от того, для какой из этих целей используется генерация объектов, постановка задачи и методы её решения несколько отличаются.

Генерация объектов для прикладных целей[править]

Применение[править]

Изображения[править]

При генерации объектов основная задача обычно состоит в том, чтобы научиться создавать изображения, которые человек не может отличить от изображений, полученных иным путём (рис. 1). Они могут использоваться для более дешёвого создания модельных снимков, обложек или пейзажей. Одним из ярких примеров такого применения является создание фотографий вымышленных людей для рекламы в расчёте на то, что люди будут больше ассоциировать себя с образом, не представляющим кого-либо конкретного, но сочетающим в себе те черты, которые есть у них самих.

Генерация объектов может улучшать астрономические изображения и использоваться при моделировании дорогостоящих для изучения физических процессов. Так, в 2019 году при помощи генеративных состязательных сетей (GAN) были успешно смоделированы [1] распределения темной материи в определенном направлении в пространстве и составлены предсказания гравитационного линзирования.

В медицине активно используется генерация результатов исследований. Из-за запрета на использование анализов и осмотров без согласия пациента часто довольно тяжело получить большое количество данных, поэтому сейчас для формирования крупных датасетов стали применять GAN. Состязательные сети также могут использоваться для обнаружения глаукомных изображений, помогая ранней диагностике, которая необходима для предотвращения частичной или полной потери зрения.[2]

Рисунок 1. Пример сгенерированного изображения

Музыка и звуки[править]

Аудио является еще одним возможным приложением для GAN, однако используется гораздо реже. Примером может являться архитектура WaveGan, которая без меток учится воспроизводить понятные слова при обучении на наборе речевых данных с небольшим словарным запасом, а также может синтезировать звук из других областей, таких как барабаны, вокализации птиц и фортепиано.

На сегодняшний день многие модели для генерации музыки используют долгую краткосрочную память (LSTM). Например, еще в 2002 году при помощи LSTM-сети построили[3] модель, генерирующую не только мелодию, но и аккомпанемент к ней в формате выбора аккорда из зафиксированного перечня, и, отчасти, впервые добились благозвучного результата.

В Google сейчас активно используется модель WaveNet, которая основана на сверточных сетях. WaveNet способна генерировать речь, похожую на голос любого человека, и другие звуки, включая музыку (например, композиции на пианино) [4].

Текст[править]

Генерировать можно документы и тексты. Генераторы текстов широко используются при разработке и поисковой оптимизации сайтов: для генерации названий, описаний и содержимого. Существуют крупные англоязычные сайты, на которых весь контент пишут не журналисты, а боты — статьи автоматически рерайтятся из других источников. Русский язык, в отличие от английского, имеет сложную морфологию, поэтому появление подобных ботов-рерайтеров в рунете сильно осложнено.

Анимация и игры[править]

Рисунок 2. Пример сгенерированных изображений по подписям.

Еще генерация объектов может использоваться при воссоздании текстур старых игр в лучшем расширении (пример игры, для которой был использован такой метод – Resident Evil). Такой подход также помогает создавать персонажей в стилистике мультфильма, нарисовав руками только пару из них, анимировать уже нарисованных героев, а также полезен для подготовки кадров фильмов или мультипликации[5]. В 2018 году исследователи из Университета Иллинойса и Института искусственного интеллекта Аллена разработали модель под названием CRAFT (Composition, Retrieval and Fusion Network)[6], которая принимает текстовые описания (или подписи) от пользователя и генерирует сцены из мультсериала «Флинтстоуны» (рис. 2).

Другое[править]

При решении какой-либо задачи часто бывает удобно генерировать специфические объекты для ее решения. Например, одна из задач машинного обучения в медицине — генерация новых молекул, которые потенциально могут быть лекарствами. Для решения этой проблемы используют генеративные состязательные сети.

Еще одним примером может являться генерация наборов данных с заданными свойствами для задачи классификации[7]. Это, в частности, может использоваться для генерации данных для систем автоматической проверки программ или в алгоритмах предсказания стоимости изготовления детали по её чертежу и текстовым характеристикам.

Можно генерировать юнит-тесты, чтобы быстрее находить ошибки при разработке программного обеспечения[8].

Генерация объектов активно развивается в наши дни и имеет множество применений, в том числе под специфические задачи в различных сферах деятельности.

Используемые модели[править]

Для достижения данной цели обычно используются порождающие модели. В таком варианте в качестве задачи ставится восстановление совместного распределения [math]p(x,y)[/math], где [math]y[/math] — это один бит, отвечающий за отдельный признак (то есть тот класс, к которому должна принадлежать созданный объект; например, фотография человека), а [math]x[/math] — это весь объект (фотография). Чаще всего порождаемый объект [math]X[/math] представляет собой набор элементов [math]X = \{x_i\}[/math], что позволяет порождать объект по частям. Для изображения, например, такими частями будут являться пиксели. Таким образом, при порождении следующих частей объекта мы можем опираться на уже созданные, и тогда перед нами встаёт задача максимизация функции правдоподобия: для набора данных [math]X = \{x_i\}[/math] максимизировать [math]\displaystyle \prod_i p_{\operatorname{model}}(x_i,\theta)[/math] по параметрам модели [math]\theta[/math], т.е. найти [math]\theta^* = \underset{\theta}{\operatorname{argmax}} \displaystyle \prod_i p_{\operatorname{model}}(x_i,\theta)[/math]. Эта задача относится к классу задач обучения без учителя или с частичным привлечением учителя. При её решении либо работают с явными распределениями, сводя распределение [math]p(x,y)[/math] к произведению распределений определённой структуры, либо используют неявные модели, которые не восстанавливают всю функцию плотности, а только моделируют ту часть этой функции, которая нужна непосредственно. Стоит отметить, что простые порождающие модели, такие как наивный байесовский классификатор, не показывают достаточное качество результата, чтобы на их основе можно было сгенерировать полноценные мультимедиа объекты. Из класса порождающих моделей при генерации изображений особенно хорошо показали себя модели состязательных сетей, PixelRNN и PixelCNN, а также DRAW (рисуют изображение с помощью сочетания рекуррентных НС и механизма внимания).

См. также[править]

Примечания[править]

Источники[править]

  1. Генеративно-состязательная сеть
  2. WaveNet
  3. Генератор текста
  4. Методы работы с небалансными классами
  5. Несбалансированные датасеты