Генерация объектов

Материал из Викиконспекты
Перейти к: навигация, поиск
Эта статья находится в разработке!


Задача генерации объектов (англ. object generation problem) — задача, связанная с машинным обучением, заключающаяся в создании новых правдоподобных объектов на основании заданной выборки. Полученные объекты могут быть использованы как для прикладных целей (в таком случае, это чаще всего изображения), так и для генерации объектов для тренировочной выборки, когда размечать настоящие данные — долго и дорого, или их нужно анонимизировать. В зависимости от того, для какой из этих целей используется генерация объектов, постановка задачи и методы её решения несколько отличаются.

Генерация объектов для прикладных целей

Применение

Изображения

При генерации объектов основная задача обычно состоит в том, чтобы научиться создавать изображения, которые человек не может отличить от изображений, полученных иных путём. Они могут использоваться для более дешёвого создания модельных снимков, обложек или пейзажей. Одним из ярких примеров такого применения является создание фотографий вымышленных людей для рекламы в расчёте на то, что люди будут больше ассоциировать себя с образом, не представляющим кого-либо конкретного, но сочетающим в себе те черты, которые есть у них самих.

Генерация объектов может улучшать астрономические изображения и использоваться при моделировании дорогостоящих для изучения физических процессов. Так, в 2019 году при помощи генеративных состязательных сетей (GAN) были успешно смоделированы распределения темной материи в определенном направлении в пространстве и составлены предсказания гравитационного линзирования.

В медицине активно используется генерация результатов исследований. Из-за анонимности анализов и осмотров пациентов часто довольно тяжело получить большое количество данных, поэтому сейчас для формирования крупных датасетов стали применять GAN. Состязательные сети также могут использоваться для обнаружения глаукомных изображений, помогая ранней диагностике, которая необходима для предотвращения частичной или полной потери зрения.[1]

Музыка и звуки

Аудио является еще одним возможным приложением для GAN, однако используется гораздо реже. Примером может являться архитектура WaveGan, которая без меток учится воспроизводить понятные слова при обучении на наборе речевых данных с небольшим словарным запасом, а также может синтезировать звук из других областей, таких как барабаны, вокализации птиц и фортепиано.

На сегодняшний день, многие модели для генерации музыки используют долгую краткосрочную память (LSTM). Например, еще в 2002 году при помощи LSTM-сети построили[2] модель, генерирующую не только мелодию, но и аккомпанемент к ней в формате выбора аккорда из зафиксированного перечня, и, отчасти, впервые добились благозвучного результата.

В Google сейчас активно используется модель WaveNet, которая основана на CNN. WaveNet способна генерировать речь, похожую на голос любого человека, и другие звуки, включая музыку (например, композиции на пианино) [3].


См. также

Примечания

Источники

  1. Генеративно-состязательная сеть
  2. WaveNet
  3. Методы работы с небалансными классами
  4. Несбалансированные датасеты