Изменения
→Музыка и звуки
Аудио является еще одним возможным приложением для GAN, однако используется гораздо реже. Примером может являться архитектура [https://arxiv.org/abs/1802.04208 WaveGan], которая без меток учится воспроизводить понятные слова при обучении на наборе речевых данных с небольшим словарным запасом, а также может синтезировать звук из других областей, таких как барабаны, вокализации птиц и фортепиано.
На сегодняшний день, многие модели для генерации музыки используют [[Долгая краткосрочная память | долгую краткосрочную память (LSTM)]]. Например, еще в 2002 году при помощи LSTM-сети построили <ref>[http://www.iro.umontreal.ca/~eckdoug/papers/2002_ieee.pdf Finding temporal structure in music: Blues improvisation with lstm recurrent networks]</ref> модель, генерирующую не только мелодию, но и аккомпанемент к ней в формате выбора аккорда из зафиксированного перечня, и, отчасти, впервые добились благозвучного результата.
В Google сейчас активно используется модель [https://en.wikipedia.org/wiki/WaveNet WaveNet], которая основана на [[Сверточные нейронные сети| CNN]]. WaveNet способна генерировать речь, похожую на голос любого человека, и другие звуки, включая музыку (например, композиции на пианино) <ref>[https://habr.com/ru/company/Voximplant/blog/309648/ Google WaveNet]</ref>.