Изменения

Перейти к: навигация, поиск

Синтез речи

Нет изменений в размере, 13:47, 9 февраля 2021
м
Алгоритмы, основанные на нейронных сетях
=== Tacotron ===
[[Файл:Tacotron.PNG|thumb|300px| Рисунок 3 1 — строение модели Tacotron<ref name="tacotron">Yuxuan Wang, RJ Skerry-Ryan, Daisy Stanton, Yonghui Wu, Ron J. Weiss, Navdeep Jaitly, Zongheng Yang, Ying Xiao, Zhifeng Chen, Samy Bengio, Quoc Le, Yannis Agiomyrgiannakis, Rob Clark, & Rif A. Saurous. (2017). Tacotron: Towards End-to-End Speech Synthesis. [https://arxiv.org/abs/1703.10135/ arXiv:1703.10135]</ref>]][[Файл:Tacotron-cbhg.PNG|thumb|300px| Рисунок 4 2 —строение модуля CBHG модели Tacotron<ref name="tacotron">Yuxuan Wang, RJ Skerry-Ryan, Daisy Stanton, Yonghui Wu, Ron J. Weiss, Navdeep Jaitly, Zongheng Yang, Ying Xiao, Zhifeng Chen, Samy Bengio, Quoc Le, Yannis Agiomyrgiannakis, Rob Clark, & Rif A. Saurous. (2017). Tacotron: Towards End-to-End Speech Synthesis. [https://arxiv.org/abs/1703.10135/ arXiv:1703.10135]</ref>]]
Tacotron {{---}} модель<ref name="tacotron">Yuxuan Wang, RJ Skerry-Ryan, Daisy Stanton, Yonghui Wu, Ron J. Weiss, Navdeep Jaitly, Zongheng Yang, Ying Xiao, Zhifeng Chen, Samy Bengio, Quoc Le, Yannis Agiomyrgiannakis, Rob Clark, & Rif A. Saurous. (2017). Tacotron: Towards End-to-End Speech Synthesis. [https://arxiv.org/abs/1703.10135/ arXiv:1703.10135]</ref> параметрического синтеза речи, основанная на подходе [[Механизм внимания | seq2seq]], разработанная Google и опубликованная в 2017 году. Модель состоит из кодера, декодера с [[Механизм внимания | вниманием]] и нейронной сети для
пост-процессинга сигнала. Схема модели изображена на Рисунке 21.
Кодер и сеть пост-процессинга опираются на блок CBHG, схема которого изображена на Рисунке 32. Блок состоит из набора одномерных сверточных фильтров, за которыми следуют
шоссейные нейронные сети (англ. highway networks)<ref>Rupesh Kumar Srivastava, Klaus Greff, and J ̈urgen Schmidhuber. Highway networks. [https://arxiv.org/abs/1505.00387/ arXiv:1505.00387], 2015.</ref>, являющиеся модификацией [[Долгая краткосрочная память | LSTM сетей]], и двунаправленный [[Долгая краткосрочная память#Управляемые рекуррентные нейроны | управляемый рекуррентный блок]]. Входная последовательность сначала обрабатывается <math>K</math>
наборами сверточных фильтров с размерностью <math>1, 2, \dots, K</math>. Эти фильтры моделируют локальную и контекстно-зависимую информацию (по аналогии с моделированием униграмм,
Основной идеей модели является использование причинных сверточных сетей (англ. causal convolution layers) и [[Сверточные нейронные сети#Расширенная свертка (aнгл. Dilated convolution) | расширенных ]] причинных сверточных сетей (англ. dilated causal convolution layers).
Причинная сверточная сеть представляет собой несколько уровней сверточной нейронной сети, связанных между собой в порядке, который не нарушает последовательность
входного сигнала, т.е. оцениваемая в момент времени <math>t+1</math> вероятность сигнала <math>p(x_{t+1} | x_1, x_2, \dots, x_t)</math> не зависит от сигналовв последующие моменты времени <math>t+2, t+3, \dots, T</math>. Причинные сверточные сети обучаютсябыстрее, чем [[Рекуррентные нейронные сети | рекуррентные нейронные сети]], но требуют достаточно большого количества уровней для обеспечивания большого окна восприятия сигнала (англ. signal reception window) {{---}} количество предыдущих сигналов, от которых зависит оценка сигнала в текущий момент.
[[Файл:dilated-causal-convolutions.png|thumb|300px| Рисунок 1 3 — строение причинной сверточной сети (сверху) и расширенной причинной сверточной сети (снизу)<ref name="wavenet">Aaron van den Oord, Sander Dieleman, Heiga Zen, Karen Simonyan, Oriol Vinyals, Alex Graves, Nal Kalchbrenner, Andrew Senior, & Koray Kavukcuoglu. (2016). WaveNet: A Generative Model for Raw Audio. [https://arxiv.org/abs/1609.03499/ arXiv:1609.03499]</ref>]]
Модификация причинных сверточных сетей, расширенные причинные сверточные сети, способна увеличить окно восприятия сигнала в разы и является основной идеей модели WaveNet.
Модификация заключается в применении свертки к области размерности большей, чем её длина, пропуская входные связи с некоторым шагом. Данный подход аналогичен применению пулинга или свертки с шагом большим единицы, но выходом расширенной причинной сверточной сети является последовательность размерности, равной размерности входной последовательности. Расширенные причинные сверточные сети способны достигать большего окна
восприятия сигнала, используя меньшее количество уровней, при этом сохраняя вычислительную сложность причинных сверточных сетей. Структура причинных сверточных сетей изображена на Рисунке 13.
[[Файл:wavenet.png|thumb|300px| Рисунок 2 4 — строение модели WaveNet <ref name="wavenet">Aaron van den Oord, Sander Dieleman, Heiga Zen, Karen Simonyan, Oriol Vinyals, Alex Graves, Nal Kalchbrenner, Andrew Senior, & Koray Kavukcuoglu. (2016). WaveNet: A Generative Model for Raw Audio. [https://arxiv.org/abs/1609.03499/ arXiv:1609.03499]</ref>]]Полная структура модели WaveNet изображена на Рисунке 24. В качестве вокодера используется [[Синтез речи#Генерация звуковой волны | мю-закон]].
Модель представляет собой множество слоев сверточной нейронной сети, аналогично модели [[PixelRNN_и_PixelCNN | PixelCNN]].
Модель на вход принимает закодированную мю-законом последовательность сигналов <math>\textbf{x}</math> и, опционально, некоторую дополнительную информацию, обозначаемую как вектор параметров <math>h</math>, а на выходе возвращает распределение вероятностей для параметров мю-закона, по которым можно восстановить синтезированный сигнал. На этапе обучения входным сигналом <math>\textbf{x}</math> является пример звука из обучающей выборки, который подается на все входы одновременно. На этапе генерации входом модели <math>\textbf{x}</math> будут являться сигналы, порожденные ею в предыдущие моменты времени и передаваемые ей последовательно. Дополнительная информация <math>h</math>, например, может содержать информацию о рассматриваемом тексте в задаче text-to-speech синтеза.
174
правки

Навигация