Изменения

Перейти к: навигация, поиск

Синтез речи

Нет изменений в размере, 18:55, 15 января 2021
м
Нет описания правки
В качестве сети пост-обработки используется модуль CBHG, описанный ранее. После этого спектрограмма звуковой волны передается на вход [[Синтез речи#Генерация звуковой волны | алгоритму Гриффина-Лима]], который генерирует итоговую звуковую волну.
Модель Tacotron была значительно улучшена в последующей модификации Tacotron 2 <ref>Jonathan Shen, Ruoming Pang, Ron J. Weiss, Mike Schuster, Navdeep Jaitly, Zongheng Yang, Zhifeng Chen, Yu Zhang, Yuxuan Wang, RJ Skerry-Ryan, Rif A. Saurous, Yannis Agiomyrgiannakis, & Yonghui Wu. (2018). Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions. [https://arxiv.org/abs/1712.05884 arXiv:1712.05884].</ref>, которая переработала исходную архитектуру Tacotron и объединила её с вокодером на основе WaveNet. Данная модель способна синтезировать речь высокого качества, принимая на вход только текст, который необходимо озвучить<ref>[https://ai.googleblog.com/2017/12/tacotron-2-generating-human-like-speech.html / Tacotron 2: Generating Human-like Speech from Text]</ref>.
== Проблемы ==
29
правок

Навигация