Изменения

Перейти к: навигация, поиск

Синтез речи

115 байт добавлено, 20:20, 18 января 2021
Добавлена ссылка на реализацию Tacotron 2
В качестве сети пост-обработки используется модуль CBHG, описанный ранее. После этого спектрограмма звуковой волны передается на вход [[Синтез речи#Генерация звуковой волны | алгоритму Гриффина-Лима]], который генерирует итоговую звуковую волну.
Модель Tacotron была значительно улучшена в последующей модификации Tacotron 2 <ref>Jonathan Shen, Ruoming Pang, Ron J. Weiss, Mike Schuster, Navdeep Jaitly, Zongheng Yang, Zhifeng Chen, Yu Zhang, Yuxuan Wang, RJ Skerry-Ryan, Rif A. Saurous, Yannis Agiomyrgiannakis, & Yonghui Wu. (2018). Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions. [https://arxiv.org/abs/1712.05884 arXiv:1712.05884].</ref>, которая переработала исходную архитектуру Tacotron и объединила её с вокодером на основе WaveNet. Данная модель способна синтезировать речь высокого качества, принимая на вход только текст, который необходимо озвучить<ref name="tacotron2">[https://ai.googleblog.com/2017/12/tacotron-2-generating-human-like-speech.html/ Tacotron 2: Generating Human-like Speech from Text]</ref>. Реализация данной модели доступна на [https://github.com/NVIDIA/tacotron2 Github].
== Проблемы ==
29
правок

Навигация