Изменения

Синтез речи

3000 байт добавлено, 17:04, 15 января 2021

Добавлены примеры

<math> f^{-1}(y_t) = sign(y_t)(1/\mu)((1+\mu)^{|y_t|}-1), -1 < y_t < 1</math>.

Алгоритм [[Синтез речи#WaveNet | WaveNet]] использует закодированные номера интервалов как входную последовательность.

В качестве представления звукового сигнала может выступать [https://ru.wikipedia.org/wiki/%D0%A1%D0%BF%D0%B5%D0%BA%D1%82%D1%80%D0%BE%D0%B3%D1%80%D0%B0%D0%BC%D0%BC%D0%B0/ спектрограмма волны] - изображение, показывающее зависимость спектральной плотности мощности сигнала от времени. Спектрограммы отображают частоту и амплитуду сигнала во времени, но не содержат никакой информации о фазе сигнала, из-за чего результат обратного восстановления сигнала по спектрограмме неизбежно отличается от оригинала. Цифровая генерация спектрограммы сигнала <math>s(t)</math> сводится к вычислению квадрата амплитуды [https://ru.wikipedia.org/wiki/%D0%9E%D0%BA%D0%BE%D0%BD%D0%BD%D0%BE%D0%B5_%D0%BF%D1%80%D0%B5%D0%BE%D0%B1%D1%80%D0%B0%D0%B7%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5_%D0%A4%D1%83%D1%80%D1%8C%D0%B5/ оконного преобразования Фурье]:

'''Конкатенативный синтез''' (англ. concatenative synthesis) основывается на конкатенации предварительно записанных примеров человеческой речи в единую звуковую последовательность. Данный подход синтезирует наиболее естественную речь, но генерируемая речь часто содержит значительные отличия и ошибки по сравнению с человеческой речью. Примеры конкатенативного синтеза:

* '''Синтез с выбором''' (англ. unit selection synthesis) является самым используемым подходом конкатенативного синтеза и использует большую базу данных записанной речи. При создании базы данных записанные фразы могут делиться на различные звуковые единицы, такие, как фоны, дифоны, полуфоны, слоги, морфемы, целые фразы или предложения. При запуске алгоритм генерирует выходную звуковую волну с помощью выбора наилучшей последовательности звуковых единиц из базы данных. Данный выбор обычно реализован с помощью [[Дерево решений и случайный лес|дерева решений]]. Данный подход обеспечивает наиболее естественную речь, так как использует минимальную цифровую обработку сигналов. Недостатком подхода является необходимость в довольно большой базе данных звуков для достижения наибольшей естественности речи. Данный подход являлся самым популярным для общего класса задач синтеза речи, но в последнее время уступает по популярности параметрическому подходу. Примером использования синтеза с выбором является голосовой помощник Siri от Apple <ref name="apple">[https://machinelearning.apple.com/research/siri-voices/ Deep Learning for Siri’s Voice: On-device Deep Mixture Density Networks for Hybrid Unit Selection Synthesis.]</ref> и голосовой помощник Алиса от компании Яндекс <ref>[https://www.seonews.ru/analytics/optimization-2018-chto-nakhoditsya-pod-kapotom-u-alisy/ Optimization 2018: что находится «под капотом» у Алисы.]</ref>.

* '''Дифонный синтез''' (англ. diphone synthesis) является частным случаем синтеза с выбором, который использует в качестве звуковых единиц дифоны (переход от звука к звуку). Подход использует только один образец каждого дифона. База данных дифонов при этом получается сравнительно небольшой. Например, немецкий язык содержит около 800 дифонов, а испанский {{---}} около 2500. При работе алгоритма просодия входной последовательности накладывается на дифоны в базе данных с помощью различных алгоритмов цифровой обработки сигналов. Данный алгоритм значительно уступает по качеству другим подходам и, кроме меньшего размера базы данных, не дает весомых преимуществ, из-за чего не снискал большой популярности.

* '''Синтез речи, ограниченный предметной областью''' (англ. domain-specific speech synthesis) также является частным случаем синтеза с выбором и использует базу данных предварительно записанных слов, фраз и предложений для составления выходной последовательности. Он используется в задачах, где вариативность и размер используемых фраз ограничены некоторой предметной областью, например, прогнозирование погоды или составление расписания транспорта. Из-за значительной простоты реализации и использования данный подход уже долго применяется в коммерческих продуктах, например, говорящие часы или калькуляторы. При этом данный подход может обеспечивать высокую естественность речи вследствие ограниченности используемой базы данных. Недостатками таких систем является ограниченность областью применимости и неспособность учитывать контекст речи, что может вызывать ощутимые ошибки в некоторых языках.

Выходная звуковая волна моделируется с помощью вокодера и параметров <math>\hat{\textbf{o}}</math>.

Данный подход является самым популярным на сегодняшний момент, в том числе из-за того, что он позволяет использовать подходы, основанные на нейронных сетях. Современными продуктами, использующие основанный на глубоком обучении параметрический синтез являются Amazon Lex и Alexa <ref>[https://www.allthingsdistributed.com/2016/11/amazon-ai-and-alexa-for-all-aws-apps.html Bringing the Magic of Amazon AI and Alexa to Apps on AWS.] </ref>, Google Ассистент <ref name="cnet wavenet">Martin, Taylor (May 9, 2018).[https://www.cnet.com/how-to/how-to-get-all-google-assistants-new-voices-right-now/ "Try the all-new Google Assistant voices right now"]. CNET.</ref> и умные дисплеи Portal от Facebook <ref>[https://venturebeat.com/2020/05/15/facebooks-voice-synthesis-ai-generates-speech-in-500-milliseconds/ Facebook’s voice synthesis AI generates speech in 500 milliseconds.]</ref>.

== Алгоритмы, основанные на нейронных сетях ==

=== WaveNet ===

WaveNet<refname="wavenet">~~Yuxuan Wang~~Aaron van den Oord, ~~RJ Skerry-Ryan~~Sander Dieleman, ~~Daisy Stanton~~Heiga Zen, ~~Yonghui Wu~~Karen Simonyan, ~~Ron J. Weiss~~Oriol Vinyals, ~~Navdeep Jaitly~~Alex Graves, ~~Zongheng Yang~~Nal Kalchbrenner, ~~Ying Xiao, Zhifeng Chen, Samy Bengio, Quoc Le, Yannis Agiomyrgiannakis, Rob Clark~~Andrew Senior, & ~~Rif A. Saurous~~Koray Kavukcuoglu. (~~2017~~2016). ~~Tacotron~~WaveNet: ~~Towards End-to-End Speech Synthesis~~A Generative Model for Raw Audio. [https://arxiv.org/abs/~~1703~~1609.~~10135~~03499/ arXiv:~~1703~~1609.~~10135~~03499]</ref> является [[Порождающие модели | порождающей моделью]], использующей параметрический подход к синтезу речи. Её задача {{---}} восстановить распределение вероятностей звукового сигнала

<math>\textbf{x} = \{x_1, x_2, \dots, x_T\}</math> с помощью произведения условных вероятностей:

быстрее, чем [[Рекуррентные нейронные сети | рекуррентные нейронные сети]], но требуют достаточно большого количества уровней для обеспечивания большого окна восприятия сигнала (англ. signal reception window) {{---}} количество предыдущих сигналов, от которых зависит оценка сигнала в текущий момент.

[[Файл:dilated-causal-convolutions.png|thumb|300px| Рисунок 1 — строение причинной сверточной сети (сверху) и расширенной причинной сверточной сети (снизу)<ref name="wavenet">Aaron van den Oord, Sander Dieleman, Heiga Zen, Karen Simonyan, Oriol Vinyals, Alex Graves, Nal Kalchbrenner, Andrew Senior, & Koray Kavukcuoglu. (2016). WaveNet: A Generative Model for Raw Audio. [https://arxiv.org/abs/1609.03499/ ~~строение причинной сверточной сети (сверху) и расширенной причинной сверточной сети (снизу)~~arXiv:1609.03499]</ref>]]

Модификация причинных сверточных сетей, называемая расширенные причинные сверточные сети, способна увеличить окно восприятия сигнала в разы и является основной идеей модели WaveNet.

Модификация заключается в применении свертки к области размерности большей, чем её длина, пропуская входные связи с некоторым шагом. Данный подход аналогичен применению пулинга или свертки с шагом большим единицы, но выходом расширенной причинной сверточной сети является последовательность размерности, равной размерности входной последовательности. Расширенные причинные сверточные сети способны достигать большего окна

восприятия сигнала, используя меньшее количество уровней, при этом сохраняя вычислительную сложность причинных сверточных сетей. Структура причинных сверточных сетей изображена на Рисунке 1.

[[Файл:wavenet.png|thumb|300px| Рисунок 2 — строение модели WaveNet <ref name="wavenet">Aaron van den Oord, Sander Dieleman, Heiga Zen, Karen Simonyan, Oriol Vinyals, Alex Graves, Nal Kalchbrenner, Andrew Senior, & Koray Kavukcuoglu. (2016). WaveNet: A Generative Model for Raw Audio. [https://arxiv.org/abs/1609.03499/ ~~строение модели WaveNet~~arXiv:1609.03499]</ref>]]

Полная структура модели WaveNet изображена на Рисунке 2. Модель на вход принимает закодированную мю-законом последовательность сигналов <math>\textbf{x}</math> и, опционально, некоторую дополнительную информацию, обозначаемую как вектор параметров <math>h</math>, а на выходе возвращает распределение вероятностей для параметров мю-закона, по которым можно восстановить сигнал. В случае использования модели для генерации речи по тексту, данный вектор может содержать информацию о рассматриваемом тексте. Сама модель представляет собой набор из <math>K</math> [[Сверточные нейронные сети#Residual block | блоков с остаточной связью]], содержащих преобразование расширенной причинной свертки и функцию активации.

языках. Модель позволила значительно сократить количество записей речи актеров озвучки, требуемых для создания голосовой модели<ref name="cnet wavenet">Martin, Taylor (May 9, 2018).[https://www.cnet.com/how-to/how-to-get-all-google-assistants-new-voices-right-now/ "Try the all-new Google Assistant voices right now"]. CNET.</ref>.

=== Tacotron ===

[[Файл:Tacotron.PNG|thumb|300px| Рисунок 3 — строение модели Tacotron<ref name="tacotron">Yuxuan Wang, RJ Skerry-Ryan, Daisy Stanton, Yonghui Wu, Ron J. Weiss, Navdeep Jaitly, Zongheng Yang, Ying Xiao, Zhifeng Chen, Samy Bengio, Quoc Le, Yannis Agiomyrgiannakis, Rob Clark, & Rif A. Saurous. (2017). Tacotron: Towards End-to-End Speech Synthesis. [https://arxiv.org/abs/1703.10135/ ~~строение модели Tacotron~~arXiv:1703.10135]</ref>]][[Файл:Tacotron-cbhg.PNG|thumb|300px| Рисунок 4 — —строение модуля CBHG модели Tacotron<ref name="tacotron">Yuxuan Wang, RJ Skerry-Ryan, Daisy Stanton, Yonghui Wu, Ron J. Weiss, Navdeep Jaitly, Zongheng Yang, Ying Xiao, Zhifeng Chen, Samy Bengio, Quoc Le, Yannis Agiomyrgiannakis, Rob Clark, & Rif A. Saurous. (2017). Tacotron: Towards End-to-End Speech Synthesis. [https://arxiv.org/abs/1703.10135/ ~~строение модуля CBHG модели Tacotron~~arXiv:1703.10135]</ref>]]Tacotron {{---}} модель<refname="tacotron">~~Aaron van den Oord~~Yuxuan Wang, ~~Sander Dieleman~~RJ Skerry-Ryan, ~~Heiga Zen~~Daisy Stanton, ~~Karen Simonyan~~Yonghui Wu, ~~Oriol Vinyals~~Ron J. Weiss, ~~Alex Graves~~Navdeep Jaitly, ~~Nal Kalchbrenner~~Zongheng Yang, ~~Andrew Senior~~Ying Xiao, Zhifeng Chen, Samy Bengio, Quoc Le, Yannis Agiomyrgiannakis, Rob Clark, & ~~Koray Kavukcuoglu~~Rif A. Saurous. (~~2016~~2017). ~~WaveNet~~Tacotron: ~~A Generative Model for Raw Audio~~Towards End-to-End Speech Synthesis. [https://arxiv.org/abs/~~1609~~1703.~~03499~~10135/ arXiv:~~1609~~1703.~~03499~~10135]</ref> параметрического синтеза речи, основанная на подходе [[Механизм внимания | seq2seq]], разработанная Google и опубликованная в 2017 году. Модель состоит из кодера, декодера с [[Механизм внимания | вниманием]] и нейронной сети для

пост-процессинга сигнала. Схема модели изображена на Рисунке 2.

VerlorenMind

29

правок

Изменения

Синтез речи

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты