Изменения

Перейти к: навигация, поиск

Синтез речи

2921 байт добавлено, 18:50, 13 января 2021
Добавлен раздел с проблемами
<math>\textbf{x} = \{x_1, x_2, \dots, x_T\}</math> с помощью произведения условных вероятностей
<math>p(\textbf{x})=\prod\limits_{t=1}^{T} p(x_t | x_1, x_2, \dots, x_t)</math>
Таким образом, вероятность каждого сигнала <math>x_t</math> зависит от вероятностей предыдущих сигналов. При этом, в качестве вокодера используется преобразование, известное
Выходом модели является категориальное распределение вероятности, получаемое с помощью softmax-преобразования.
Основной идеей модели является использование причинных сверточных сетей и [[Сверточные нейронные сети#Расширенная свертка (aнгл. Dilated convolution) | расширенных ]] причинных сверточных сетей.
Причинная сверточная сеть представляет собой несколько уровней сверточной нейронной сети, связанных между собой в порядке, который не нарушает последовательность
входного сигнала, т.е. оцениваемая в момент времени <math>t+1</math> вероятность сигнала <math>p(x_{t+1} | x_1, x_2, \dots, x_t)</math> не зависит от сигналов
== Проблемы ==
=== Задача обработки текста === Алгоритмы обработки текста могут не справляться с обработкой определенных частей речи, таких, как аббревиатуры, числа и гетеронимы. Произношение определенных слов также зависит от контекста их применения. Большинство систем синтеза речи по тексту не способны выделять контекст предложений и используют различные эвристические подходы с целью различить омографы (слова с одинаковым написанием, но различным произношением).=== Преобразование текста в фонемы ===Процесс преобразования текста в фонемы обычно подразделяется на два подхода - словарный и основанный на правилах. Словарный подход использует словарь с записанными фонетическими представлениями слов и в процессе работы производит поиск в нем с целью конвертации слова в последовательность фонем. Основанный на правилах подход использует набор правил, которые применяются к словам или частям слов с целью выделения фонем. Оба эти подхода имеют существенные недостатки и требуют решения соответствующих проблем.=== Оценка качества ===На данный момент не существует единых критериев оценки качества синтезаторов речи. В каждом отдельном применении технологии синтеза речи могут быть в том числе свои критерии качества, связанные с предметной областью или используемым оборудованием. С другой стороны, ряд исследователей начали оценивать синтезаторы речи используя распространенные наборы данных для синтеза речи <ref>[http://festvox.org/blizzard/ Blizzard Challenge]</ref>.
== См. также ==
* [[Нейронные сети, перцептрон]]* [[Сверточные нейронные сети]]* [[ Рекуррентные нейронные сети ]]* [[ Механизм внимания ]]* [[ Распознавание речи ]]
== Примечания ==
29
правок

Навигация