Изменения

Распознавание речи

3039 байт добавлено, 00:48, 7 декабря 2020

Больше сведений про акустическую модель

===Акустическая модель===

''Фонема'' (phoneme) {{---}} элементарная единица человеческой речи. Примерами фонем являются транскрипции в формате IPA {{---}} так, слово hello состоит из фонем [hɛˈləʊ].

''Акустическая модель'' — {{---}} это функция, принимающая на вход ~~небольшой участок~~ признаки на небольшом участке акустического сигнала (~~кадр или frame~~фрейме) и выдающая распределение вероятностей различных фонем на этом ~~кадре~~фрейме. Таким образом, акустическая модель дает ~~нам~~ возможность по звуку восстановить, что было произнесено — {{---}} с той или иной степенью уверенности.<br>Самой популярной реализацией акустической модели является [[Скрытые Марковские модели|скрытая Марковская модель (СММ)]], в которой скрытыми состояниями являются фонемы, а наблюдениями {{---}} распределения вероятностей признаков на фрейме. Рассмотрим подробнее акустическую модель на основе СММ для слова ''six'':{|align="center" |-valign="top" |[[Файл:HMM_six.jpeg|800px|Акустическая модель для слова ''~~Фонема~~six'' ]] |}В круглых (скрытых) состояниях изображены фонемы, а в квадратных (наблюдениях) {{---}} распределения вероятностей признаков (для упрощения, здесь изображено одномерное распределение). Фонемы часто разбивают на 3 этапа {{---}} начало, середину и конец, {{---}} потому что фонема может звучать по-разному в зависимости от момента времени её произнесения. Каждое скрытое состояние содержит переход само в себя, так как время произнесения одной фонемы может занять несколько фреймов. Вероятности перехода между фонемами в СММ являются обучаемыми параметрами, и для их настройки используют [[Алгоритм Баума-Велша|алгоритм Баума-Велша]]. Последовательность фонем по набору распределений на фреймах восстанавливают по [[Алгоритм Витерби|алгоритму Витерби]]. [[Файл:GMM_acoustic.jpeg|мини|Отличие нормального распределения от GMM]]В качестве функции распределения вероятностей признаков часто выбирают смешанную гауссову модель (англ. Gaussian Mixture Model, GMM): дело в том, что одна и та же фонема может звучать по- ~~элементарная единица человеческой речи~~разному, например, в зависимости от акцента. Так как эта функция является по сути суммой нескольких нормальных распределений, она позволяет учесть различные звучания одной и той же фонемы.~~<br>~~

===Языковая модель===

Knisht

10

правок

Изменения

Распознавание речи

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты