Изменения

Перейти к: навигация, поиск

Распознавание речи

3039 байт добавлено, 00:48, 7 декабря 2020
Больше сведений про акустическую модель
===Акустическая модель===
''Фонема'' (phoneme) {{---}} элементарная единица человеческой речи. Примерами фонем являются транскрипции в формате IPA {{---}} так, слово hello состоит из фонем [hɛˈləʊ].
''Акустическая модель'' {{---}} это функция, принимающая на вход небольшой участок признаки на небольшом участке акустического сигнала (кадр или frameфрейме) и выдающая распределение вероятностей различных фонем на этом кадрефрейме. Таким образом, акустическая модель дает нам возможность по звуку восстановить, что было произнесено {{---}} с той или иной степенью уверенности.<br>Самой популярной реализацией акустической модели является [[Скрытые Марковские модели|скрытая Марковская модель (СММ)]], в которой скрытыми состояниями являются фонемы, а наблюдениями {{---}} распределения вероятностей признаков на фрейме. Рассмотрим подробнее акустическую модель на основе СММ для слова ''six'':{|align="center" |-valign="top" |[[Файл:HMM_six.jpeg|800px|Акустическая модель для слова ''Фонемаsix'' ]] |}В круглых (скрытых) состояниях изображены фонемы, а в квадратных (наблюдениях) {{---}} распределения вероятностей признаков (для упрощения, здесь изображено одномерное распределение). Фонемы часто разбивают на 3 этапа {{---}} начало, середину и конец, {{---}} потому что фонема может звучать по-разному в зависимости от момента времени её произнесения. Каждое скрытое состояние содержит переход само в себя, так как время произнесения одной фонемы может занять несколько фреймов. Вероятности перехода между фонемами в СММ являются обучаемыми параметрами, и для их настройки используют [[Алгоритм Баума-Велша|алгоритм Баума-Велша]]. Последовательность фонем по набору распределений на фреймах восстанавливают по [[Алгоритм Витерби|алгоритму Витерби]]. [[Файл:GMM_acoustic.jpeg|мини|Отличие нормального распределения от GMM]]В качестве функции распределения вероятностей признаков часто выбирают смешанную гауссову модель (англ. Gaussian Mixture Model, GMM): дело в том, что одна и та же фонема может звучать по- элементарная единица человеческой речиразному, например, в зависимости от акцента. Так как эта функция является по сути суммой нескольких нормальных распределений, она позволяет учесть различные звучания одной и той же фонемы.<br>
===Языковая модель===
10
правок

Навигация