Изменения

Перейти к: навигация, поиск

Распознавание речи

313 байт добавлено, 22:52, 11 декабря 2020
Правки к конспекту по МЛ
{|align="center"
|-valign="top"
|[[Файл:HMM_six.jpeg|800px|мини|Акустическая модель для слова ''six''. [http://www.inf.ed.ac.uk/teaching/courses/asr/2018-19/asr04-cdhmm-handout.pdf Источник]]]
|}
В круглых (скрытых) состояниях изображены фонемы, а в квадратных (наблюдениях) {{---}} распределения вероятностей признаков (для упрощения, здесь изображено одномерное распределение). Фонемы часто разбивают на 3 этапа {{---}} начало, середину и конец, {{---}} потому что фонема может звучать по-разному в зависимости от момента времени её произнесения. Каждое скрытое состояние содержит переход само в себя, так как время произнесения одной фонемы может занять несколько фреймов. Вероятности перехода между фонемами в СММ являются обучаемыми параметрами, и для их настройки используют [[Алгоритм Баума-Велша|алгоритм Баума-Велша]]. Последовательность фонем по набору распределений на фреймах восстанавливают по [[Алгоритм Витерби|алгоритму Витерби]].
[[Файл:GMM_acoustic.jpeg|мини|Отличие нормального распределения от GMM. [https://jonathan-hui.medium.com/speech-recognition-gmm-hmm-8bb5eff8b196 Источник]]]
В качестве функции распределения вероятностей признаков часто выбирают смешанную гауссову модель (англ. Gaussian Mixture Model, GMM): дело в том, что одна и та же фонема может звучать по-разному, например, в зависимости от акцента. Так как эта функция является по сути суммой нескольких нормальных распределений, она позволяет учесть различные звучания одной и той же фонемы.
==Признаки==
[[Файл:Frame_division.jpeg|мини|Разделение осциллограммы на фреймы.[https://jonathan-hui.medium.com/speech-recognition-feature-extraction-mfcc-plp-5455f5a69dd9 Источник]]]
Входные данные представляют собой непрерывную осциллограмму звуковой волны. В задачах распознавания речи эту осциллограмму разбивают на '''фреймы''' {{---}} фрагменты звукового потока длительностью около 20 мс и шагом 10 мс. Такой размер соответствует скорости человеческой речи: если человек говорит по 3 слова в секунду, каждое из которых состоит примерно из 4 звуков и каждый звук разбивается на 3 этапа, то на этап выходит около 28 мс. Каждый фрейм независимо трансформируется и подвергается извлечению признаков, тем самым образуя векторизированный набор данных для задачи машинного обучения.
Признаки речевых событий, используемые при распознавании речи:
* Спектр Фурье.* Спектр Фурье в шкале мел.* Коэффициенты линейного предсказания.* Кепстр.
'''Спектр Фурье'''
10
правок

Навигация