<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="ru">
		<id>http://neerc.ifmo.ru/wiki/api.php?action=feedcontributions&amp;feedformat=atom&amp;user=Yanam</id>
		<title>Викиконспекты - Вклад участника [ru]</title>
		<link rel="self" type="application/atom+xml" href="http://neerc.ifmo.ru/wiki/api.php?action=feedcontributions&amp;feedformat=atom&amp;user=Yanam"/>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%A1%D0%BB%D1%83%D0%B6%D0%B5%D0%B1%D0%BD%D0%B0%D1%8F:%D0%92%D0%BA%D0%BB%D0%B0%D0%B4/Yanam"/>
		<updated>2026-04-10T13:55:26Z</updated>
		<subtitle>Вклад участника</subtitle>
		<generator>MediaWiki 1.30.0</generator>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B0%D1%81%D0%BF%D0%BE%D0%B7%D0%BD%D0%B0%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5_%D1%80%D0%B5%D1%87%D0%B8&amp;diff=67982</id>
		<title>Распознавание речи</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B0%D1%81%D0%BF%D0%BE%D0%B7%D0%BD%D0%B0%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5_%D1%80%D0%B5%D1%87%D0%B8&amp;diff=67982"/>
				<updated>2018-12-19T21:48:51Z</updated>
		
		<summary type="html">&lt;p&gt;Yanam: Новая страница: «'''Распознавание речи'''(Speech Recognition) - процесс преобразования речевого сигнала в цифровую и…»&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;'''Распознавание речи'''(Speech Recognition) - процесс преобразования речевого сигнала в цифровую информацию.&lt;br /&gt;
&lt;br /&gt;
Задачей распознавания является сопоставление набору акустических признаков речевого сигнала или наблюдений &lt;br /&gt;
&amp;lt;math&amp;gt;X(x_1 ,...,x_n)&amp;lt;/math&amp;gt; последовательности слов &lt;br /&gt;
&amp;lt;math&amp;gt;W(w_1 ,...,w_k)&amp;lt;/math&amp;gt;, имеющих наибольшую вероятность правдоподобия среди всех кандидатов. Для этого используется формула Байеса:&lt;br /&gt;
&lt;br /&gt;
&amp;lt;center&amp;gt;&amp;lt;math&amp;gt;W = argmax \left[\frac{P(W)*P(X|W)}{P(X)}\right]&amp;lt;/math&amp;gt;&amp;lt;/center&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Причем, в процессе распознавания вероятность уже полученных признаков Р(Х) не подлежит оптимизации и знаменатель в формуле не испльзуется:&lt;br /&gt;
&lt;br /&gt;
&amp;lt;center&amp;gt;&amp;lt;math&amp;gt;W = argmax[P(W)*P(X|W)]&amp;lt;/math&amp;gt;&amp;lt;/center&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
==Классификация систем распознавания речи==&lt;br /&gt;
&lt;br /&gt;
Системы распознавания речи классифицируются&amp;lt;ref&amp;gt;''Федосин С.А., Еремин А. Ю.'' Классификация систем распознавания речи. — Саранск. : МГУ им. Н.П. Огарева, 2009. — С. 3.&amp;lt;/ref&amp;gt;:&lt;br /&gt;
* по размеру словаря (ограниченный набор слов, словарь большого размера);&lt;br /&gt;
* по зависимости от диктора (дикторозависимые и дикторонезависимые системы);&lt;br /&gt;
* по типу речи (слитная или раздельная речь);&lt;br /&gt;
* по назначению (системы диктовки, командные системы);&lt;br /&gt;
* по используемому алгоритму (нейронные сети, скрытые Марковские модели, динамическое программирование);&lt;br /&gt;
* по типу структурной единицы (фразы, слова, фонемы, дифоны, аллофоны);&lt;br /&gt;
* по принципу выделения структурных единиц (распознавание по шаблону, выделение лексических элементов).&lt;br /&gt;
&lt;br /&gt;
==Структура систем распознавания речи==&lt;br /&gt;
&lt;br /&gt;
Системы распознавания речи впервые появились в 1952 году. С тех пор методы распознавания не раз менялись.&lt;br /&gt;
Ранее использовались такие методы и алгоритмы, как:&lt;br /&gt;
* Динамическое программирование (Dynamic Time Warping) - временные динамические алгоритмы, выполняющие классификацию на основе сравнения с эталоном.&lt;br /&gt;
* Методы дискриминантного анализа, основанные на Байесовской дискриминации (Bayesian discrimination).&lt;br /&gt;
* Скрытые Марковские Модели (Hidden Markov Model).&lt;br /&gt;
* Нейронные сети (Neural Networks).&lt;br /&gt;
В настоящее время, перечисленные выше методы как правило комбинируются. Их сочетание позволяет получить более высокое качество распознавания, чем использование каждой модели отдельно.&lt;br /&gt;
&lt;br /&gt;
Системы распознавания речи имеют следующие основные модули:&lt;br /&gt;
* Акустическая модель&lt;br /&gt;
* Языковая модель&lt;br /&gt;
* Декодер&lt;br /&gt;
&lt;br /&gt;
===Акустическая модель===&lt;br /&gt;
&lt;br /&gt;
''Акустическая модель'' — это функция, принимающая на вход небольшой участок акустического сигнала (кадр или frame) и выдающая распределение вероятностей различных фонем на этом кадре. Таким образом, акустическая модель дает нам возможность по звуку восстановить, что было произнесено — с той или иной степенью уверенности.&amp;lt;br&amp;gt;&lt;br /&gt;
''Фонема'' - элементарная единица человеческой речи.&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
===Языковая модель===&lt;br /&gt;
&lt;br /&gt;
''Языковая модель'' - позволяет узнать, какие последовательности слов в языке более вероятны, а какие менее.&lt;br /&gt;
Здесь в самом простом случае требуется предсказать следующее слово по известным предыдущим словам. В традиционных системах применялись модели типа N-грамм, в которых на основе большого количества текстов оценивались распределения вероятности появления слова в зависимости от N предшествующих слов. Для получения надежных оценок распределений параметр N должен быть достаточно мал: одно, два или три слова — модели униграмм, биграмм или триграмм соответственно. Внедрение языковой модели в систему распознавания речи позволило значительно повысить качество распознавания за счет учета контекста.&lt;br /&gt;
&lt;br /&gt;
===Декодер===&lt;br /&gt;
&lt;br /&gt;
В ходе работы системы автоматического распознавания речи задача распознавания сводится к определению наиболее вероятной последовательности слов, соответствующих содержанию речевого сигнала. Наиболее вероятный кандидат должен определяться с учетом как акустической, так и лингвистической информации. Это означает, что необходимо производить эффективный поиск среди возможных кандидатов с учетом различной вероятностной информации. При распознавании слитной речи число таких кандидатов огромно, и даже использование самых простых моделей приводит к серьезным проблемам, связанным с быстродействием и памятью систем. Как результат, эта задача выносится в отдельный модуль системы автоматического распознавания речи, называемый декодером.&lt;br /&gt;
Декодер должен определять наиболее грамматически вероятную гипотезу для неизвестного высказывания – то есть определять наиболее вероятный путь по сети распознавания, состоящей из моделей слов (которые, в свою очередь, формируются из моделей отдельных фонов). Правдоподобие (likelihood) гипотезы определяется двумя факторами, а именно вероятностями последовательности фонов, приписываемыми акустической моделью, и вероятностями следования слов друг за другом, определяемыми моделью языка. &lt;br /&gt;
&lt;br /&gt;
Рассмотрим математическую основу декодеров.&amp;lt;br&amp;gt;&lt;br /&gt;
Отбрасывая несущественный на этапе распознавания знаменатель, запишем:&lt;br /&gt;
&lt;br /&gt;
&amp;lt;center&amp;gt;&amp;lt;math&amp;gt;W = argmax [P(W)P(XW)]&amp;lt;/math&amp;gt;&amp;lt;/center&amp;gt;&lt;br /&gt;
&lt;br /&gt;
где &amp;lt;math&amp;gt;X = x_1^T = x_1 ,..., x_N&amp;lt;/math&amp;gt; – последовательность векторов признаков входного сигнала, &amp;lt;math&amp;gt;W = w_1^n = w_1 ,..., w_n&amp;lt;/math&amp;gt; – последовательность слов, принадлежащих словарю размером &amp;lt;math&amp;gt;N_W&amp;lt;/math&amp;gt;. Первый множитель P(W) описывает вклад лингвистического модуля, второй P(X|W) – лексического, фонетического и акустического источников знаний. В соответствии с концепцией марковских цепей, второй множитель представляет собой сумму вероятностей всех возможных последовательностей состояний, что приводит к уравнению: &lt;br /&gt;
&lt;br /&gt;
&amp;lt;center&amp;gt;&amp;lt;math&amp;gt;W = argmax [P(W)\sum_{S_1^T} P(x_1^T, s_1^T | w_1^N)]&amp;lt;/math&amp;gt;&amp;lt;/center&amp;gt;&lt;br /&gt;
&lt;br /&gt;
где &amp;lt;math&amp;gt;s_1^T&amp;lt;/math&amp;gt; – одна из последовательностей состояний, порождаемых последовательностью слов &amp;lt;math&amp;gt;w_1^n&amp;lt;/math&amp;gt;. На практике применяется критерий Витерби&amp;lt;ref&amp;gt;''Тампель И.Б, Карпов А.А.'' Автоматическое распознавание речи. — СПб. : Университет ИТМО, 2016. — С. 113.&amp;lt;/ref&amp;gt;. – ищется последовательность состояний, дающая максимальный вклад в сумму:&lt;br /&gt;
&lt;br /&gt;
&amp;lt;center&amp;gt;&amp;lt;math&amp;gt;W = argmax[P(W)^aMax[P(x_1^T, s_1^T | w_1^N)]]&amp;lt;/math&amp;gt;&amp;lt;/center&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Различают систему раннего и систему позднего предсказания. В первой выполняется предсказание для акустической и языковой модели независимо, а затем оба предсказания поступают в декодер. При позднем предсказании, вычисленные признаки речи в акустической и языковой моделях без предсказания поступают в декодер и уже на основе их совместного декодирования выполняется предсказание.&lt;br /&gt;
&lt;br /&gt;
Этапы распознавания:&lt;br /&gt;
# Обработка речи начинается с оценки качества речевого сигнала. На этом этапе определяется уровень помех и искажений.&lt;br /&gt;
# Результат оценки поступает в модуль акустической адаптации, который управляет модулем расчета параметров речи, необходимых для распознавания.&lt;br /&gt;
# В сигнале выделяются участки, содержащие речь, и происходит оценка параметров речи. Происходит выделение фонетических и просодических вероятностных характеристик для синтаксического, семантического и прагматического анализа. (Оценка информации о части речи, форме слова и статистические связи между словами.)&lt;br /&gt;
# Далее параметры речи поступают в основной блок системы распознавания — декодер. Это компонент, который сопоставляет входной речевой поток с информацией, хранящейся в акустических и языковых моделях, и определяет наиболее вероятную последовательность слов, которая и является конечным результатом распознавания.&lt;br /&gt;
&lt;br /&gt;
==Признаки==&lt;br /&gt;
&lt;br /&gt;
Признаки речевых событий, используемые при распознавании речи:&lt;br /&gt;
* Спектр Фурье&lt;br /&gt;
* Спектр Фурье в шкале мел&lt;br /&gt;
* Коэффициенты линейного предсказания&lt;br /&gt;
* Кепстр&lt;br /&gt;
&lt;br /&gt;
'''Спектр Фурье'''&lt;br /&gt;
&lt;br /&gt;
Спектр Фурье получают, используя алгоритм БПФ (Быстрого Преобразования Фурье) с длиной окна равной 2-4 периода основного тона, что составляет около 20 мс. При частоте квантования 10-16 кГц выбирается окно 256 отсчетов.&lt;br /&gt;
&lt;br /&gt;
Для ослабления искажений сигнала, вызванных применением к непрерывному сигналу конечного окна анализа, чаще всего используется окно Хэмминга по формуле:&lt;br /&gt;
&lt;br /&gt;
&amp;lt;center&amp;gt;&amp;lt;math&amp;gt;S'(n) = [0.54 - 0.46cos\left(\frac{2\pi n}{N-1}\right)]*S(n)&amp;lt;/math&amp;gt;&amp;lt;/center&amp;gt;&lt;br /&gt;
&lt;br /&gt;
где n = 1..N, N – размерность окна, S(n) – отсчеты речевого сигнала.&lt;br /&gt;
&lt;br /&gt;
'''Спектр Фурье в шкале мел'''&lt;br /&gt;
&lt;br /&gt;
К каждому кадру, полученного Фурье спектра применяется блок мел-фильтров — треугольных пересекающихся фильтров, расположенных наиболее плотно в области нижних частот. Количество фильтров — 26. Для расчета фильтров выбирается верхняя и нижняя частота. Затем осуществляется переход от частотной шкалы к мел-шкале по формуле:&lt;br /&gt;
&lt;br /&gt;
&amp;lt;center&amp;gt;&amp;lt;math&amp;gt;M(f) = 1127*ln\left(1 + \frac{f}{700}\right)&amp;lt;/math&amp;gt;&amp;lt;/center&amp;gt;&lt;br /&gt;
&lt;br /&gt;
На мел-шкале выбираются линейно расположенные точки (28 точек для 26 фильтров), после чего, производится обратный переход в частотную область.&lt;br /&gt;
&lt;br /&gt;
'''Коэффициенты линейного предсказания'''&lt;br /&gt;
&lt;br /&gt;
Модель линейного предсказания речи предполагает, что передаточная функция голосового тракта представляется полюсным фильтром с передаточной&lt;br /&gt;
функцией:&lt;br /&gt;
&lt;br /&gt;
&amp;lt;center&amp;gt;&amp;lt;math&amp;gt;H(z) = \frac{1}{\sum_{i=0}^p a_i z^{-i}}&amp;lt;/math&amp;gt;&amp;lt;/center&amp;gt;&lt;br /&gt;
&lt;br /&gt;
где p – число полюсов и &amp;lt;math&amp;gt;a_0 = 1&amp;lt;/math&amp;gt;;&lt;br /&gt;
Фильтр с такой передаточной функцией позволяет описать поведение сглаженного спектра речевого сигнала с хорошей точностью, за исключением назализованных звуков. Коэффициенты фильтра {&amp;lt;math&amp;gt;a_i&amp;lt;/math&amp;gt;} – выбираются путем минимизации среднеквадратичной ошибки предсказания, просуммированной на окне анализа.&lt;br /&gt;
&lt;br /&gt;
'''Кепстр'''&lt;br /&gt;
&lt;br /&gt;
Кепстр (''cepstrum'') сигнала на основе спектра Фурье вычисляется путем применения косинусного Фурье преобразования к логарифму спектра:&lt;br /&gt;
&lt;br /&gt;
&amp;lt;center&amp;gt;&amp;lt;math&amp;gt;c_j = \sqrt{\frac{2}{N}}\sum_{i=0}^{N-1} \left[s_icos\left(\frac{\pi(j+1)(i+0.5)}{N}\right)\right] = \sum_{i=0}^{N-1} C_{j,i}s_i&amp;lt;/math&amp;gt;&amp;lt;/center&amp;gt;&lt;br /&gt;
&lt;br /&gt;
где &amp;lt;math&amp;gt;s_i&amp;lt;/math&amp;gt; – логарифм спектра, N – количество отсчётов спектра, &amp;lt;math&amp;gt;C_{i,j}&amp;lt;/math&amp;gt; – унитарная матрица косинусного преобразования.&lt;br /&gt;
&lt;br /&gt;
Кепстральные коэффициенты, полученные приведённым способом из ''мел'' спектра Фурье, широко используются для распознавания с помощью марковских моделей и носят название MFCC (Mel-frequency cepstral coefficients).&lt;br /&gt;
&lt;br /&gt;
==Показатели оценки качества распознавания речи==&lt;br /&gt;
&lt;br /&gt;
Существуют различные по сложности и прикладному значению задачи распознавания: изолированных слов (команд); ключевых слов в потоке речи; связанной речи (тщательное проговаривание текста с паузами между словами); слитной речи (разделяют диктовку в узкой тематической области, и спонтанную речь, например, в диалоге между людьми).&lt;br /&gt;
&lt;br /&gt;
Оценка системы, распознающей отдельные команды, не представляет каких-либо трудностей – количество неправильно распознанных команд делится на общее количество испытаний и получается процент ошибки. Для систем, распознающих слитную речь, ситуация не столь проста.&lt;br /&gt;
&lt;br /&gt;
Основными показателями качества распознавания слитной речи являются:&lt;br /&gt;
* процент правильно распознанных слов (WRR - Word Recognition Rate);&lt;br /&gt;
* процент неправильно распознанных слов (WER - Word Error Rate);&lt;br /&gt;
* процент неправильно распознанных предложений/фраз (SER - Sentence Error Rate);&lt;br /&gt;
&lt;br /&gt;
Поскольку с развитием речевых технологий показатель WER все более приближается к нулю, то значение улучшения WER более наглядно, чем улучшение точности распознавания слов.&lt;br /&gt;
&lt;br /&gt;
&amp;lt;center&amp;gt;&amp;lt;math&amp;gt;WER = \frac{S+D+I}{T} * 100%&amp;lt;/math&amp;gt;&amp;lt;/center&amp;gt;&lt;br /&gt;
&lt;br /&gt;
где T - количество слов в распознаваемой фразе,&lt;br /&gt;
S - количество замененных слов,&lt;br /&gt;
D - количество удаленных слов,&lt;br /&gt;
I - количество вставленных слов.&lt;br /&gt;
Показатель WER может быть больше 100%.&lt;br /&gt;
&lt;br /&gt;
Другим важным критерием оценки систем распознавания слитной речи является - скорость обработки речи. Она вычисляется с помощью показателя скорости (Real-Time Factor, Speed Factor):&lt;br /&gt;
&lt;br /&gt;
&amp;lt;center&amp;gt;&amp;lt;math&amp;gt;RTF = \frac{T_{proc}}{T_{signal}}&amp;lt;/math&amp;gt;&amp;lt;/center&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&amp;lt;math&amp;gt;T_{signal}&amp;lt;/math&amp;gt; - длительность обрабатываемого аудиосигнала;&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;math&amp;gt;T_{proc}&amp;lt;/math&amp;gt; - время, необходимое для обработки сигнала.&amp;lt;br&amp;gt;&lt;br /&gt;
Если &amp;lt;math&amp;gt;RTF \leqslant 1.0&amp;lt;/math&amp;gt; - то распознавание речи ведется в режиме реального времени.&lt;br /&gt;
&lt;br /&gt;
==Применение==&lt;br /&gt;
&lt;br /&gt;
Системы распознавания речи начали развиваться как специальные сервисы для людей с ограниченными возможностями, но также нашли применение в различных сферах бизнеса, таких как:&lt;br /&gt;
* Телефония: системы голосового самообслуживания;&lt;br /&gt;
* &amp;quot;Умный дом&amp;quot;: голосовой интерфейс управления;&lt;br /&gt;
* Роботы: голосовой интерфейс электронных роботов;&lt;br /&gt;
* РС, ноутбуки, телефоны: голосовой ввод команд, диктовка текста;&lt;br /&gt;
* Автомобили: голосовое управление в салоне автомобиля.&lt;br /&gt;
&lt;br /&gt;
Основные отрасли применения:&lt;br /&gt;
* Голосовое управление&lt;br /&gt;
* Голосовые команды&lt;br /&gt;
* Голосовой ввод текста&lt;br /&gt;
* Голосовой поиск&lt;br /&gt;
&lt;br /&gt;
==См. также==&lt;br /&gt;
* [[Байесовская классификация]]&amp;lt;sup&amp;gt;[на 20.12.18 не создан]&amp;lt;/sup&amp;gt;&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/Распознавание_образов Распознавание образов]&lt;br /&gt;
* [https://habr.com/company/yandex/blog/198556/ Распознавание речи от Яндекса]&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/Субвокальное_распознавание Субвокальное распознавание]&lt;br /&gt;
&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references /&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==Источники информации==&lt;br /&gt;
# [https://ru.wikipedia.org/wiki/Speech_recognition] - статья на Википедии&lt;br /&gt;
# Тампель И.Б, Карпов А.А. Автоматическое распознавание речи. Учебное пособие. — СПб: Университет ИТМО, 2016. — 138 с.&lt;br /&gt;
# [http://fetmag.mrsu.ru/2010-2/pdf/SpeechRecognition.pdf] - статья &amp;quot;Классификация систем распознавания речи&amp;quot;.&lt;br /&gt;
# [https://moluch.ru/archive/147/41443/] - статья &amp;quot;Выделение границ фонем речевого сигнала с помощью мел-частотных спектральных коэффициентов&amp;quot;.&lt;/div&gt;</summary>
		<author><name>Yanam</name></author>	</entry>

	</feed>