Изменения

Распознавание речи

792 байта добавлено, 20:25, 24 января 2021

м

→‎State of the Art в автоматическом распознавании речи

==Признаки==

[[Файл:Frame_division.jpeg|мини|Рисунок 3. Разделение осциллограммы на фреймы. [https://jonathan-hui.medium.com/speech-recognition-feature-extraction-mfcc-plp-5455f5a69dd9 Источник]]]

Входные данные представляют собой непрерывную осциллограмму звуковой волны. В задачах распознавания речи эту осциллограмму разбивают на '''фреймы''' {{---}} фрагменты звукового потока длительностью около 20 мс и шагом 10 мс. Такой размер соответствует скорости человеческой речи: если человек говорит по 3 слова в секунду, каждое из которых состоит примерно из 4 звуков и каждый звук разбивается на 3 этапа, то на этап выходит около 28 мс. Каждый фрейм независимо трансформируется и подвергается извлечению признаков, тем самым образуя векторизированный набор данных для задачи машинного обучения.

Если <math>RTF \leqslant 1.0</math> - то распознавание речи ведется в режиме реального времени.

==~~Обучение с частичным привлечением учителя для автоматического распознавания~~ State of the Art в автоматическом распознавании речи==[[Файл:ASR_new_sota.png|600px|thumb|right|~~'''~~Рисунок 14.~~'''~~ $WER$ SOTA алгоритмов на ~~датасетах~~ наборах данных LibriSpeech test-clean/test-other. $WER$ описываемого в статье алгоритма отмечен красной точкой. [https://arxiv.org/pdf/2010.10504.pdf Источник]]]

Для обучения современных систем распознавания речи требуются тысячи часов размеченной речи, однако получение размеченных данных в необходимом объеме (особенно с учетом разнообразия существующих языков) затруднительно. Это повлияло на то, что сейчас в машинном обучении для распознавания речи успешно используется [[Обучение с частичным привлечением учителя| обучение с частичным привлечением учителя]], которое позволяет сначала обучать модель на большом объеме неразмеченных данных, а потом корректировать ее при помощи размеченных.

Одним из примеров обучения с частичным привлечением учителя для автоматического распознавания речи является подход, впервые представленный в статье<ref>''Yu Zhang, James Qin, Daniel S. Park, Wei Han, Chung-Cheng Chiu, Ruoming Pang, Quoc V. Le, Yonghui Wu'' Pushing the Limits of Semi-Supervised Learning for Automatic Speech Recognition[https://arxiv.org/pdf/2010.10504.pdf]</ref>, основанный на комбинации алгоритмов [[Распознавание_речи#Noisy_student | noisy student]], [[Распознавание_речи#wav2vec | wav2vec]] и использовании модели [[Распознавание_речи#Конформер| Конформера]]. Такой метод позволил уменьшить $WER$ на наборах данных LibriSpeech test-clean/test-other с $1.7\%/3.3\%$ (предыдущий ''state-of-the-art'') до $1.4\%/2.6\%$ (Рисунок 14).$WER$ человека {{---}} $5.9\%$<ref>''W. Xiong, L. Wu, F. Alleva, J. Droppo, X. Huang, A. Stolcke'' The Microsoft 2017 Conversational Speech Recognition System[https://arxiv.org/pdf/1708.06073]</ref>

Основная идея состоит в том, что множество моделей Конформеров при помощи алгоритма ''wav2vec'' предварительно обучается на неразмеченных данных, при этом одновременно с этим на основе них генерируются размеченные. Таким образом, неразмеченные данные используются для двух целей: для обучения модели и для генерации размеченных данных, которые используются для дальнейшего обучения модели алгоритмом ''noisy student''.

===Конформер===

[[Файл:Conformer.png|600px|thumb|right|~~'''~~Рисунок 25.~~'''~~ Общая схема Конформера (a) и схема блоков Конформера (b)]]

[[Трансформер|Трансформер]][на 21.01.21 не создан], использующий [[Механизм внимания#Self-Attention|механизм самовнимания]], хорошо захватывает глобальный контекст, однако не очень хорошо извлекает локальные признаки. [[Сверточные нейронные сети]], наоборот, эффективно используют локальные признаки, но требуют большого числа слоев для захвата глобального контекста. Конформер (англ. ''Conformer'') комбинирует сверточные слои с механизмом самовнимания. $WER$ на LibriSpeech test-clean/test-other составляет $1.9\%/3.9\%$.

Сначала данные, подающиеся на вход Конформеру, проходят аугментацию. В применении к распознаванию речи, используется метод аугментации ''SpecAugment''. ''SpecAugment'' применяет к [[Распознавание речи#Признаки|мел спектрограмме]] три вида деформаций: искажение времени (удлинение или сжатие некоторого промежутка записи), удаление некоторого временного промежутка из записи, и удаление некоторого промежутка частот. Таким образом, при обучении на зашумленных с помощью ''SpecAugment'' данных сеть обучается на признаках, устойчивых к деформации во времени, частичной потере частотной информации и потере небольших сегментов речи. Конформер ~~сначала~~ обрабатывает итоговые аугментированные входные данные с помощью сверточной нейронной сети, состоящей из слоя [[Сверточные нейронные сети#Пулинговый слой|пулинга]], [[Нейронные сети, перцептрон|полносвязного слоя]] и [[Практики реализации нейронных сетей#Дропаут|дропаута]], а затем с помощью последовательности блоков Конформера.

Блоки Конформера {{---}} это последовательность из двух модулей прямой связи (англ. ''feed forward''), между которыми расположены модуль многоголового самовнимания (англ. ''Multi-Head Self Attention'') и сверточный модуль, с последующей нормализацией слоя (англ. ''layer normalization'').

[[Файл:Multi_Head_Self_Attention_module.png|400px|thumb|right|~~'''~~Рисунок 36.~~'''~~ Модуль многоголового самовнимания]]

'''Модуль многоголового самовнимания'''

В модуле используется блок многоголового внимания с относительным позиционным кодированием (англ. ''Multi-Head Attention with ~~Relational~~ Relative Positional Encoding''). Такой блок (изначально часть архитектуры Трансформер-XL<ref>''Zihang Dai, Zhilin Yang, Yiming Yang, Jaime Carbonell, Quoc V. Le, Ruslan Salakhutdinov'' Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context[https://arxiv.org/pdf/1901.02860.pdf]</ref>) используется с целью исправить два недостатка Трансформера: ограничение на длину входа (что не позволяет модели, например, использовать слово, которое появилось несколько предложений назад) и фрагментацию контекста (последовательность разбивается на несколько блоков, каждый из которых обучается независимо). Для достижения этой цели используются два механизма: механизм повторения (англ. ''reccurence mechanism'') и относительное позиционное кодирование (англ. ''~~relational~~ relative positional encoding''). Механизм повторения позволяет использовать информацию из предыдущих сегментов. Как и в оригинальной версии, Трансформер-XL обрабатывает первый сегмент токенов, но сохраняет выходные данные скрытых слоев. При обработке следующего сегмента каждый скрытый слой получает два входа: результат предыдущего скрытого слоя этого сегмента, как в Трансформере, и результат предыдущего скрытого слоя из предыдущего сегмента, который позволяет модели создавать зависимости от далеких сегментов.

Однако, с использованием механизма повторения возникает новая проблема: при использовании исходного позиционного кодирования каждый сегмент кодируется отдельно, и в результате токены из разных сегментов закодированы одинаково.

Относительное позиционное кодирование основано на относительном расстоянии между токенами. Для подсчета оценки, на основании которой на некоторое скрытое состояние будет "обращено внимание"почти полностью совпадает с абсолютным позиционным кодированием из оригинального Трансформера, но вместо позиции внутри сегмента используется ~~относительное~~ расстояние между ~~токенами вместо абсолютного положения текущего токена~~сегментами. Кроме того, ~~а так же~~ добавляются два вектора параметров~~: первый регулирует~~ , задающие важность расстояния и содержания ~~другого~~ второго токена~~, а второй — важность расстояния между токенами~~относительно первого.

Использование модуля многоголового самовнимания с относительным позиционным кодированием позволяет сети лучше обучаться при различной длине ввода, а результирующая архитектура получается более устойчивой к неоднородности длины высказывания.

'''Сверточный модуль'''

[[Файл:Convolution_module.png|600px|thumb|right|~~'''~~Рисунок 47.~~'''~~ Сверточный модуль]]

Последовательность слоев в сверточном модуле начинается с управляемого модуля<ref>''N. Dauphin, Angela Fan, Michael Auli, David Grangier'' Language Modeling with Gated Convolutional Networks[https://arxiv.org/pdf/1612.08083.pdf]</ref>: сверточного слоя с ядром $1 \times 1$ (англ. ''pointwise convolution'') и управляемого линейного блока (англ. ''gated linear unit''). Управляемый линейный блок {{---}} слой нейронной сети, определяемый как покомпонентное произведение двух линейных преобразований входных данных, [[Практики реализации нейронных сетей#Функции активации|функция активации]] одного из которых {{---}} сигмоида. Использование управляемого линейного блока уменьшает [[Сверточные нейронные сети#Residual block|проблему исчезающего градиента]]. После сверточного слоя используется [[Batch-normalization|пакетная нормализация]].

В модуле используется функция активации ''swish''<ref>''Prajit Ramachandran, Barret Zoph, Quoc V. Le'' Searching for Activation Functions</ref> (до появления в статье ''Google Brain'' была известна как ''SiLU''<ref>''Dan Hendrycks, Kevin Gimpel'' Gaussian Error Linear Units (GELUs)</ref> и ''SiL''<ref>''Stefan Elfwing, Eiji Uchibe, Kenji Doya'' Sigmoid-Weighted Linear Units for Neural Network Function Approximation in Reinforcement Learning</ref>): $swish(x) = \dfrac{x}{1 + e^{- \beta x}}$, $\beta$ {{---}} параметр.

'''Модули прямой связи'''

[[Файл:FFN.png|600px|thumb|right|~~'''~~Рисунок 58.~~'''~~ Схема модуля прямой связи]]

В отличие от Трансформера, в котором единственный модуль прямой связи следует за модулем внимания и состоит из двух линейных преобразований и нелинейной активации между ними, Конформер представляет собой два модуля прямой связи, состоящих из слоя нормализации и двух линейных слоев. Кроме того, для регуляризации используется функция активации ''swish'' и [[Практики реализации нейронных сетей#Дропаут|дропаут]].

{|align="center"

|-valign="top"

|[[Файл:wav2vec.png | 600px | thumb | ~~'''~~Рисунок 69.~~'''~~ Схема обучения модели wav2vec]]

|}

# Исходные мел спектрограммы $X$ проходят через через энкодер признаков $f$ и таким образом преобразуются в $T$ наборов признаков $\{z_1, \dots, z_T\}$.

# $\{z_1, \dots, z_T\}$ преобразуются в контекстные и целевые вектора:

## Случайное подмножество векторов $z_{\varphi_{(n)}}$ маскируется, и каждый $z \in z_{\varphi_{(n)}}$ заменяется на обученный вектор признаков. Полученное новое множество признаков $\{z'_1, \dots, z'_T\}$ подается на вход контекстной сети и преобразуется в контекстные вектора $\{c_1, \dots, c_T\}$.

## Множество $\{z_1, \dots, z_T\}$ без замаскированных наборов признаков подается на вход модуля линейного слоя $u$ и преобразуется в целевые вектора $\{t_1, \dots, t_T\}$.

# Для полученных контекстных и целевых векторов считается функция потерь $L$, в качестве которой используется функция ''Contrastive Loss''.

===Noisy student===

Вариация классического алгоритма [[Обучение с частичным привлечением учителя#Самообучение (Self Training)| самообучения]]: на каждой итерации модель-ученик обучается на аугментированных данных. В применении к распознаванию речи, используется метод аугментации ''SpecAugment''. ''SpecAugment'' применяет к [[Распознавание речи#Признаки|мел спектрограмме]] три вида деформаций: искажение времени, маскировку блока последовательных временных шагов и маскировку блока последовательных частотных каналов. Таким образом, при обучении на зашумленных с помощью ''SpecAugment'' данных сеть обучается на признаках, устойчивых к деформации во времени, частичной потере частотной информации и потере небольших сегментов речи.

'''Данные'''

1. Набор размеченных данных $S$ . 2. Набор неразмеченных данных $U$ . 3. Обученная [[Распознавание речи#Языковая модель| языковая модель]] $LM$.

4. Набор предобученных с помощью ''wav2vec'' моделей $M_0, \dots, M_n$.

'''Алгоритм'''

1. Модель $M_0$ ~~настраивается~~ дообучается (англ. ''fine-tune'') на наборе данных $S$ с использованием [[Распознавание речи#Конформер|''SpecAugment'']]. $M = M_0$.

2. Модель $M$ сливается (англ. ''fuse'')<ref>''Caglar Gulcehre, Orhan Firat. Kelvin Xu, Kyunghyun Cho, Loic Barrault, Huei-Chi Lin, Fethi Bougares, Holger Schwenk, Yoshua Bengio'' On Using Monolingual Corpora in Neural Machine Translation [https://arxiv.org/pdf/1503.03535.pdf]</ref> с моделью $LM$.

3. Набор данных $U$ размечается с помощью $M$, получается новый набор данных $A$.

4. Наборы $S$ и $A$ объединяются, производится ~~настройка~~ дообучение предобученной модели $M_i$ на объединенном наборе данных с использованием ''SpecAugment''.

5. Если перебраны не все модели из набора, то $M = M_{i + 1}$, происходит возвращение к шагу $2$.

==Применение==

# [https://moluch.ru/archive/147/41443/] - статья "Выделение границ фонем речевого сигнала с помощью мел-частотных спектральных коэффициентов".

[[Категория: Машинное обучение]] [[Категория: Обработка естественного языка]] [[Категория: Распознавание речи]]

DespairedController

89

правок

Изменения

Распознавание речи

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты