Изменения

Перейти к: навигация, поиск

Участница:DespairedController/Черновик:Распознавание речи

14 374 байта добавлено, 16:40, 21 января 2021
м
Конформер
==Обучение с частичным привлечением учителя для автоматического распознавания речи==
[[Файл:ASR_new_sota.png|600px|thumb|right|'''Рисунок 1.''' $WER$ SOTA алгоритмов на датасетах LibriSpeech test-clean/test-other. $WER$ описываемого в статье алгоритма отмечен красной точкой. [https://arxiv.org/pdf/2010.10504.pdf Источник]]]
Для обучения современных систем распознавания речи требуются тысячи часов размеченной речи, однако получение размеченных данных в необходимом объеме (особенно с учетом разнообразия существующих языков) затруднительно. Это повлияло на то, что сейчас в машинном обучении для распознавания речи успешно используется [[Обучение с частичным привлечением учителя| обучение с частичным привлечением учителя]], которое позволяет сначала обучать модель на большом объеме неразмеченных данных, а потом корректировать ее при помощи размеченных.
===Кодировщик Конформер===[[Файл:Conformer.png|400px|thumb|right|Одним из примеров обучения с частичным привлечением учителя для автоматического распознавания речи является подход, впервые представленный в статье<ref>'''aYu Zhang, James Qin, Daniel S. Park, Wei Han, Chung-Cheng Chiu, Ruoming Pang, Quoc V.Le, Yonghui Wu''' Схема архитектуры КонформерPushing the Limits of Semi-Supervised Learning for Automatic Speech Recognition[https://arxiv.<br> '''borg/pdf/2010.''' Блок конформера10504.pdf]]Архитектура трансформер</ref>, основанная основанный на комбинации алгоритмов [[Механизм вниманияРаспознавание_речи#Self-AttentionNoisy_student |самовниманииnoisy student]] позволяет фиксировать взаимодействия на большом расстоянии, однако не очень хорошо извлекает точные паттерны локальных признаков. [[Сверточные нейронные сетиРаспознавание_речи#wav2vec | wav2vec]] и использовании модели [[Распознавание_речи#Конформер| Конформера]], наоборот, эффективно используют локальные признаки, но требуют большого числа слоев для захвата глобального контекста. Архитектура Конформер берет лучшее от двух подходов, комбинируя свертки и механизм самовнимания, достигая Такой метод позволил уменьшить $WER$ на наборах данных LibriSpeech test-clean/test-other с $21.7\%/3.3\%$ (предыдущий ''state-of-the-art'') до $1.4\%/42.36\%$ на LibriSpeech(Рисунок 1).<br>
Кодировщик сначала обрабатывает входные данные Основная идея состоит в том, что множество моделей Конформеров при помощи алгоритма ''wav2vec'' предварительно обучается на неразмеченных данных, при этом одновременно с помощью CNN(состоящей из слоя [[Сверточные нейронные сети#Пулинговый слой|пулинга]]этим на основе них генерируются размеченные. Таким образом, [[Нейронные сети, перцептрон|полносвязного слоя]] неразмеченные данные используются для двух целей: для обучения модели и [[Сверточные нейронные сети#Пулинговый слой|дропаута]])для генерации размеченных данных, а затем с помощью последовательности блоков конформеракоторые используются для дальнейшего обучения модели алгоритмом ''noisy student''.
Блок ===Конформер===[[Файл:Conformer.png|600px|thumb|right|'''Рисунок 2.''' Общая схема Конформера (a) и схема блоков Конформера (b)]][[Трансформер|Трансформер]]<sup>[на 21.01.21 не создан]</sup>, использующий [[Механизм внимания#Self-Attention|механизм самовнимания]], хорошо захватывает глобальный контекст, однако не очень хорошо извлекает локальные признаки. [[Сверточные нейронные сети]], наоборот, эффективно используют локальные признаки, но требуют большого числа слоев для захвата глобального контекста. Конформер (англ. ''Conformer'') комбинирует сверточные слои с механизмом самовнимания. $WER$ на LibriSpeech test-clean/test-other составляет $1.9\%/3.9\%$. Конформер сначала обрабатывает входные данные с помощью сверточной нейронной сети, состоящей из слоя [[Сверточные нейронные сети#Пулинговый слой|пулинга]], [[Нейронные сети, перцептрон|полносвязного слоя]] и [[Практики реализации нейронных сетей#Дропаут|дропаута]], а затем с помощью последовательности блоков Конформера. Блоки Конформера состоит {{---}} это последовательность из двух модулей прямой связи (англ. ''feed forward''), между которыми расположены модуль многоголового самовнимания (англ. ''Multi-Head Self Attention'') и сверточный модуль свертки, с последующим слоем нормализациипоследующей нормализацией слоя (англ. ''layer normalization'').<br><br><br>[[Файл:Multi_Head_Self_Attention_module.png|400px|thumb|right|'''Рисунок 3.''' Модуль многоголового самовнимания]] '''Модуль многоголового самовнимания''' В модуле используется блок многоголового внимания с относительным позиционным кодированием (англ. ''Multi-Head Attention with Relational Positional Encoding''). Такой блок (изначально часть архитектуры Трансформер-XL<ref>''Zihang Dai, Zhilin Yang, Yiming Yang, Jaime Carbonell, Quoc V. Le, Ruslan Salakhutdinov'' Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context[https://arxiv.org/pdf/1901.02860.pdf]<br/ref>) используется с целью исправить два недостатка Трансформера: ограничение на длину входа (что не позволяет модели, например, использовать слово, которое появилось несколько предложений назад) и фрагментацию контекста (последовательность разбивается на несколько блоков, каждый из которых обучается независимо). Для достижения этой цели используются два механизма: механизм повторения (англ. ''reccurence mechanism'') и относительное позиционное кодирование (англ. ''relational positional encoding''). Механизм повторения позволяет использовать информацию из предыдущих сегментов. Как и в оригинальной версии, Трансформер-XL обрабатывает первый сегмент токенов, но сохраняет выходные данные скрытых слоев. При обработке следующего сегмента каждый скрытый слой получает два входа: результат предыдущего скрытого слоя этого сегмента, как в Трансформере, и результат предыдущего скрытого слоя из предыдущего сегмента, который позволяет модели создавать зависимости от далеких сегментов. Однако, с использованием механизма повторения возникает новая проблема: при использовании исходного позиционного кодирования каждый сегмент кодируется отдельно, и в результате токены из разных сегментов закодированы одинаково. Относительное позиционное кодирование основано на относительном расстоянии между токенами. Для подсчета оценки, на основании которой на некоторое скрытое состояние будет "обращено внимание", используется относительное расстояние между токенами вместо абсолютного положения текущего токена, а так же два вектора параметров: первый регулирует важность содержания другого токена, а второй — важность расстояния между токенами. Использование модуля многоголового самовнимания с относительным позиционным кодированием позволяет сети лучше обучаться при различной длине ввода, а результирующая архитектура получается более устойчивой к неоднородности длины высказывания. '''Сверточный модуль'''[[Файл:Convolution_module.png|600px|thumb|right|'''Рисунок 4.''' Сверточный модуль]]Последовательность слоев в сверточном модуле начинается с управляемого модуля<ref>''N. Dauphin, Angela Fan, Michael Auli, David Grangier'' Language Modeling with Gated Convolutional Networks[https://arxiv.org/pdf/1612.08083.pdf]</ref>: сверточного слоя с ядром $1 \times 1$ (англ. ''pointwise convolution'') и управляемого линейного блока (англ. ''gated linear unit''). Управляемый линейный блок {{---}} слой нейронной сети, определяемый как покомпонентное произведение двух линейных преобразований входных данных, [[Практики реализации нейронных сетей#Функции активации|функция активации]] одного из которых {{---}} сигмоида. Использование управляемого линейного блока уменьшает [[Сверточные нейронные сети#Residual block|проблему исчезающего градиента]]. После сверточного слоя используется [[Batch-normalization|пакетная нормализация]]. В модуле используется функция активации ''swish'': $swish(x) = \dfrac{x}{1 + e^{- \beta x}}$. '''Модули прямой связи'''[[Файл:FFN.png|600px|thumb|right|'''Рисунок 5.''' Схема модуля прямой связи]]В отличие от Трансформера, в котором единственный модуль прямой связи следует за модулем внимания и состоит из двух линейных преобразований и нелинейной активации между ними, Конформер представляет собой два модуля прямой связи, состоящих из слоя нормализации и двух линейных слоев. Кроме того, для регуляризации используется функция активации ''swish'' и [[Практики реализации нейронных сетей#Дропаут|дропаут]].
===wav2vec===
Подход wav2vec<ref>''Alexei Baevski, Henry Zhou, Abdelrahman Mohamed, Michael Auli'' wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations[https://arxiv.org/pdf/2006.11477.pdf]</ref> основан на самообучении на [[Распознавание речи#Признаки|мел спектрограммах]].
 
'''Модель'''
 
# ''Энкодер признаков'' (англ. Feature Encoder) $f: X \to Z$ реализован на основе [[Сверточные нейронные сети#Сверточный слой|сверточного слоя]]. Преобразует мел спектрограммы $X$, разбитые на $T$ временных интервалов, в наборы признаков $\{z_1, \dots, z_T\}$, которые описывают исходные данные в каждом из $T$ интервалов. <br>
# ''Контекстная сеть'' (англ. Context Network) $g: Z \to C$ реализована на основе линейного слоя и слоя, состоящего из $N$ блоков Конформера. Преобразует наборы признаков $\{z_1, \dots, z_T\}$, полученные в результате работы энкодера признаков, в контекстные вектора $\{c_1, \dots, c_T\}$. <br>
# ''Модуль линейного слоя'' (англ. Linear Layer Module) $u: Z \to T$ реализован на основе линейного слоя. Преобразует наборы признаков $\{z_1, \dots, z_T\}$, полученные в результате работы энкодера признаков, в целевые вектора $\{t_1, \dots, t_T\}$. <br>
 
{|align="center"
|-valign="top"
|[[Файл:wav2vec.png | 600px | thumb | '''Рисунок 6.''' Схема обучения модели wav2vec]]
|}
 
'''Обучение'''
 
# Исходные мел спектрограммы $X$ проходят через через энкодер признаков $f$ и таким образом преобразуются в $T$ наборов признаков $\{z_1, \dots, z_T\}$. <br>
# $\{z_1, \dots, z_T\}$ преобразуются в контекстные и целевые вектора:
## Случайное подмножество векторов $z_{\varphi_(n)}$ маскируется, и каждый $z \in z_{\varphi_(n)}$ заменяется на обученный вектор признаков. Полученное новое множество признаков $\{z'_1, \dots, z'_T\}$ подается на вход контекстной сети и преобразуется в контекстные вектора $\{c_1, \dots, c_T\}$.
## Множество $\{z_1, \dots, z_T\}$ без замаскированных наборов признаков подается на вход модуля линейного слоя $u$ и преобразуется в целевые вектора $\{t_1, \dots, t_T\}$.
# Для полученных контекстных и целевых векторов считается функция потерь $L$, в качестве которой используется функция ''Contrastive Loss''.
 
Суть данного подхода состоит в том, что маскируются наборы признаков для некоторых из $T$ интервалов, и путем минимизации функции потерь модель на основе $N$ блоков Конформера учится подбирать наиболее похожий вектор, характеризующий признаки замаскированных участков. При этом модуль линейного слоя позволяет получить целевые вектора для замаскированных данных и таким образом модель обучается на размеченных данных.
===Noisy student===
Вариация классического алгоритма [[Обучение с частичным привлечением учителя#Самообучение (Self Training)| самообучения]]: на каждой итерации модель-ученик обучается на аугментированных данных. В применении к распознаванию речи, используется метод аугментации ''SpecAugment''. ''SpecAugment'' применяет к [[Распознавание речи#Признаки|мел спектрограмме]] три вида деформаций: искажение времени, маскировку блока последовательных временных шагов и маскировку блока последовательных частотных каналов. Таким образом, при обучении на зашумленных с помощью ''SpecAugment'' данных сеть обучается на признаках, устойчивых к деформации во времени, частичной потере частотной информации и потере небольших сегментов речи.
'''Данные'''
1. Размеченные данные Набор размеченных данных $\{(x_1, y_1), \dots, (x_n, y_n)\}S$ <br>2. Неразмеченные данные Набор неразмеченных данных $U$ <br>3. Обученная [[Распознавание речи#Языковая модель| языковая модель]] $LM$. <br>4. Набор предобученных с помощью ''wav2vec'' моделей $\{\tilde{x}_1M_0, \dots, \tilde{x}_m\}M_n$.
'''Алгоритм'''
1. Обучить модель-учителя Модель $MM_0$ настраивается (англ. ''fine-tune'') на размеченных аугментированных наборе данных$S$ с использованием ''SpecAugment''.$M = M_0$<br>2. Разметить Модель $M$\{\tilde{x}_1сливается (англ. ''fuse'')<ref>''Caglar Gulcehre, Orhan Firat. Kelvin Xu, Kyunghyun Cho, Loic Barrault, Huei-Chi Lin, Fethi Bougares, \dotsHolger Schwenk, \tilde{x}_m\}$ Yoshua Bengio'' On Using Monolingual Corpora in Neural Machine Translation [https://arxiv.org/pdf/1503.03535.pdf]</ref> с помощью моделью $MLM$. <br>3. Обучить модель-ученика Набор данных $U$ размечается с помощью $M'$ на полученных на предыдущем шаге метках $\{\tilde{y}_1, \dots, \tilde{y}_m\}$ и получается новый набор данных $\{x_1, \dots, x_m\}A$. <br>4. Наборы $M = M'S$, вернуться к шагу 2. '''Noisy student и распознавание речи''' В применении к распознаванию речи, алгоритм будет несколько отличаться: на каждой итерации модель-учитель $MA$ сначала будет сливаться(англ. ''fuse'') с объединяются, производится настройка предобученной языковой моделью модели $LMM_i$. Для аугментации на объединенном наборе данных используется метод с использованием ''SpecAugment''. SpecAugment применяет к мел спектрограмме три вида деформаций: искажение времени, маскировка блока последовательных временных шагов и маскировка блока последовательных частотных каналов<br>5. Таким образомЕсли перебраны не все модели из набора, при обучении на зашумленных с помощью SpecAugment данных сеть обучается на признакахто $M = M_{i + 1}$, устойчивых происходит возвращение к деформации во времени, частичной потере частотной информации и потере небольших сегментов речишагу $2$.
==Применение==
89
правок

Навигация