Изменения

← Предыдущая правка

Участница:DespairedController/Черновик:Распознавание речи

7980 байт добавлено, 16:40, 21 января 2021

м

→‎Конформер

==Обучение с частичным привлечением учителя для автоматического распознавания речи==

[[Файл:ASR_new_sota.png|600px|thumb|right|'''Рисунок 1.''' $WER$ SOTA алгоритмов на датасетах LibriSpeech test-clean/test-other. $WER$ описываемого в статье алгоритма отмечен красной точкой. [https://arxiv.org/pdf/2010.10504.pdf Источник]]]

Для обучения современных систем распознавания речи требуются тысячи часов размеченной речи, однако получение размеченных данных в необходимом объеме (особенно с учетом разнообразия существующих языков) затруднительно. Это повлияло на то, что сейчас в машинном обучении для распознавания речи успешно используется [[Обучение с частичным привлечением учителя| обучение с частичным привлечением учителя]], которое позволяет сначала обучать модель на большом объеме неразмеченных данных, а потом корректировать ее при помощи размеченных.

Одним из примеров обучения с частичным привлечением учителя для автоматического распознавания речи является подход, впервые представленный в статье<ref>''Yu Zhang, James Qin, Daniel S. Park, Wei Han, Chung-Cheng Chiu, Ruoming Pang, Quoc V. Le, Yonghui Wu'' Pushing the Limits of Semi-Supervised Learning for Automatic Speech Recognition[https://arxiv.org/pdf/2010.10504.pdf]</ref>, основанный на комбинации алгоритмов [[Распознавание_речи#Noisy_student | noisy student]], [[Распознавание_речи#wav2vec | wav2vec]] и использовании модели [[Распознавание_речи#Конформер| Конформера]]. Такой метод позволил уменьшить $WER$ на наборах данных LibriSpeech test-clean/test-other с $1.7\%/3.3\%$ (предыдущий ''state-of-the-art'') до $1.4\%/2.6\%$ (Рисунок 1).

Основная идея состоит в том, что множество моделей Конформеров при помощи алгоритма ''wav2vec'' предварительно обучается на неразмеченных данных, при этом одновременно с этим на основе них генерируются размеченные. Таким образом, неразмеченные данные используются для двух целей: для обучения модели и для генерации размеченных данных, которые используются для дальнейшего обучения модели алгоритмом ''noisy student''.

===Конформер===

[[Файл:Conformer.png|~~400px~~600px|thumb|right|'''aРисунок 2.''' ~~Схема архитектуры Конформер.~~Общая схема Конформера (a) и схема блоков Конформера (b)]][[Трансформер|Трансформер]]<brsup> ~~'''b~~[на 21.~~''' Блок конформера~~01.21 не создан]]~~Архитектура трансформер~~, ~~основанная на~~ использующий [[Механизм внимания#Self-Attention|~~самовнимании~~механизм самовнимания]] ~~позволяет фиксировать взаимодействия на большом расстоянии~~, хорошо захватывает глобальный контекст, однако не очень хорошо извлекает ~~точные паттерны локальных признаков~~локальные признаки. [[Сверточные нейронные сети]], наоборот, эффективно используют локальные признаки, но требуют большого числа слоев для захвата глобального контекста. ~~Архитектура~~ Конформер (англ. ''Conformer'') ~~берет лучшее от двух подходов, комбинируя свертки и механизм~~ комбинирует сверточные слои с механизмом самовнимания~~, достигая~~ . $WER$ на LibriSpeech test-clean/test-other составляет $1.9\%/3.9\%$ ~~на LibriSpeech~~. Конформер сначала обрабатывает входные данные с помощью сверточной нейронной сети, состоящей из слоя [[Сверточные нейронные сети#Пулинговый слой|пулинга]], [[Нейронные сети, перцептрон|полносвязного слоя]] и [[Практики реализации нейронных сетей#Дропаут|дропаута]], а затем с помощью последовательности блоков Конформера.

~~Кодировщик сначала обрабатывает входные данные с помощью сверточной нейронной сети, состоящей~~ Блоки Конформера {{---}} это последовательность из ~~слоя [[Сверточные нейронные сети#Пулинговый слой|пулинга]]~~двух модулей прямой связи (англ. ''feed forward''), ~~[[Нейронные сети~~между которыми расположены модуль многоголового самовнимания (англ. ''Multi-Head Self Attention'') и сверточный модуль, ~~перцептрон|полносвязного~~ с последующей нормализацией слоя~~]] и [[Практики реализации нейронных сетей#Дропаут|дропаута]]~~(англ. ''layer normalization'')~~, а затем с помощью последовательности блоков Конформера~~.

Блок Конформера состоит из двух модулей прямой связи (англ. ''feed forward''), между которыми расположены модуль многоголового самовнимания (англ. ''Multi-Head Self Attention'') и сверточный модуль, с последующим слоем нормализации.~~ ~~[[Файл:Multi_Head_Self_Attention_module.png|~~300px~~400px|thumb|right|'''Рисунок 3.''' Модуль многоголового самовнимания]]

'''Модуль многоголового самовнимания'''

В модуле используется блок многоголового внимания с относительным позиционным кодированием (англ. ''Multi-Head Attention with Relational Positional Encoding''). ~~Использование относительного позиционного кодирования~~Такой блок (изначально часть архитектуры Трансформер-XL<ref>''Zihang Dai, Zhilin Yang, Yiming Yang, Jaime Carbonell, Quoc V. Le, Ruslan Salakhutdinov'' Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context[https://arxiv.org/pdf/1901.02860.pdf] </ref>) используется с целью исправить два недостатка Трансформера: ограничение на длину входа (что не позволяет модели, например, использовать слово, которое появилось несколько предложений назад) и фрагментацию контекста (последовательность разбивается на несколько блоков, каждый из которых обучается независимо). Для достижения этой цели используются два механизма: механизм повторения (англ. ''reccurence mechanism'') и относительное позиционное кодирование (англ. ''relational positional encoding''). Механизм повторения позволяет использовать информацию из предыдущих сегментов. Как и в оригинальной версии, Трансформер-XL обрабатывает первый сегмент токенов, но сохраняет выходные данные скрытых слоев. При обработке следующего сегмента каждый скрытый слой получает два входа: результат предыдущего скрытого слоя этого сегмента, как в Трансформере, и результат предыдущего скрытого слоя из предыдущего сегмента, который позволяет ~~модулю~~ модели создавать зависимости от далеких сегментов. Однако, с использованием механизма повторения возникает новая проблема: при использовании исходного позиционного кодирования каждый сегмент кодируется отдельно, и в результате токены из разных сегментов закодированы одинаково. Относительное позиционное кодирование основано на относительном расстоянии между токенами. Для подсчета оценки, на основании которой на некоторое скрытое состояние будет "обращено внимание", используется относительное расстояние между токенами вместо абсолютного положения текущего токена, а так же два вектора параметров: первый регулирует важность содержания другого токена, а второй — важность расстояния между токенами. Использование модуля многоголового самовнимания с относительным позиционным кодированием позволяет сети лучше ~~обобщать~~ обучаться при различной длине ввода, а ~~результирующий кодировщик~~ результирующая архитектура получается более ~~устойчив~~ устойчивой к неоднородности длины высказывания.

'''Сверточный модуль'''

[[Файл:Convolution_module.png|600px|thumb|right|'''Рисунок 4.''' Сверточный модуль]]Последовательность слоев в сверточном модуле начинается с ~~стробирующего механизма~~управляемого модуля<ref>''N. Dauphin, Angela Fan, Michael Auli, David Grangier'' Language Modeling with Gated Convolutional Networks[https://arxiv.org/pdf/1612.08083.pdf]</ref>: сверточного слоя с ядром $1 \times 1$ (англ. ''pointwise convolution'') и ~~стробированного~~ управляемого линейного блока (англ. ''gated linear unit''). Управляемый линейный блок {{---}} слой нейронной сети, определяемый как покомпонентное произведение двух линейных преобразований входных данных, [[Практики реализации нейронных сетей#Функции активации|функция активации]] одного из которых {{---}} сигмоида. Использование ~~стробированного~~ управляемого линейного блока уменьшает [[Сверточные нейронные сети#Residual block|проблему исчезающего градиента]]. После сверточного слоя используется [[Batch-normalization|пакетная нормализация]]. В модуле используется функция активации ''swish'': $swish(x) = \dfrac{x}{1 + e^{- \beta x}}$. '''Модули прямой связи'''[[Файл:FFN.png|600px|thumb|right|'''Рисунок 5.''' Схема модуля прямой связи]]В отличие от Трансформера, в котором единственный модуль прямой связи следует за модулем внимания и состоит из двух линейных преобразований и нелинейной активации между ними, Конформер представляет собой два модуля прямой связи, состоящих из слоя нормализации и двух линейных слоев. Кроме того, для регуляризации используется функция активации ''swish'' и [[Практики реализации нейронных сетей#Дропаут|дропаут]].

===wav2vec===

~~Часто получить размеченные данные в необходимых объемах является сложно реализуемой задачей~~Подход wav2vec<ref>''Alexei Baevski, особенно с учетом разнообразия существующих языков: для современных систем распознавания речи требуются тысячи часов размеченной речи для достижения приемлемой производительности. Также изучение исключительно на размеченных данных не похоже на естественный процесс овладения ~~языком~~Henry Zhou, ~~например~~Abdelrahman Mohamed, ~~у детей, которые учатся, слушая окружающую их речь~~Michael Auli'' wav2vec 2. ~~ Это повлияло на то, что сейчас в машинном обучении для распознавания речи успешно~~ ~~используется~~ 0: A Framework for Self-Supervised Learning of Speech Representations[~~[Обучение с частичным привлечением учителя#Самообучение (Self Training)| самообучение~~https://arxiv.org/pdf/2006.11477.pdf]]. <br/ref>~~Подход '''wav2vec'''~~ основан на самообучении на [[Распознавание речи#Признаки|мел спектрограммах]].

'''Модель'''

# ''Энкодер признаков'' (англ. ~~feature encoder~~Feature Encoder) $f: X \to Z$ реализован на основе [[Сверточные нейронные сети#Сверточный слой|сверточного слоя]]. Преобразует мел спектрограммы $X$, разбитые на $T$ временных интервалов, в наборы признаков $\{z_1, \dots, z_T\}$, которые описывают исходные данные в каждом из $T$ интервалов. # ''Контекстная сеть'' (англ. ~~context network~~Context Network) $g: Z \to C$ реализована на основе линейного слоя и слоя, состоящего из $N$ ~~конформеров~~блоков Конформера. Преобразует наборы признаков $\{z_1, \dots, z_T\}$, полученные в результате работы энкодера признаков, в контекстные вектора $\{c_1, \dots, c_T\}$. # ''Модуль линейного слоя'' (англ. ~~linear layer module~~Linear Layer Module) $u: Z \to T$ реализован на основе линейного слоя. Преобразует наборы признаков $\{z_1, \dots, z_T\}$, полученные в результате работы энкодера признаков, в целевые вектора $\{t_1, \dots, t_T\}$. {|align="center" |-valign="top" |[[Файл:wav2vec.png | 600px | thumb | '''Рисунок 6.''' Схема обучения модели wav2vec]] |}

'''Обучение'''

# Исходные мел спектрограммы $X$ проходят через через энкодер признаков $f$ и таким образом преобразуются в $T$ наборов признаков $\{z_1, \dots, z_T\}$.

# $\{z_1, \dots, z_T\}$ преобразуются в контекстные и целевые вектора:

## Случайное подмножество векторов $z_{\varphi_(n)}$ маскируется , и каждый $z \in z_{\varphi_(n)}$ заменяется на обученный вектор признаков. Полученное новое множество признаков $\{z'_1, \dots, z'_T\}$ подается на вход контекстной сети и преобразуется в контекстные вектора $\{c_1, \dots, c_T\}$.

## Множество $\{z_1, \dots, z_T\}$ без замаскированных наборов признаков подается на вход модуля линейного слоя $u$ и преобразуется в целевые вектора $\{t_1, \dots, t_T\}$.

# Для полученных контекстных и целевых векторов считается функция потерь $L$, в качестве которой используется функция ''Contrastive Loss''.

Суть данного ~~обучения~~ подхода состоит в том, что маскируются наборы признаков для некоторых из $T$ интервалов, и путем минимизации функции потерь модель на основе $N$ ~~конформеров~~ блоков Конформера учится подбирать наиболее похожий вектор, характеризующий признаки замаскированных участков. При этом модуль линейного слоя позволяет получить целевые вектора для замаскированных данных и~~, следовательно,~~ таким образом ~~получется, что~~ модель обучается на размеченных данных.

===Noisy student===

Вариация классического алгоритма [[Обучение с частичным привлечением учителя#Самообучение (Self Training)| самообучения]]: на каждой итерации модель-ученик обучается на аугментированных данных. В применении к распознаванию речи, используется метод аугментации ''SpecAugment''. ''SpecAugment'' применяет к [[Распознавание речи#Признаки|мел спектрограмме]] три вида деформаций: искажение времени, маскировку блока последовательных временных шагов и маскировку блока последовательных частотных каналов. Таким образом, при обучении на зашумленных с помощью ''SpecAugment'' данных сеть обучается на признаках, устойчивых к деформации во времени, частичной потере частотной информации и потере небольших сегментов речи.

'''Данные'''

1. ~~Размеченные данные~~ Набор размеченных данных $~~\{(x_1, y_1), \dots, (x_n, y_n)\}~~S$ 2. ~~Неразмеченные данные~~ Набор неразмеченных данных $U$ 3. Обученная [[Распознавание речи#Языковая модель| языковая модель]] $LM$. 4. Набор предобученных с помощью ''wav2vec'' моделей $~~\{\tilde{x}_1~~M_0, \dots, ~~\tilde{x}_m\}~~M_n$.

'''Алгоритм'''

1. ~~Обучить модель-учителя~~ Модель $MM_0$ настраивается (англ. ''fine-tune'') на ~~размеченных аугментированных~~ наборе данных$S$ с использованием ''SpecAugment''.$M = M_0$ 2. ~~Разметить~~ Модель $M$~~\{\tilde{x}_1~~сливается (англ. ''fuse'')<ref>''Caglar Gulcehre, Orhan Firat. Kelvin Xu, Kyunghyun Cho, Loic Barrault, Huei-Chi Lin, Fethi Bougares, ~~\dots~~Holger Schwenk, ~~\tilde{x}_m\}$~~ Yoshua Bengio'' On Using Monolingual Corpora in Neural Machine Translation [https://arxiv.org/pdf/1503.03535.pdf]</ref> с ~~помощью~~ моделью $MLM$. 3. ~~Обучить модель-ученика~~ Набор данных $U$ размечается с помощью $M'$ ~~на полученных на предыдущем шаге метках $\{\tilde{y}_1~~, ~~\dots, \tilde{y}_m\}$ и~~ получается новый набор данных $~~\{x_1, \dots, x_m\}~~A$. 4. Наборы $~~M = M'~~S$~~, вернуться к шагу 2.~~ ~~'''Noisy student~~ и ~~распознавание речи'''~~ ~~В применении к распознаванию речи, алгоритм будет несколько отличаться: на каждой итерации модель-учитель~~ $MA$ ~~сначала будет сливаться(англ. ''fuse'') с~~ объединяются, производится настройка предобученной ~~языковой моделью~~ модели $LMM_i$~~. Для аугментации~~ на объединенном наборе данных ~~используется метод~~ с использованием ''SpecAugment''. SpecAugment применяет к мел спектрограмме три вида деформаций: искажение времени, маскировка блока последовательных временных шагов и маскировка блока последовательных частотных каналов 5. ~~Таким образом~~Если перебраны не все модели из набора, ~~при обучении на зашумленных с помощью SpecAugment данных сеть обучается на признаках~~то $M = M_{i + 1}$, ~~устойчивых~~ происходит возвращение к ~~деформации во времени, частичной потере частотной информации и потере небольших сегментов речи~~шагу $2$.

==Применение==

DespairedController

89

правок

Изменения

Участница:DespairedController/Черновик:Распознавание речи

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты