Изменения

Перейти к: навигация, поиск
Noisy student
===Noisy student===
Вариация классического алгоритма [[Обучение с частичным привлечением учителя#Самообучение (Self Training)| самообучения]]: на каждой итерации модель-ученик обучается на аугментированных данных. В применении к распознаванию речи, используется метод аугментации ''SpecAugment''. ''SpecAugment'' применяет к [[Распознавание речи#Признаки|мел спектрограмме]] три вида деформаций: искажение времени, маскировку блока последовательных временных шагов и маскировку блока последовательных частотных каналов. Таким образом, при обучении на зашумленных с помощью ''SpecAugment'' данных сеть обучается на признаках, устойчивых к деформации во времени, частичной потере частотной информации и потере небольших сегментов речи.
'''Данные'''
1. Размеченные данные Набор размеченных данных $\{(x_1, y_1), \dots, (x_n, y_n)\}S$ <br>2. Неразмеченные данные Набор неразмеченных данных $U$ <br>3. Обученная [[Распознавание речи#Языковая модель| языковая модель]] $LM$. <br>4. Набор предобученных с помощью ''wav2vec'' моделей $\{\tilde{x}_1M_0, \dots, \tilde{x}_m\}M_n$.
'''Алгоритм'''
1. Обучить модельПроизвести тонкую настройку (англ. ''fine-учителя tune'') предобученной модели $MM_0$ на размеченных аугментированных наборе данных$S$ с использованием ''SpecAugment''.$M = M_0$<br>2. Разметить Объединить (англ. ''fuse'')[https://arxiv.org/pdf/1503.03535.pdf] модель $\{\tilde{x}_1, \dots, \tilde{x}_m\}M$ с помощью моделью $MLM$. <br>3. Обучить модель-ученика $M'Сгенерировать новый набор данных $ на полученных на предыдущем шаге метках A$\{\tilde{y}_1, \dots, \tilde{y}_m\}разметив $U$ и с помощью $\{x_1, \dots, x_m\}M$. <br>4. Объединить наборы данных $M = M'S$, вернуться к шагу 2. '''Noisy student и распознавание речи''' В применении к распознаванию речи, алгоритм будет несколько отличаться: на каждой итерации модель-учитель $MA$ сначала будет сливаться(англ. ''fuse'') с , произвести тонкую настройку предобученной языковой моделью модели $LMM_i$. Для аугментации на объединенном наборе данных используется метод с использованием ''SpecAugment''. SpecAugment применяет к мел спектрограмме три вида деформаций: искажение времени, маскировка блока последовательных временных шагов и маскировка блока последовательных частотных каналов<br>5. Таким образом, при обучении на зашумленных с помощью SpecAugment данных сеть обучается на признаках$M = M_{i + 1}$, устойчивых перейти к деформации во времени, частичной потере частотной информации и потере небольших сегментов речишагу $2$.
==Применение==
89
правок

Навигация