Изменения

Перейти к: навигация, поиск
Noisy student
===Noisy student===
Вариация классического алгоритма [[Обучение с частичным привлечением учителя#Самообучение (Self Training)| самообучения]]: на каждой итерации модель-ученик обучается на аугментированных данных.
 
'''Данные'''
 
1. Размеченные данные $\{(x_1, y_1), \dots, (x_n, y_n)\}$ <br>
2. Неразмеченные данные $\{\tilde{x}_1, \dots, \tilde{x}_m\}$
 
'''Алгоритм'''
 
1. Обучить модель-учителя $M$ на размеченных аугментированных данных.<br>
2. Разметить $\{\tilde{x}_1, \dots, \tilde{x}_m\}$ с помощью $M$. <br>
3. Обучить модель-ученика $M'$ на полученных на предыдущем шаге метках $\{\tilde{y}_1, \dots, \tilde{y}_m\}$ и $\{x_1, \dots, x_m\}$. <br>
4. $M = M'$, вернуться к шагу 2.
 
'''Noisy student и распознавание речи'''
 
В применении к распознаванию речи, алгоритм будет несколько отличаться: на каждой итерации модель-учитель $M$ сначала будет сливаться(англ. ''fuse'') с предобученной языковой моделью $LM$. Для аугментации данных используется метод ''SpecAugment''. SpecAugment применяет к мел спектрограмме три вида деформаций: искажение времени, маскировка блока последовательных временных шагов и маскировка блока последовательных частотных каналов. Таким образом, при обучении на зашумленных с помощью SpecAugment данных сеть обучается на признаках, устойчивых к деформации во времени, частичной потере частотной информации и потере небольших сегментов речи.
==Применение==
89
правок

Навигация