Изменения

Перейти к: навигация, поиск

Участница:DespairedController/Черновик:Распознавание речи

Нет изменений в размере, 18:19, 2 января 2021
wav2vec
# ''Энкодер признаков'' (англ. feature encoder) $f: X \to Z$ реализован на основе [[Сверточные нейронные сети#Сверточный слой|сверточного слоя]]. Преобразует мел спектрограммы $X$, разбитые на $T$ временных интервалов, в наборы признаков $\{z_1, \dots, z_T\}$, которые описывают исходные данные в каждом из $T$ интервалов. <br>
# ''Контекстная сеть'' (англ. context network) $g: Z \to C$ реализована на основе линейного слоя и слоя, состоящего из $N$ конформеровКонформеров. Преобразует наборы признаков $\{z_1, \dots, z_T\}$, полученные в результате работы энкодера признаков, в контекстные вектора $\{c_1, \dots, c_T\}$. <br>
# ''Модуль линейного слоя'' (англ. linear layer module) $u: Z \to T$ реализован на основе линейного слоя. Преобразует наборы признаков $\{z_1, \dots, z_T\}$, полученные в результате работы энкодера признаков, в целевые вектора $\{t_1, \dots, t_T\}$. <br>
# Для полученных контекстных и целевых векторов считается функция потерь $L$, в качестве которой используется функция ''Contrastive Loss''.
Суть данного обучения состоит в том, что маскируются наборы признаков для некоторых из $T$ интервалов, и путем минимизации функции потерь модель на основе $N$ конформеров Конформеров учится подбирать наиболее похожий вектор, характеризующий признаки замаскированных участков. При этом модуль линейного слоя позволяет получить целевые вектора для замаскированных данных и, следовательно, таким образом получется, что модель обучается на размеченных данных.
===Noisy student===
24
правки

Навигация