Изменения

Перейти к: навигация, поиск

Распознавание речи

4 байта добавлено, 18:40, 22 января 2021
м
wav2vec
# Исходные мел спектрограммы $X$ проходят через через энкодер признаков $f$ и таким образом преобразуются в $T$ наборов признаков $\{z_1, \dots, z_T\}$. <br>
# $\{z_1, \dots, z_T\}$ преобразуются в контекстные и целевые вектора:
## Случайное подмножество векторов $z_{\varphi_{(n)}}$ маскируется, и каждый $z \in z_{\varphi_{(n)}}$ заменяется на обученный вектор признаков. Полученное новое множество признаков $\{z'_1, \dots, z'_T\}$ подается на вход контекстной сети и преобразуется в контекстные вектора $\{c_1, \dots, c_T\}$.
## Множество $\{z_1, \dots, z_T\}$ без замаскированных наборов признаков подается на вход модуля линейного слоя $u$ и преобразуется в целевые вектора $\{t_1, \dots, t_T\}$.
# Для полученных контекстных и целевых векторов считается функция потерь $L$, в качестве которой используется функция ''Contrastive Loss''.
89
правок

Навигация