Изменения

Распознавание речи

18 байт добавлено, 22:29, 21 января 2021

м

→‎Признаки

==Признаки==

[[Файл:Frame_division.jpeg|мини|Рисунок 3. Разделение осциллограммы на фреймы. [https://jonathan-hui.medium.com/speech-recognition-feature-extraction-mfcc-plp-5455f5a69dd9 Источник]]]

Входные данные представляют собой непрерывную осциллограмму звуковой волны. В задачах распознавания речи эту осциллограмму разбивают на '''фреймы''' {{---}} фрагменты звукового потока длительностью около 20 мс и шагом 10 мс. Такой размер соответствует скорости человеческой речи: если человек говорит по 3 слова в секунду, каждое из которых состоит примерно из 4 звуков и каждый звук разбивается на 3 этапа, то на этап выходит около 28 мс. Каждый фрейм независимо трансформируется и подвергается извлечению признаков, тем самым образуя векторизированный набор данных для задачи машинного обучения.

DespairedController

89

правок

Изменения

Распознавание речи

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты