Вход для программы распознавания речи на основе скрытой марковской модели

Я собираюсь построить программу распознавания речи на основе скрытой модели Маркова. К сожалению, я не знаю, как получить входную звуковую последовательность и, ну, работать с ней. Может кто-нибудь сказать мне, каков общий подход для чтения значений из формата звукового файла (т.е. .wav, .mp3 и т. Д.) И нарезки саундтрека на куски в C ++?

0

Решение

Общий подход заключается в преобразовании входного звука в последовательность векторов признаков (обычно это MFCC). Этот процесс в целом описан в CMU Sphinx wiki, и подробно описано в HTK Book. Вы также можете изучать общие цели инструментарий openSMILE чтобы увидеть, как это делается в C ++.

0

Другие решения

Других решений пока нет …

По вопросам рекламы [email protected]