Я собираюсь построить программу распознавания речи на основе скрытой модели Маркова. К сожалению, я не знаю, как получить входную звуковую последовательность и, ну, работать с ней. Может кто-нибудь сказать мне, каков общий подход для чтения значений из формата звукового файла (т.е. .wav, .mp3 и т. Д.) И нарезки саундтрека на куски в C ++?
Общий подход заключается в преобразовании входного звука в последовательность векторов признаков (обычно это MFCC). Этот процесс в целом описан в CMU Sphinx wiki, и подробно описано в HTK Book. Вы также можете изучать общие цели инструментарий openSMILE чтобы увидеть, как это делается в C ++.
Других решений пока нет …