Вход для программы распознавания речи на основе скрытой марковской модели

Question

Вход для программы распознавания речи на основе скрытой марковской модели

Я собираюсь построить программу распознавания речи на основе скрытой модели Маркова. К сожалению, я не знаю, как получить входную звуковую последовательность и, ну, работать с ней. Может кто-нибудь сказать мне, каков общий подход для чтения значений из формата звукового файла (т.е. .wav, .mp3 и т. Д.) И нарезки саундтрека на куски в C ++?

0

c++hidden-markov-models speech-recognition

Решение

Другие решения

Других решений пока нет …

Источник

Accepted Answer

Общий подход заключается в преобразовании входного звука в последовательность векторов признаков (обычно это MFCC). Этот процесс в целом описан в CMU Sphinx wiki, и подробно описано в HTK Book. Вы также можете изучать общие цели инструментарий openSMILE чтобы увидеть, как это делается в C ++.

0