Поиск аудио внутри другого аудио в C # или переполнение стека

Question

Поиск аудио внутри другого аудио в C # или переполнение стека

Предположим, есть пример аудиофайла, который содержит до 10 простых слов

«Раз, два, три … десять»

и есть 1 секунда тишины между каждым числом в аудиофайле.

Я хочу проверить, если аудио-файл содержит ключевое слово «Два», например.
Обратите внимание, что у меня есть ключевое слово «два» голосового файла, и это тот же самый точный голос из основного голосового файла, но он может содержать некоторый шум.

Есть ли способ для меня найти голос «Два» внутри этого большего аудиофайла и найти время появления?

-1

c++pattern-matching voice-recognition

Решение

Другие решения

Почему бы вам не потренироваться в преобразовании обоих аудиосэмплов в некоторые биты или форматы сигналов и проверить, имеют ли они оба общие строки.

Некоторые ссылки, которые вы должны проверить, прежде чем идти дальше, просто поработайте со звуком в .Net:

http://crsouza.com/2009/08/converting-audio-bit-depths-in-c/
https://cscore.codeplex.com/
http://www.codeproject.com/Articles/501521/How-to-convert-between-most-audio-formats-in-NET

Дайте мне знать, если вы можете решить это.

0

Источник

Accepted Answer

Поскольку нет предоставленного кода, я просто дам вам идею, как действовать, надеюсь, это поможет.

Сначала вы должны разделить ваш файл на 10 различных аудиофайлов в соответствии с тишиной (я уверен, что есть библиотеки, которые помогут вам сделать это).

Затем вы можете отправить файл в API распознавания голоса Google и получить в результате строку, которая будет содержать строку в соответствии с голосом в файле.

РЕДАКТИРОВАТЬ: Пожалуйста, обратитесь к:
https://googlespeechtotext.codeplex.com/

Как использовать Google распознавания речи API в C #?

2