Предположим, есть пример аудиофайла, который содержит до 10 простых слов
«Раз, два, три … десять»
и есть 1 секунда тишины между каждым числом в аудиофайле.
Я хочу проверить, если аудио-файл содержит ключевое слово «Два», например.
Обратите внимание, что у меня есть ключевое слово «два» голосового файла, и это тот же самый точный голос из основного голосового файла, но он может содержать некоторый шум.
Есть ли способ для меня найти голос «Два» внутри этого большего аудиофайла и найти время появления?
Поскольку нет предоставленного кода, я просто дам вам идею, как действовать, надеюсь, это поможет.
Сначала вы должны разделить ваш файл на 10 различных аудиофайлов в соответствии с тишиной (я уверен, что есть библиотеки, которые помогут вам сделать это).
Затем вы можете отправить файл в API распознавания голоса Google и получить в результате строку, которая будет содержать строку в соответствии с голосом в файле.
РЕДАКТИРОВАТЬ: Пожалуйста, обратитесь к:
https://googlespeechtotext.codeplex.com/
Почему бы вам не потренироваться в преобразовании обоих аудиосэмплов в некоторые биты или форматы сигналов и проверить, имеют ли они оба общие строки.
Некоторые ссылки, которые вы должны проверить, прежде чем идти дальше, просто поработайте со звуком в .Net:
http://crsouza.com/2009/08/converting-audio-bit-depths-in-c/
https://cscore.codeplex.com/
http://www.codeproject.com/Articles/501521/How-to-convert-between-most-audio-formats-in-NET
Дайте мне знать, если вы можете решить это.