Я извлекаю первые 15 секунд этого видео
https://thenewboston.com/videos.php?cat=49&видео = 18983
и вот что я получаю в качестве вывода
это двигатель Италии, чтобы поболеть за него, чтобы он выглядел в магазине или сейчас, когда у нас есть, чтобы он играл с
иди играй с душой открой php моя тетя и моя конечно нажимая на ссылку и как только ты сделаешь свой php
который точно нет что сказано в видео (см. субтитры с YouTube)
Я установил Sphinxbase и Pocketsphinx из Вот
Я пробовал эти команды, но каждый раз получаю что-то новое.
pocketsphinx_continuous -infile /var/www/html/music/videoaudio.wav
hmm model/cmusphinx-en-us-5.2 -lm model/en-70k-0.2.lm/en-70k-0.2.lm > /var/www/html/music/videoaudio.txt
pocketsphinx_continuous -infile /var/www/html/music/videoaudio.wav > /var/www/html/music/videoaudio.txt
Модели Вот
Моя проблема в том, что я не совсем понимаю, как использовать акустические / языковые модели и получить точные результаты или по крайней мере, почти точно.
Задача ещё не решена.
Других решений пока нет …