Обнаружение удара на аудиовходе в прямом эфире против записанного wav-входа

Я тренирую SVM для определения удара в речевом сигнале, и обученная модель работает почти с 95% точностью во входном файле wav. Я вычисляю функции MFCC для кадра 10 мс с перекрытием 5 мс.

Но если я попытаюсь сделать прогнозирование в прямом эфире, где я читаю буфер звуковой карты с помощью openAL, а каждое содержимое буфера, которое я получаю, имеет длину 30 мс, и почему-то прогноз для этого типа ввода даже не приближается к 50%, а для с другой стороны, если я записываю аудиовход, когда он подается в SVM для прогнозирования, а затем, если я проверяю точность этих записанных данных, это снова 95%.

Я не могу понять, что является причиной этой разницы в случае потокового аудио. Любая помощь будет отличной.

1

Решение

Задача ещё не решена.

Другие решения

Других решений пока нет …

По вопросам рекламы [email protected]