Я тренирую SVM для определения удара в речевом сигнале, и обученная модель работает почти с 95% точностью во входном файле wav. Я вычисляю функции MFCC для кадра 10 мс с перекрытием 5 мс.
Но если я попытаюсь сделать прогнозирование в прямом эфире, где я читаю буфер звуковой карты с помощью openAL, а каждое содержимое буфера, которое я получаю, имеет длину 30 мс, и почему-то прогноз для этого типа ввода даже не приближается к 50%, а для с другой стороны, если я записываю аудиовход, когда он подается в SVM для прогнозирования, а затем, если я проверяю точность этих записанных данных, это снова 95%.
Я не могу понять, что является причиной этой разницы в случае потокового аудио. Любая помощь будет отличной.
Задача ещё не решена.
Других решений пока нет …