У меня есть файлы wav с номерами от 0 до 99, какова лучшая логика, чтобы они звучали хорошо при объединении?

Question

У меня есть файлы wav с номерами от 0 до 99, какова лучшая логика, чтобы они звучали хорошо при объединении?

Например, я «даю» число 1736, и у меня есть 100 файлов .wav (например, 0.wav, 1.wav и т. Д.), Как мне объединить аудио, чтобы они звучали более «плавно».
Большую часть времени они имеют промежуток между цифрами и звучат очень «жестко», я хочу слушать их, как если бы реальный человек говорил это, ну как можно ближе (исключая качество звука).

Это может быть на любом языке, PHP, Python и т. Д. Мне просто нужна логика / алгоритм.

Не уверен, что это неопределенный вопрос, не стесняйтесь сказать мне, поэтому я уберу его, если это так.

Благодарю.

-1

algorithm php python speech-recognition text-to-speech

Решение

Другие решения

Других решений пока нет …

Источник

Accepted Answer

Проблема, которую вы, вероятно, имеете, это интонация.

Говоря, повышающиеся и понижающиеся тона помогают указывать фразы. Если я говорю «один, семь, три, шесть» и заканчивается падающим тоном (высота звука понижается), это звучит окончательно, и слушатель знает, что он услышал все цифры. Если я заканчиваю нарастающим тоном (высота звука повышается), звучит так, будто я задаю вопрос, что странно для слушателя, поскольку цифры не являются вопросом.

Чтобы сделать этот звук более естественным, как минимум, вам нужно записать каждый с различной интонацией и правильно соединить их.

Есть еще одна проблема, хотя с формулировкой. При разговоре это звучит лучше всего, когда постоянно движется воздух и используется артикуляция для произнесения слов. Если бы вы записали звук радио-диктора и воспроизвели его, отфильтровывая все более высокие частоты, чтобы вы не могли слышать артикуляцию, вы бы услышали что-то близкое к непрерывному тону, который немного изменился бы по высоте. Это не то, что вы получите, объединяя аудио файлы вместе. Лучшее, что вы можете сделать, — это правильно говорить.

Смотрите также:

3