Например, я «даю» число 1736, и у меня есть 100 файлов .wav (например, 0.wav, 1.wav и т. Д.), Как мне объединить аудио, чтобы они звучали более «плавно».
Большую часть времени они имеют промежуток между цифрами и звучат очень «жестко», я хочу слушать их, как если бы реальный человек говорил это, ну как можно ближе (исключая качество звука).
Это может быть на любом языке, PHP, Python и т. Д. Мне просто нужна логика / алгоритм.
Не уверен, что это неопределенный вопрос, не стесняйтесь сказать мне, поэтому я уберу его, если это так.
Благодарю.
Проблема, которую вы, вероятно, имеете, это интонация.
Говоря, повышающиеся и понижающиеся тона помогают указывать фразы. Если я говорю «один, семь, три, шесть» и заканчивается падающим тоном (высота звука понижается), это звучит окончательно, и слушатель знает, что он услышал все цифры. Если я заканчиваю нарастающим тоном (высота звука повышается), звучит так, будто я задаю вопрос, что странно для слушателя, поскольку цифры не являются вопросом.
Чтобы сделать этот звук более естественным, как минимум, вам нужно записать каждый с различной интонацией и правильно соединить их.
Есть еще одна проблема, хотя с формулировкой. При разговоре это звучит лучше всего, когда постоянно движется воздух и используется артикуляция для произнесения слов. Если бы вы записали звук радио-диктора и воспроизвели его, отфильтровывая все более высокие частоты, чтобы вы не могли слышать артикуляцию, вы бы услышали что-то близкое к непрерывному тону, который немного изменился бы по высоте. Это не то, что вы получите, объединяя аудио файлы вместе. Лучшее, что вы можете сделать, — это правильно говорить.
Смотрите также:
Других решений пока нет …