今天开发中遇到了一个很有意思的事情,就是我想在两段长音频中合并一段长度为300ms的静音片段作为分隔,然后用ffmpeg也好,用librosa也好,死活合并出来的间隔就是1s,然后gpt4也不知道怎么回事……正当我想着拿有声音的音频进行测试的时候,我突然想起来音频文件的记录方式,就是一堆正余弦函数的叠加,然后记录每个函数的各种系数,瞬间反应过来,尼玛我这静音文件一点起伏也没有,那音频处理库估计是直接把它取整为1s了……所以改为有底噪的静音片段,然后问题就解决啦~
Hocassian·2023-04-19·2022 次阅读
今天开发中遇到了一个很有意思的事情,就是我想在两段长音频中合并一段长度为300ms的静音片段作为分隔,然后用ffmpeg也好,用librosa也好,死活合并出来的间隔就是1s,然后gpt4也不知道怎么回事……正当我想着拿有声音的音频进行测试的时候,我突然想起来音频文件的记录方式,就是一堆正余弦函数的叠加,然后记录每个函数的各种系数,瞬间反应过来,尼玛我这静音文件一点起伏也没有,那音频处理库估计是直接把它取整为1s了……所以改为有底噪的静音片段,然后问题就解决啦~