Python+pydub在边缘检测语音与非语音

2024-03-29 13:11:46 发布

您现在位置:Python中文网/ 问答频道 /正文

我有大量的音频文件,有些嘈杂和不完全平行的彼此(不同的声音,不同级别的背景噪音)。你知道吗

我想计算每段不是人类语言的录音开始和结束时的时间长度。也就是说,每个录制的形状为:<;0:noise,1:speech,2:noise>;,我希望持续时间为0和2。你知道吗

我编写了一个脚本,通过在可变dbFS阈值下从文件的开头和结尾进行搜索,或多或少实现了我想要的功能,但在某些情况下,它找不到合理的值。可能,文件太嘈杂是不可能的,但可能有比我实现的更好的方法(例如,除了体积以外的其他方法,或者更聪明的算法)。你知道吗

https://gist.github.com/moui72/6f537928b04443fba9ca575573488263

如果有人对如何提高我的精确度和/或从较大比例的嘈杂文件中获得结果提出建议,我将不胜感激。你知道吗

注意:我的脚本是基于Alec对measure length of silence at beginning of audio file (wav)的响应编写的


Tags: 文件of方法脚本语言声音时间人类