我有少量类似类型的声音(我将这些称为DB\u声音),我需要匹配录音(Rec\u声音)。每个Rec\u声音都很短且唯一,需要与相应的DB\u声音匹配。我该如何匹配它们呢?你知道吗
为了说明我的问题,请考虑以下几点:
鲍勃,在a房间里用低沉的声音(有一些背景噪音)说妈
爱丽丝,在B房间里高声说
一个婴儿正在学说话。他的第一个词是
Ma和Eh是两种不同类型的DB\u声音,所以我必须返回两种不同的结果。我有几个不同的人说Ma和Eh的DB\u声音样本来比较
我处理的声音是单音节的录音,如la、ba、ne、eh、ma等
我该如何处理这个问题?
我不认为音频指纹将工作(见频谱图),和现有的语音识别软件,如this google api integration in python不工作,因为我不试图识别人类语言,但只是声音。你知道吗
我不介意从头开始建造一些东西,只要给我指出一个你认为可行的方向,并请为你为什么这么想提供充分的理由。你知道吗
一个婴儿说的8个样本的光谱图EH
8个婴儿说话样本的时域图EH
如果你只想识别声音,我会从一个简单的过程开始:
有用的Python库:scipy用于读取wav文件,essentia用于音频特征提取,scikit-learn用于分类和其他机器学习。你知道吗
相关问题 更多 >
编程相关推荐