分类短音频样本 - 问答 - Python中文网

分类短音频样本

2024-04-26 19:02:45 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我有少量类似类型的声音（我将这些称为DB\u声音），我需要匹配录音（Rec\u声音）。每个Rec\u声音都很短且唯一，需要与相应的DB\u声音匹配。我该如何匹配它们呢？你知道吗

为了说明我的问题，请考虑以下几点：
鲍勃，在a房间里用低沉的声音（有一些背景噪音）说妈
爱丽丝，在B房间里高声说一个婴儿正在学说话。他的第一个词是

Ma和Eh是两种不同类型的DB\u声音，所以我必须返回两种不同的结果。我有几个不同的人说Ma和Eh的DB\u声音样本来比较

我处理的声音是单音节的录音，如la、ba、ne、eh、ma等

我该如何处理这个问题？
我不认为音频指纹将工作（见频谱图），和现有的语音识别软件，如this google api integration in python不工作，因为我不试图识别人类语言，但只是声音。你知道吗

我不介意从头开始建造一些东西，只要给我指出一个你认为可行的方向，并请为你为什么这么想提供充分的理由。你知道吗

一个婴儿说的8个样本的光谱图EH enter image description here

8个婴儿说话样本的时域图EH enter image description here

Tags：声音类型 db 婴儿房间样本录音背景

1条回答

网友

1楼 · 发布于 2024-04-26 19:02:45

如果你只想识别声音，我会从一个简单的过程开始：

从每个声音样本（简单的能量treshold）裁剪静音。你知道吗
为数据库的每个样本计算音频特征（例如MFCCs）。你知道吗
执行交叉验证分类过程，将音频特征映射到要识别的声音类别。你知道吗

有用的Python库：scipy用于读取wav文件，essentia用于音频特征提取，scikit-learn用于分类和其他机器学习。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章