分类短音频样本

2024-04-26 19:02:45 发布

您现在位置:Python中文网/ 问答频道 /正文

我有少量类似类型的声音(我将这些称为DB\u声音),我需要匹配录音(Rec\u声音)。每个Rec\u声音都很短且唯一,需要与相应的DB\u声音匹配。我该如何匹配它们呢?你知道吗

为了说明我的问题,请考虑以下几点:
鲍勃,在a房间里用低沉的声音(有一些背景噪音)说
爱丽丝,在B房间里高声说 一个婴儿正在学说话。他的第一个词是

Ma和Eh是两种不同类型的DB\u声音,所以我必须返回两种不同的结果。我有几个不同的人说MaEh的DB\u声音样本来比较

我处理的声音是单音节的录音,如la、ba、ne、eh、ma等

我该如何处理这个问题?
我不认为音频指纹将工作(见频谱图),和现有的语音识别软件,如this google api integration in python不工作,因为我不试图识别人类语言,但只是声音。你知道吗

我不介意从头开始建造一些东西,只要给我指出一个你认为可行的方向,并请为你为什么这么想提供充分的理由。你知道吗

一个婴儿说的8个样本的光谱图EHenter image description here

8个婴儿说话样本的时域图EHenter image description here


Tags: 声音类型db婴儿房间样本录音背景
1条回答
网友
1楼 · 发布于 2024-04-26 19:02:45

如果你只想识别声音,我会从一个简单的过程开始:

  1. 从每个声音样本(简单的能量treshold)裁剪静音。你知道吗
  2. 为数据库的每个样本计算音频特征(例如MFCCs)。你知道吗
  3. 执行交叉验证分类过程,将音频特征映射到要识别的声音类别。你知道吗

有用的Python库:scipy用于读取wav文件,essentia用于音频特征提取,scikit-learn用于分类和其他机器学习。你知道吗

相关问题 更多 >