使用Python根据音频信号的特征相似性对其进行分组

2024-04-25 19:19:49 发布

您现在位置:Python中文网/ 问答频道 /正文

我已经将包含所有英文字母(A、B、C、D等)的音频文件拆分为单独的audio.wav文件块。我想把每封信分成一组。例如,我希望将字母A的所有音频文件分组到一个文件夹中。那么我将有26个文件夹,由相同字母的不同发音组成

我已经搜索了这个,我发现了一些关于K-均值聚类的工作,但是我不能达到我的要求


Tags: 文件文件夹字母聚类audio音频文件均值wav
1条回答
网友
1楼 · 发布于 2024-04-25 19:19:49

首先,您需要将声音转换为适合于进一步处理的表示形式,以便可以应用分类或聚类算法的一些特征向量

对于音频,典型的选择是基于频谱的功能。要处理声音,librosa非常有用

由于声音有不同的持续时间,并且您可能希望每个录音都有一个固定大小的特征向量,因此您需要一种在一系列数据之上构建单个特征向量的方法。在这里,根据您的数据量和标签的可用性,可以使用不同的方法。假设您的录制数量有限且没有标签,您可以从简单地将多个向量堆叠在一起开始。平均是另一种可能性,但它会破坏时间信息(在这种情况下可以)。训练某种RNN将其表示为隐藏状态是最有效的方法

看看这个相关的答案:How to classify continuous audio

相关问题 更多 >