2024-04-25 19:19:49 发布
网友
我已经将包含所有英文字母(A、B、C、D等)的音频文件拆分为单独的audio.wav文件块。我想把每封信分成一组。例如,我希望将字母A的所有音频文件分组到一个文件夹中。那么我将有26个文件夹,由相同字母的不同发音组成
我已经搜索了这个,我发现了一些关于K-均值聚类的工作,但是我不能达到我的要求
首先,您需要将声音转换为适合于进一步处理的表示形式,以便可以应用分类或聚类算法的一些特征向量
对于音频,典型的选择是基于频谱的功能。要处理声音,librosa非常有用
由于声音有不同的持续时间,并且您可能希望每个录音都有一个固定大小的特征向量,因此您需要一种在一系列数据之上构建单个特征向量的方法。在这里,根据您的数据量和标签的可用性,可以使用不同的方法。假设您的录制数量有限且没有标签,您可以从简单地将多个向量堆叠在一起开始。平均是另一种可能性,但它会破坏时间信息(在这种情况下可以)。训练某种RNN将其表示为隐藏状态是最有效的方法
看看这个相关的答案:How to classify continuous audio
首先,您需要将声音转换为适合于进一步处理的表示形式,以便可以应用分类或聚类算法的一些特征向量
对于音频,典型的选择是基于频谱的功能。要处理声音,librosa非常有用
由于声音有不同的持续时间,并且您可能希望每个录音都有一个固定大小的特征向量,因此您需要一种在一系列数据之上构建单个特征向量的方法。在这里,根据您的数据量和标签的可用性,可以使用不同的方法。假设您的录制数量有限且没有标签,您可以从简单地将多个向量堆叠在一起开始。平均是另一种可能性,但它会破坏时间信息(在这种情况下可以)。训练某种RNN将其表示为隐藏状态是最有效的方法
看看这个相关的答案:How to classify continuous audio
相关问题 更多 >
编程相关推荐