基于带注释的fi为音频段生成mfcc

1条回答

网友

1楼 · 发布于 2024-05-16 01:23:18

第1部分：MFCC到标签的转换

从librosa文档中看不出这一点，但我相信mfcc是以23mS的帧速率计算的。上面的代码mfcc.shape将返回(20, x)，其中20是功能的数量，x对应于x个帧数。mfcc的默认hop_rate是512个样本，这意味着每个mfcc样本的跨度约为23mS（512/sr）。在

使用这个可以计算出文本文件中哪个帧与哪个标记相匹配。例如，标记Music从0.0到2.5秒，因此mfcc帧0到2.5*sr/512~=108。它们不会完全相等，所以需要四舍五入。在

第2A部分：DNN数据格式

对于输入（mfcc数据），您需要弄清楚输入是什么样子的。你将有20个功能，但你想输入一个单一的帧到你的网络还是你要提交一个时间序列。您的mfcc数据已经是一个numpy数组，但是它的格式是（feature，sample）。对于Keras的输入，您可能需要将其反转。您可以使用numpy.reshape来执行此操作。在

对于输出，您需要为文本文件中的每个标记指定一个数值。通常，您将把tag to integer存储在字典中。这将用于为网络创建训练输出。每个输入样本应该有一个输出整数。在

第2B部分：保存数据

最简单的方法是使用pickle保存并稍后重新加载。我喜欢用一个类来封装输入、输出和字典数据，但是你可以选择任何适合你的。在

相关问题更多 >

编程相关推荐

热门问题

热门文章