基于CNN的长格式音频关键词识别特征提取 - 问答 - Python中文网

基于CNN的长格式音频关键词识别特征提取

2024-04-20 12:04:18 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我已经建立了一个简单的CNN单词检测器，当使用1秒的.wav作为输入时，它能够准确地预测给定的单词。作为标准，我使用音频文件的MFCC作为CNN的输入。你知道吗

但是，我的目标是能够将其应用到多个单词的较长音频文件中，并使模型能够预测是否以及何时说出给定的单词。我一直在网上搜索如何最好的方法，但似乎撞到了墙，我真的很抱歉，如果答案可以很容易地找到通过谷歌。你知道吗

我的第一个想法是把音频文件剪成几个1秒长的窗口互相交叉-

a busy cat

然后将每个窗口转换为MFCC，并将其作为模型预测的输入。你知道吗

我的第二个想法是在尝试分离每个单词时使用起始检测，如果单词是<；1秒，则添加填充，然后将这些作为模型预测的输入。你知道吗

我离这儿远吗？如有任何参考或建议，将不胜感激。非常感谢。你知道吗

Tags：方法答案模型 lt 目标标准单词交叉

1条回答

网友

1楼 · 发布于 2024-04-20 12:04:18

将音频切割到分析窗口是一种方法。通常使用一些重叠。可以先计算MFCC特性，然后使用整数帧进行分割，使您最接近所需的窗口长度（1s）。你知道吗

参见How to use a context window to segment a whole log Mel-spectrogram (ensuring the same number of segments for all the audios)?示例代码

相关问题更多 >

编程相关推荐

热门问题

热门文章