我目前正在cnn做音素识别。在
我的数据集被标记,但我有点不确定我如何确保特征向量的长度也将根据音频文件的长度。在
我对CNN的输入是mel对数滤波器能量的spectrogram可视化,其中y轴是不同的频带,x轴是包含帧的。在
上面的例子是:
fmjc-b-an118 RUBOUT J L Y Z TWO
和音位:
^{pr2}$在249帧中总共有15个音素。每一个音素有近17帧。在
文本/单词是否与之对话:
fbbh-b-an90 NO
NO: N OW
在97帧中总共有2个音素=每个音素49帧。在
那么我如何创建一个输入形状来捕捉音频文件中的音素数量呢?在
编辑:
我认为重建输入/输出关系的唯一方法是提供一个一帧的输入形状,但是系统是否能够在短时间内检测到不同种类的音素,如果没有可用的话,还会说“无”?在
这将要求输出形状包含每个帧的类,这要求我知道每个音素的持续时间,这应该可以使用this。在
但是,有没有可能在一帧内检测到一个音素?在
我有一个建议,我不认为这一定是一个好的建议,但我确实认为它会起作用。在
如果你想做的是训练音素,不管音素跨越多少帧都能被识别,你可以尝试用一些随机系数来训练你的音素特征。这是在OpenCV中的几个特征提取程序上完成的,以使图像特征具有比例不变性。我想如果你把它应用到音频,它可能会使它速度不变。我意识到这可能会导致你的训练特征爆炸,所以另一种方法是调整你试图识别的输入,而不是训练输入。 您可以将所有的训练特征缩放到相同的帧/特征速率,然后将所有输入缩放到相同的速率。 可能这是完全不可能的,我不是机器学习专家。 祝你好运
相关问题 更多 >
编程相关推荐