如何将声音输入神经网络?

2024-05-15 23:37:46 发布

您现在位置:Python中文网/ 问答频道 /正文

我正计划建立一个软件,可以用人工神经网络对一首音乐进行好坏分类。为此,我需要将音频转换成一些数值,作为输入输入输入到NN。为了训练NN,我首先下载了billboard hot 100首歌曲(我认为应该归为好音乐),还下载了一些坏噪音音频文件(这将被归类为坏音乐)。然后我将它们转换为.wav格式,然后将每个文件拆分为多个.wav文件,每个文件的长度为2秒。我本来打算用快速傅立叶变换把这些音频片段转换成频率-振幅对,但问题是,即使我们使用2秒的片段,它的FFT也会产生大约10万个这样的对的数组。对数千个音频文件执行此操作会生成太大的数据集,且具有太多的功能。
我想知道有没有什么方法可以缩短这个数据集,同时保留“音乐的本质”,以便做出更好的预测?或者我应该使用其他算法/过程吗?在


Tags: 文件数据软件音乐分类nn音频音频文件
1条回答
网友
1楼 · 发布于 2024-05-15 23:37:46

首先,您可以extract the various audio features像:

1)密实度。
2) 幅度谱。
3) Mel倒谱系数。
4) 音高。
5) 功率谱。
6) RMS。
7) 节奏。
8) 光谱质心。
9) 光谱通量。
10) 光谱衰减点。
11) 光谱变化。
12) 过零点。在

生成要素集后,您有两个选项:

A)通过取平均值[和/或方差]来聚合歌曲的特定特征,将歌曲的所有特征串联起来,然后输入人工神经网络并执行分类任务。在

B)将Recurrent Neural Network用于分类任务。在

相关问题 更多 >