如何将声音输入神经网络？ - 问答 - Python中文网

如何将声音输入神经网络？

2024-05-15 23:37:46 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我正计划建立一个软件，可以用人工神经网络对一首音乐进行好坏分类。为此，我需要将音频转换成一些数值，作为输入输入输入到NN。为了训练NN，我首先下载了billboard hot 100首歌曲（我认为应该归为好音乐），还下载了一些坏噪音音频文件（这将被归类为坏音乐）。然后我将它们转换为.wav格式，然后将每个文件拆分为多个.wav文件，每个文件的长度为2秒。我本来打算用快速傅立叶变换把这些音频片段转换成频率-振幅对，但问题是，即使我们使用2秒的片段，它的FFT也会产生大约10万个这样的对的数组。对数千个音频文件执行此操作会生成太大的数据集，且具有太多的功能。
我想知道有没有什么方法可以缩短这个数据集，同时保留“音乐的本质”，以便做出更好的预测？或者我应该使用其他算法/过程吗？在

Tags：文件数据软件音乐分类 nn 音频音频文件

1条回答

网友

1楼 · 发布于 2024-05-15 23:37:46

首先，您可以extract the various audio features像：

1）密实度。
2）幅度谱。
3） Mel倒谱系数。
4）音高。
5）功率谱。
6） RMS。
7）节奏。
8）光谱质心。
9）光谱通量。
10）光谱衰减点。
11）光谱变化。
12）过零点。在

生成要素集后，您有两个选项：

A）通过取平均值[和/或方差]来聚合歌曲的特定特征，将歌曲的所有特征串联起来，然后输入人工神经网络并执行分类任务。在

B）将Recurrent Neural Network用于分类任务。在

相关问题更多 >

编程相关推荐

热门问题

热门文章