我要用音频文件训练神经网络
我有一个音频数据集,其中包含一个人的名字和命令文件夹。假设一个文件夹是'Marvin',人的名字变成'Mavin',另一个文件夹是'speak',所以命令是'speak'。现在我想有音频文件,其中的音频说,“马文讲话”
现在我想的方法是加入pydub库中的音频文件并训练神经网络
from pydub import AudioSegment
sound_marvin = AudioSegment.from_file('marvin_audio.wav')
sound_speak = AudioSegment.from_file('speak_audio.wav')
final = sound_marvin + sound_speak
final.export('final.wav', format='wav')
我的方法是正确的还是有更好的方法
欢迎提出任何建议/意见
你的问题涉及很多问题“我的方法正确吗?还是有更好的方法”。最突出的是:
我想你是在暗示你在问1和2,所以我要集中回答1和2
只有在以下情况下,您所展示的内容才可能是最简单的工作示例:
marvin_audio.wav
和speak_audio.wav
具有相同的采样频率+
表示串联,这对于音频处理来说是非常不直观的李>如果以上两个都不成立,那么你将有失真的音频
如果两者都成立,那么您将拥有第一个文件的音频,然后是第二个文件的音频
有几件事,你可以做,将不需要专家领域的知识。这些将是:
为了更好地控制您正在做的事情,我建议使用一些更专用的音频处理库,比如librosa
相关问题 更多 >
编程相关推荐