一个声码器,可以将音频转换成光谱图和反向与WaveGlow,所有的GPU(如果可用)。
waveglow-vocoder的Python项目详细描述
WaveGlow声码器
一种声码器,可以将音频转换为Mel谱图,并用WaveGlow反转,全部在GPU上。
大多数代码来自Tacotron2和{a1}。在
安装
pip install waveglow-vocoder
示例
Original | Vocoded |
---|---|
original music | vocoded music |
original speech | vocoded speech |
用法
在GPU上加载wav文件作为火炬张量。在
^{pr2}$应用mel变换,这将在GPU上完成(如果是ava)。在
fromwaveglow_vocoderimportWaveGlowVocoderWV=WaveGlowVocoder()mel=WV.wav2mel(y_tensor)
用Waveglow解码。在
NOTE:
As the hyperparameter of pre-trained model is alignment with Tacotron2, one might get totally noise if the Mel spectrogram comes from other function than wav2mel(an alias for TacotronSTFT.mel_spectrogram).
Support for the melspectrogram from librosa and torchaudio is under development.
wav=WV.mel2wav(mel)
其他具有您自己数据的预训练模型/列车
此声码器将在第一次初始化时从pytorch hub下载预先训练的模型。
您也可以从WaveGlow下载最新的模型,或者使用您自己的数据并将路径传递到waveglow声码器。在
config_path="your_config_of_model_training.json"waveglow_path="your_model_path.pt"WV=WaveGlowVocoder(waveglow_path=waveglow_path,config_path=config_path)
那就照常用吧。在
待办事项
- WaveRNN声码器
- 梅尔根声码器
- 性能
- 支持librosa Mel输入
参考
- 项目
标签: