胶子音频工具包
gluonar的Python项目详细描述
Gluon Audio是一个提供基于深度学习的音频识别的工具包 算法。这个项目还在开发中,只有中国人 将提供介绍。
胶子简介:
Gluonar基于MXnet Gluon,如果您是新手,请查看 dmlc 60-minute crash course。
内容独立于文本 说话人识别内容。
其特点是: av 前进,前进, 端到端。 堎 阻塞率12%。- MelSpectrogram,DCT1D,MFCC,PowerToDB- 1808.00158中。$ -口香糖- 中华人民共和国
示例:
importnumpyasnpimportmxnetasmximportlibrosaasrosafromgluonar.utils.vizimportview_specfromgluonar.nn.basic_blocksimportSTFTBlockdata=rosa.load(r"resources/speaker_recognition/speaker0_0.m4a",sr=16000)[0][:35840]nd_data=mx.nd.array([data],ctx=mx.gpu())stft=STFTBlock(35840,hop_length=160,win_length=400)stft.initialize(ctx=mx.gpu())# stft block forwardret=stft(nd_data).asnumpy()[0][0]spec=np.transpose(ret,(1,0))**2view_spec(spec)# stft in librosaspec=rosa.stft(data,hop_length=160,win_length=400,window="hamming")spec=np.abs(spec)**2view_spec(spec)
输:
STFTBlock | STFT in librosa |
---|---|
更
要求
MXnet-1.5.0+,GluOnFr,AV,librosa,…
接线盒, 中新网 投资方
利布罗莎 pip install librosa
ffmpeg
# 下载ffmpeg源码, 进入根目录 ./configure --extra-cflags=-fPIC --enable-shared make -j sudo make install
皮亚夫 pip install av
- gluonfrpip install git+https://github.com/THUFutureLab/gluon-face.git@master
数据集
胆小
darpa-timit语音连续语音语料库(timit) 培训和测试数据。在使用此数据集之前,请遵循 关于link的说明。
此文件的副本已上载到Google Drive 作者@philipperemyhere。
预训练模型
说话人识别
resnet18 voxceleb
下载:Baidu, Google Drive
我遵循了论文voxceleb2中的思想 1806.05622为了训练这个模型, 它们之间的区别:
Res18 in this repo | Res34 in paper | |
---|---|---|
Train ed on | VoxCel eb2 | VoxCel eb2 |
Input spec size | 224x22 4 | 512x30 0 |
Eval on | Random 9500+ pair sample s from VoxCel eb1 train and test set | Origin al VoxCel eb1 test set |
Metri c | Accura cy:0.9 32656+ -0.005 187 | EER: 0.0504 |
Frame work | Mxnet Gluon | Matcon vnet |
ROC |
待办事项
联合体
文档
Gluonar文档现在不可用。
讨论
如有任何建议,请发表意见。
参考文献
- MXNET文档和教程 https://zh.diveintodeeplearning.org/