胶子音频工具包

gluonar的Python项目详细描述


Gluon Audio是一个提供基于深度学习的音频识别的工具包 算法。这个项目还在开发中,只有中国人 将提供介绍。

胶子简介:

Gluonar基于MXnet Gluon,如果您是新手,请查看 dmlc 60-minute crash course

内容独立于文本 说话人识别内容。

其特点是: av 前进,前进, 端到端。 堎 阻塞率12%。- MelSpectrogramDCT1DMFCCPowerToDB- 1808.00158中。$ -口香糖- 中华人民共和国

示例:

importnumpyasnpimportmxnetasmximportlibrosaasrosafromgluonar.utils.vizimportview_specfromgluonar.nn.basic_blocksimportSTFTBlockdata=rosa.load(r"resources/speaker_recognition/speaker0_0.m4a",sr=16000)[0][:35840]nd_data=mx.nd.array([data],ctx=mx.gpu())stft=STFTBlock(35840,hop_length=160,win_length=400)stft.initialize(ctx=mx.gpu())# stft block forwardret=stft(nd_data).asnumpy()[0][0]spec=np.transpose(ret,(1,0))**2view_spec(spec)# stft in librosaspec=rosa.stft(data,hop_length=160,win_length=400,window="hamming")spec=np.abs(spec)**2view_spec(spec)

输:

STFTBlockSTFT in librosa

要求

MXnet-1.5.0+,GluOnFr,AV,librosa,…

接线盒, 中新网 投资方

  • 利布罗莎 pip install librosa

  • ffmpeg

    # 下载ffmpeg源码, 进入根目录
    ./configure --extra-cflags=-fPIC --enable-shared
    make -j
    sudo make install
    
  • 皮亚夫 pip install av

  • gluonfr
    pip install git+https://github.com/THUFutureLab/gluon-face.git@master

数据集

胆小

darpa-timit语音连续语音语料库(timit) 培训和测试数据。在使用此数据集之前,请遵循 关于link的说明。

此文件的副本已上载到Google Drive 作者@philipperemyhere

voxceleb

voxceleb是一个视听数据集,由人类的短片组成 演讲稿,摘自上传到YouTube的采访视频。

有关详细信息,请签出此 page

预训练模型

说话人识别

resnet18 voxceleb

下载:BaiduGoogle Drive

我遵循了论文voxceleb2中的思想 1806.05622为了训练这个模型, 它们之间的区别:

Res18 in this repoRes34 in paper
Train ed onVoxCel eb2VoxCel eb2
Input spec size224x22 4512x30 0
Eval onRandom 9500+ pair sample s from VoxCel eb1 train and test setOrigin al VoxCel eb1 test set
Metri cAccura cy:0.9 32656+ -0.005 187EER: 0.0504
Frame workMxnet GluonMatcon vnet
ROC

待办事项

联合体

文档

Gluonar文档现在不可用。

作者

{haoxintong}

讨论

如有任何建议,请发表意见。

贡献

这个项目的最终目标是提供一个易于使用的深入学习 基于音频算法库 pytorch-kaldi

欢迎捐款。

参考文献

  1. MXNET文档和教程 https://zh.diveintodeeplearning.org/

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java Maven无法识别安装在Ubuntu外壳上的$java_HOME jdk   java如何防止可运行程序在其中一个抛出异常时执行   java Listview在按下项时不触发   如何在WindowsPhone8中使用JavaRESTWebService?   java在spring引导下使用多个dispatcher servlet/web上下文   java为什么在删除容器的绝对大小时不绘制GEF子项?   java在hibernate实体中保留DB约束是好的   JavaSpring选择最高优先级bean   ArrayList<Class>java字符串[]   有向加权边图的Java邻接表实现   字母数字字符串的java Tesseract配置:混合2、Z、6和G   如果输入为空,则带有EditText的java警报对话框将关闭   jsp上的java Struts 2动作响应   java获取IndexOutOfBundException Android   scala AWSJAVASDK:解压缩大小必须小于262144000字节