胶子音频工具包

gluonar的Python项目详细描述


Gluon Audio是一个提供基于深度学习的音频识别的工具包 算法。这个项目还在开发中,只有中国人 将提供介绍。

胶子简介:

Gluonar基于MXnet Gluon,如果您是新手,请查看 dmlc 60-minute crash course

内容独立于文本 说话人识别内容。

其特点是: av 前进,前进, 端到端。 堎 阻塞率12%。- MelSpectrogramDCT1DMFCCPowerToDB- 1808.00158中。$ -口香糖- 中华人民共和国

示例:

importnumpyasnpimportmxnetasmximportlibrosaasrosafromgluonar.utils.vizimportview_specfromgluonar.nn.basic_blocksimportSTFTBlockdata=rosa.load(r"resources/speaker_recognition/speaker0_0.m4a",sr=16000)[0][:35840]nd_data=mx.nd.array([data],ctx=mx.gpu())stft=STFTBlock(35840,hop_length=160,win_length=400)stft.initialize(ctx=mx.gpu())# stft block forwardret=stft(nd_data).asnumpy()[0][0]spec=np.transpose(ret,(1,0))**2view_spec(spec)# stft in librosaspec=rosa.stft(data,hop_length=160,win_length=400,window="hamming")spec=np.abs(spec)**2view_spec(spec)

输:

STFTBlockSTFT in librosa

要求

MXnet-1.5.0+,GluOnFr,AV,librosa,…

接线盒, 中新网 投资方

  • 利布罗莎 pip install librosa

  • ffmpeg

    # 下载ffmpeg源码, 进入根目录
    ./configure --extra-cflags=-fPIC --enable-shared
    make -j
    sudo make install
    
  • 皮亚夫 pip install av

  • gluonfr
    pip install git+https://github.com/THUFutureLab/gluon-face.git@master

数据集

胆小

darpa-timit语音连续语音语料库(timit) 培训和测试数据。在使用此数据集之前,请遵循 关于link的说明。

此文件的副本已上载到Google Drive 作者@philipperemyhere

voxceleb

voxceleb是一个视听数据集,由人类的短片组成 演讲稿,摘自上传到YouTube的采访视频。

有关详细信息,请签出此 page

预训练模型

说话人识别

resnet18 voxceleb

下载:BaiduGoogle Drive

我遵循了论文voxceleb2中的思想 1806.05622为了训练这个模型, 它们之间的区别:

Res18 in this repoRes34 in paper
Train ed onVoxCel eb2VoxCel eb2
Input spec size224x22 4512x30 0
Eval onRandom 9500+ pair sample s from VoxCel eb1 train and test setOrigin al VoxCel eb1 test set
Metri cAccura cy:0.9 32656+ -0.005 187EER: 0.0504
Frame workMxnet GluonMatcon vnet
ROC

待办事项

联合体

文档

Gluonar文档现在不可用。

作者

{haoxintong}

讨论

如有任何建议,请发表意见。

贡献

这个项目的最终目标是提供一个易于使用的深入学习 基于音频算法库 pytorch-kaldi

欢迎捐款。

参考文献

  1. MXNET文档和教程 https://zh.diveintodeeplearning.org/

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
ArrayList中实体对象上的JAVA泛型   带Redis的爪哇芹菜vs单用Redis   java在设备面向横向时隐藏标题栏/通知栏   java JXTreeTable:如何使用ComponentProvider为一列设置渲染器   java创建异常的成本与记录异常的成本相比   java在方法参数中使用setter传递新对象   java在一个类中的方法与另一个类中的方法交互时遇到问题   java如何迭代2个大小相等的ArrayList   Java getDesktop()。open在Windows中工作,但在Mac中不工作   从tomcat切换到jetty后的java“无法启动嵌入式容器”,Spring引导   java如何使用void方法   java如何在解组时在JAXB的ValidationEventHandler中获取节点值?   如何使用Akka Java API创建不响应的TCP接收器   JavaScriptjQuery在java中将记录上传到数据库时的进度条   如何在重新绘制时在java小程序中显示上一个图像