CNN和RNN的口语识别-改进版本:准确性提高

myspokenlanguagedetection的Python项目详细描述


***version-5发布,提高准确性***
此程序可能需要一分钟左右的时间才能在屏幕上显示结果,
请耐心等待。

口语识别是根据给定的内容和数据集确定和分类自然语言的过程。利用声学模型和语言模型,对
音频文件的数据进行处理,提取有用的特征进行机器学习。
用于口语识别的声学特征即标准特征,如mel频率倒谱系数(mfcc)、移位delta倒谱(sdc),而对于
语言特征,则使用高斯混合模型(gmm)和基于i-向量的框架。

然而,基于提取特征的机器学习过程仍然是一个挑战。
需要改进优化,以便捕获提取的
特征上的嵌入知识。cnn(卷积神经网络)、rnn(递归神经网络)和elm(极限学习机)是一种有效的学习结构,可以用来进行分类和进一步的复杂分析,对训练单个隐层神经网络非常有用。然而,由于输入隐藏层中权值的选择方法,这些模型的学习过程并不完全有效。


myspokenlanguagedetection是一个基于标准特征提取、cnn和rnn的口语识别初步包。以优化方法为基准,通过改变优化过程的选择阶段对其进行改进。结合不同的方法执行选择过程。结果是基于对18种不同语言创建的数据集的口语识别生成的。BR/>结果表明,机器学习的性能与神经网络体系结构的正确性、BR/>和声学模型和语言模型的共存密切相关。BR/> BR/>该版本的MyScript语言检测被训练为检测“法语”、“英语”、“西班牙语”、“BR/>“意大利语”、“Duutsh”、“俄语”,“葡萄牙语”、“瑞典语”和“日语”,以及其他40种语言。我们将完成更多语言的机器培训课程
,同时提高语言识别过程的准确性。


=====
Linux、MacOS和Windows:

-------pip install myspokenlanguagedetection

;或者,要将安装的版本更新到最新版本:
-------pip install-u myspokenlanguagedetection--------

录制文件必须为25秒。或更长的音频和*.wav pcm/lpcm格式,以48 kHz
采样帧和24-32位分辨率或aiff、aiff-c、flac录制:必须是本地flac格式;
不支持ogg-flac。

请查看https://github.com/shahabks/myspokenlanguageid

myspokenlanguagedetection由日本myolution实验室开发。它是mysolution lab新一代语音识别和声学语言建模项目的一部分,计划通过添加更高级的功能来丰富myspokenlanguagedetection的功能。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java JAXB封送字符串,具有xml值,且不转义该值   java ModelMapper转换器不工作   java像HH000412或HCANN000001这样的前缀是什么意思?   验证日期输入修复java。lang.numberformatexception错误   当表具有外键时,java Telosys代码生成失败   如何使所有派生类一起只能实例化一个实例的单例抽象基类?(爪哇)   java如何在非静态服务类中使用广播接收器   java nutch爬虫相对URL问题   使用Jboss DMR下载/保存java附件   Rest模板:无法提取响应:当我们得到xml响应时,没有找到适合响应类型的HttpMessageConverter,没有绑定到JAVA对象   java如何编写可扩展窗格/面板/卡的代码   java是在ITreeViewerListener的treeExpanded()之前调用ContentProvider的getChildren()吗?   java将JComponent添加到小程序窗格   java混淆:使用简单逻辑的Flames程序