CNN和RNN的口语识别-改进版本:准确性提高
myspokenlanguagedetection的Python项目详细描述
***version-5发布,提高准确性***
此程序可能需要一分钟左右的时间才能在屏幕上显示结果,
请耐心等待。
口语识别是根据给定的内容和数据集确定和分类自然语言的过程。利用声学模型和语言模型,对
音频文件的数据进行处理,提取有用的特征进行机器学习。
用于口语识别的声学特征即标准特征,如mel频率倒谱系数(mfcc)、移位delta倒谱(sdc),而对于
语言特征,则使用高斯混合模型(gmm)和基于i-向量的框架。
然而,基于提取特征的机器学习过程仍然是一个挑战。
需要改进优化,以便捕获提取的
特征上的嵌入知识。cnn(卷积神经网络)、rnn(递归神经网络)和elm(极限学习机)是一种有效的学习结构,可以用来进行分类和进一步的复杂分析,对训练单个隐层神经网络非常有用。然而,由于输入隐藏层中权值的选择方法,这些模型的学习过程并不完全有效。
myspokenlanguagedetection是一个基于标准特征提取、cnn和rnn的口语识别初步包。以优化方法为基准,通过改变优化过程的选择阶段对其进行改进。结合不同的方法执行选择过程。结果是基于对18种不同语言创建的数据集的口语识别生成的。BR/>结果表明,机器学习的性能与神经网络体系结构的正确性、BR/>和声学模型和语言模型的共存密切相关。BR/> BR/>该版本的MyScript语言检测被训练为检测“法语”、“英语”、“西班牙语”、“BR/>“意大利语”、“Duutsh”、“俄语”,“葡萄牙语”、“瑞典语”和“日语”,以及其他40种语言。我们将完成更多语言的机器培训课程
,同时提高语言识别过程的准确性。
=====
Linux、MacOS和Windows:
-------pip install myspokenlanguagedetection
;或者,要将安装的版本更新到最新版本:
-------pip install-u myspokenlanguagedetection--------
录制文件必须为25秒。或更长的音频和*.wav pcm/lpcm格式,以48 kHz
采样帧和24-32位分辨率或aiff、aiff-c、flac录制:必须是本地flac格式;
不支持ogg-flac。
请查看https://github.com/shahabks/myspokenlanguageid
myspokenlanguagedetection由日本myolution实验室开发。它是mysolution lab新一代语音识别和声学语言建模项目的一部分,计划通过添加更高级的功能来丰富myspokenlanguagedetection的功能。
此程序可能需要一分钟左右的时间才能在屏幕上显示结果,
请耐心等待。
口语识别是根据给定的内容和数据集确定和分类自然语言的过程。利用声学模型和语言模型,对
音频文件的数据进行处理,提取有用的特征进行机器学习。
用于口语识别的声学特征即标准特征,如mel频率倒谱系数(mfcc)、移位delta倒谱(sdc),而对于
语言特征,则使用高斯混合模型(gmm)和基于i-向量的框架。
然而,基于提取特征的机器学习过程仍然是一个挑战。
需要改进优化,以便捕获提取的
特征上的嵌入知识。cnn(卷积神经网络)、rnn(递归神经网络)和elm(极限学习机)是一种有效的学习结构,可以用来进行分类和进一步的复杂分析,对训练单个隐层神经网络非常有用。然而,由于输入隐藏层中权值的选择方法,这些模型的学习过程并不完全有效。
myspokenlanguagedetection是一个基于标准特征提取、cnn和rnn的口语识别初步包。以优化方法为基准,通过改变优化过程的选择阶段对其进行改进。结合不同的方法执行选择过程。结果是基于对18种不同语言创建的数据集的口语识别生成的。BR/>结果表明,机器学习的性能与神经网络体系结构的正确性、BR/>和声学模型和语言模型的共存密切相关。BR/> BR/>该版本的MyScript语言检测被训练为检测“法语”、“英语”、“西班牙语”、“BR/>“意大利语”、“Duutsh”、“俄语”,“葡萄牙语”、“瑞典语”和“日语”,以及其他40种语言。我们将完成更多语言的机器培训课程
,同时提高语言识别过程的准确性。
=====
Linux、MacOS和Windows:
-------pip install myspokenlanguagedetection
;或者,要将安装的版本更新到最新版本:
-------pip install-u myspokenlanguagedetection--------
录制文件必须为25秒。或更长的音频和*.wav pcm/lpcm格式,以48 kHz
采样帧和24-32位分辨率或aiff、aiff-c、flac录制:必须是本地flac格式;
不支持ogg-flac。
请查看https://github.com/shahabks/myspokenlanguageid
myspokenlanguagedetection由日本myolution实验室开发。它是mysolution lab新一代语音识别和声学语言建模项目的一部分,计划通过添加更高级的功能来丰富myspokenlanguagedetection的功能。