将zamia-speech.org中的kaldi asr nnet3链模型调整为不同的语言模型。
kaldi-adapt-lm的Python项目详细描述
#Kaldi改编lm
将zamia-speech.org中的kaldi asr nnet3链模型调整为不同的 语言模型。
建设性的意见,补丁和拉请求是非常受欢迎的。
教程
为了创建我们想要调整kaldi模型的语言模型,我们首先 需要创建一组句子。要开始,请下载并解压缩通用集 为您的语言的句子,例如
wget ‘http://goofy.zamia.org/zamia-speech/misc/sentences-en.txt.xz’ unxz sentences-en.txt.xz
现在假设文件utts.txt包含您希望模型执行的语句 以比其他人更高的概率认识。为了达到这个目的,我们添加了 将本例中的五个句子转换为正文:
cat utts.txt utts.txt utts.txt utts.txt utts.txt sentences-en.txt >lm.txt
我们还希望将语言模型限制在音频模型支持的词汇表范围内, 接下来,我们提取词汇:
MODEL=”models/kaldi-generic-en-tdnn_sp-latest” cut -f 1 -d ‘ ‘ ${MODEL}/data/local/dict/lexicon.txt >vocab.txt
有了这些文件,我们现在可以使用kenlm:
lmplz -o 4 –prune 0 1 2 3 –limit_vocab_file vocab.txt –interpolate_unigrams 0 <lm.txt >lm.arpa
现在我们可以开始kaldi模型的适应过程:
kaldi-adapt-lm ${MODEL} lm.arpa mymodel
现在您应该能够在work子目录中找到结果模型的tarball。
链接
- <;http://kaldi-asr.org/>;[kaldi asr]
- <;https://zamia-speech.org>;[扎米亚语]
要求
- Python2
- 卡尔迪ASR
许可证
我自己的代码是apache-2.0许可的,除非在 脚本的版权标题。