音频文件语音转录的开源软件

Question

有没有人能推荐一些可靠的开源软件，用来转录英文的wav音频文件？我研究过的两个主要程序是Sphinx和Julius，但我一直没能让它们正常工作，而且它们的转录文件的文档也很简陋。

我在64位的Ubuntu 10.04上开发，软件库里有sphinx2和julius，还有voxforge的julius英语声学模型。我专注于转录文件，而不是直接处理麦克风的声音，因为我已经放弃指望这些项目能和Ubuntu的声音系统兼容。这并不是说Ubuntu不好，因为我可以用Audacity完美地录音，但这两个系统似乎都无法访问我的麦克风，所以我希望通过读取文件来简化配置。

我首先尝试了Sphinx2，使用的是Ubuntu包里的sphinx2-bin。尽管示例sphinx2-demo似乎能正常转录文件，但几乎没有关于配置的文档，所以我不确定如何自定义它以读取任意的wav文件。示例中使用的音频文件是某种未记录的“16k”格式，通过两个配置文件间接引用。文档中简要提到sphinx2-demo是运行sphinx2-batch，但查看脚本后发现它实际上调用的是sphinx2-continuous。更糟糕的是，每个脚本的--help文档列出了大约六十多个选项，却没有说明哪些是必需的，哪些是可选的。总的来说，sphinx的文档缺乏，现有文档的质量也很差，让我感到很沮丧。

接下来我尝试了Julius，同样是从Ubuntu包中安装的，考虑到Voxforge的快速入门使用的是3.5版本，这个4.1版本竟然还算比较新。这个包似乎包含了稍微好一点的文档，甚至还有一个用Python写的示例（/usr/share/doc/julius-voxforge/examples/controlapp）。看完示例的文档后，我试着修改它，从文件中读取数据，创建了一个名为filelist.txt的文件，里面写着“hello.wav”，指向一个同名的文件，里面录了一个人说“hello”。把这些文件放在同一个目录下，我运行了：

julius -input file -filelist filelist.txt -C julian.jconf

得到的回应是：

### read waveform input
Error: adin_file: sampling rate != 16000 (8000)
Error: adin_file: error in parsing wav header at hello.wav
Error: adin_file: failed to read speech data: "hello.wav"
0 files processed

尝试通过指定filelist.txt和hello.wav的绝对路径来重试，结果还是出现同样的错误。

我还尝试了示例中用于直接从麦克风录音的Julius调用：

julius -input mic -C julian.jconf

我多次调用这个，得到的回应在错误之间变化：

Cannot read /dev/dsp

还有：

STAT: AD-in thread created
<<< please speak >>>

在后面的情况下，无论我对着麦克风说什么，都没有反应。我不知道它是仍然无法读取麦克风，还是在读取什么，但就是无法转录音频。

我对这一切感到困惑。这些错误信息让我无从下手。为什么它不能读取wav文件？为什么它不能读取/dev/dsp？为什么它似乎能读取/dev/dsp，但却没有任何反应？

有没有其他人成功使用过开源语音识别软件，特别是在Linux上？

ubuntu 开源软件音频处理 sphinx 语音识别语音转录 Julius Voxforge

音频文件语音转录的开源软件

1 个回答

撰写回答