自动音素转录模型的开发工具
persephone的Python项目详细描述
Persephone v0.4.0(测试版)
persephone(/p_r_s_f_ni/)是一种自动音素转录工具。 传统的语音识别工具需要较大的发音 词典(描述单词如何发音)和大量的训练数据 系统可以学习输出正字法文字。在 相反,persephone是为训练数据 有限的,可能只有一个小时的转录演讲。如此 在低资源的文档中,对数据的限制是常见的 语言。可以使用如此少量的数据来训练 有助于转录的转录模型 尚未被广泛采用。
The speech recognition tool presented here is named after the goddess who was abducted by Hades and must spend one half of each year in the Underworld. Which of linguistics or computer science is Hell, and which the joyful world of spring and light? For each it’s the other, of course. — Alexis Michaud
珀尔塞福涅的目标是使最先进的音素 参与语言文档的人可以使用的转录。 创建一个易于使用的用户界面是关键。用户 接口和api是一个正在进行的工作,目前persephone必须 通过命令行运行。
该工具是用python/tensorflow实现的,考虑到了可扩展性。 目前只实现了一个模型,它使用双向long 短时记忆(lstms)与连接主义时间分类 (CTC)损失函数。
我们很乐意为任何想使用它的人提供直接帮助。 请使用discussion mailing list 讨论有关此项目的问题。 我们也非常欢迎大家的想法,建设性的批评,帮助 设计、开发和文档,以及任何bug reports或 pull requests你可能有。
文档
文档可以找到here。
引文
如果您在出版物中使用此代码,请引用Evaluating Phonemic Transcription of Low-Resource Tonal Languages for Language Documentation:
@inproceedings{adams18evaluating, title = {Evaluating phonemic transcription of low-resource tonal languages for language documentation}, author = {Adams, Oliver and Cohn, Trevor and Neubig, Graham and Cruz, Hilaria and Bird, Steven and Michaud, Alexis}, booktitle = {Proceedings of LREC 2018}, year = {2018} }