检查数据集是否存在IPA错误和不一致的简单linter
ipalint的Python项目详细描述
检查语言数据集是否存在IPA错误和不一致。用法:
ipalint mydataset
这将(1)打印数据集中发现的IPA错误;(2)打印 无,表示未发现错误;或(3)如果失败,则打印错误消息 读取文件。在任何情况下都不会修改输入文件。
linter应该能够读取任何格式良好的csv/tsv/tab数据集,假设 有一个IPA数据列。它还读取无表行和句柄 因此,即使您有一个不太常见的格式,如this one,您也可以 仍然可以通过以下方式进行整理:
cat KSL.qlc | grep "^[[:digit:]]" | cut -f 6 | ipalint
可选参数
--col COL指定包含IPA数据的列;这可以是 列名或列索引(从0开始)。如果这个选项不是 set,ipalint将尝试通过查看列名来猜测列。
--no-header将第一行视为数据。默认情况是处理第一个 作为标题行而不是绒线。
--ignore-nfd忽略不在unicode中的ipa字符串的错误 NFD标准格式。除了极少数例外,ipa变音符号应该组合在一起。 角色。但是,在某些情况下,这可能与 你可以忽略这些错误。
--ignore-ws忽略IPA中有关前导或尾随空白的错误 串。如果与前一个标志结合使用,ipalint将只报告错误 关于不属于IPA图表的符号。
--linewiseoutputs(行号,错误消息)元组,每个元组一个 输出线。默认情况是输出一组错误并包括列表 每个错误右边的行号。
--no-lines只输出在数据中发现的一组错误。在下列情况下有用 你想要一个快速的一瞥什么可能是错的。如果 上一个已经设置好了。
检查内容
- 确保数据集的ipa字符串的所有字符都在IPA chart(2015修订版)中。唯一可接受的非IPA字符是空格。
- 确保字符串符合unicode的Normalisation Form D(nfd)。
- 确保字符串不以不必要的空格开头或结尾。
安装
这是一个没有依赖项的标准python 3包。它是在 Cheese Shop,因此您可以通过pip安装它:
pip install ipalint
或者,您也可以克隆此repo(以后可以安全删除)并执行以下操作:
python setup.py test python setup.py install
当然,这也可能发生在virtualenv/venv中。
许可证
麻省理工学院。为所欲为,赞美蛇神。