检查数据集是否存在IPA错误和不一致的简单linter

ipalint的Python项目详细描述


检查语言数据集是否存在IPA错误和不一致。用法:

ipalint mydataset

这将(1)打印数据集中发现的IPA错误;(2)打印 无,表示未发现错误;或(3)如果失败,则打印错误消息 读取文件。在任何情况下都不会修改输入文件。

linter应该能够读取任何格式良好的csv/tsv/tab数据集,假设 有一个IPA数据列。它还读取无表行和句柄 因此,即使您有一个不太常见的格式,如this one,您也可以 仍然可以通过以下方式进行整理:

cat KSL.qlc | grep "^[[:digit:]]" | cut -f 6 | ipalint

可选参数

--col COL指定包含IPA数据的列;这可以是 列名或列索引(从0开始)。如果这个选项不是 set,ipalint将尝试通过查看列名来猜测列。

--no-header将第一行视为数据。默认情况是处理第一个 作为标题行而不是绒线。

--ignore-nfd忽略不在unicode中的ipa字符串的错误 NFD标准格式。除了极少数例外,ipa变音符号应该组合在一起。 角色。但是,在某些情况下,这可能与 你可以忽略这些错误。

--ignore-ws忽略IPA中有关前导或尾随空白的错误 串。如果与前一个标志结合使用,ipalint将只报告错误 关于不属于IPA图表的符号。

--linewiseoutputs(行号,错误消息)元组,每个元组一个 输出线。默认情况是输出一组错误并包括列表 每个错误右边的行号。

--no-lines只输出在数据中发现的一组错误。在下列情况下有用 你想要一个快速的一瞥什么可能是错的。如果 上一个已经设置好了。

检查内容

  • 确保数据集的ipa字符串的所有字符都在IPA chart(2015修订版)中。唯一可接受的非IPA字符是空格。
  • 确保字符串符合unicode的Normalisation Form D(nfd)。
  • 确保字符串不以不必要的空格开头或结尾。

安装

这是一个没有依赖项的标准python 3包。它是在 Cheese Shop,因此您可以通过pip安装它:

pip install ipalint

或者,您也可以克隆此repo(以后可以安全删除)并执行以下操作:

python setup.py test
python setup.py install

当然,这也可能发生在virtualenv/venv中。

类似项目

  • ipapy检查并清除IPA字符串。
  • lingpy包括一些分析ipa字符串的工具。
  • ipatok是用于标记ipa字符串的库。

许可证

麻省理工学院。为所欲为,赞美蛇神。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java如何从数组中打印int值?   prepared语句Java中奇怪的异常PreparedStatement:参数索引超出范围   封装如何在OOP Java中为主方法编码?   java某些手机显示快捷方式徽章需要什么权限?   java TextView不会随OnItemSelectedListener更改   java注释处理器不会自动触发吗?   java Spring JPA如何计算外键数   c#对于这个简单的OOAD问题,哪种设计最优雅?   java如何处理while循环中的异常?   Android Studio错误:进程'command'/home/draven/Downloads/安卓studio/jre/bin/java''结束,退出值为非零2   在使用Payara服务器的Vaadin应用程序中导航到根目录时,java将丢失上下文根目录   使用contentType application/json而不是application/jsonpatch+json的java修补程序   带有tomcat的java HAproxy连接不足   Java:在应用过滤器后创建一个简单的通用方法进行计数   java如何使用多态性创建一个实例化对象的方法,然后用它们高效地填充ArrayList?