一种突出分词不一致的工具。

space-diff的Python项目详细描述


空间差异

说明

space diff是一个工具,它可以在任何无空间的正字法中突出显示间隔文本(如训练语料库)中的分词不一致。

这个工具是纯python的,需要python 3.7+

安装

pip install space-diff

用法/教程

包含在this project's homepage中的是两个分段繁体中文的示例语料库,为了便于后续学习,本教程将使用这些语料库。(改编自Universal Dependencies' Chinese corpora。)以下说明假设您已经安装了space diff并下载了示例语料库。

命令行用法

您只需在命令行调用该工具,如下所示:

$ space-diff [-h] [-d] corp [corp ...]

使用可选的-h/--help参数、可选的-d/--digits参数和一个或多个分段文本的语料库文件。

使用样本数据

通过运行:

$ space-diff sample_corp_a.txt sample_corp_b.txt

您将看到程序在处理时对您进行更新,然后最终打印出其结果的可读摘要。下面是一个示例:

Image of sample output

此输出允许手动检查分段不一致的每个实例,在这些实例中,您可以注意哪些是错误,哪些是固有的变化。这样做的目的是在训练(分词器或其他随机工具)数据之前,修正那些在你的语料库中实际存在的错误。

使用自己的数据

对于您自己的数据,如果需要,只需将文件及其路径传递给space diff并选择将输出保存到您想要的任何位置。

$ space-diff ~/path/to/thisfile.txt ~/path/to/another.txt ~/path/to/third.txt > ~/Desktop/seg_inconsistency.txt

不包括数字

默认情况下,该工具将127121 201220等字符串视为“多字符”标记12的不一致分段。如果您希望用这样的数字大小写来分离输出,请传递space diff标志-d以忽略其搜索中的数字。

$ space-diff -d sample_corp_a.txt sample_corp_b.txt

$ space-diff sample_corp_a.txt sample_corp_b.txt --digits

许可证

GNU GPLV3-有关详细信息,请参阅许可文件。

联系人

布莱克·佩里·史密斯 gmail上的中间名dot lastname+“b”

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
JavaEclipse巨大的CPU峰值   java如何修复错误“上次成功发送到服务器的数据包是0毫秒前的。驱动程序尚未从服务器接收到任何数据包”   Java算法的C等价加密   java jackson序列化程序在禁用注释时引发NullPointerException   java制作了一种使用星星创建X为正方形的图像的方法   java软键盘切断了EditText/TextInputText控件的底部   java如何在jboss eap 7.3上启用cors?   摆动Java排列不规则形状   java逻辑Maven版本编号   在JShell中,如何评估整个java代码?   servlets对Java war文件进行签名并包含清单是有效的。MF在<warroot>/METAINF中   java在JTable中添加背景图像   java未收到来自服务器的响应   java解析Weblogic依赖项在编译时工作正常,但在运行时失败   带有两个Android应用程序模块的java Gradle项目   java有没有一种方法可以编写一个执行预定义手势和动作的应用程序?   java为什么finish()使所有活动都不能返回到以前的活动?   选项卡窗格的Java Swing makeTextPanel()方法