一种突出分词不一致的工具。
space-diff的Python项目详细描述
空间差异
说明
space diff是一个工具,它可以在任何无空间的正字法中突出显示间隔文本(如训练语料库)中的分词不一致。
这个工具是纯python的,需要python 3.7+
安装
pip install space-diff
用法/教程
包含在this project's homepage中的是两个分段繁体中文的示例语料库,为了便于后续学习,本教程将使用这些语料库。(改编自Universal Dependencies' Chinese corpora。)以下说明假设您已经安装了space diff并下载了示例语料库。
命令行用法
您只需在命令行调用该工具,如下所示:
$ space-diff [-h] [-d] corp [corp ...]
使用可选的-h
/--help
参数、可选的-d
/--digits
参数和一个或多个分段文本的语料库文件。
使用样本数据
通过运行:
$ space-diff sample_corp_a.txt sample_corp_b.txt
您将看到程序在处理时对您进行更新,然后最终打印出其结果的可读摘要。下面是一个示例:
此输出允许手动检查分段不一致的每个实例,在这些实例中,您可以注意哪些是错误,哪些是固有的变化。这样做的目的是在训练(分词器或其他随机工具)数据之前,修正那些在你的语料库中实际存在的错误。
使用自己的数据
对于您自己的数据,如果需要,只需将文件及其路径传递给space diff并选择将输出保存到您想要的任何位置。
$ space-diff ~/path/to/thisfile.txt ~/path/to/another.txt ~/path/to/third.txt > ~/Desktop/seg_inconsistency.txt
不包括数字
默认情况下,该工具将12
、712
、1 20
和1220
等字符串视为“多字符”标记12
的不一致分段。如果您希望用这样的数字大小写来分离输出,请传递space diff标志-d
以忽略其搜索中的数字。
$ space-diff -d sample_corp_a.txt sample_corp_b.txt
或
$ space-diff sample_corp_a.txt sample_corp_b.txt --digits
许可证
GNU GPLV3-有关详细信息,请参阅许可文件。
联系人
布莱克·佩里·史密斯 gmail上的中间名dot lastname+“b”