folia工具包含各种基于python的命令行工具,用于处理folia xml(语言注释格式)
FoLiA-tools的Python项目详细描述
有许多命令行工具可随时用于处理folia的各个方面。目前提供以下工具:
- foliavalidator–测试文档是否是有效的folia xml。如果生成自己的folia文档,请始终使用此项测试文档!
- foliaquery–高级查询工具,用于在folia文档中搜索指定的模式,或根据查询修改文档。支持fql(folia查询语言)和cql(语料库查询语言)。
- foliaeval–评估工具,可以计算所选注释类型的各种评估指标,可以针对 黄金标准参考或作为互注协议的衡量标准。
- folia2txt–将FoLiA XML转换为纯文本(纯文本,不带任何注释)
- folia2annotatedtxt–如上所述,但生成的输出很简单 通过使用特定的分隔符将标记批注直接附加到单词,从而内联标记批注
- folia2columns–此转换工具读取一个FoLiA XML文档 并生成一个简单的列输出格式(包括csv),其中每个标记显示在一行上。注意,只支持简单的标记注释,很多FoLiA数据不能用简单的列格式直观地表示
- folia2html–将folia文档转换为半交互式html文档,对某些令牌注释的支持有限。
- folia2dcoi–将folia xml转换为d-coi xml(仅适用于d-coi支持的注释)
- foliatree–输出FoLiA文档的层次结构
- foliacat–连接多个FoLiA文档
- foliacount–此脚本读取一个FoLiA XML文档并计算某些结构元素
- foliacorrect-一个处理folia中更正的工具,可以自动接受建议或删除所有更正,这样不知道如何处理更正的解析器就可以处理它。
- foliaerase–从folia文档中删除一个或多个指定的注释类型。
- folialangid–在FoLiA文档上进行语言识别,将语言标识符分配给不同的子结构
- foliaid–将id分配给folia文档中的元素
- foliafreqlist–在标记化的folia文档上输出频率列表。
- foliamerge–合并来自两个或多个folia文档的注释。
- foliatextcontent–用于添加或剥离文本冗余的工具,支持添加偏移量信息。
- foliaupgrade–将文档升级到最新的folia版本。
- alpino2folia–将alpino ds xml转换为folia xml
- dcoi2folia–将d-coi xml转换为folia xml
- conllu2folia–将CONLL-U format中的文件转换为folia xml。
- rst2folia–使用docutils将structuredtext(一种轻量级的非侵入性文本标记语言)转换为FoLiA
- tei2folia–将tei的子集转换为folia。
所有这些工具都是用python编写的,因此需要安装python(2.7、3或更高版本)才能运行。随着时间的推移,会添加更多工具
安装
folia工具发布到python包索引,可以使用pip从命令行轻松安装,输入:
$ pip install folia-tools
您可能需要使用pip3来确保您拥有python 3版本。添加sudo将其全局安装到您的系统上,但我们强烈建议 建议您使用virtualenv创建一个自包含的python环境。
FoLiA工具也包含在我们的LaMachine distribution中
安装故障排除
如果pip尚不可用,请按如下方式安装:
在基于debian/ubuntu的系统上:
$ sudo apt-get install python3-pip
在基于RedHat的系统上:
$ yum install python3-pip
在Arch Linux系统上:
$ pacman -Syu python-pip
用法
要获得有关使用任何可用folia工具的帮助,请将命令行上的-h选项传递给要使用的工具。这将提供可用选项的摘要ns和用法示例。大多数工具既可以在单个FoLiA文档上运行,也可以在整个文档目录上运行,还允许递归这些工具通常以一个或多个文件名或目录名作为参数
更多?
有关更多信息,请访问FoLiA网站https://proycon.github.io/folia