folia工具包含各种基于python的命令行工具,用于处理folia xml(语言注释格式)

FoLiA-tools的Python项目详细描述


有许多命令行工具可随时用于处理folia的各个方面。目前提供以下工具:

  • foliavalidator–测试文档是否是有效的folia xml。如果生成自己的folia文档,请始终使用此项测试文档!
  • foliaquery–高级查询工具,用于在folia文档中搜索指定的模式,或根据查询修改文档。支持fql(folia查询语言)和cql(语料库查询语言)。
  • foliaeval–评估工具,可以计算所选注释类型的各种评估指标,可以针对 黄金标准参考或作为互注协议的衡量标准。
  • folia2txt–将FoLiA XML转换为纯文本(纯文本,不带任何注释)
  • folia2annotatedtxt–如上所述,但生成的输出很简单 通过使用特定的分隔符将标记批注直接附加到单词,从而内联标记批注
  • folia2columns–此转换工具读取一个FoLiA XML文档 并生成一个简单的列输出格式(包括csv),其中每个标记显示在一行上。注意,只支持简单的标记注释,很多FoLiA数据不能用简单的列格式直观地表示
  • folia2html–将folia文档转换为半交互式html文档,对某些令牌注释的支持有限。
  • folia2dcoi–将folia xml转换为d-coi xml(仅适用于d-coi支持的注释)
  • foliatree–输出FoLiA文档的层次结构
  • foliacat–连接多个FoLiA文档
  • foliacount–此脚本读取一个FoLiA XML文档并计算某些结构元素
  • foliacorrect-一个处理folia中更正的工具,可以自动接受建议或删除所有更正,这样不知道如何处理更正的解析器就可以处理它。
  • foliaerase–从folia文档中删除一个或多个指定的注释类型。
  • folialangid–在FoLiA文档上进行语言识别,将语言标识符分配给不同的子结构
  • foliaid–将id分配给folia文档中的元素
  • foliafreqlist–在标记化的folia文档上输出频率列表。
  • foliamerge–合并来自两个或多个folia文档的注释。
  • foliatextcontent–用于添加或剥离文本冗余的工具,支持添加偏移量信息。
  • foliaupgrade–将文档升级到最新的folia版本。
  • alpino2folia–将alpino ds xml转换为folia xml
  • dcoi2folia–将d-coi xml转换为folia xml
  • conllu2folia–将CONLL-U format中的文件转换为folia xml。
  • rst2folia–使用docutils将structuredtext(一种轻量级的非侵入性文本标记语言)转换为FoLiA
  • tei2folia–将tei的子集转换为folia。

所有这些工具都是用python编写的,因此需要安装python(2.7、3或更高版本)才能运行。随着时间的推移,会添加更多工具

安装

folia工具发布到python包索引,可以使用pip从命令行轻松安装,输入:

$ pip install folia-tools

您可能需要使用pip3来确保您拥有python 3版本。添加sudo将其全局安装到您的系统上,但我们强烈建议 建议您使用virtualenv创建一个自包含的python环境。

FoLiA工具也包含在我们的LaMachine distribution

安装故障排除

如果pip尚不可用,请按如下方式安装:

在基于debian/ubuntu的系统上:

$ sudo apt-get install python3-pip

在基于RedHat的系统上:

$ yum install python3-pip

在Arch Linux系统上:

$ pacman -Syu python-pip

用法

要获得有关使用任何可用folia工具的帮助,请将命令行上的-h选项传递给要使用的工具。这将提供可用选项的摘要ns和用法示例。大多数工具既可以在单个FoLiA文档上运行,也可以在整个文档目录上运行,还允许递归这些工具通常以一个或多个文件名或目录名作为参数

更多?

有关更多信息,请访问FoLiA网站https://proycon.github.io/folia

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java使Eclipse在其控制台中显示最顶层的异常,而不是完整的堆栈跟踪   java如何为一个组件提供多个DropTargetListener?   在Eclipse包资源管理器中,有些文件不可见?   java在Spring Boot中使用@Bean配置设置类属性的默认值   在JTextPane中使用#链接的Java HTML?   java当应用程序打开时,如何将通知内容发送给活动?   java Android ROOM如何编写包含多个实体的查询,这是在哪里完成的?   Play Framework的java登录/注销问题?   java如何从安卓 Cordova/Phonegap调用javascript函数   JavaFX8如何在Java8中显示上次修改的LocalDateTime?   javabean验证中的多个约束注释   java使用JSTL设置请求属性   java在Android启动的服务中调用函数   用于检查xml是否包含键和值的java XPath表达式   在java游戏中使用斜坡因子挥杆   Java文件:尝试使用FileWriter将结果附加到已经存在的文件中   bootclasspath Java Xbootclasspath,相对路径   java我如何让这个“怪物战斗模拟器”工作?   swing使用动作侦听器隐藏和显示java桌面应用程序