将naf格式的文件转换为conll格式的脚本

naf2conll的Python项目详细描述


氟化钠

用于将naf格式的coreference数据转换为CoNLL format的脚本。

啊!!注意!!目前,此脚本仅支持以下列:

  • 1:文档ID
  • 3:字数
  • 4:单词本身
  • 12:共指

naf支持以下conll列,但此脚本尚未(正确)处理这些列:

  • 5:POS标签
  • 6:选区树
  • …?
  • 11:命名实体

有关conll格式的详细说明,请参见CoNLL-specification.md

用法

naf2conll.py

要自动查找包含NAF文件的所有(子)文件夹并转换这些文件夹中的所有数据,请运行:

naf2conll.py path/to/output_dir -d path/to/some/folder [-d path/to/another/folder ...]

要只转换一个文件,请运行:

naf2conll.py path/to/output.conll path/to/input.naf

conll输出列

默认情况下,仅输出列1、3、4和12。

如果选择输出更多列,则使用以下值和占位符。

ColumnDescriptionValueConform CoNLL specification?
1Document IDfile path without extensionYes
2Part number^{}Yes
3Word numbergeneratedYes
4Word itselfextracted from text layer of NAFYes
5POS^{}No
6Parse bit^{}No
7Predicate lemma^{}Yes
8Predicate Frameset ID^{}Yes
9Word sense^{}Yes
10Speaker/Author^{}???
11Named Entities^{}Yes
-Predicate ArgumentsNone: column(s) left out entirelyYes, conform example in CoNLL 2012
12Coreferenceextracted from coreference layer of NAF (ISSUE! [1])Yes

[1]: 如果引用跨距以同一个单词结尾,则它们不会以正确的顺序闭合。以下是naf2conll.py的输出示例:

          (10
            -
      (52|(55
          52)
            -
10)|55)|(133)

学究式的正确答案是:

          (10
            -
      (55|(52
          52)
            -
(133)|55)|10)

问题

  • []“on_missing”配置键在使用前未验证
  • []当extract_coref_sets中没有coref层时引发错误

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
Selenium中弹出的java句柄窗口   java将格式化消息从任何片段传递到活动   java如何从int类型的方法返回多个整数   servlets数据不会使用java类和bean插入数据库   java如何修改Solr给出的搜索结果页面?   java如何在wildfly中重定向应用程序路径?   java使用Apache异步HTTP客户端从InputStream构造多部分请求   java解析来自REST的压缩输入流   java上载文件失败,原因是Vaadin Spring PlupLocaddon   使用需要CSRF令牌的旧端点的javascript   java如何在viewpager应用程序中将图像设置为墙纸?   java Axis2与SharePoint 2013(ADFS/FedAuth cookie)   java H2选择:意外的类型39映射   Docker Composition中拒绝java Spring应用程序连接   使用Java的ibm mq ibm mq获取LGETTIME   java循环逻辑中的漏洞   javaspringcom。mongodb。util。JSONParseException   方法调用“振动”可能会产生java。更新到Android Studio 3后出现lang.NullPointerException警告   datetime如何将日历的时间与java进行比较。sql。时间物体?