基于图的多级标注语料库处理

discoursegraphs的Python项目详细描述


语篇图表

最新版本bsd license构建状态test coverage代码问题docker构建状态

这个库使你能够处理多层次的语言语料库 注释数量:

  1. 将不同的注释格式转换为单独的图形并
  2. 将这些图合并为一个多有向图(基于 注释层的标记化)
  3. 将(合并的)图形导出为多种输出格式
  4. 直接在 ipython笔记本中可视化语言图形

导入格式

到目前为止,可以导入和合并以下格式:

导出格式

语篇图表可以将图表导出为以下格式/ 对于以下工具:

  • dot格式,由开源图形可视化软件使用
  • geoff格式,由neo4j图形数据库使用
  • gexf graphml 各种工具(如 gephi cytoscape
  • paula xml 1.1 ,一种交换格式 对于语言数据(导出器仍然是错误的)
  • exmaralda ,一个用于注释口语中的跨距的工具 或书面语言
  • conll 2009 (到目前为止,仅导出标记、句子边界和共指)

安装

这应该可以在linux和mac osx上使用python 2.7来实现。 pip或简易安装。

从pypi安装
pip install discoursegraphs # prepend 'sudo' if needed

或者,如果你是老学生:

easy_install discoursegraphs # prepend 'sudo' if needed

从源安装
sudo apt-get install python-dev libxml2-dev libxslt-dev pkg-config graphviz-dev libgraphviz-dev -y
sudo easy_install -U setuptools
git clone https://github.com/arne-cl/discoursegraphs.git
cd discoursegraphs
sudo python setup.py install

用法

语篇图表的命令行界面允许您 合并句法、修辞结构、连接词和咒语 将注释文件存储到一个图形中,并将此图形存储在多个图形中的一个图形中 输出格式(例如,由neo4j图形数据库使用的geoff格式 或Graphviz绘图工具使用的格式。

discoursegraphs -t syntax/maz-13915.xml -r rst/maz-13915.rs3 -c connectors/maz-13915.xml -a anaphora/tosik/das/maz-13915.txt -o dot
dot -Tpdf doc.dot > discoursegraph.pdf # generates a PDF from the dot file

如果你只对其中一层感兴趣,你会 必须直接调用代码:

import discoursegraphs as dg
tiger_docgraph = dg.read_tiger('syntax/doc.xml')
rst_docgraph = dg.read_rs3('rst/doc.rs3')
expletives_docgraph = dg.read_anaphoricity('expletives/doc.txt')

本例中生成的所有文档图都是从 networkx.multidigraph 类,因此您应该能够使用它的所有 方法:

文档

提供源代码文档 此处 ,但您始终可以获得 使用sphinx的最新本地副本

通过在中运行以下命令,可以生成HTML或PDF版本 文档 目录:

make latexpdf
<P>生成pdf( docs/u build/latex/discountersegraphs.pdf )和

make html

生成一组HTML文件( docs/u build/html/index.html )。

要求

如果您想可视化图形,还需要:

许可证和引证

本软件根据3条BSD许可证发布。如果你使用 在您的学术著作中,请引用以下论文:

Neumann,A.2015年。语篇图:一种基于图的合并工具和转换器 用于多层标注语料库。第20届北欧会议记录 计算语言学(Nodalida 2015),第309-312页。

@inproceedings{neumann2015discoursegraphs,
  title={discoursegraphs: A graph-based merging tool and converter for multilayer annotated corpora},
  author={Neumann, Arne},
  booktitle={Proceedings of the 20th Nordic Conference of Computational Linguistics (NODALIDA 2015)},
  pages={309-312},
  year={2015}
}

作者

阿恩·诺依曼

下载这个的人也喜欢

  • saltnpepper :一个用于各种语言数据格式的转换框架
  • 导出 :处理话语注释语料库(sdrt、rst和pdtb)
  • 树形工具 :用于转换树形链接和语法提取的库(支持 i.a.tigerxml和negra/tüba导出格式)
  • tcfnetworks :用于从带注释的文本语料库(基于tcf)创建图形的库。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java ActiveMQ 5.9.0、Glassfish 3.1.2和MDB用于长时间的消息处理   从main调用的对象数组的Java字符串表示形式   java如何在iText 7中为泰国字母上方的双标记设置GPO   编译如果Java6工件是用Java6、7或8编译的,这有关系吗?   image Java KeyListener未检测到键盘输入   java找不到符号(构造函数)   java如何使Kafka使用者从特定主题分区读取Spring Boot   Java readLine()返回null   从CSV文件计算值时出现java系统错误   java如何避免处理程序。被调用后延迟(可运行运行)?   Java Do和While验证   java如何访问父类型的ArrayList中的子方法?   java如何使用Deepfirstsearch算法获得最高级别的搜索   xml使用SAX解析器Java正确构建字符串   Android片段中的java Toast显示空指针expn   如何在java中将多个文件合并到另一个新文件中?   java在运行时在JVisualVM中更改应用程序的标题   javajavax。命名。NoInitialContextException:需要在环境或sys中指定类名