基于图的多级标注语料库处理
discoursegraphs的Python项目详细描述
语篇图表
这个库使你能够处理多层次的语言语料库 注释数量:
- 将不同的注释格式转换为单独的图形并
- 将这些图合并为一个多有向图(基于 注释层的标记化)
- 将(合并的)图形导出为多种输出格式
- 直接在 ipython笔记本中可视化语言图形
导入格式
到目前为止,可以导入和合并以下格式:
- tigerxml (表示树状语法图的格式 次边)
- NEGRA导出格式 (用于Tüba-d/z树库的I.A.格式)
- penn treebank 格式(表示语法树的s-expressions/lisp/brackets格式)
-
修辞结构理论的几种形式:
- rs3(rsttool用修辞结构理论注释文档的格式)
- rst-dt语料库使用的.dis"lisp"格式
- urml (未指定修辞结构树的格式)
- mmax2 (用于注释的格式/gui工具NG跨度和连接 它们(例如,共指)
- conll 2009 和 conll 2010格式(用于注释i.a.依赖解析 和参考链接)
- conanoXML(用于注释连接的格式,由conano使用
- decour(由 意大利法庭上的欺骗性陈述 )
- exmaralda ,一种用于在口语中注释跨距的格式 或书面语言
- 一种特殊的纯文本格式,用于注释咒语(您可能没有 感兴趣)
导出格式
语篇图表可以将图表导出为以下格式/ 对于以下工具:
- dot格式,由开源图形可视化软件使用
- geoff格式,由neo4j图形数据库使用
- gexf 和 graphml 各种工具(如 gephi 和 cytoscape )
- paula xml 1.1 ,一种交换格式 对于语言数据(导出器仍然是错误的)
- exmaralda ,一个用于注释口语中的跨距的工具 或书面语言
- conll 2009 (到目前为止,仅导出标记、句子边界和共指)
安装
这应该可以在linux和mac osx上使用python 2.7来实现。 pip或简易安装。
从pypi安装
pip install discoursegraphs # prepend 'sudo' if needed
或者,如果你是老学生:
easy_install discoursegraphs # prepend 'sudo' if needed
从源安装
sudo apt-get install python-dev libxml2-dev libxslt-dev pkg-config graphviz-dev libgraphviz-dev -y
sudo easy_install -U setuptools
git clone https://github.com/arne-cl/discoursegraphs.git
cd discoursegraphs
sudo python setup.py install
用法
语篇图表的命令行界面允许您 合并句法、修辞结构、连接词和咒语 将注释文件存储到一个图形中,并将此图形存储在多个图形中的一个图形中 输出格式(例如,由neo4j图形数据库使用的geoff格式 或Graphviz绘图工具使用的格式。
discoursegraphs -t syntax/maz-13915.xml -r rst/maz-13915.rs3 -c connectors/maz-13915.xml -a anaphora/tosik/das/maz-13915.txt -o dot dot -Tpdf doc.dot > discoursegraph.pdf # generates a PDF from the dot file
如果你只对其中一层感兴趣,你会 必须直接调用代码:
import discoursegraphs as dg tiger_docgraph = dg.read_tiger('syntax/doc.xml') rst_docgraph = dg.read_rs3('rst/doc.rs3') expletives_docgraph = dg.read_anaphoricity('expletives/doc.txt')
本例中生成的所有文档图都是从 networkx.multidigraph 类,因此您应该能够使用它的所有 方法:
文档
提供源代码文档 此处 ,但您始终可以获得 使用sphinx的最新本地副本
通过在中运行以下命令,可以生成HTML或PDF版本 文档 目录:
make latexpdf<P>生成pdf( docs/u build/latex/discountersegraphs.pdf )和
make html
生成一组HTML文件( docs/u build/html/index.html )。
许可证和引证
本软件根据3条BSD许可证发布。如果你使用 在您的学术著作中,请引用以下论文:
Neumann,A.2015年。语篇图:一种基于图的合并工具和转换器 用于多层标注语料库。第20届北欧会议记录 计算语言学(Nodalida 2015),第309-312页。
@inproceedings{neumann2015discoursegraphs, title={discoursegraphs: A graph-based merging tool and converter for multilayer annotated corpora}, author={Neumann, Arne}, booktitle={Proceedings of the 20th Nordic Conference of Computational Linguistics (NODALIDA 2015)}, pages={309-312}, year={2015} }
作者
阿恩·诺依曼
下载这个的人也喜欢
- saltnpepper :一个用于各种语言数据格式的转换框架
- 导出 :处理话语注释语料库(sdrt、rst和pdtb)
- 树形工具 :用于转换树形链接和语法提取的库(支持 i.a.tigerxml和negra/tüba导出格式)
- tcfnetworks :用于从带注释的文本语料库(基于tcf)创建图形的库。