将folia和tei文件转换为alpino xml文件

corpus2alpino的Python项目详细描述


Build Status

folia和tei到alpino xml

FoLiATEIxml文件转换为Alpinoxml文件。输入文件中的每个句子都是单独分析的。

用法

命令行

pip install corpus2alpino
corpus2alpino -s localhost:7001 folia.xml -o alpino.xml

或来自项目根目录:

python -m corpus2alpino -s localhost:7001 folia.xml -o alpino.xml

fromcorpus2alpino.converterimportConverterfromcorpus2alpino.annotators.alpinoimportAlpinoAnnotatorfromcorpus2alpino.collectors.filesystemimportFilesystemCollectorfromcorpus2alpino.targets.memoryimportMemoryTargetfromcorpus2alpino.writers.lassyimportLassyWriteralpino=AlpinoAnnotator("localhost",7001)converter=Converter(FilesystemCollector(["folia.xml"]),# Not needed when using the PaQuWriterannotators=[alpino],# This can also be ConsoleTarget, FilesystemTargettarget=MemoryTarget(),# Set to merge treebanks, also possible to use PaQuWriterwriter=LassyWriter(True))# get the Alpino XML output, combined into one treebank XML fileparses=converter.convert()print(''.join(parses))# <treebank><alpino_ds ... /></treebank>

单元测试

python -m unittest

上传到pypi

见:https://packaging.python.org/tutorials/packaging-projects/#generating-distribution-archives

确保安装了setuptoolswheel。然后从virtualenv:

python setup.py sdist bdist_wheel
twine upload dist/*

要求

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
Java泛型和基类   ProcessBuilder或DefaultExecutor启动的“RunAs”子进程的java读取标准输出   java应用程序在尝试登录时突然停止   Java:神秘的Java未捕获异常处理程序[带代码]   java JavaFX NumberAxis自动范围无限循环   最新版本和旧版本冲突的java双Maven依赖关系   java如何导入带有部署变量类名的静态函数?   编译器构造不同的JDK更新会产生不同的Java字节码吗?   java无法在struts 1.1中上载任何超过250 MB大小的文件   java调整jcombobox下拉菜单的宽度   java如何在某些情况下忽略@SQLDelete注释   在Eclipse for Java EE developers edition中禁用HTML警告   java HttpUrlConnection重置请求属性   java@Provider资源未在rest应用程序中注册   java TOP N使用JPA连接   java在使用反射调用方法时区分int和Integer参数