将folia和tei文件转换为alpino xml文件

corpus2alpino的Python项目详细描述


Build Status

folia和tei到alpino xml

FoLiATEIxml文件转换为Alpinoxml文件。输入文件中的每个句子都是单独分析的。

用法

命令行

pip install corpus2alpino
corpus2alpino -s localhost:7001 folia.xml -o alpino.xml

或来自项目根目录:

python -m corpus2alpino -s localhost:7001 folia.xml -o alpino.xml

fromcorpus2alpino.converterimportConverterfromcorpus2alpino.annotators.alpinoimportAlpinoAnnotatorfromcorpus2alpino.collectors.filesystemimportFilesystemCollectorfromcorpus2alpino.targets.memoryimportMemoryTargetfromcorpus2alpino.writers.lassyimportLassyWriteralpino=AlpinoAnnotator("localhost",7001)converter=Converter(FilesystemCollector(["folia.xml"]),# Not needed when using the PaQuWriterannotators=[alpino],# This can also be ConsoleTarget, FilesystemTargettarget=MemoryTarget(),# Set to merge treebanks, also possible to use PaQuWriterwriter=LassyWriter(True))# get the Alpino XML output, combined into one treebank XML fileparses=converter.convert()print(''.join(parses))# <treebank><alpino_ds ... /></treebank>

单元测试

python -m unittest

上传到pypi

见:https://packaging.python.org/tutorials/packaging-projects/#generating-distribution-archives

确保安装了setuptoolswheel。然后从virtualenv:

python setup.py sdist bdist_wheel
twine upload dist/*

要求

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java迭代图形框架聚合达到内存限制的消息   反编译和开发人员向Android应用程序提供java安全密钥   活页夹中的java Vaadin上传组件,例如Crud编辑器   java如何定义0090当我有了每个字符   带有AOP的java截取私有注释方法   在Java中暂停并恢复动画(thread.sleep)   java在JavaFX中从不同的控制器向TableView添加行   java如何通过Spring使用脚本初始化inmemory HSQLDB   windows找到了绝对的java。通过编程从java代码获取exe路径   Java同步、信号量和队列的多线程性能   java异步任务回调未调用   java在迷宫中用坐标寻找最短路径   Java:并行处理数组,查找发生异常的位置   java我无法理解我收到的错误   如何调用。bat文件,并使用java中的ProcessBuilder发送字符串   java在mysql数据库中插入日期   将ArrayList的内容显示为格式正确的JSON for Java REST API   java@OneToMany注释SQLSyntaxErrorException:ORA000904无效标识符