读取.xml文件并使用treetagger解析这些文件

treetagger-xml的Python项目详细描述


treetagger xml

这是一个简单的脚本(process.py),它读取一个.xml文件,使用treetagger对每个句子进行解析/元素化,然后输出带有附加到word元素的标记和元素的输入文件。

要求

特瑞塔格

有关安装说明,请参见the TreeTagger website。注意,您必须为要标记/引理的每种语言下载一个paramater文件。这个脚本已经在treetagger的3.2.1版本上测试过了。

Python

此脚本在Python2.7中运行,需要两个外部包才能运行:lxmltreetaggerwrapper。后者还需要安装six。您可以在本地(在virtualenv中)或通过运行以下命令全局安装这些软件包:

pip install -r requirements.txt

运行脚本

在运行脚本之前,最好使用treetagger的位置设置环境变量。treetaggerwrapper尝试自动检测安装,但这并非万无一失。您可以使用以下命令设置环境变量(在Linux下):

export TAGDIR=/opt/treetagger/

或者,可以修改process.py,并在treetagger实例中硬编码安装路径。

然后,可以运行process.py脚本。它需要两个参数:用于解析和引理的所选语言,以及输入文件。在examples/目录中可以找到一些example.xml文件。运行

python process.py en examples/en.xml

处理英语例句。生成的文件将命名为examples/en-out.xml

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java如何使用Spring和JSF向客户端授予临时权限   java除了Array/ArrayList之外,还有其他保存矩阵元素的方法吗   java BeanValidation不适用于单选按钮   通过java程序连接到配置单元数据库时出错   java如何使用maven解决二级依赖关系   JfreeChart/Java中带有图例的数据表   合并数组时发生java运行时错误   安全性如何在JavaEE中保护WebSocket端点?   java有没有一种方法可以使用insert方法为树插入值   java编程“静态”的另一种方式:代码可以吗?   java阅读文本文件时如何跳过3行   %04X在C中的含义以及如何在java中编写   java我如何验证一个方法不是仅在一个测试范围内对模拟调用的?   java如何在mac中使用启动appium desktop 1.6.1。球棒   仅匹配最多10位小数的java正则表达式