读取.xml文件并使用treetagger解析这些文件
treetagger-xml的Python项目详细描述
treetagger xml
这是一个简单的脚本(process.py
),它读取一个.xml文件,使用treetagger对每个句子进行解析/元素化,然后输出带有附加到word元素的标记和元素的输入文件。
要求
特瑞塔格
有关安装说明,请参见the TreeTagger website。注意,您必须为要标记/引理的每种语言下载一个paramater文件。这个脚本已经在treetagger的3.2.1版本上测试过了。
Python
此脚本在Python2.7中运行,需要两个外部包才能运行:lxml和treetaggerwrapper。后者还需要安装six。您可以在本地(在virtualenv中)或通过运行以下命令全局安装这些软件包:
pip install -r requirements.txt
运行脚本
在运行脚本之前,最好使用treetagger的位置设置环境变量。treetaggerwrapper尝试自动检测安装,但这并非万无一失。您可以使用以下命令设置环境变量(在Linux下):
export TAGDIR=/opt/treetagger/
或者,可以修改process.py
,并在treetagger实例中硬编码安装路径。
然后,可以运行process.py
脚本。它需要两个参数:用于解析和引理的所选语言,以及输入文件。在examples/
目录中可以找到一些example.xml文件。运行
python process.py en examples/en.xml
处理英语例句。生成的文件将命名为examples/en-out.xml
。