基于Python的文档元数据解析器?

3 投票
4 回答
2860 浏览
提问于 2025-04-15 19:07

有没有人知道在类似Unix的系统中,用Python处理文档元数据的好工具?在Java中,apache tika 非常不错。

请不要推荐商业软件,谢谢 :)

谢谢大家!

4 个回答

1

如果你喜欢tika,你可以使用Jython,这样你就可以直接使用tika了。

3

你不一定要用Jython来使用Tika。你可以通过一个叫做JCC的工具,从Python中调用Java。你可以在这里找到一些不错的使用说明。

在安装JCC的时候,你需要使用提供的两个补丁中的一个,来让setuptools能够构建共享对象。我在Ubuntu 10.04上使用的是c7版本,效果不错。

另外一个选择是使用Python的subprocess模块,这样可以调用Tika并捕获它的输出。

0

hachoir_metadata 在处理 Excel 文档时表现得非常好。你可以在这里找到更多信息:http://bitbucket.org/haypo/hachoir/wiki/Home

撰写回答