使用python-docx从docx文件中读取核心属性关键词
在这个脚本 里,我看到了如何使用python-docx的coreproperties函数来设置文档的关键词。我想查看一下别人写的文档中已经存在的关键词。有没有类似于getcoreproperties函数或者keywords属性的东西呢?
我在文件夹C:\Python27\Lib\site-packages\python_docx-0.5.0-py2.7.egg\docx里搜索过,发现那里的.py文件里没有包含“core”这个词。我也试着在一些东西上调用doc(),但没有找到什么有用的线索。我应该在哪里或者如何寻找这方面的线索呢?
1 个回答
0
从版本0.5.0开始,python-docx
这个库不支持核心属性。不过,解决这个问题其实相对简单。
它的姐妹项目python-pptx
支持核心属性,具体可以在这里查看:
http://python-pptx.readthedocs.org/en/latest/api/presentation.html#coreproperties-objects
因为这两个项目是基于相同的架构,所以那段代码基本上可以直接复用。实际上,核心属性的部分是符合开放打包规范的,这个规范在所有三种MS Office的XML文件格式中都是一样的。
如果你在GitHub的问题追踪器上提交一个问题,我会看看我们能多快解决它。 https://github.com/python-openxml/python-docx/issues