使用Python从Word文档中提取图片和文本
我想在一个装满Word文档的文件夹里运行一个脚本,这个脚本可以读取这些文档,并提取出里面的图片和它们的说明文字(就是图片下面的文字)。根据我做的研究,我觉得pywin32可能是个不错的解决方案。我知道怎么用pywin32找到字符串并提取出来,但我需要帮助的是关于图片的部分。我该如何读取一个docx文件,并在找到图片时触发一个事件呢?谢谢大家的帮助!我现在使用的是Python 2.7。
4 个回答
2
你可以使用一个叫做 docx2txt 的Python模块来从docx文件中提取文本和图片。
3
在这篇文章中,你可以找到一些灵感,内容是关于如何在Word 2007的.docx文件中搜索一个词?
4
Docx 文件可以像压缩包一样解压,这样就能提取里面的图片。