Python olefile从PPT文件读取文本

2024-05-16 20:00:00 发布

您现在位置:Python中文网/ 问答频道 /正文

我只是用当前代码得到一些二进制数据,它使用olefile从ppt文件中提取文本

import olefile

ole = olefile.OleFileIO(r'C:\sampleppt.ppt')

print(ole.listdir())
data = ole.openstream('PowerPoint Document').read()
print(data)
ole.close()

如何正确使用olefile从ppt文件中提取文本?在


Tags: 文件数据代码文本importdata二进制listdir
1条回答
网友
1楼 · 发布于 2024-05-16 20:00:00

对于MacOS自制程序用户:安装Apache Tika(brew install tika) 我觉得它也支持其他操作系统。在

命令行界面的工作方式如下:

tika  text something.ppt > something.txt

要在python脚本中使用它:

^{pr2}$

你会做到的,这是我目前唯一的解决办法。在

相关问题 更多 >