有没有一种程序化的方法来确定PDF的文本是否可以使用Python提取?

2024-04-19 09:32:37 发布

您现在位置:Python中文网/ 问答频道 /正文

我花了45分钟想弄清楚为什么pyPdf

PageObject.getPage(x).extractText())

什么都没有提取。最后,我给了它一个不同的PDF文件,它工作得很好,这导致我得出结论,原来的PDF文件有某种(非密码)的保护。在Adobe Reader中确认“页面提取:不允许。”

如果可以的话,我如何通过编程来确定是否存在这种保护?在


Tags: 文件密码pdf编程页面readeradobepypdf
1条回答
网友
1楼 · 发布于 2024-04-19 09:32:37

这可能符合您的要求。在

x = PageObject.getPage(x).extractText())
if (x == ""): #Or whatever exactly you get when it fails.
   raise ValueError("The PDF file can not be imported")

相关问题 更多 >