我试图从一个安全的pdf文件的第一页提取文本。我没有密码,但是PyPDF2中的解密功能似乎可以正常工作。但是PyPDF2在提取时遗漏了一些文本(使用extractText()函数)。所以我想改用pdfminer(无法在windows计算机上安装pdftotext,所以不得不使用pdfminer)。以下是当前代码:
pdfFileObj = open(fileName, 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
if pdfReader.isEncrypted:
pdfReader.decrypt('')
pageObject = pdfReader.getPage(0)
然后我想用pdfminer来读取pageObject中的文本,但无法理解如何读取。有人能帮忙吗?在
谢谢!在
目前没有回答
相关问题 更多 >
编程相关推荐