2024-04-19 13:10:42 发布
网友
我试图用Python编写一个从PDF中提取数据的程序(Excel宏可能是一个选项)。 首先,想在pdf文件中选择一个文本或一个位置,并在该位置生成指向该文件的本地路径/链接。此链接将被复制到excel单元格。当我点击链接时,PDF文档应该在先前选定文本的指定坐标上打开。在
我知道这个问题很宽泛。我是一个狂热的初学者,需要一个正确的方向,并知道它是否可能。在
如何在桌面上获取活动pdf文件的路径?以及所选文本的坐标?我可以把这些作为参数自动给我的程序。在
谢谢你!在
有很多方法可以做到这一点,我会说,看看石板,https://pypi.python.org/pypi/slate,或{a2}
是的,这很简单,也可以看看pyPdf
pyPdf
import pyPdf def getPDFContent(path): content = "" # Load PDF into pyPDF pdf = pyPdf.PdfFileReader(file(path, "rb")) # Iterate pages for i in range(0, pdf.getNumPages()): # Extract text from page and add to content content += pdf.getPage(i).extractText() + "\n" # Collapse whitespace content = " ".join(content.replace("\xa0", " ").strip().split()) return content print getPDFContent("test.pdf")
有很多方法可以做到这一点,我会说,看看石板,https://pypi.python.org/pypi/slate,或{a2}
是的,这很简单,也可以看看
pyPdf
相关问题 更多 >
编程相关推荐