我有一个程序,我正在寻找自动化的环境,从一个PDF文件中获取一系列的表。目前,我可以通过在任何查看器(Adobe、Sumatra、okular等)中打开文件,只需按Ctrl+A、Ctrl+C、Ctrl+V将其放入记事本,然后我就可以运行regex并将其复制并粘贴到Excel中,以备以后需要的任何操作。在
在尝试用python实现这一点时,我尝试了各种模块,PDFminer是主要的模块,它可以通过使用this example for instance来工作。但它只返回一列中的数据。其他选项包括getting it as an html table,但在本例中,它添加了额外的拆分中间表,这使得解析更加复杂,甚至偶尔在第一页和第二页之间切换列。在
我已经得到了一个暂时的解决方案,但我担心我会重新设计轮子,因为我可能只是缺少了解析器中的一个核心选项,或者我需要考虑PDF呈现器工作方式的一些基本选项来解决这个问题。在
有什么办法吗?在
发布这篇文章只是为了得到一段代码,可以与py35一起进行csv类解析。分栏是最简单的方法,但对我有效。在
将此answer中的tgray作为起点。在
另外,由于我更喜欢将结果直接放在excel中,所以也将其放在openpyxl中。在
我最终实现了一个基于this one的解决方案,它本身是由tgray修改的代码。到目前为止,在我测试过的所有案例中,它都是一致的,但是我还没有确定如何直接操作pdfminer的参数以获得所需的行为。在
相关问题 更多 >
编程相关推荐