<p>我试图阅读一个pdf文件,其中每一页被分成3x3块的信息</p>
<pre><code>A | B | C
D | E | F
G | H | I
</code></pre>
<p>每个条目被分成多行。一个条目的简化示例是<a href="http://spookyshobbyshop.com/TEMPLATE%20si%20sp%20baseball%20card%201979%20EX.JPG" rel="nofollow noreferrer">this card</a>。但在其他8个插槽中也会有类似的卡。
我想先读A,然后读B,然后读C…;但是,如果我读A,B,C的第一行,然后读A,B,C的第二行,等等,我可以活下来。我看过pdfminer和pypdf,但我没有看到任何符合我要找的东西。答案<a href="https://stackoverflow.com/questions/15737806/extract-text-using-pdfminer-and-pypdf2-merges-columns">here</a>相当好,但顺序是<br/>
专栏经常被扭曲。在</p>