从PDF中提取文本

7 投票

4 回答

3512 浏览

提问于 2025-04-16 00:37

我有很多PDF文件需要转换成TXT格式。可惜的是，当我使用一些可用的工具来做这个时，所有的格式都丢失了，PDF里的表格数据也变得乱七八糟。请问有没有办法用Python来提取PDF中的文本，并且可以指定位置等等？

谢谢。

文本转换数据格式化 pdf文本提取表格数据处理

4 个回答

我之前也遇到过类似的问题，最后我用了XPDF这个工具，网址是 http://www.foolabs.com/xpdf/。它里面有一个工具叫PDFtoText，不过我想这主要还是看PDF是怎么生成的。

回答于 2025-04-16 由 Python大师

分享举报

$ pdftotext -layout thingwithtablesinit.pdf

这段代码会生成一个名为thingwithtablesinit.txt的文本文件，里面会正确地包含表格。

回答于 2025-04-16 由 Python大师

分享举报

PDF文件里通常不包含表格数据，除非里面有结构化的内容。有些工具会使用一些方法来猜测数据的结构，并试图把它恢复过来。我写了一篇博客文章，讲解了从PDF中提取文本时遇到的问题，地址是 http://www.jpedal.org/PDFblog/2009/04/pdf-text/

回答于 2025-04-16 由 Python大师

分享举报