从PDF中提取文本
我有很多PDF文件需要转换成TXT格式。可惜的是,当我使用一些可用的工具来做这个时,所有的格式都丢失了,PDF里的表格数据也变得乱七八糟。请问有没有办法用Python来提取PDF中的文本,并且可以指定位置等等?
谢谢。
4 个回答
1
我之前也遇到过类似的问题,最后我用了XPDF这个工具,网址是 http://www.foolabs.com/xpdf/。它里面有一个工具叫PDFtoText,不过我想这主要还是看PDF是怎么生成的。
2
$ pdftotext -layout thingwithtablesinit.pdf
这段代码会生成一个名为thingwithtablesinit.txt的文本文件,里面会正确地包含表格。
3
PDF文件里通常不包含表格数据,除非里面有结构化的内容。有些工具会使用一些方法来猜测数据的结构,并试图把它恢复过来。我写了一篇博客文章,讲解了从PDF中提取文本时遇到的问题,地址是 http://www.jpedal.org/PDFblog/2009/04/pdf-text/