使用pdfminer从pdf提取文本时出现多份副本
我正在尝试使用PDFMiner从PDF文件中提取文本(代码可以在这个链接找到)。我只改了文件路径,没有动其他的代码。结果让我很惊讶,代码返回了好几份相同的文档。我在其他PDF文件上也得到了同样的结果。我是不是需要传递其他参数,或者我遗漏了什么?非常感谢任何帮助。为了方便,我提供了代码:
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from cStringIO import StringIO
def convert_pdf_to_txt(path):
rsrcmgr = PDFResourceManager()
retstr = StringIO()
codec = 'utf-8'
laparams = LAParams()
device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
fp = file(path, 'rb')
interpreter = PDFPageInterpreter(rsrcmgr, device)
password = ""
maxpages = 0
caching = True
pagenos=set()
fstr = ''
for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
interpreter.process_page(page)
str = retstr.getvalue()
fstr += str
fp.close()
device.close()
retstr.close()
return fstr
print convert_pdf_to_txt("test.pdf")
3 个回答
0
在我看来,如果你想用循环来处理子文档,你需要在每次循环中更新“解释器”、“资源管理器”和“设备”。这里有一个例子: https://stackoverflow.com/a/70355256/8766822
1
对于Python 3,DuckPuncher的代码只需要稍微调整一下:
import io
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
def convert_pdf_to_txt(path):
rsrcmgr = PDFResourceManager()
retstr = io.StringIO()
codec = 'utf-8'
laparams = LAParams()
device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
fp = open(path, 'rb')
interpreter = PDFPageInterpreter(rsrcmgr, device)
password = ""
maxpages = 0
caching = True
pagenos=set()
for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages,password=password,caching=caching, check_extractable=True):
interpreter.process_page(page)
text = retstr.getvalue()
fp.close()
device.close()
retstr.close()
return text
10
我在你提到的那个讨论中的回答有点不准确。我发现了这个错误,但忘了更新我的回答。
因为关于pdfminer的文档信息比较少,所以我没办法完全解释为什么它会这样工作。希望有更了解pdfminer库的人能给我们一些见解。
我只知道你必须在循环外面执行 text = retstr.getvalue()
。我只能推测 retstr
就像在循环里面做 final_text += text
一样在不断更新,所以等到所有的操作完成后,我们只需要执行 text = retstr.getvalue()
就能获取所有页面的文本。
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from cStringIO import StringIO
def convert_pdf_to_txt(path):
rsrcmgr = PDFResourceManager()
retstr = StringIO()
codec = 'utf-8'
laparams = LAParams()
device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
fp = file(path, 'rb')
interpreter = PDFPageInterpreter(rsrcmgr, device)
password = ""
maxpages = 0
caching = True
pagenos=set()
for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages,password=password,caching=caching, check_extractable=True):
interpreter.process_page(page)
text = retstr.getvalue()
fp.close()
device.close()
retstr.close()
return text
print convert_pdf_to_txt("test.pdf")
希望这对你有帮助!