使用pdfminer从pdf提取文本时出现多份副本

3 投票
3 回答
10087 浏览
提问于 2025-05-01 17:11

我正在尝试使用PDFMiner从PDF文件中提取文本(代码可以在这个链接找到)。我只改了文件路径,没有动其他的代码。结果让我很惊讶,代码返回了好几份相同的文档。我在其他PDF文件上也得到了同样的结果。我是不是需要传递其他参数,或者我遗漏了什么?非常感谢任何帮助。为了方便,我提供了代码:

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from cStringIO import StringIO

def convert_pdf_to_txt(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
    fp = file(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos=set()
    fstr = ''
    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages,    password=password,caching=caching, check_extractable=True):
        interpreter.process_page(page)

        str = retstr.getvalue()
        fstr += str

    fp.close()
    device.close()
    retstr.close()
    return fstr

print convert_pdf_to_txt("test.pdf")
暂无标签

3 个回答

0

在我看来,如果你想用循环来处理子文档,你需要在每次循环中更新“解释器”、“资源管理器”和“设备”。这里有一个例子: https://stackoverflow.com/a/70355256/8766822

1

对于Python 3,DuckPuncher的代码只需要稍微调整一下:

import io
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage

def convert_pdf_to_txt(path):
    rsrcmgr = PDFResourceManager()
    retstr = io.StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
    fp = open(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos=set()
    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages,password=password,caching=caching, check_extractable=True):
        interpreter.process_page(page)

    text = retstr.getvalue()

    fp.close()
    device.close()
    retstr.close()
    return text
10

我在你提到的那个讨论中的回答有点不准确。我发现了这个错误,但忘了更新我的回答。

因为关于pdfminer的文档信息比较少,所以我没办法完全解释为什么它会这样工作。希望有更了解pdfminer库的人能给我们一些见解。

我只知道你必须在循环外面执行 text = retstr.getvalue()。我只能推测 retstr 就像在循环里面做 final_text += text 一样在不断更新,所以等到所有的操作完成后,我们只需要执行 text = retstr.getvalue() 就能获取所有页面的文本。

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from cStringIO import StringIO

def convert_pdf_to_txt(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
    fp = file(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos=set()
    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages,password=password,caching=caching, check_extractable=True):

        interpreter.process_page(page)

    text = retstr.getvalue()

    fp.close()
    device.close()
    retstr.close()
    return text

print convert_pdf_to_txt("test.pdf")

希望这对你有帮助!

撰写回答