使用pdfminer从pdf提取文本时出现多份副本

3 投票

3 回答

10087 浏览

提问于 2025-05-01 17:11

我正在尝试使用PDFMiner从PDF文件中提取文本（代码可以在这个链接找到）。我只改了文件路径，没有动其他的代码。结果让我很惊讶，代码返回了好几份相同的文档。我在其他PDF文件上也得到了同样的结果。我是不是需要传递其他参数，或者我遗漏了什么？非常感谢任何帮助。为了方便，我提供了代码：

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from cStringIO import StringIO

def convert_pdf_to_txt(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
    fp = file(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos=set()
    fstr = ''
    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages,    password=password,caching=caching, check_extractable=True):
        interpreter.process_page(page)

        str = retstr.getvalue()
        fstr += str

    fp.close()
    device.close()
    retstr.close()
    return fstr

print convert_pdf_to_txt("test.pdf")

暂无标签

3 个回答

在我看来，如果你想用循环来处理子文档，你需要在每次循环中更新“解释器”、“资源管理器”和“设备”。这里有一个例子： https://stackoverflow.com/a/70355256/8766822

回答于 2025-05-01 由 Python大师

分享举报

对于Python 3，DuckPuncher的代码只需要稍微调整一下：

import io
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage

def convert_pdf_to_txt(path):
    rsrcmgr = PDFResourceManager()
    retstr = io.StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
    fp = open(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos=set()
    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages,password=password,caching=caching, check_extractable=True):
        interpreter.process_page(page)

    text = retstr.getvalue()

    fp.close()
    device.close()
    retstr.close()
    return text

回答于 2025-05-01 由 Python大师

分享举报

我在你提到的那个讨论中的回答有点不准确。我发现了这个错误，但忘了更新我的回答。

因为关于pdfminer的文档信息比较少，所以我没办法完全解释为什么它会这样工作。希望有更了解pdfminer库的人能给我们一些见解。

我只知道你必须在循环外面执行 text = retstr.getvalue()。我只能推测 retstr 就像在循环里面做 final_text += text 一样在不断更新，所以等到所有的操作完成后，我们只需要执行 text = retstr.getvalue() 就能获取所有页面的文本。

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from cStringIO import StringIO

def convert_pdf_to_txt(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
    fp = file(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos=set()
    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages,password=password,caching=caching, check_extractable=True):

        interpreter.process_page(page)

    text = retstr.getvalue()

    fp.close()
    device.close()
    retstr.close()
    return text

print convert_pdf_to_txt("test.pdf")

希望这对你有帮助！

回答于 2025-05-01 由 Python大师

分享举报

使用pdfminer从pdf提取文本时出现多份副本

3 个回答

撰写回答