python 将pdf转换为文本

1 投票

1 回答

6961 浏览

提问于 2025-04-16 18:13

我想把PDF文件转换成文本。我在Python命令提示符下试了这个代码，但没有任何输出。可能是我哪里做错了。你能告诉我我错在哪里吗？提前谢谢你。

import pyPdf

def getPDFContent(path):
    content = ""
    # Load PDF into pyPDF
    pdf = pyPdf.PdfFileReader(file(path, "rb"))
    # Iterate pages
    for i in range(0, pdf.getNumPages()):
        # Extract text from page and add to content
        content += pdf.getPage(i).extractText() + "\n"
    # Collapse whitespace
    content = " ".join(content.replace(u"\xa0", " ").strip().split())
    return content

print getPDFContent("test.pdf").encode("ascii", "ignore")

文件处理 pdf转换文本提取

1 个回答

如果你的PDF文件里面只有图片（比如扫描的页面），那么你就无法提取任何文字了。

回答于 2025-04-16 由 Python大师

分享举报

python 将pdf转换为文本

1 个回答

撰写回答