如何从PDF文件（没有标题）中提取文本？ - 问答 - Python中文网

如何从PDF文件（没有标题）中提取文本？

2024-04-20 09:16:42 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我正在尝试使用Python从PDF文件中提取文本，我的主要目标是提取主文件中没有标题的文本

这是示例图像，标题指的是红色矩形： enter image description here

这里是PDF文件链接：https://mega.nz/file/d0YkhB5Y#j7eA0EBxg70Yu36PjGocNjouP_xQFoRRAN7VfyDeClo

当前将PDF文件中的文本提取为字符串的最佳和最简单的方法是什么？我试过使用pdfplumber，但是在阅读了它的用户指南之后，我仍然不知道如何使用它

谢谢你的帮助

Tags：文件 https 图像 image 文本标题示例目标

1条回答

网友

1楼 · 发布于 2024-04-20 09:16:42

PDFPLUBER的回购协议为here。除了表格提取外，它还可以提取文本、字符、矩形和线条。一个简单的例子是：

import pdfplumber

def extract_pdf(pdf_path):
    all_text = ''
    with pdfplumber.open(pdf_path) as pdf:
        for pdf_page in pdf.pages:
            single_page_text = pdf_page.extract_text()
            all_text = all_text + '\n' + single_page_text
    return all_text

pdf_path = 'test.pdf'
text = extract_pdf(pdf_path)
print(text)

相关问题更多 >

编程相关推荐

热门问题

热门文章