用Python从PDF文件中提取文本并保留原始布局

2024-05-14 17:58:57 发布

您现在位置:Python中文网/ 问答频道 /正文

我想从PDF文件中提取文本,但PDF中的文本布局应该保持不变,如下图所示。图像显示来自 [github.com/JonathanLink/PDFLayoutTextStripper]的结果。 results from PDFLayoutTextStripper 我尝试了下面的代码,但它不能保持布局。我希望通过使用PyPDF2、PDFPlumber、PDFminer等任何Python库获得与图中所示完全相同的结果。我尝试了所有这些库,但没有得到预期的结果。我需要帮助从PDF文件中提取文本,完全如图所示

from pdfminer.high_level import extract_text`
text = extract_text('test.pdf')
print(text)

Tags: 文件代码text图像文本githubcompdf
1条回答
网友
1楼 · 发布于 2024-05-14 17:58:57

您可以使用PDFtotext包保留布局/缩进

import pdftotext

with open("target_file.pdf", "rb") as f:
    pdf = pdftotext.PDF(f)

# All pages
for text in pdf:
    print(text)

相关问题 更多 >

    热门问题