用Python从PDF文件中提取文本并保留原始布局

2024-05-14 17:58:57 发布

男 | 程序猿一只，喜欢编程写python代码。

我想从PDF文件中提取文本，但PDF中的文本布局应该保持不变，如下图所示。图像显示来自 [github.com/JonathanLink/PDFLayoutTextStripper]的结果。我尝试了下面的代码，但它不能保持布局。我希望通过使用PyPDF2、PDFPlumber、PDFminer等任何Python库获得与图中所示完全相同的结果。我尝试了所有这些库，但没有得到预期的结果。我需要帮助从PDF文件中提取文本，完全如图所示

from pdfminer.high_level import extract_text`
text = extract_text('test.pdf')
print(text)

Tags：文件代码 text 图像文本 github com pdf

1条回答

网友

1楼 · 发布于 2024-05-14 17:58:57

您可以使用PDFtotext包保留布局/缩进

import pdftotext

with open("target_file.pdf", "rb") as f:
    pdf = pdftotext.PDF(f)

# All pages
for text in pdf:
    print(text)

用Python从PDF文件中提取文本并保留原始布局

相关问题更多 >

编程相关推荐

热门问题

热门文章

用Python从PDF文件中提取文本并保留原始布局

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >