我想从PDF文件中提取文本,但PDF中的文本布局应该保持不变,如下图所示。图像显示来自 [github.com/JonathanLink/PDFLayoutTextStripper]的结果。 我尝试了下面的代码,但它不能保持布局。我希望通过使用PyPDF2、PDFPlumber、PDFminer等任何Python库获得与图中所示完全相同的结果。我尝试了所有这些库,但没有得到预期的结果。我需要帮助从PDF文件中提取文本,完全如图所示
from pdfminer.high_level import extract_text`
text = extract_text('test.pdf')
print(text)
您可以使用PDFtotext包保留布局/缩进
相关问题 更多 >
编程相关推荐