无法以正确格式PDFmin分析PDF

2024-04-19 23:04:27 发布

您现在位置:Python中文网/ 问答频道 /正文

屏幕截图

我想从一个PDF中提取数据,我附上了它的图像。我可以提取文本,但行标签和各自的坐标不同步。你知道吗

所有的行标题后面都是值。但我希望行标题后面是相应的坐标。 收件人: xyxyx 加兰特: 标题范围: 格式: 设计方案: Montant名义总计: -份额: -塞里: 排放价格: 名义价值 排放日期:(JJ/MM/AAAA) 国际会议日期: 执行日期:(JJ/MM/AAAA) xyxyx 什锦 这是一个非常有趣的故事 活动限制(请看章节) 各种各样的花冠)。 欧元 3000000欧元 3000000欧元 100%杜蒙坦特名义总额 1000欧元 05/07/2017 无对象 2029年7月5日

我正在使用下面的代码。你知道吗

    for page in PDFPage.get_pages(file, pagenos):
        interpreter.process_page(page)
    str = (retstr.getvalue()).decode('utf-8')

我试着用tabla检查它是否是一个表,但它不是一个表格式。请帮忙。你知道吗


Tags: 数据图像文本标题pdf屏幕格式page