如何从pd中提取相应的列数据

2024-04-24 07:49:47 发布

男 | 程序猿一只，喜欢编程写python代码。

pdf包含一行又一行分开的数据，一行后有一个表格，表格下面有标题及其对应的值，我无法有序地获取它，而是将完整的列标题作为文本一行接一行地获取。我能够获取数据，一行接一行地呈现，为了将标题与其对应的值相关联，我无法对表执行相同的操作。你知道吗

fp = open(my_file, "rb")
parser = PDFParser(fp)
document = PDFDocument(parser)
if not document.is_extractable:
     raise PDFTextExtractionNotAllowed

rsrcmgr = PDFResourceManager()
laparams = LAParams()
laparams.line_margin = 12
device = PDFPageAggregator(rsrcmgr, laparams=laparams)
interpreter = PDFPageInterpreter(rsrcmgr, device)
for page in PDFPage.create_pages(document):
    interpreter.process_page(page)
    layout = device.get_result()
    for lt_obj in layout:
        if isinstance(lt_obj,LTTextBox):
            extracted_text += lt_obj.get_text()

print  extracted_text

Tags： text lt obj parser 标题 for if device

1条回答

网友

1楼 · 发布于 2024-04-24 07:49:47

PDF不是按任何特定顺序排列的（尽管通常顺序不是完全随机的）。你知道吗

您需要找到标题，然后根据文本的X，Y位置推断行的内容。你知道吗

如何从pd中提取相应的列数据

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何从pd中提取相应的列数据

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >