pdf包含一行又一行分开的数据,一行后有一个表格,表格下面有标题及其对应的值,我无法有序地获取它,而是将完整的列标题作为文本一行接一行地获取。我能够获取数据,一行接一行地呈现,为了将标题与其对应的值相关联,我无法对表执行相同的操作。你知道吗
fp = open(my_file, "rb")
parser = PDFParser(fp)
document = PDFDocument(parser)
if not document.is_extractable:
raise PDFTextExtractionNotAllowed
rsrcmgr = PDFResourceManager()
laparams = LAParams()
laparams.line_margin = 12
device = PDFPageAggregator(rsrcmgr, laparams=laparams)
interpreter = PDFPageInterpreter(rsrcmgr, device)
for page in PDFPage.create_pages(document):
interpreter.process_page(page)
layout = device.get_result()
for lt_obj in layout:
if isinstance(lt_obj,LTTextBox):
extracted_text += lt_obj.get_text()
print extracted_text
PDF不是按任何特定顺序排列的(尽管通常顺序不是完全随机的)。你知道吗
您需要找到标题,然后根据文本的X,Y位置推断行的内容。你知道吗
相关问题 更多 >
编程相关推荐