如何分割PDFQuery刮库中使用的.extract的输出

def data_validation(x,y,x1,y1,pdf,width_scale,height_scale): values = pdf.extract([ ('with_formatter', 'text'), ('with_parent','LTPage[pageid=\'1\']'), ('values', 'LTTextLineHorizontal:in_bbox("%s,%s,%s,%s")' % ((x1*width_scale), ((800-y)*height_scale), (x*width_scale), ((800-y1)*height_scale))) ]) return values

1条回答

网友

1楼 · 发布于 2024-04-19 15:13:19

在对我自己遇到的一个类似问题进行了一些思考之后，我想我应该发布我的修复程序，因为这样做会大大有帮助。你知道吗

与要求pyquery将XML节点格式化为文本作为PDF提取（'with_formatter', 'text'）的一部分不同，更容易提取为XML对象，然后再提取文本。你知道吗

values = pdf.extract([
    #('with_formatter', 'text'),
    ('with_parent','LTPage[pageid=\'1\']'),
    ('values', 'LTTextLineHorizontal:in_bbox("%s,%s,%s,%s")' % ((x1*width_scale), ((800-y)*height_scale), (x*width_scale), ((800-y1)*height_scale)))
])

这将导致字典values类似于以下内容：

{' values': [<LTTextLineHorizontal>, <LTTextLineHorizontal>]}

我们现在可以从values中的单个<LTTextLineHorizontal>XML节点构建一个列表：

for key,val in values.items():
    if len(val) >= 1: # if we found multiple bbox'
        resultingText = [i.text() for i in val.items('LTTextBoxHorizontal')]
    elif(len(val)) == 1: # if we found only one bbox
        resultingText = [val.text()]
    else: # no bbox found
        resultingText = []
return(resultingText)

输出resultingText：

['Exhibit A Sample Contract', 'Sample Contract']

相关问题更多 >

编程相关推荐

热门问题

热门文章