从文本中提取实体(发票/收据)| Python

2024-04-27 04:02:38 发布

您现在位置:Python中文网/ 问答频道 /正文

我试图从收据/账单中提取数据时遇到问题: 我正在使用一个现成的API从图像中提取文本。提取的文本是法语,不遵循特定顺序(自上而下或左右),我已经提取了一些信息,如日期、公司名称、税后总额和货币

我在提取不同的税率、税额和税前总额时遇到了一个问题。到目前为止,我设法获得了一份文档中所有金额的列表,但我仍然无法区分税额、单价、总税额等。。我所掌握的唯一信息是,提取的最大金额始终是税后的总金额。有谁能帮我找出一个解决方案来提取税收百分比和税额?我举了一个例子here(法语,英语也一样)。 从这张图片中提取的金额为:

0.0, 11.59, 18.55, 22.0, 55.0, 289.25, 350.0, 491.58, 780.83,
1391.25, 1446.25, 1958.0, 2000.0, 2607.75, 4915.75, 5142.83, 6362.0, 7142.83

我想得到的是:

'5.5%':  0.00
'10%':  491.58
'20%':  289.25
'total tax':  789.83
'total before tax':  6362.00

PS:我试图从图像中提取表格,以获得更结构化的文本,但没有值得一提的结果(并且并非所有账单都包含垂直和水平线的表格)


Tags: 数据图像文本api信息顺序公司金额