如何在python中将从PDF提取的文本格式化为json

2024-05-29 02:13:33 发布

您现在位置:Python中文网/ 问答频道 /正文

我用pyPDF2提取了一些文本格式的发票PDF。我想将这个文本文件转换成只包含重要关键字和标记的json文件。你知道吗

输出应该类似于:

#PurchaseOrder

{

"doctype":"PO",

"orderingcompany":"Demo Company",

"suppliercompany":"Demo Company",

"shipto":"Test Customer",

"ponum":"PO1234",

"podate":"01-01-2019",

"totalamount":"$1234.50",

"currency":"SGD"

}

我从pdf中获得的示例文本是:

佩斯会员软件 房子

4115幽松圈

德克萨斯州大草原75051

972年

336个

7141个

569268个

采购订单

收件人:

埃尔默A.华

A+投资

Cerullo路1223号

肯塔基州列克星敦40507

[电话号码]

收货方:

颜桂冠

配速 会员仓库

4115幽松圈

德克萨斯州大草原75051

972年

336个

7141个

订单号:

采购订单/18

19081年

[订单号必须 出现在所有相关 通信、运输 文件和发票]

采购订单日期

申购人

通过装运

离岸价点

条款

2006年7月15日

数量

单位

说明

单价

总计 (新加坡元)

100.00美元

1个

连锁Drifit圆领,ILRN

13.50美元

1350.00美元

小计

1350.00美元

营业税

200.00美元

1。你知道吗

请寄两份你的简历 发票。你知道吗

2。你知道吗

根据价格,条款, 交货方法和上述规格。你知道吗

三。你知道吗

如果你方不能如期装运,请立即通知我们 明确规定。你知道吗

第四条。你知道吗

将所有信件发送至:

颜桂冠

4115幽松圈

格拉 德克萨斯州第二大草原75051号

972年

336个

7141个

569268个

装运和搬运 克

其他

总计

1550.00美元

授权人 颜桂冠

2006年7月15日


Tags: 文件文本格式订单pdfdemo发票company条款
1条回答
网友
1楼 · 发布于 2024-05-29 02:13:33

你已经提供了文本,可能有一个好主意,编辑你的文章删除地址

要回答您的问题,您必须逐行循环遍历此文本,并记录所需的部分,然后将其保存到json中。你知道吗

如果你只想得到一个子集的位置页,那么这已经被问过了 How to extract text from a Specific Area in a PDF using Python?

相关问题 更多 >

    热门问题