我用pyPDF2提取了一些文本格式的发票PDF。我想将这个文本文件转换成只包含重要关键字和标记的json文件。你知道吗
输出应该类似于:
#PurchaseOrder
{
"doctype":"PO",
"orderingcompany":"Demo Company",
"suppliercompany":"Demo Company",
"shipto":"Test Customer",
"ponum":"PO1234",
"podate":"01-01-2019",
"totalamount":"$1234.50",
"currency":"SGD"
}
我从pdf中获得的示例文本是:
佩斯会员软件 房子
4115幽松圈
德克萨斯州大草原75051
7141个
569268个
采购订单
收件人:
埃尔默A.华
A+投资
Cerullo路1223号
肯塔基州列克星敦40507
[电话号码]
收货方:
颜桂冠
配速 会员仓库
4115幽松圈
德克萨斯州大草原75051
7141个
订单号:
19081年
[订单号必须 出现在所有相关 通信、运输 文件和发票]
采购订单日期
申购人
通过装运
离岸价点
条款
2006年7月15日
数量
单位
说明
单价
总计 (新加坡元)
100.00美元
1个
连锁Drifit圆领,ILRN
13.50美元
1350.00美元
小计
1350.00美元
营业税
200.00美元
1。你知道吗
请寄两份你的简历 发票。你知道吗
2。你知道吗
根据价格,条款, 交货方法和上述规格。你知道吗
三。你知道吗
如果你方不能如期装运,请立即通知我们 明确规定。你知道吗
第四条。你知道吗
将所有信件发送至:
颜桂冠
4115幽松圈
格拉 德克萨斯州第二大草原75051号
7141个
569268个
装运和搬运 克
其他
总计
1550.00美元
授权人 颜桂冠
2006年7月15日
你已经提供了文本,可能有一个好主意,编辑你的文章删除地址
要回答您的问题,您必须逐行循环遍历此文本,并记录所需的部分,然后将其保存到json中。你知道吗
如果你只想得到一个子集的位置页,那么这已经被问过了 How to extract text from a Specific Area in a PDF using Python?
相关问题 更多 >
编程相关推荐