表单文档中的信息提取

2024-04-20 12:57:46 发布

您现在位置:Python中文网/ 问答频道 /正文

我目前正在从事一个python项目,需要从pdf文档中提取一些信息。要提取的信息列表对于所有文档都是相同的。pdf是来自各种语言的结构化文档,可以与表单文档相类似

我想知道它们是否是任何机器学习模型,或者是允许我解决此任务的方法。:)

不同pdf文档的示例Sample 1Sample 2

我想提取货币和初始发行日期,因此第一个样本将提供:(欧元,2013年1月30日)第二个样本将提供(欧元,2009年1月29日)

马克西姆


Tags: sample项目方法文档模型机器语言信息
1条回答
网友
1楼 · 发布于 2024-04-20 12:57:46

您是否试图从特定的行/列等中提取信息,并且pdf的格式是否始终与至少大多数行/列的格式相同?如果是这种情况,您可能不需要ML模型,只需使用awk或sed即可

更新答案:

首先使用pdftotext或类似的方法将pdf解析为文本文件。 您可以将其转换为如下格式(换行符是可选的)并放入名为“yourfile.txt”的文件中:

Note Currency   EUR
Trade Date  16 January 2009
Initial Issue Date 29 January 2009

Note Currency   EUR
Trade Date  16 January 2009
Initial Issue Date 29 January 2009

Note Currency   EUR
Trade Date  16 January 2009
Initial Issue Date 29 January 2009

你可以用

awk '$1 == "Note"{print "\(" $3}' yourfile.txt  > out1
awk '$2 == "Issue" {print ", "$4" " $5" " $6"\)"}' yourfile.txt > out2
paste -d" " out1 out2 > formatted.txt

您的格式化结果现在将保存在名为formatted.txt的文件中

相关问题 更多 >