2024-04-20 12:57:46 发布
网友
我目前正在从事一个python项目,需要从pdf文档中提取一些信息。要提取的信息列表对于所有文档都是相同的。pdf是来自各种语言的结构化文档,可以与表单文档相类似
我想知道它们是否是任何机器学习模型,或者是允许我解决此任务的方法。:)
不同pdf文档的示例Sample 1Sample 2
我想提取货币和初始发行日期,因此第一个样本将提供:(欧元,2013年1月30日)第二个样本将提供(欧元,2009年1月29日)
马克西姆
您是否试图从特定的行/列等中提取信息,并且pdf的格式是否始终与至少大多数行/列的格式相同?如果是这种情况,您可能不需要ML模型,只需使用awk或sed即可
更新答案:
首先使用pdftotext或类似的方法将pdf解析为文本文件。 您可以将其转换为如下格式(换行符是可选的)并放入名为“yourfile.txt”的文件中:
Note Currency EUR Trade Date 16 January 2009 Initial Issue Date 29 January 2009 Note Currency EUR Trade Date 16 January 2009 Initial Issue Date 29 January 2009 Note Currency EUR Trade Date 16 January 2009 Initial Issue Date 29 January 2009
你可以用
awk '$1 == "Note"{print "\(" $3}' yourfile.txt > out1 awk '$2 == "Issue" {print ", "$4" " $5" " $6"\)"}' yourfile.txt > out2 paste -d" " out1 out2 > formatted.txt
您的格式化结果现在将保存在名为formatted.txt的文件中
您是否试图从特定的行/列等中提取信息,并且pdf的格式是否始终与至少大多数行/列的格式相同?如果是这种情况,您可能不需要ML模型,只需使用awk或sed即可
更新答案:
首先使用pdftotext或类似的方法将pdf解析为文本文件。 您可以将其转换为如下格式(换行符是可选的)并放入名为“yourfile.txt”的文件中:
你可以用
您的格式化结果现在将保存在名为formatted.txt的文件中
相关问题 更多 >
编程相关推荐