表单文档中的信息提取

1条回答

网友

1楼 · 发布于 2024-04-20 12:57:46

您是否试图从特定的行/列等中提取信息，并且pdf的格式是否始终与至少大多数行/列的格式相同？如果是这种情况，您可能不需要ML模型，只需使用awk或sed即可

更新答案：

首先使用pdftotext或类似的方法将pdf解析为文本文件。您可以将其转换为如下格式（换行符是可选的）并放入名为“yourfile.txt”的文件中：

Note Currency   EUR
Trade Date  16 January 2009
Initial Issue Date 29 January 2009

Note Currency   EUR
Trade Date  16 January 2009
Initial Issue Date 29 January 2009

Note Currency   EUR
Trade Date  16 January 2009
Initial Issue Date 29 January 2009

你可以用

awk '$1 == "Note"{print "\(" $3}' yourfile.txt  > out1
awk '$2 == "Issue" {print ", "$4" " $5" " $6"\)"}' yourfile.txt > out2
paste -d" " out1 out2 > formatted.txt

您的格式化结果现在将保存在名为formatted.txt的文件中

编程相关推荐

java画布矩形位置
Java类文件未在Android Studio上编译或运行
Java“null”值从未分配给我的Runnable
java Jsp使用URL“保存或打开”访问pdf窗口在单击时显示错误
组件之间的Java swing通信
属性值的java正则表达式
java无法从myFile加载MainClass清单属性。震击器错误
Java内存碎片和大型阵列的分配
java是NullPointerException的一个问题
java如何使用鳄梨酱进行sftp的二次开发

相关问题更多 >

编程相关推荐

热门问题

热门文章

表单文档中的信息提取

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >