Python:生成条形码并计算重复的PDF表单

2024-04-27 21:18:14 发布

您现在位置:Python中文网/ 问答频道 /正文

这件事有点牵扯,所以请和我呆在一起。

我正在做一个“法庭观察”项目,包括要求志愿者与他们一起填写表格,并说明在特定法庭的审判/听证过程中发生了什么。你知道吗

This is the form (redactions for privacy).

我们有几百份是由志愿者填写的。现在,由于这些都是手写文档,因此需要其他志愿者将它们转录到电子表格中。我们正在使用谷歌表格和志愿者来处理这个问题。你知道吗

但是,我们需要此数据的主键和处理重复数据的方法。

当两名志愿者坐在同一个法庭上,在同一次庭审中填写不同的表格时,就会出现重复的情况。我们希望在评估质量和完整性之前捕获所有的数据,所以我们不需要遍历这些数据并丢弃重复的数据。你知道吗

我们已经决定在扫描的PDF上创建和使用一个条形码系统。使用Reportlab,我似乎可以通过编程在这些OCR'd pdf上生成条形码。你知道吗

我需要的是一种处理复制品的方法。使用的条形码(或主键)应说明两个PDF是重复的。你知道吗

例如,可能生成的数据集部分如下所示:

+---------+---------+----------------+
|   id    |  date   |     court      |
+---------+---------+----------------+
| 45234-A | 7/24/18 | district court |
| 45234-B | 7/24/18 | district court |
| 45235   | 7/24/18 | superior court |
+---------+---------+----------------+

“A”和“B”告诉我有两个表格是在同一天,在同一个听证会上汇编的。你知道吗

你将如何设计一个系统(伪代码是好的)基本上有条件地生成条形码的基础上是否有重复的东西?你知道吗


我考虑过的解决方案:

也许,在扫描之前,我会按顺序排列物理文档。我把复制品一个接一个地放在这堆里。我使用一个标签制作工具,在那些重复的文件的右上角放上一个“a”、“B”,而不重复的文件则留空。然后扫描并用光学字符识别这些文件。然后,在Python中,我编写一些代码,通过扫描PDF右上角的字母“a”、“B”等有条件地了解其中一个文档是否重复。如果是,则生成一个条形码,并在其中附加“a”,然后检查下一个文件。将“B”从“A”添加到条形码,并将其添加到第二个文件中。继续检查下一个文件直到没有字母出现,然后转到下一个不重复的文件。你知道吗

如果我要开始上面的解决方案,我不知道如何使用Python检查PDF中的“A”或“B”。你知道吗


感谢阅读!非常感谢您的帮助。你知道吗

忍者编辑:我忘了提。使用这种系统的目的是允许分散和分散的志愿者填写50张表格,进入Google表单页面,并将其输入到表单中。通过创建条形码系统,我们可以对表单进行说明并跟踪它们。你知道吗


Tags: 文件数据方法文档表单pdf系统表格