Python：生成条形码并计算重复的PDF表单

2024-05-14 08:49:06 发布

您现在位置：Python中文网/ 问答频道 /正文

949

网友

男 | 程序猿一只，喜欢编程写python代码。

这件事有点牵扯，所以请和我呆在一起。

我正在做一个“法庭观察”项目，包括要求志愿者与他们一起填写表格，并说明在特定法庭的审判/听证过程中发生了什么。你知道吗

This is the form (redactions for privacy).

我们有几百份是由志愿者填写的。现在，由于这些都是手写文档，因此需要其他志愿者将它们转录到电子表格中。我们正在使用谷歌表格和志愿者来处理这个问题。你知道吗

但是，我们需要此数据的主键和处理重复数据的方法。

当两名志愿者坐在同一个法庭上，在同一次庭审中填写不同的表格时，就会出现重复的情况。我们希望在评估质量和完整性之前捕获所有的数据，所以我们不需要遍历这些数据并丢弃重复的数据。你知道吗

我们已经决定在扫描的PDF上创建和使用一个条形码系统。使用Reportlab，我似乎可以通过编程在这些OCR'd pdf上生成条形码。你知道吗

我需要的是一种处理复制品的方法。使用的条形码（或主键）应说明两个PDF是重复的。你知道吗

例如，可能生成的数据集部分如下所示：

+---------+---------+----------------+
|   id    |  date   |     court      |
+---------+---------+----------------+
| 45234-A | 7/24/18 | district court |
| 45234-B | 7/24/18 | district court |
| 45235   | 7/24/18 | superior court |
+---------+---------+----------------+

“A”和“B”告诉我有两个表格是在同一天，在同一个听证会上汇编的。你知道吗

你将如何设计一个系统（伪代码是好的）基本上有条件地生成条形码的基础上是否有重复的东西？你知道吗

我考虑过的解决方案：

也许，在扫描之前，我会按顺序排列物理文档。我把复制品一个接一个地放在这堆里。我使用一个标签制作工具，在那些重复的文件的右上角放上一个“a”、“B”，而不重复的文件则留空。然后扫描并用光学字符识别这些文件。然后，在Python中，我编写一些代码，通过扫描PDF右上角的字母“a”、“B”等有条件地了解其中一个文档是否重复。如果是，则生成一个条形码，并在其中附加“a”，然后检查下一个文件。将“B”从“A”添加到条形码，并将其添加到第二个文件中。继续检查下一个文件直到没有字母出现，然后转到下一个不重复的文件。你知道吗

如果我要开始上面的解决方案，我不知道如何使用Python检查PDF中的“A”或“B”。你知道吗

感谢阅读！非常感谢您的帮助。你知道吗

忍者编辑：我忘了提。使用这种系统的目的是允许分散和分散的志愿者填写50张表格，进入Google表单页面，并将其输入到表单中。通过创建条形码系统，我们可以对表单进行说明并跟踪它们。你知道吗

Tags：文件数据方法文档表单 pdf 系统表格

0条回答

目前没有回答

Python：生成条形码并计算重复的PDF表单

相关问题更多 >

编程相关推荐

热门问题

热门文章

Python：生成条形码并计算重复的PDF表单

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >