如何在Python中从填写的表单中提取PDF字段？问题的回答

如何在Python中从填写的表单中提取PDF字段？

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我试图使用Python处理一些PDF表单，这些表单是使用Adobe Acrobat Reader填写并签名的。 我试过： <ul> <li>演示：它没有转储任何已填写的数据。</li> <li><a href="http://pybrary.net/pyPdf/" rel="noreferrer">pyPdf</a>：当我试图用PdfFileReader（f）加载文件时，它使一个核心最大化了2分钟，而我刚刚放弃并杀死了它。</li> <li>Jython和<a href="http://pdfbox.apache.org/" rel="noreferrer">PDFBox</a>：运行良好，但启动时间过长，如果这是我唯一的选择，我将用纯Java编写一个外部实用程序。</li> </ul> 我可以继续寻找和尝试图书馆，但我希望有人已经有一个有效的解决方案。 <hr/> 更新：根据史蒂文的回答，我查看了pdfminer，它做得很好。 <pre><code>from argparse import ArgumentParser import pickle import pprint from pdfminer.pdfparser import PDFParser, PDFDocument from pdfminer.pdftypes import resolve1, PDFObjRef def load_form(filename): """Load pdf form contents into a nested list of name/value tuples""" with open(filename, 'rb') as file: parser = PDFParser(file) doc = PDFDocument() parser.set_document(doc) doc.set_parser(parser) doc.initialize() return [load_fields(resolve1(f)) for f in resolve1(doc.catalog['AcroForm'])['Fields']] def load_fields(field): """Recursively load form fields""" form = field.get('Kids', None) if form: return [load_fields(resolve1(f)) for f in form] else: # Some field types, like signatures, need extra resolving return (field.get('T').decode('utf-16'), resolve1(field.get('V'))) def parse_cli(): """Load command line arguments""" parser = ArgumentParser(description='Dump the form contents of a PDF.') parser.add_argument('file', metavar='pdf_form', help='PDF Form to dump the contents of') parser.add_argument('-o', '--out', help='Write output to file', default=None, metavar='FILE') parser.add_argument('-p', '--pickle', action='store_true', default=False, help='Format output for python consumption') return parser.parse_args() def main(): args = parse_cli() form = load_form(args.file) if args.out: with open(args.out, 'w') as outfile: if args.pickle: pickle.dump(form, outfile) else: pp = pprint.PrettyPrinter(indent=2) file.write(pp.pformat(form)) else: if args.pickle: print pickle.dumps(form) else: pp = pprint.PrettyPrinter(indent=2) pp.pprint(form) if __name__ == '__main__': main() </code></pre>

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

如何在Python中从填写的表单中提取PDF字段？

1 个回答

相关Python问题