如何在Python中从填写的表单中提取PDF字段？

from argparse import ArgumentParser import pickle import pprint from pdfminer.pdfparser import PDFParser, PDFDocument from pdfminer.pdftypes import resolve1, PDFObjRef def load_form(filename): """Load pdf form contents into a nested list of name/value tuples""" with open(filename, 'rb') as file: parser = PDFParser(file) doc = PDFDocument() parser.set_document(doc) doc.set_parser(parser) doc.initialize() return [load_fields(resolve1(f)) for f in resolve1(doc.catalog['AcroForm'])['Fields']] def load_fields(field): """Recursively load form fields""" form = field.get('Kids', None) if form: return [load_fields(resolve1(f)) for f in form] else: # Some field types, like signatures, need extra resolving return (field.get('T').decode('utf-16'), resolve1(field.get('V'))) def parse_cli(): """Load command line arguments""" parser = ArgumentParser(description='Dump the form contents of a PDF.') parser.add_argument('file', metavar='pdf_form', help='PDF Form to dump the contents of') parser.add_argument('-o', '--out', help='Write output to file', default=None, metavar='FILE') parser.add_argument('-p', '--pickle', action='store_true', default=False, help='Format output for python consumption') return parser.parse_args() def main(): args = parse_cli() form = load_form(args.file) if args.out: with open(args.out, 'w') as outfile: if args.pickle: pickle.dump(form, outfile) else: pp = pprint.PrettyPrinter(indent=2) file.write(pp.pformat(form)) else: if args.pickle: print pickle.dumps(form) else: pp = pprint.PrettyPrinter(indent=2) pp.pprint(form) if __name__ == '__main__': main()

3条回答

网友

1楼 · 编辑于 2024-05-22 23:44:49

您应该可以使用pdfminer来完成这项工作，但这需要深入研究pdfminer的内部，了解pdf格式（当然是wrt格式，也需要了解pdf的内部结构，如“字典”和“间接对象”）。

这个例子可能会帮助您（我认为它只适用于简单的情况，没有嵌套字段等…）

import sys
from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdftypes import resolve1

filename = sys.argv[1]
fp = open(filename, 'rb')

parser = PDFParser(fp)
doc = PDFDocument(parser)
fields = resolve1(doc.catalog['AcroForm'])['Fields']
for i in fields:
    field = resolve1(i)
    name, value = field.get('T'), field.get('V')
    print '{0}: {1}'.format(name, value)

编辑：忘记提及：如果需要提供密码，请将其传递给doc.initialize()

网友

2楼 · 编辑于 2024-05-22 23:44:49

PythonPyPDF2包（pyPdf的后续版本）非常方便：

import PyPDF2
f = PyPDF2.PdfFileReader('form.pdf')
ff = f.getFields()

那么ff是一个包含所有相关表单信息的dict。

网友

3楼 · 编辑于 2024-05-22 23:44:49

Python3.6+：

pip install PyPDF2

# -*- coding: utf-8 -*-

from collections import OrderedDict
from PyPDF2 import PdfFileWriter, PdfFileReader


def _getFields(obj, tree=None, retval=None, fileobj=None):
    """
    Extracts field data if this PDF contains interactive form fields.
    The *tree* and *retval* parameters are for recursive use.

    :param fileobj: A file object (usually a text file) to write
        a report to on all interactive form fields found.
    :return: A dictionary where each key is a field name, and each
        value is a :class:`Field<PyPDF2.generic.Field>` object. By
        default, the mapping name is used for keys.
    :rtype: dict, or ``None`` if form data could not be located.
    """
    fieldAttributes = {'/FT': 'Field Type', '/Parent': 'Parent', '/T': 'Field Name', '/TU': 'Alternate Field Name',
                       '/TM': 'Mapping Name', '/Ff': 'Field Flags', '/V': 'Value', '/DV': 'Default Value'}
    if retval is None:
        retval = OrderedDict()
        catalog = obj.trailer["/Root"]
        # get the AcroForm tree
        if "/AcroForm" in catalog:
            tree = catalog["/AcroForm"]
        else:
            return None
    if tree is None:
        return retval

    obj._checkKids(tree, retval, fileobj)
    for attr in fieldAttributes:
        if attr in tree:
            # Tree is a field
            obj._buildField(tree, retval, fileobj, fieldAttributes)
            break

    if "/Fields" in tree:
        fields = tree["/Fields"]
        for f in fields:
            field = f.getObject()
            obj._buildField(field, retval, fileobj, fieldAttributes)

    return retval


def get_form_fields(infile):
    infile = PdfFileReader(open(infile, 'rb'))
    fields = _getFields(infile)
    return OrderedDict((k, v.get('/V', '')) for k, v in fields.items())



if __name__ == '__main__':
    from pprint import pprint

    pdf_file_name = 'FormExample.pdf'

    pprint(get_form_fields(pdf_file_name))

相关问题更多 >

编程相关推荐

热门问题

热门文章