PyPDF2 write不能用于某些PDF文件(Python3.5.1)

2024-04-27 00:24:23 发布

您现在位置:Python中文网/ 问答频道 /正文

首先,我使用的是python3.5.1(32位版本) 我编写了以下程序,使用PyPDF2和reportlab在pdf文件的所有页面上添加页码:

#import modules
from os import listdir
from PyPDF2 import PdfFileWriter, PdfFileReader
import io
from reportlab.pdfgen import canvas
from reportlab.lib.pagesizes import A4
#initial values of variable declarations
PDFlist=[]
X_value=460
Y_value=820
#Make a list of al files in de directory
filelist = listdir()
#Make a list of all pdf files in the directory
for i in range(0,len(filelist)):
    filename=filelist[i]
    for j in range(0,len(filename)):
        char=filename[j]
        if char=='.':
            extension=filename[j+1:j+4]
            if extension=='pdf':
                PDFlist.append(filename)
        j=j+1
    i=i+1
# Give the horizontal position for the page number (Enter = use default value of 480)
User = input('Give horizontal position page number (ENTER = default 460): ')
if User != "":
    X_value=int(User)
# Give the vertical position for the page number (Enter = use default value of 820)
User = input('Give horizontal position page number (ENTER = default 820): ')
if User != "":
    Y_value=int(User)

for i in range(0,len(PDFlist)):
    filename=PDFlist[i]

    # read the PDF
    existing_pdf = PdfFileReader(open(filename, "rb"))
    print("File: "+filename)
    # count the number of pages
    number_of_pages = existing_pdf.getNumPages()
    print("Number of pages detected:"+str(number_of_pages))
    output = PdfFileWriter()

    for k in range(0,number_of_pages):
        packet = io.BytesIO()

        # create a new PDF with Reportlab
        can = canvas.Canvas(packet, pagesize=A4)
        Pagenumber=" Page "+str(k+1)+"/"+str(number_of_pages)
        # we first make a white rectangle to cover any existing text in the pdf
        can.setFillColorRGB(1,1,1)
        can.setStrokeColorRGB(1,1,1)
        can.rect(X_value-10,Y_value-5,120,20,fill=1)
        # set the font and size
        can.setFont("Helvetica",14)
        # choose color of page numbers (red)
        can.setFillColorRGB(1,0,0)
        can.drawString(X_value, Y_value, Pagenumber)
        can.save()
        print(Pagenumber)

        #move to the beginning of the StringIO buffer
        packet.seek(0)
        new_pdf = PdfFileReader(packet)
        # add the "watermark" (which is the new pdf) on the existing page
        page = existing_pdf.getPage(k)
        page.mergePage(new_pdf.getPage(0))
        output.addPage(page)
        k=k+1
    # finally, write "output" to a real file

    ResultPDF="Output/"+filename
    outputStream = open(ResultPDF, "wb")
    output.write(outputStream)
    outputStream.close()
    i=i+1

这个程序可以很好地处理大量的PDF文件(尽管有时会生成类似“PdfReadWarning: Superfluous whitespace found in object header b'16' b'0' [pdf.py:1666]”之类的警告,但最终的输出文件对我来说没问题)。 然而,程序只是不能处理一些PDF文件,尽管这些文件在我的adobeacrobat中是完全可读和可编辑的。我的印象是,错误大多出现在扫描的PDF文件上,但不是所有的PDF文件上(我也对扫描的PDF文件编号,这些文件没有生成任何错误)。 我收到以下错误消息(前8行是我自己的打印命令的结果):

^{pr2}$

显然,页面与reportlab创建的PDF合并在一起(见第6/6页的行),但最终PyPDF2无法生成任何输出PDF文件(我得到了一个0字节的不可读输出文件)。 有人能解释一下如何解决这个问题吗?我在网上搜索了一下,但没有找到答案。在


Tags: 文件oftheinimportnumberforpdf
2条回答

使用“strict=false”可以让我的工作正常。在

from PyPDF2 import PdfFileMerger

pdfs = [r'file 1.pdf', r'file 2.pdf']

merger = PdfFileMerger(strict=False)

for pdf in pdfs:
    merger.append(pdf)

merger.write(r"thanks mate.pdf")

打开pdf.py文件执行以下更改:

在pdf的第1633行。py(这意味着取消对if的注释严格的)在

    if self.strict:
        raise utils.PdfReadError("Could not find object.")

在501线上pdf.py文件进行以下更改(添加try,除了块)

^{pr2}$

干杯。在

相关问题 更多 >