在Python中向现有PDF文档添加文本

12 投票
4 回答
33923 浏览
提问于 2025-04-16 22:14

我想把一个PDF文件转换成和我的PDF一样大小的A4页面。

convert my_pdf.pdf -density 300x300 -page A4 my_png.png

但是,生成的PNG文件大小是595像素 × 842像素,这个尺寸在72 dpi的分辨率下是对的。我本来想用PIL在PDF的一些字段上写点文字,然后再把它转换回PDF。但现在生成的图像不太对。

编辑:我之前的思路是错的。正确的方法根本不需要用到imagemagick。

4 个回答

13

我刚刚尝试了上面的解决方案,但在Python3中运行时遇到了不少麻烦。所以,我想分享一下我的修改。调整后的代码如下:

from PyPDF2 import PdfFileWriter, PdfFileReader
import io
from reportlab.pdfgen import canvas
from reportlab.lib.pagesizes import letter

packet = io.BytesIO()

# create a new PDF with Reportlab
can = canvas.Canvas(packet, pagesize=letter)
can.drawString(100, 100, "Hello world")
can.save()

# move to the beginning of the StringIO buffer
packet.seek(0)
new_pdf = PdfFileReader(packet)
# read your existing PDF
existing_pdf = PdfFileReader(open("mypdf.pdf", "rb"))
output = PdfFileWriter()
# add the "watermark" (which is the new pdf) on the existing page
page = existing_pdf.getPage(0)
page2 = new_pdf.getPage(0)
page.mergePage(page2)
output.addPage(page)
# finally, write "output" to a real file
outputStream = open("newpdf.pdf", "wb")
output.write(outputStream)
outputStream.close()

现在,page.mergePage 抛出了一个错误。结果发现这是在 pypdf2 中的一个移植错误。有关解决方案,请参考这个问题:移植到Python3:PyPDF2 的 mergePage() 报 TypeError

34

经过一番搜索,我终于找到了解决办法:原来这个方法才是正确的。不过,我觉得这个方法的描述不够详细。

看起来发帖的人可能是从这里借鉴的(变量名什么的都一样)。

这个方法的思路是:用Reportlab创建一个新的空白PDF,里面只包含一段文字。然后使用pyPdf把它作为水印合并到原来的PDF里。

from pyPdf import PdfFileWriter, PdfFileReader
import StringIO
from reportlab.pdfgen import canvas
from reportlab.lib.pagesizes import letter
packet = StringIO.StringIO()
# create a new PDF with Reportlab
can = canvas.Canvas(packet, pagesize=letter)
can.drawString(100,100, "Hello world")
can.save()

#move to the beginning of the StringIO buffer
packet.seek(0)
new_pdf = PdfFileReader(packet)
# read your existing PDF
existing_pdf = PdfFileReader(file("mypdf.pdf", "rb"))
output = PdfFileWriter()
# add the "watermark" (which is the new pdf) on the existing page
page = existing_pdf.getPage(0)
page.mergePage(new_pdf.getPage(0))
output.addPage(page)
# finally, write "output" to a real file
outputStream = file("/home/joe/newpdf.pdf", "wb")
output.write(outputStream)
outputStream.close()

希望这能帮助到其他人。

5

你可以看看这个链接:用Python给已有的PDF添加文字,还有这个:Python作为PDF编辑和处理框架。这些内容会给你一些有用的指引。

如果你按照你在问题中提到的方法操作,当你导出回.pdf时,实际上它只是一个嵌入在.pdf里的图片文件,而不是文本。

撰写回答