在PyPDF PdfFileReader中遍历页面范围会产生奇怪的循环

import os, PyPDF2, re, tika, time from tika import parser def split_pdf_pages(root_directory, extract_to_folder): for root, dirs, files in os.walk(root_directory): for filename in files: basename, extension = os.path.splitext(filename) if extension == ".pdf": fullpath = root + "\\" + basename + extension pdfFileObj = open(fullpath, "rb") pdfReader = PyPDF2.PdfFileReader(pdfFileObj) for page in range(0, pdfReader.numPages): print(page) pdfWriter = PyPDF2.PdfFileWriter() pageObj = pdfReader.getPage(page) outputpdf = extract_to_folder + "\\" + basename + "-{}.pdf".format(page+1) pdfWriter.addPage(pageObj) with open(outputpdf, "wb") as f: pdfWriter.write(f) pdfFileObj.close()

1条回答

网友

1楼 · 发布于 2024-04-26 09:24:51

我终于弄明白了（抱歉，我只是个程序员，所以一开始还不明显！）该程序循环遍历目录中的每一个PDF（其中包含提取和重命名的单页文档）。如果将范围更改为范围（1，pdfReader.numPages页)它忽略了所有这些新创建的文档，因为它们都只有1页长！当它设置为0时，它包括所有这些新创建的并复制它们。在

我所要做的就是将提取并重命名的文件夹移到另一个目录中。感觉很明显，现在我已经做到了！我还删除了pdfFileObj=open（fullpath，“rb”），因为reader显然是自动完成的，现在一切正常！在

相关问题更多 >

编程相关推荐

热门问题

热门文章