Python通过流而不是路径将PDF转换为HTML

2024-04-19 18:31:03 发布

您现在位置:Python中文网/ 问答频道 /正文

我尝试使用PDF2HTML将PDF文件转换为HTML:

pdf_path = "path\to\pdf_file.pdf"
subprocess.run(["pdf2htmlEX.exe",pdf_path])

这很有效。但是,我希望pdf_路径是一个流,而不是我的服务器上的路径。我的用例是一个Django应用程序,它允许用户上传PDF文件并将其转换为HTML页面,而无需在服务器上保存任何内容。在

我试着把上传的PDF文件转换成BytesIO,然后再转换成一个流,并试图传递:

^{pr2}$

但这将返回一个argument of type 'PdfFileWriter' is not iterable错误。这个pdf.写入是否将pdf写入存储,如果我使用子流程.运行为了得到那个文件(所以再次使用path),它确实有效。在

此外,打开流也不起作用:

^{3}$

甚至可以将pdf文件从内存传递到pdf2htmlEX而不是路径吗?我还研究了如何使它成为base64(base64.b64encode(文件句柄_文件.getvalue()).decode()),但也没有用。在

非常感谢大家!在


Tags: 文件topathrun路径服务器pdfhtml