下载和附加PDF

2024-04-20 01:27:26 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试从一个网站下载所有的pdf网址,并将所有的pdf附加到一个文件中。目前,我有一个包含PDF的所有URL的列表。如何下载所有PDF并将它们附加在一起?我在下面附上了我的代码。我使用的是python2.7.8。你知道吗

# Download and merge pdfs
url_list = listofurl
for url in listofurl:
    outfile = os.path.basename(url)
    with open(outfile, 'w') as out:
        out.write(urllib2.urlopen(url).read())

Tags: and文件代码url列表pdf网站download
1条回答
网友
1楼 · 发布于 2024-04-20 01:27:26

对我来说,下载工作,但它抛出了一个例外,在一点上,一个文件没有找到

HTTPError: HTTP Error 404: Not Found

我不确定python本身是否能够合并这些文件。我建议使用“pdftk”,一旦你的文件在你的硬盘上,就通过“subprocess”模块调用它。你知道吗

在linux系统上,一旦安装了“pdftk”(用于命令行的一种外部且非常实用的pdf合并),它的工作方式如下:

from subprocess import call

call(['pdftk', '*.pdf', 'cat', 'output', 'combined.pdf'])

这并不是我目前所能想到的最简单的方法,但也不是最能勾引人的方法。希望有帮助。你知道吗

相关问题 更多 >