我正在尝试从一个网站下载所有的pdf网址,并将所有的pdf附加到一个文件中。目前,我有一个包含PDF的所有URL的列表。如何下载所有PDF并将它们附加在一起?我在下面附上了我的代码。我使用的是python2.7.8。你知道吗
# Download and merge pdfs
url_list = listofurl
for url in listofurl:
outfile = os.path.basename(url)
with open(outfile, 'w') as out:
out.write(urllib2.urlopen(url).read())
对我来说,下载工作,但它抛出了一个例外,在一点上,一个文件没有找到
我不确定python本身是否能够合并这些文件。我建议使用“pdftk”,一旦你的文件在你的硬盘上,就通过“subprocess”模块调用它。你知道吗
在linux系统上,一旦安装了“pdftk”(用于命令行的一种外部且非常实用的pdf合并),它的工作方式如下:
这并不是我目前所能想到的最简单的方法,但也不是最能勾引人的方法。希望有帮助。你知道吗
相关问题 更多 >
编程相关推荐