我正在尝试使用请求和美化组4从here下载一堆pdf文件。这是我的代码:
import requests
from bs4 import BeautifulSoup as bs
_ANO = '2013/'
_MES = '01/'
_MATERIAS = 'matematica/'
_CONTEXT = 'wp-content/uploads/' + _ANO + _MES
_URL = 'http://www.desconversa.com.br/' + _MATERIAS + _CONTEXT
r = requests.get(_URL)
soup = bs(r.text)
for i, link in enumerate(soup.findAll('a')):
_FULLURL = _URL + link.get('href')
for x in range(i):
output = open('file[%d].pdf' % x, 'wb')
output.write(_FULLURL.read())
output.close()
我得到了AttributeError: 'str' object has no attribute 'read'
。
好吧,我知道,但是。。。如何从生成的URL下载?
使用
wget
可能更容易,因为这样就有了full power of wget(用户代理,请参阅,ignore robots.txt…),如果需要:这将把页面中的所有文件及其原始文件名写入
pdfs/
目录。相关问题 更多 >
编程相关推荐