使用请求下载文件并美化组

import requests from bs4 import BeautifulSoup as bs _ANO = '2013/' _MES = '01/' _MATERIAS = 'matematica/' _CONTEXT = 'wp-content/uploads/' + _ANO + _MES _URL = 'http://www.desconversa.com.br/' + _MATERIAS + _CONTEXT r = requests.get(_URL) soup = bs(r.text) for i, link in enumerate(soup.findAll('a')): _FULLURL = _URL + link.get('href') for x in range(i): output = open('file[%d].pdf' % x, 'wb') output.write(_FULLURL.read()) output.close()

2条回答

网友
1楼 · 编辑于 2024-05-16 01:14:04

使用wget可能更容易，因为这样就有了full power of wget（用户代理，请参阅，ignore robots.txt…），如果需要：
import os names_urls = zip(names, urls) for name, url in names_urls: print('Downloading %s' % url) os.system('wget %s' % url)

网友
2楼 · 编辑于 2024-05-16 01:14:04

这将把页面中的所有文件及其原始文件名写入pdfs/目录。
import requests from bs4 import BeautifulSoup as bs import urllib2 _ANO = '2013/' _MES = '01/' _MATERIAS = 'matematica/' _CONTEXT = 'wp-content/uploads/' + _ANO + _MES _URL = 'http://www.desconversa.com.br/' + _MATERIAS + _CONTEXT # functional r = requests.get(_URL) soup = bs(r.text) urls = [] names = [] for i, link in enumerate(soup.findAll('a')): _FULLURL = _URL + link.get('href') if _FULLURL.endswith('.pdf'): urls.append(_FULLURL) names.append(soup.select('a')[i].attrs['href']) names_urls = zip(names, urls) for name, url in names_urls: print url rq = urllib2.Request(url) res = urllib2.urlopen(rq) pdf = open("pdfs/" + name, 'wb') pdf.write(res.read()) pdf.close()

相关问题更多 >

编程相关推荐

热门问题

热门文章