例如,我想获得论坛http://www.xossip.com/showthread.php?t=1384077所有图片的链接
当我查看图片(论坛帖子中的大图片)时,它们通常都有类似的内容
程序应该是什么来列出所需图像的所有URL。如果可能的话,甚至可以下载它们
我尝试了一点代码,但失败了
import requests
from bs4 import BeautifulSoup
def spider(max_pages):
page = 1
while page <= max_pages:
url = 'http://www.xossip.com/showthread.php?t=1384077&page=' + str(page)
sourcecode= requests.get(url)
plaintext = sourcecode.text
soup = BeautifulSoup(plaintext)
for link in soup.findAll('img src'):
print (link)
page += 1
spider(1)
编辑
我想在论坛的图像,但我想避免所有的小缩略图,标志,图标等。我注意到我需要的所有图像都有这种格式<img src="http://pzy.be/i/5/17889.jpg" border="0" alt="">
所以我需要上面格式的所有图片链接,所以我需要这个程序遍历论坛的所有页面,用src,border=0,alt优化图片,最后打印所有图片URL,比如pzy.be/i/5/452334.jpg
尝试使用
tag.get('src')
而不是soup.findAll('img src')
:请查看the document了解更多详细信息
如果需要下载,还可以使用^{} 下载图像的内容,并将其写入文件。下面是一个演示:
相关问题 更多 >
编程相关推荐