从多个URL提取图像

file = pd.read_csv(path) for index,row in file.iterrows(): site = row['link'] response = requests.get(site) soup = BeautifulSoup(response.text, 'html.parser') pics = soup.find('img') pic_url = pics['src'] urllib.request.urlretrieve(pic_url,'C:\\Users\\User\\test\\pictures\\'+ str(site.split('/')[-1])+'.jpg')

name link one https://boxrec.com/en/proboxer/844760 two https://boxrec.com/en/proboxer/838706 three https://boxrec.com/en/proboxer/879108 four https://boxrec.com/en/proboxer/745266

try: pic_url = pics['src'] except: image = 'https://chapters.theiia.org/central-mississippi/About/ChapterOfficers/_w/person-placeholder_jpg.jpg' urllib.request.urlretrieve(image,'C:\\Users\\User\\test\\pictures\\'+str(site.split('/')[-1])+'.jpg') try: urllib.request.urlretrieve(pic_url,'C:\\Users\\User\\test\\pictures\\'+ str(site.split('/')[-1])+'.jpg') except: image = 'https://chapters.theiia.org/central-mississippi/About/ChapterOfficers/_w/person-placeholder_jpg.jpg' urllib.request.urlretrieve(image,'C:\\Users\\User\\test\\pictures\\'+str(site.split('/')[-1])+'.jpg')

3条回答

网友

1楼 · 编辑于 2024-04-19 01:21:25

只要简单地把它放在一个带有for循环的try/except块中，就可以在每个异常情况下继续执行列表中的下一项

file = pd.read_csv(path)
for index,row in file.iterrows():
    site = row['link']
    try:
       response = requests.get(site)
       soup = BeautifulSoup(response.text, 'html.parser')
       pics = soup.find('img')
       pic_url = pics['src']
       urllib.request.urlretrieve(pic_url,'C:\\Users\\User\\test\\pictures\\'+ str(site.split('/')[-1])+'.jpg')
    except Exception:
            continue

网友

2楼 · 编辑于 2024-04-19 01:21:25

因为“/build/images/main”/化身.jpeg“是亲戚吗路径。它是可以过滤的默认化身出去。如果你不想过滤掉它，你可以把它转换成完整的路径。路径以下代码包括自动转换功能。下面的代码使用库简化的\u scrapy

from simplified_scrapy.simplified_doc import SimplifiedDoc 
file = pd.read_csv(path)
for index,row in file.iterrows():
    site = row['link']
    response = requests.get(site)
    doc = SimplifiedDoc(response.text)
    pics = doc.listImg(url=site)[0]
    pic_url = pics.url
    urllib.request.urlretrieve(pic_url,'C:\\Users\\User\\test\\pictures\\'+ str(site.split('/')[-1])+'.jpg')

网友

3楼 · 编辑于 2024-04-19 01:21:25

如果您只是想避免错误并继续使用其他有效的图像，可以将其括在try: except: continue

像这样的

try:
    urllib.request.urlretrieve(...)
except ValueError:
    continue

相关问题更多 >

编程相关推荐

热门问题

热门文章