当我从google抓取图像时，image src包含非

import os import shutil import urllib.request import time from selenium import webdriver def crawl(keyword, max_count): cnt = 0 url = "https://www.google.co.in/search?q=" + keyword + "&tbm=isch" # google search url with search word browser = webdriver.Chrome("C:\\Users\\Master\\Desktop\\crawling\\chromedriver.exe") # webdriver browser.get(url) # open web page img_list = browser.find_elements_by_class_name("rg_ic") # find image for i, el in enumerate(img_list): if cnt >= max_count: break img = img_list[i] src = img.get_attribute('src') if src is None: print(i, src) # img_list includes None so I need to fix it continue cnt += 1 print(i, src) # print src urllib.request.urlretrieve(src, str(cnt) + ".png") # download image browser.quit() if __name__ == "__main__": max_count = int(input("Number of crawls : ")) keyword = input("Search word : ") make_dir() crawl(keyword, max_count)

1条回答

网友

1楼 · 发布于 2024-05-18 23:30:54

尝试将此作为爬网功能。Google使用延迟加载，这会导致图像链接成为属性data src的值，直到图像进入视口。我还没有测试这个片段，但应该可以

def crawl(keyword, max_count):
    cnt = 0

    url = "https://www.google.co.in/search?q=" + keyword + "&tbm=isch"  # google search url with search word

    browser = webdriver.Chrome("C:\\Users\\Master\\Desktop\\crawling\\chromedriver.exe")  # webdriver
    browser.get(url)  # open web page

    img_list = browser.find_elements_by_class_name("rg_ic")  # find image


    for i, el in enumerate(img_list):
        if cnt >= max_count:
            break

        img = img_list[i]
        src = img.get_attribute('src')
        if src is None:
            src = img.get_attribute('data-src')
            if src is None:
                continue


        cnt += 1
        print(i, src)  # print src
        if src[0]=='h':
            urllib.request.urlretrieve(src, str(cnt) + ".png")
        else:
            with open(str(cnt) + ".png", "wb") as fh:

                print(src[23:])
                fh.write(base64.b64decode(src[22:]))

    browser.quit()

该代码使用了一些丑陋的黑客，比如if src[0]=='h'，只是为了表示的目的

相关问题更多 >

编程相关推荐

热门问题

热门文章