使用自定义 Scrapy ImagePipeline 下载并覆盖现有图片

2 投票
1 回答
711 浏览
提问于 2025-04-19 18:19

我正在练习使用scrapy来裁剪图片,并且使用了一个自定义的图片处理管道。
我用的是这个代码

class MyImagesPipeline(ImagesPipeline):

def get_media_requests(self, item, info):
    for image_url in item['image_urls']:
        yield Request(image_url)

def convert_image(self, image, size=None):
    if image.format == 'PNG' and image.mode == 'RGBA':
        background = Image.new('RGBA', image.size, (255, 255, 255))
        background.paste(image, image)
        image = background.convert('RGB')
    elif image.mode != 'RGB':
        image = image.convert('RGB')

    if size:
        image = image.copy()
        image.thumbnail(size, Image.ANTIALIAS)
    else:
        #  cut water image  TODO use defined image replace Not cut 
        x,y = image.size
        if(y>120):
            image = image.crop((0,0,x,y-25))

    buf = StringIO()
    try:
        image.save(buf, 'JPEG')
    except Exception, ex:
        raise ImageException("Cannot process image. Error: %s" % ex)

    return image, buf

这个代码运行得很好,但有个问题。
如果文件夹里已经有原始图片,
然后我运行爬虫,
它下载的图片不会替换掉原来的图片。

我该怎么做才能让它覆盖原来的图片呢?

1 个回答

1

这里有一个过期设置,默认情况下是90天。

撰写回答