使用自定义 Scrapy ImagePipeline 下载并覆盖现有图片
我正在练习使用scrapy来裁剪图片,并且使用了一个自定义的图片处理管道。
我用的是这个代码:
class MyImagesPipeline(ImagesPipeline):
def get_media_requests(self, item, info):
for image_url in item['image_urls']:
yield Request(image_url)
def convert_image(self, image, size=None):
if image.format == 'PNG' and image.mode == 'RGBA':
background = Image.new('RGBA', image.size, (255, 255, 255))
background.paste(image, image)
image = background.convert('RGB')
elif image.mode != 'RGB':
image = image.convert('RGB')
if size:
image = image.copy()
image.thumbnail(size, Image.ANTIALIAS)
else:
# cut water image TODO use defined image replace Not cut
x,y = image.size
if(y>120):
image = image.crop((0,0,x,y-25))
buf = StringIO()
try:
image.save(buf, 'JPEG')
except Exception, ex:
raise ImageException("Cannot process image. Error: %s" % ex)
return image, buf
这个代码运行得很好,但有个问题。
如果文件夹里已经有原始图片,
然后我运行爬虫,
它下载的图片不会替换掉原来的图片。
我该怎么做才能让它覆盖原来的图片呢?