向Internet存档回退机提交URL的Scrapy中间件
scrapy-wayback-middleware的Python项目详细描述
残缺的回退中间件
中间件,用于将所有已删除的响应url提交给Internet Archive Wayback Machine存档。
安装
pip install scrapy-wayback-middleware
设置
将scrapy_wayback_middleware.WaybackMiddleware
添加到项目的SPIDER_MIDDLEWARES
设置中。
配置
若要为某些方法配置自定义行为,请子类WaybackMiddleware
,并重写get_item_urls
方法以从单个项中提取附加链接以存档,或handle_wayback
以更改如何处理来自回退计算机的响应。